Handling missing values in exploratory multivariate data analysis methods
[Gestion des données manquantes en analyse factorielle]
Journal de la société française de statistique, Tome 153 (2012) no. 2, pp. 79-99

Voir la notice de l'article provenant de la source Numdam

This paper is a written version of the talk Julie Josse delivered at the 44 Journées de Statistique (Bruxelles, 2012), when being awarded the Marie-Jeanne Laurent-Duhamel prize for her Ph.D. dissertation by the French Statistical Society. It proposes an overview of some results, proposed in Julie Josse and François Husson’s papers, as well as new challenges in the field of handling missing values in exploratory multivariate data analysis methods and especially in principal component analysis (PCA). First we describe a regularized iterative PCA algorithm to provide point estimates of the principal axes and components and to overcome the major issue of overfitting. Then, we give insight in the parameters variance using a non parametric multiple imputation procedure. Finally, we discuss the problem of the choice of the number of dimensions and we detail cross-validation approximation criteria. The proposed methodology is implemented in the R package missMDA.

Cet article fait suite à la conférence de Julie Josse sur ses travaux de thèse lors de la réception du prix Marie-Jeanne Laurent-Duhamel, dans le cadre des 44e Journées de Statistique (Bruxelles, 2012). Il reprend les principaux résultats des papiers de Julie Josse et François Husson sur la gestion des données manquantes en analyse factorielle et décrit de nouvelles avancées sur le sujet. Dans un premier temps, nous détaillons un algorithme d’ACP itérative régularisée qui permet d’estimer les axes et composantes principales en présence de données manquantes et qui pallie le problème majeur du surajustement. L’estimation ponctuelle est enrichie par la construction de zone de confiance. Une méthode d’imputation multiple non-paramétrique est alors développée pour prendre en compte l’incertitude due aux données manquantes. Enfin, nous abordons le problème récurrent du choix du nombre de dimensions et définissons des approximations de la validation croisée de type validation croisée généralisée. Tous ces travaux sont mis à disposition de l’utilisateur grâce au package missMDA du logiciel libre R.

Keywords: Missing values, PCA, Multiple imputation, MCA, EM algorithm, Regularization, Residual bootstrap, Number of dimensions, Generalized cross-validation
Mots-clés : Données manquantes, ACP, Imputation multiple, ACM, Algorithme EM, Regularization, Bootstrap des résidus, Nombre de dimensions, Validation croisée généralisée
@article{JSFS_2012__153_2_79_0,
     author = {Josse, Julie and Husson, Fran\c{c}ois},
     title = {Handling missing values in exploratory multivariate data analysis methods},
     journal = {Journal de la soci\'et\'e fran\c{c}aise de statistique},
     pages = {79--99},
     publisher = {Soci\'et\'e fran\c{c}aise de statistique},
     volume = {153},
     number = {2},
     year = {2012},
     mrnumber = {3008600},
     zbl = {1316.62006},
     language = {en},
     url = {http://geodesic.mathdoc.fr/item/JSFS_2012__153_2_79_0/}
}
TY  - JOUR
AU  - Josse, Julie
AU  - Husson, François
TI  - Handling missing values in exploratory multivariate data analysis methods
JO  - Journal de la société française de statistique
PY  - 2012
SP  - 79
EP  - 99
VL  - 153
IS  - 2
PB  - Société française de statistique
UR  - http://geodesic.mathdoc.fr/item/JSFS_2012__153_2_79_0/
LA  - en
ID  - JSFS_2012__153_2_79_0
ER  - 
%0 Journal Article
%A Josse, Julie
%A Husson, François
%T Handling missing values in exploratory multivariate data analysis methods
%J Journal de la société française de statistique
%D 2012
%P 79-99
%V 153
%N 2
%I Société française de statistique
%U http://geodesic.mathdoc.fr/item/JSFS_2012__153_2_79_0/
%G en
%F JSFS_2012__153_2_79_0
Josse, Julie; Husson, François. Handling missing values in exploratory multivariate data analysis methods. Journal de la société française de statistique, Tome 153 (2012) no. 2, pp. 79-99. http://geodesic.mathdoc.fr/item/JSFS_2012__153_2_79_0/