Gestion des données manquantes en Analyse en Composantes Principales
Journal de la société française de statistique, Tome 150 (2009) no. 2, pp. 28-51

Voir la notice de l'article provenant de la source Numdam

Une solution classique pour réaliser une Analyse en Composante Principale (ACP) sur données incomplètes consiste à chercher les axes et les composantes qui minimisent l’erreur de reconstitution sur les données présentes. Plusieurs algorithmes ont été proposés dans la littérature comme NIPALS, une approche par moindres carrés alternés pondérés et une approche par ACP itérative. Cette dernière consiste en une imputation itérative des données au cours du processus d’estimation et s’apparente à un algorithme EM d’un modèle particulier. Ces algorithmes sont décrits dans le cadre commun de la minimisation du critère. Cette présentation unifiée permet de mieux comprendre leurs propriétés et les difficultés qu’ils rencontrent. Nous nous focalisons ensuite sur le problème principal du surajustement et montrons comment la formulation probabiliste de l’ACP (Tipping & Bishop, 1997) offre un terme de régularisation adapté pour pallier à ce problème. Les performances de l’algorithme finalement proposé sont comparées à celles des autres algorithmes à partir de simulations.

An approach commonly used to handle missing values in Principal Component Analysis (PCA) consists in ignoring the missing values by optimizing the loss function over all non-missing elements. This can be achieved by several methods, including the use of NIPALS, weighted regression or iterative PCA. The latter is based on iterative imputation of the missing elements during the estimation of the parameters, and can be seen as a particular EM algorithm. First, we review theses approaches with respect to the criterion minimization. This presentation gives a good understanding of their properties and the difficulties encountered. Then, we point out the problem of overfitting and we show how the probabilistic formulation of PCA (Tipping & Bishop, 1997) offers a proper and convenient regularization term to overcome this problem. Finally, the performances of the new algorithm are compared to those of the other algorithms from simulations.

Classification : 62H25
Mots-clés : ACP, données manquantes, moindres carrés alternés pondérés, algorithme EM, ACP-GEM, surajustement, ACP probabiliste
Keywords: PCA, missing values, alternating weighted least squares, EM algorithm, GEM-PCA, overfitting, probabilistic PCA
@article{JSFS_2009__150_2_28_0,
     author = {Josse, Julie and Husson, Fran\c{c}ois and Pag\`es, J\'er\^ome},
     title = {Gestion des donn\'ees manquantes en {Analyse} en {Composantes} {Principales}},
     journal = {Journal de la soci\'et\'e fran\c{c}aise de statistique},
     pages = {28--51},
     publisher = {Soci\'et\'e fran\c{c}aise de statistique},
     volume = {150},
     number = {2},
     year = {2009},
     mrnumber = {2609690},
     zbl = {1311.62091},
     language = {fr},
     url = {http://geodesic.mathdoc.fr/item/JSFS_2009__150_2_28_0/}
}
TY  - JOUR
AU  - Josse, Julie
AU  - Husson, François
AU  - Pagès, Jérôme
TI  - Gestion des données manquantes en Analyse en Composantes Principales
JO  - Journal de la société française de statistique
PY  - 2009
SP  - 28
EP  - 51
VL  - 150
IS  - 2
PB  - Société française de statistique
UR  - http://geodesic.mathdoc.fr/item/JSFS_2009__150_2_28_0/
LA  - fr
ID  - JSFS_2009__150_2_28_0
ER  - 
%0 Journal Article
%A Josse, Julie
%A Husson, François
%A Pagès, Jérôme
%T Gestion des données manquantes en Analyse en Composantes Principales
%J Journal de la société française de statistique
%D 2009
%P 28-51
%V 150
%N 2
%I Société française de statistique
%U http://geodesic.mathdoc.fr/item/JSFS_2009__150_2_28_0/
%G fr
%F JSFS_2009__150_2_28_0
Josse, Julie; Husson, François; Pagès, Jérôme. Gestion des données manquantes en Analyse en Composantes Principales. Journal de la société française de statistique, Tome 150 (2009) no. 2, pp. 28-51. http://geodesic.mathdoc.fr/item/JSFS_2009__150_2_28_0/