Voir la notice de l'article provenant de la source Numdam
Une solution classique pour réaliser une Analyse en Composante Principale (ACP) sur données incomplètes consiste à chercher les axes et les composantes qui minimisent l’erreur de reconstitution sur les données présentes. Plusieurs algorithmes ont été proposés dans la littérature comme NIPALS, une approche par moindres carrés alternés pondérés et une approche par ACP itérative. Cette dernière consiste en une imputation itérative des données au cours du processus d’estimation et s’apparente à un algorithme EM d’un modèle particulier. Ces algorithmes sont décrits dans le cadre commun de la minimisation du critère. Cette présentation unifiée permet de mieux comprendre leurs propriétés et les difficultés qu’ils rencontrent. Nous nous focalisons ensuite sur le problème principal du surajustement et montrons comment la formulation probabiliste de l’ACP (Tipping & Bishop, 1997) offre un terme de régularisation adapté pour pallier à ce problème. Les performances de l’algorithme finalement proposé sont comparées à celles des autres algorithmes à partir de simulations.
An approach commonly used to handle missing values in Principal Component Analysis (PCA) consists in ignoring the missing values by optimizing the loss function over all non-missing elements. This can be achieved by several methods, including the use of NIPALS, weighted regression or iterative PCA. The latter is based on iterative imputation of the missing elements during the estimation of the parameters, and can be seen as a particular EM algorithm. First, we review theses approaches with respect to the criterion minimization. This presentation gives a good understanding of their properties and the difficulties encountered. Then, we point out the problem of overfitting and we show how the probabilistic formulation of PCA (Tipping & Bishop, 1997) offers a proper and convenient regularization term to overcome this problem. Finally, the performances of the new algorithm are compared to those of the other algorithms from simulations.
@article{JSFS_2009__150_2_28_0, author = {Josse, Julie and Husson, Fran\c{c}ois and Pag\`es, J\'er\^ome}, title = {Gestion des donn\'ees manquantes en {Analyse} en {Composantes} {Principales}}, journal = {Journal de la soci\'et\'e fran\c{c}aise de statistique}, pages = {28--51}, publisher = {Soci\'et\'e fran\c{c}aise de statistique}, volume = {150}, number = {2}, year = {2009}, mrnumber = {2609690}, zbl = {1311.62091}, language = {fr}, url = {http://geodesic.mathdoc.fr/item/JSFS_2009__150_2_28_0/} }
TY - JOUR AU - Josse, Julie AU - Husson, François AU - Pagès, Jérôme TI - Gestion des données manquantes en Analyse en Composantes Principales JO - Journal de la société française de statistique PY - 2009 SP - 28 EP - 51 VL - 150 IS - 2 PB - Société française de statistique UR - http://geodesic.mathdoc.fr/item/JSFS_2009__150_2_28_0/ LA - fr ID - JSFS_2009__150_2_28_0 ER -
%0 Journal Article %A Josse, Julie %A Husson, François %A Pagès, Jérôme %T Gestion des données manquantes en Analyse en Composantes Principales %J Journal de la société française de statistique %D 2009 %P 28-51 %V 150 %N 2 %I Société française de statistique %U http://geodesic.mathdoc.fr/item/JSFS_2009__150_2_28_0/ %G fr %F JSFS_2009__150_2_28_0
Josse, Julie; Husson, François; Pagès, Jérôme. Gestion des données manquantes en Analyse en Composantes Principales. Journal de la société française de statistique, Tome 150 (2009) no. 2, pp. 28-51. http://geodesic.mathdoc.fr/item/JSFS_2009__150_2_28_0/