Voir la notice de l'article provenant de la source Numdam
Overabundance of clustering methods exists but none was devised with a variable selection procedure and a missing data management. However in microarray datasets, genes are described by a growing number of experiments and missing data always exist. It is also important to detect the relevant experiments for improving the gene clustering and the data interpretation. A common practice is to remove genes with missing values or to replace missing values with estimation. However it is known to have an important impact on the clustering result. We tackle variable selection and missing data in a unique statistical framework: A versatile variable selection model based on multidimensional Gaussian mixtures is proposed, taking variable roles for clustering into account. Moreover this statistical framework manages missing values without imposing any data pre-processing. Numerical experiments highlight the gain of our method compared to imputation methods which do not allow to find the true variable roles and sometimes lose biological information.
De nombreuses méthodes de classification non supervisée existent mais sont souvent conçues sans procédure de sélection de variables et ne permettent pas toujours de gérer les données manquantes. Dans les données issues de puces à ADN, les gènes sont décrits par un grand nombre d’expériences où il existe toujours des données manquantes. Il est donc important de détecter les expériences biologiques significatives afin d’améliorer la classification des gènes et son interprétation. Concernant les valeurs manquantes, il est courant d’écarter de l’étude les gènes non totalement observés ou d’estimer les valeurs manquantes avant classification. Dans cet article, nous traitons la sélection de variables et le problème des données manquantes grâce à une unique procédure. Nous proposons un modèle de sélection de variables pour prendre en compte le rôle des variables pour la classification non supervisée par mélanges gaussiens, où les données manquantes ne sont pas prétraitées. Des expériences numériques illustrent le gain de notre méthode par rapport aux méthodes avec imputation des données manquantes qui ne permettent pas toujours de retrouver le vrai rôle des variables et parfois perdent des informations biologiques.
@article{JSFS_2012__153_2_21_0, author = {Maugis-Rabusseau, Cathy and Martin-Magniette, Marie-Laure and Pelletier, Sandra}, title = {SelvarClustMV: {Variable} selection approach in model-based clustering allowing for missing~values}, journal = {Journal de la soci\'et\'e fran\c{c}aise de statistique}, pages = {21--36}, publisher = {Soci\'et\'e fran\c{c}aise de statistique}, volume = {153}, number = {2}, year = {2012}, mrnumber = {3008597}, zbl = {1316.62092}, language = {en}, url = {http://geodesic.mathdoc.fr/item/JSFS_2012__153_2_21_0/} }
TY - JOUR AU - Maugis-Rabusseau, Cathy AU - Martin-Magniette, Marie-Laure AU - Pelletier, Sandra TI - SelvarClustMV: Variable selection approach in model-based clustering allowing for missing values JO - Journal de la société française de statistique PY - 2012 SP - 21 EP - 36 VL - 153 IS - 2 PB - Société française de statistique UR - http://geodesic.mathdoc.fr/item/JSFS_2012__153_2_21_0/ LA - en ID - JSFS_2012__153_2_21_0 ER -
%0 Journal Article %A Maugis-Rabusseau, Cathy %A Martin-Magniette, Marie-Laure %A Pelletier, Sandra %T SelvarClustMV: Variable selection approach in model-based clustering allowing for missing values %J Journal de la société française de statistique %D 2012 %P 21-36 %V 153 %N 2 %I Société française de statistique %U http://geodesic.mathdoc.fr/item/JSFS_2012__153_2_21_0/ %G en %F JSFS_2012__153_2_21_0
Maugis-Rabusseau, Cathy; Martin-Magniette, Marie-Laure; Pelletier, Sandra. SelvarClustMV: Variable selection approach in model-based clustering allowing for missing values. Journal de la société française de statistique, Tome 153 (2012) no. 2, pp. 21-36. http://geodesic.mathdoc.fr/item/JSFS_2012__153_2_21_0/