SelvarClustMV: Variable selection approach in model-based clustering allowing for missing values
[SelvarClustMV : sélection de variables pour la classification non supervisée avec données manquantes]
Journal de la société française de statistique, Tome 153 (2012) no. 2, pp. 21-36

Voir la notice de l'article provenant de la source Numdam

Overabundance of clustering methods exists but none was devised with a variable selection procedure and a missing data management. However in microarray datasets, genes are described by a growing number of experiments and missing data always exist. It is also important to detect the relevant experiments for improving the gene clustering and the data interpretation. A common practice is to remove genes with missing values or to replace missing values with estimation. However it is known to have an important impact on the clustering result. We tackle variable selection and missing data in a unique statistical framework: A versatile variable selection model based on multidimensional Gaussian mixtures is proposed, taking variable roles for clustering into account. Moreover this statistical framework manages missing values without imposing any data pre-processing. Numerical experiments highlight the gain of our method compared to imputation methods which do not allow to find the true variable roles and sometimes lose biological information.

De nombreuses méthodes de classification non supervisée existent mais sont souvent conçues sans procédure de sélection de variables et ne permettent pas toujours de gérer les données manquantes. Dans les données issues de puces à ADN, les gènes sont décrits par un grand nombre d’expériences où il existe toujours des données manquantes. Il est donc important de détecter les expériences biologiques significatives afin d’améliorer la classification des gènes et son interprétation. Concernant les valeurs manquantes, il est courant d’écarter de l’étude les gènes non totalement observés ou d’estimer les valeurs manquantes avant classification. Dans cet article, nous traitons la sélection de variables et le problème des données manquantes grâce à une unique procédure. Nous proposons un modèle de sélection de variables pour prendre en compte le rôle des variables pour la classification non supervisée par mélanges gaussiens, où les données manquantes ne sont pas prétraitées. Des expériences numériques illustrent le gain de notre méthode par rapport aux méthodes avec imputation des données manquantes qui ne permettent pas toujours de retrouver le vrai rôle des variables et parfois perdent des informations biologiques.

Keywords: Variable selection, Missing values, Model-based clustering
Mots-clés : Sélection de variables, Données manquantes, Classification par mélanges gaussiens
@article{JSFS_2012__153_2_21_0,
     author = {Maugis-Rabusseau, Cathy and Martin-Magniette, Marie-Laure and Pelletier, Sandra},
     title = {SelvarClustMV: {Variable} selection approach in model-based clustering allowing for missing~values},
     journal = {Journal de la soci\'et\'e fran\c{c}aise de statistique},
     pages = {21--36},
     publisher = {Soci\'et\'e fran\c{c}aise de statistique},
     volume = {153},
     number = {2},
     year = {2012},
     mrnumber = {3008597},
     zbl = {1316.62092},
     language = {en},
     url = {http://geodesic.mathdoc.fr/item/JSFS_2012__153_2_21_0/}
}
TY  - JOUR
AU  - Maugis-Rabusseau, Cathy
AU  - Martin-Magniette, Marie-Laure
AU  - Pelletier, Sandra
TI  - SelvarClustMV: Variable selection approach in model-based clustering allowing for missing values
JO  - Journal de la société française de statistique
PY  - 2012
SP  - 21
EP  - 36
VL  - 153
IS  - 2
PB  - Société française de statistique
UR  - http://geodesic.mathdoc.fr/item/JSFS_2012__153_2_21_0/
LA  - en
ID  - JSFS_2012__153_2_21_0
ER  - 
%0 Journal Article
%A Maugis-Rabusseau, Cathy
%A Martin-Magniette, Marie-Laure
%A Pelletier, Sandra
%T SelvarClustMV: Variable selection approach in model-based clustering allowing for missing values
%J Journal de la société française de statistique
%D 2012
%P 21-36
%V 153
%N 2
%I Société française de statistique
%U http://geodesic.mathdoc.fr/item/JSFS_2012__153_2_21_0/
%G en
%F JSFS_2012__153_2_21_0
Maugis-Rabusseau, Cathy; Martin-Magniette, Marie-Laure; Pelletier, Sandra. SelvarClustMV: Variable selection approach in model-based clustering allowing for missing values. Journal de la société française de statistique, Tome 153 (2012) no. 2, pp. 21-36. http://geodesic.mathdoc.fr/item/JSFS_2012__153_2_21_0/