Classification simultanée de plusieurs échantillons sous contrainte d’égalité des entropies de partition
Journal de la société française de statistique, Tome 152 (2011) no. 3, pp. 21-33

Voir la notice de l'article provenant de la source Numdam

La classification non supervisée basée sur des modèles de mélange est devenue usuelle pour identifier des sous-populations dans un jeu de données. Ici, nous nous intéressons au cas fréquent où plusieurs échantillons provenant de populations distinctes doivent être classifiés en des partitions a priori de même signification. Nous supposons que le pouvoir discriminant des variables décrivant spécifiquement les différents échantillons est globalement égal. Nous traduisons cette hypothèse en imposant que l’entropie de la partition soit homogène d’une population à l’autre, ce qui nous conduit à une méthode de classification dite simultanée. Un algorithme inspiré d’EM, et baptisé E ˜ M , permet de réaliser cette estimation par maximum de vraisemblance sous contrainte, pour n’importe quel modèle de mélange puisque la contrainte entropique est active uniquement à l’étape E. Des résultats expérimentaux obtenus sur des données simulées d’une part et sur des données réelles issues de la biologie d’autre part, illustrent le potentiel de notre approche.

Model-based clustering is now a standard tool for revealing some subpopulations in a data set. We focus here on the frequent situation where several data sets have to be classified into partitions with a priori identical meanings. We assume that the discriminant ability of the variables involved specifically in the different data sets, is globally invariant. This assumption is formalized by setting that the entropy of the partition is homogeneous through the populations, which leads us to a so-called simultaneous clustering method. A pseudo EM algorithm, called E ˜ M , allows to perform this maximum likelihood estimation under constraint for any mixture model since the entropic constraint is only involved in the E step. A real numerical example on biological data leads to encouraging results.

Mots-clés : modèles de mélange, algorithme EM, lien entre populations, données biologiques
Keywords: mixture models, EM algorithm, link between populations, biological data
@article{JSFS_2011__152_3_21_0,
     author = {Lourme, Alexandre and Biernacki, Christophe},
     title = {Classification simultan\'ee de plusieurs \'echantillons  sous contrainte d{\textquoteright}\'egalit\'e des entropies de partition},
     journal = {Journal de la soci\'et\'e fran\c{c}aise de statistique},
     pages = {21--33},
     publisher = {Soci\'et\'e fran\c{c}aise de statistique},
     volume = {152},
     number = {3},
     year = {2011},
     mrnumber = {2871175},
     zbl = {1316.62091},
     language = {fr},
     url = {http://geodesic.mathdoc.fr/item/JSFS_2011__152_3_21_0/}
}
TY  - JOUR
AU  - Lourme, Alexandre
AU  - Biernacki, Christophe
TI  - Classification simultanée de plusieurs échantillons  sous contrainte d’égalité des entropies de partition
JO  - Journal de la société française de statistique
PY  - 2011
SP  - 21
EP  - 33
VL  - 152
IS  - 3
PB  - Société française de statistique
UR  - http://geodesic.mathdoc.fr/item/JSFS_2011__152_3_21_0/
LA  - fr
ID  - JSFS_2011__152_3_21_0
ER  - 
%0 Journal Article
%A Lourme, Alexandre
%A Biernacki, Christophe
%T Classification simultanée de plusieurs échantillons  sous contrainte d’égalité des entropies de partition
%J Journal de la société française de statistique
%D 2011
%P 21-33
%V 152
%N 3
%I Société française de statistique
%U http://geodesic.mathdoc.fr/item/JSFS_2011__152_3_21_0/
%G fr
%F JSFS_2011__152_3_21_0
Lourme, Alexandre; Biernacki, Christophe. Classification simultanée de plusieurs échantillons  sous contrainte d’égalité des entropies de partition. Journal de la société française de statistique, Tome 152 (2011) no. 3, pp. 21-33. http://geodesic.mathdoc.fr/item/JSFS_2011__152_3_21_0/