Voir la notice de l'article provenant de la source Numdam
La classification non supervisée basée sur des modèles de mélange est devenue usuelle pour identifier des sous-populations dans un jeu de données. Ici, nous nous intéressons au cas fréquent où plusieurs échantillons provenant de populations distinctes doivent être classifiés en des partitions a priori de même signification. Nous supposons que le pouvoir discriminant des variables décrivant spécifiquement les différents échantillons est globalement égal. Nous traduisons cette hypothèse en imposant que l’entropie de la partition soit homogène d’une population à l’autre, ce qui nous conduit à une méthode de classification dite simultanée. Un algorithme inspiré d’EM, et baptisé , permet de réaliser cette estimation par maximum de vraisemblance sous contrainte, pour n’importe quel modèle de mélange puisque la contrainte entropique est active uniquement à l’étape E. Des résultats expérimentaux obtenus sur des données simulées d’une part et sur des données réelles issues de la biologie d’autre part, illustrent le potentiel de notre approche.
Model-based clustering is now a standard tool for revealing some subpopulations in a data set. We focus here on the frequent situation where several data sets have to be classified into partitions with a priori identical meanings. We assume that the discriminant ability of the variables involved specifically in the different data sets, is globally invariant. This assumption is formalized by setting that the entropy of the partition is homogeneous through the populations, which leads us to a so-called simultaneous clustering method. A pseudo EM algorithm, called , allows to perform this maximum likelihood estimation under constraint for any mixture model since the entropic constraint is only involved in the E step. A real numerical example on biological data leads to encouraging results.
@article{JSFS_2011__152_3_21_0, author = {Lourme, Alexandre and Biernacki, Christophe}, title = {Classification simultan\'ee de plusieurs \'echantillons sous contrainte d{\textquoteright}\'egalit\'e des entropies de partition}, journal = {Journal de la soci\'et\'e fran\c{c}aise de statistique}, pages = {21--33}, publisher = {Soci\'et\'e fran\c{c}aise de statistique}, volume = {152}, number = {3}, year = {2011}, mrnumber = {2871175}, zbl = {1316.62091}, language = {fr}, url = {http://geodesic.mathdoc.fr/item/JSFS_2011__152_3_21_0/} }
TY - JOUR AU - Lourme, Alexandre AU - Biernacki, Christophe TI - Classification simultanée de plusieurs échantillons sous contrainte d’égalité des entropies de partition JO - Journal de la société française de statistique PY - 2011 SP - 21 EP - 33 VL - 152 IS - 3 PB - Société française de statistique UR - http://geodesic.mathdoc.fr/item/JSFS_2011__152_3_21_0/ LA - fr ID - JSFS_2011__152_3_21_0 ER -
%0 Journal Article %A Lourme, Alexandre %A Biernacki, Christophe %T Classification simultanée de plusieurs échantillons sous contrainte d’égalité des entropies de partition %J Journal de la société française de statistique %D 2011 %P 21-33 %V 152 %N 3 %I Société française de statistique %U http://geodesic.mathdoc.fr/item/JSFS_2011__152_3_21_0/ %G fr %F JSFS_2011__152_3_21_0
Lourme, Alexandre; Biernacki, Christophe. Classification simultanée de plusieurs échantillons sous contrainte d’égalité des entropies de partition. Journal de la société française de statistique, Tome 152 (2011) no. 3, pp. 21-33. http://geodesic.mathdoc.fr/item/JSFS_2011__152_3_21_0/