Voir la notice de l'article provenant de la source Numdam
When a mixture model is used to perform clustering, the uncertainty is related both to the choice of an optimal model (including the number of clusters) and to the estimation of the parameters. We discuss here the computation of confidence intervals using different bootstrap approaches, which either mix or separate the two kinds of uncertainty. In particular, we suggest two new approaches that rely to some degree on the model specification considered as optimal by the researcher, and that address specifically the uncertainty related to parameter estimation. These methods are especially useful for poorly separated data or complex models, where the selected solution is difficult to recreate in each bootstrap sample, and they present the advantage of reducing the well-known label-switching issue. Two simulation experiments based on the Hidden Mixture Transition Distribution model for the clustering of longitudinal data illustrate our proposed bootstrap approaches.
Lorsqu’un modèle de mélange est utilisé en classification, l’incertitude est liée au choix du modèle optimal (y compris le nombre de groupes) et à l’estimation de ses paramètres. Nous discutons ici du calcul d’intervalles de confiance en utilisant différentes approches bootstrap qui mélangent ou au contraire séparent ces deux types d’incertitude. En particulier, nous suggérons deux nouvelles approches qui dépendent en partie de la spécification du modèle considéré comme optimal par le chercheur, et qui répondent spécifiquement à l’incertitude liée à l’estimation des paramètres. Ces méthodes sont spécialement utiles lorsque les données sont mal séparées ou lorsque le modèle à estimer est complexe et que la solution choisie se révèle difficile à reproduire dans chaque échantillon bootstrap. De plus, elles présentent l’avantage de réduire le problème du label-switching. Deux simulations basées sur le modèle Hidden Mixture Transition Distribution adapté à la classification de données longitudinales illustrent nos propositions.
@article{JSFS_2019__160_1_114_0, author = {Taushanov, Zhivko and Berchtold, Andr\'e}, title = {Bootstrap {Validation} of the {Estimated} {Parameters} in {Mixture} {Models} {Used} for {Clustering}}, journal = {Journal de la soci\'et\'e fran\c{c}aise de statistique}, pages = {114--129}, publisher = {Soci\'et\'e fran\c{c}aise de statistique}, volume = {160}, number = {1}, year = {2019}, mrnumber = {3928542}, zbl = {1432.62191}, language = {en}, url = {http://geodesic.mathdoc.fr/item/JSFS_2019__160_1_114_0/} }
TY - JOUR AU - Taushanov, Zhivko AU - Berchtold, André TI - Bootstrap Validation of the Estimated Parameters in Mixture Models Used for Clustering JO - Journal de la société française de statistique PY - 2019 SP - 114 EP - 129 VL - 160 IS - 1 PB - Société française de statistique UR - http://geodesic.mathdoc.fr/item/JSFS_2019__160_1_114_0/ LA - en ID - JSFS_2019__160_1_114_0 ER -
%0 Journal Article %A Taushanov, Zhivko %A Berchtold, André %T Bootstrap Validation of the Estimated Parameters in Mixture Models Used for Clustering %J Journal de la société française de statistique %D 2019 %P 114-129 %V 160 %N 1 %I Société française de statistique %U http://geodesic.mathdoc.fr/item/JSFS_2019__160_1_114_0/ %G en %F JSFS_2019__160_1_114_0
Taushanov, Zhivko; Berchtold, André. Bootstrap Validation of the Estimated Parameters in Mixture Models Used for Clustering. Journal de la société française de statistique, Numéro spécial : analyse de mélanges, Tome 160 (2019) no. 1, pp. 114-129. http://geodesic.mathdoc.fr/item/JSFS_2019__160_1_114_0/