Bootstrap Validation of the Estimated Parameters in Mixture Models Used for Clustering

Taushanov, Zhivko; Berchtold, André

Numéro spécial : analyse de mélanges

Bootstrap Validation of the Estimated Parameters in Mixture Models Used for Clustering
[Validation par bootstrap de l’estimation des paramètres d’un modèle de mélange utilisé en classification]

Taushanov, Zhivko ; Berchtold, André

Journal de la société française de statistique, Numéro spécial : analyse de mélanges, Tome 160 (2019) no. 1, pp. 114-129

Cet article a éte moissonné depuis la source Numdam

Voir la notice de l'article

Abstract (VO)
Résumé

When a mixture model is used to perform clustering, the uncertainty is related both to the choice of an optimal model (including the number of clusters) and to the estimation of the parameters. We discuss here the computation of confidence intervals using different bootstrap approaches, which either mix or separate the two kinds of uncertainty. In particular, we suggest two new approaches that rely to some degree on the model specification considered as optimal by the researcher, and that address specifically the uncertainty related to parameter estimation. These methods are especially useful for poorly separated data or complex models, where the selected solution is difficult to recreate in each bootstrap sample, and they present the advantage of reducing the well-known label-switching issue. Two simulation experiments based on the Hidden Mixture Transition Distribution model for the clustering of longitudinal data illustrate our proposed bootstrap approaches.

Lorsqu’un modèle de mélange est utilisé en classification, l’incertitude est liée au choix du modèle optimal (y compris le nombre de groupes) et à l’estimation de ses paramètres. Nous discutons ici du calcul d’intervalles de confiance en utilisant différentes approches bootstrap qui mélangent ou au contraire séparent ces deux types d’incertitude. En particulier, nous suggérons deux nouvelles approches qui dépendent en partie de la spécification du modèle considéré comme optimal par le chercheur, et qui répondent spécifiquement à l’incertitude liée à l’estimation des paramètres. Ces méthodes sont spécialement utiles lorsque les données sont mal séparées ou lorsque le modèle à estimer est complexe et que la solution choisie se révèle difficile à reproduire dans chaque échantillon bootstrap. De plus, elles présentent l’avantage de réduire le problème du label-switching. Deux simulations basées sur le modèle Hidden Mixture Transition Distribution adapté à la classification de données longitudinales illustrent nos propositions.

MR Zbl

Keywords: clustering, mixture model, bootstrap, uncertainty, label-switching, confidence interval, frequentist estimation, HMTD model
Mots-clés : classification, modèle de mélange, bootstrap, incertitude, label-switching, intervalle de confiance, estimation fréquentiste, modèle HMTD

@article{JSFS_2019__160_1_114_0,
     author = {Taushanov, Zhivko and Berchtold, Andr\'e},
     title = {Bootstrap {Validation} of the {Estimated} {Parameters} in {Mixture} {Models} {Used} for {Clustering}},
     journal = {Journal de la soci\'et\'e fran\c{c}aise de statistique},
     pages = {114--129},
     year = {2019},
     publisher = {Soci\'et\'e fran\c{c}aise de statistique},
     volume = {160},
     number = {1},
     mrnumber = {3928542},
     zbl = {1432.62191},
     language = {en},
     url = {http://geodesic.mathdoc.fr/item/JSFS_2019__160_1_114_0/}
}

TY  - JOUR
AU  - Taushanov, Zhivko
AU  - Berchtold, André
TI  - Bootstrap Validation of the Estimated Parameters in Mixture Models Used for Clustering
JO  - Journal de la société française de statistique
PY  - 2019
SP  - 114
EP  - 129
VL  - 160
IS  - 1
PB  - Société française de statistique
UR  - http://geodesic.mathdoc.fr/item/JSFS_2019__160_1_114_0/
LA  - en
ID  - JSFS_2019__160_1_114_0
ER  -

%0 Journal Article
%A Taushanov, Zhivko
%A Berchtold, André
%T Bootstrap Validation of the Estimated Parameters in Mixture Models Used for Clustering
%J Journal de la société française de statistique
%D 2019
%P 114-129
%V 160
%N 1
%I Société française de statistique
%U http://geodesic.mathdoc.fr/item/JSFS_2019__160_1_114_0/
%G en
%F JSFS_2019__160_1_114_0

Taushanov, Zhivko; Berchtold, André. Bootstrap Validation of the Estimated Parameters in Mixture Models Used for Clustering. Journal de la société française de statistique, Numéro spécial : analyse de mélanges, Tome 160 (2019) no. 1, pp. 114-129. http://geodesic.mathdoc.fr/item/JSFS_2019__160_1_114_0/

Parcourir par

Geodesic

Parcourir par