Quantization/Clustering: when and why does k -means work?
[Quantification et/ou Classification non-supervisée : quand et pourquoi la méthode des centres mobiles marche-t-elle ?]
Journal de la société française de statistique, Tome 159 (2018) no. 1, pp. 1-26

Voir la notice de l'article provenant de la source Numdam

Though mostly used as a clustering algorithm, k -means is originally designed as a quantization algorithm. Namely, it aims at providing a compression of a probability distribution with k points. Building upon Levrard (2015) ; Tang and Monteleoni (2016a) , we try to investigate how and when these two approaches are compatible. Namely, we show that provided the sample distribution satisfies a margin like condition (in the sense of Mammen and Tsybakov, 1999 for supervised learning), both the associated empirical risk minimizer and the output of Lloyd’s algorithm provide almost optimal classification in certain cases (in the sense of Azizyan et al., 2013 ). Besides, we also show that they achieved fast and optimal convergence rates in terms of sample size and compression risk.

Bien qu’utilisé comme algorithme de classification, les k -moyennes sont à la base conçus pour fournir un quantifieur, c’est-à-dire un moyen de compresser une distribution de probabilités avec k points. En nous appuyant sur les travaux de Levrard (2015) et Tang and Monteleoni (2016a) , nous essayerons d’expliquer en quoi et sous quelles conditions ces deux objectifs a priori distincts sont compatibles. Plus précisément, nous montrerons que dans le cas où la distribution d’où sont tirés les points satisfait une condition de type marge (baptisée ainsi par analogie avec les conditions de marge établies en classification supervisée dans Mammen and Tsybakov, 1999 ), non seulement le minimiseur théorique du risque empirique associé mais aussi le résultat fourni par l’algorithme de Lloyd fournissent d’une part une classification sinon optimale (au sens de Azizyan et al., 2013 ) du moins pertinente et d’autre part une compression rapide (en la taille de l’échantillon) et optimale.

Keywords: $k$-means, clustering, quantization, separation rate, distortion
Mots-clés : $k$-means, classification non-supervisée, quantification, vitesse de séparation, distorsion
@article{JSFS_2018__159_1_1_0,
     author = {Levrard, Cl\'ement},
     title = {Quantization/Clustering: when and why does $k$-means work?},
     journal = {Journal de la soci\'et\'e fran\c{c}aise de statistique},
     pages = {1--26},
     publisher = {Soci\'et\'e fran\c{c}aise de statistique},
     volume = {159},
     number = {1},
     year = {2018},
     zbl = {1397.62222},
     language = {en},
     url = {http://geodesic.mathdoc.fr/item/JSFS_2018__159_1_1_0/}
}
TY  - JOUR
AU  - Levrard, Clément
TI  - Quantization/Clustering: when and why does $k$-means work?
JO  - Journal de la société française de statistique
PY  - 2018
SP  - 1
EP  - 26
VL  - 159
IS  - 1
PB  - Société française de statistique
UR  - http://geodesic.mathdoc.fr/item/JSFS_2018__159_1_1_0/
LA  - en
ID  - JSFS_2018__159_1_1_0
ER  - 
%0 Journal Article
%A Levrard, Clément
%T Quantization/Clustering: when and why does $k$-means work?
%J Journal de la société française de statistique
%D 2018
%P 1-26
%V 159
%N 1
%I Société française de statistique
%U http://geodesic.mathdoc.fr/item/JSFS_2018__159_1_1_0/
%G en
%F JSFS_2018__159_1_1_0
Levrard, Clément. Quantization/Clustering: when and why does $k$-means work?. Journal de la société française de statistique, Tome 159 (2018) no. 1, pp. 1-26. http://geodesic.mathdoc.fr/item/JSFS_2018__159_1_1_0/