Voir la notice de l'article provenant de la source Numdam
Though mostly used as a clustering algorithm, -means is originally designed as a quantization algorithm. Namely, it aims at providing a compression of a probability distribution with points. Building upon Levrard (2015) ; Tang and Monteleoni (2016a) , we try to investigate how and when these two approaches are compatible. Namely, we show that provided the sample distribution satisfies a margin like condition (in the sense of Mammen and Tsybakov, 1999 for supervised learning), both the associated empirical risk minimizer and the output of Lloyd’s algorithm provide almost optimal classification in certain cases (in the sense of Azizyan et al., 2013 ). Besides, we also show that they achieved fast and optimal convergence rates in terms of sample size and compression risk.
Bien qu’utilisé comme algorithme de classification, les -moyennes sont à la base conçus pour fournir un quantifieur, c’est-à-dire un moyen de compresser une distribution de probabilités avec points. En nous appuyant sur les travaux de Levrard (2015) et Tang and Monteleoni (2016a) , nous essayerons d’expliquer en quoi et sous quelles conditions ces deux objectifs a priori distincts sont compatibles. Plus précisément, nous montrerons que dans le cas où la distribution d’où sont tirés les points satisfait une condition de type marge (baptisée ainsi par analogie avec les conditions de marge établies en classification supervisée dans Mammen and Tsybakov, 1999 ), non seulement le minimiseur théorique du risque empirique associé mais aussi le résultat fourni par l’algorithme de Lloyd fournissent d’une part une classification sinon optimale (au sens de Azizyan et al., 2013 ) du moins pertinente et d’autre part une compression rapide (en la taille de l’échantillon) et optimale.
@article{JSFS_2018__159_1_1_0, author = {Levrard, Cl\'ement}, title = {Quantization/Clustering: when and why does $k$-means work?}, journal = {Journal de la soci\'et\'e fran\c{c}aise de statistique}, pages = {1--26}, publisher = {Soci\'et\'e fran\c{c}aise de statistique}, volume = {159}, number = {1}, year = {2018}, zbl = {1397.62222}, language = {en}, url = {http://geodesic.mathdoc.fr/item/JSFS_2018__159_1_1_0/} }
TY - JOUR AU - Levrard, Clément TI - Quantization/Clustering: when and why does $k$-means work? JO - Journal de la société française de statistique PY - 2018 SP - 1 EP - 26 VL - 159 IS - 1 PB - Société française de statistique UR - http://geodesic.mathdoc.fr/item/JSFS_2018__159_1_1_0/ LA - en ID - JSFS_2018__159_1_1_0 ER -
%0 Journal Article %A Levrard, Clément %T Quantization/Clustering: when and why does $k$-means work? %J Journal de la société française de statistique %D 2018 %P 1-26 %V 159 %N 1 %I Société française de statistique %U http://geodesic.mathdoc.fr/item/JSFS_2018__159_1_1_0/ %G en %F JSFS_2018__159_1_1_0
Levrard, Clément. Quantization/Clustering: when and why does $k$-means work?. Journal de la société française de statistique, Tome 159 (2018) no. 1, pp. 1-26. http://geodesic.mathdoc.fr/item/JSFS_2018__159_1_1_0/