Sélection de modèle : de la théorie à la pratique
Journal de la société française de statistique, Tome 149 (2008) no. 4, pp. 5-27

Voir la notice de l'article provenant de la source Numdam

Pour choisir un modèle statistique à partir des données, une méthode devenue classique depuis les travaux précurseurs d'Akaike dans les années 70 consiste à optimiser un critère empirique pénalisé, tel que la log-vraisemblance pénalisée. Dans bon nombre de problèmes de sélection de modèle tels que la sélection de variables ou la détection de ruptures multiples par exemple, il est souhaitable de laisser croitre la taille des modèles ou encore le nombre de modèles d'une dimension donnée avec le nombre d'observations. Une théorie non asymptotique de la sélection de modèles a donc émergé durant ces dix dernières années qui vise à prendre en compte ce type de situations. L'enjeu central aussi bien sur le plan théorique que pratique est de comprendre comment pénaliser un critère de type log-vraisemblance de façon à garantir une performance de sélection optimale. La théorie non asymptotique donne des indications sur la structure des pénalités qu'il convient d'utiliser mais n'est parfois pas suffisamment précise pour arbitrer la valeur de certaines constantes qui restent donc à calibrer au moment d'implémenter effectivement ce type de critères. Ces constantes peuvent être inconnues pour des raisons diverses. Il peut s'agir d'une faiblesse de la théorie qui garantit l'existence d'une constante absolue mais sans en donner la valeur numérique. Le problème peut être également de nature plus profondément statistique lorsque cette constante dépend objectivement de la loi inconnue des observations. Notre propos est ici de promouvoir une méthode de calibration de pénalité à partir des données. Cette méthode est en partie fondée sur des résultats théoriques établis et en partie sur une heuristique permettant de l'extrapoler à d'autres cadres que le cadre strict dans lequel la théorie permet de la valider.

Since the seminal work of Akaike in the early seventies, optimizing some penalized empirical criterion such as the penalized log-likelihood has become a classical solution to the problem of choosing a proper statistical model from the data. For many model selection problems such as multiple change-point detection and variable selection for instance, it is desirable to let the dimension or the number of models of a given dimension grow with the sample size. A non asymptotic theory for model selection has therefore emerged during these last ten years in order to take this type of situations into account. The main issue both from a practical and a theoretical view point is to understand how to penalize an empirical criterion such as the log-likelihood in order to get some optimal selection procedure. Asymptotic theory provides some useful indications on the shape of the penalty but it often leaves to the user the choice of numerical constants. The optimal value for these constants is generally unknown. In some situations theory is indeed not sharp enough to lead to explicit values. In some other cases, the problem is more of a statistical nature since according to the theory, the optimal value should depend on the unknown distribution of the observations. Our purpose here is to promote some data-driven method to calibrate the penalty. This method is partly based on preliminary theoretical results that we shall recall and partly founded on some heuristics that we intend to explain.

Mots-clés : détection de ruptures, inégalités de concentration, pénalisation, processus empiriques, sélection de modèle, sélection de variables
Keywords: change point detection, concentration inequalities, empirical processes, model selection, penalization, variable selection
@article{JSFS_2008__149_4_5_0,
     author = {Massart, Pascal},
     title = {S\'election de mod\`ele : de la th\'eorie \`a la pratique},
     journal = {Journal de la soci\'et\'e fran\c{c}aise de statistique},
     pages = {5--27},
     publisher = {Soci\'et\'e fran\c{c}aise de statistique},
     volume = {149},
     number = {4},
     year = {2008},
     language = {fr},
     url = {http://geodesic.mathdoc.fr/item/JSFS_2008__149_4_5_0/}
}
TY  - JOUR
AU  - Massart, Pascal
TI  - Sélection de modèle : de la théorie à la pratique
JO  - Journal de la société française de statistique
PY  - 2008
SP  - 5
EP  - 27
VL  - 149
IS  - 4
PB  - Société française de statistique
UR  - http://geodesic.mathdoc.fr/item/JSFS_2008__149_4_5_0/
LA  - fr
ID  - JSFS_2008__149_4_5_0
ER  - 
%0 Journal Article
%A Massart, Pascal
%T Sélection de modèle : de la théorie à la pratique
%J Journal de la société française de statistique
%D 2008
%P 5-27
%V 149
%N 4
%I Société française de statistique
%U http://geodesic.mathdoc.fr/item/JSFS_2008__149_4_5_0/
%G fr
%F JSFS_2008__149_4_5_0
Massart, Pascal. Sélection de modèle : de la théorie à la pratique. Journal de la société française de statistique, Tome 149 (2008) no. 4, pp. 5-27. http://geodesic.mathdoc.fr/item/JSFS_2008__149_4_5_0/