Sélection de variables pour la classification binaire en grande dimension : comparaisons et application aux données de biopuces
Journal de la société française de statistique, Tome 149 (2008) no. 3, pp. 43-66

Voir la notice de l'article provenant de la source Numdam

Dans cet article nous nous proposons de comparer trois méthodes récentes de sélection de variables dans le cadre de la classification binaire. Le contexte auquel nous nous intéressons ici est celui où le nombre de variables est très grand et beaucoup plus important que le nombre d’observations, comme c’est le cas pour les données issues des biopuces. Les approches comparées sont de type SVM, GLM sous contraintes de type L 1 et Forêts Aléatoires.

In this paper we compare three methods for selecting important features in binary classification. We focus on the case where the sample size is smaller than the number of variables. The three approaches used are based on Support Vector Machines, L 1 constrained Generalized Linear Models and Random Forests.

Mots-clés : biopuces, bootstrap, forêts aléatoires, hiérarchies de variables, machines à vecteurs supports, sélection de variables, méthodes séquentielles, modèles linéaires généralisés, validation croisée
Keywords: bootstrap, cross validation, feature selection, forward selection, GLMpath, microarray data, random forests, ranking rules, support vector machines, SVM-based criteria
@article{JSFS_2008__149_3_43_0,
     author = {Ghattas, Badih and Ben Ishak, Anis},
     title = {S\'election de variables pour la classification binaire en grande dimension : comparaisons et application aux donn\'ees de biopuces},
     journal = {Journal de la soci\'et\'e fran\c{c}aise de statistique},
     pages = {43--66},
     publisher = {Soci\'et\'e fran\c{c}aise de statistique},
     volume = {149},
     number = {3},
     year = {2008},
     language = {fr},
     url = {http://geodesic.mathdoc.fr/item/JSFS_2008__149_3_43_0/}
}
TY  - JOUR
AU  - Ghattas, Badih
AU  - Ben Ishak, Anis
TI  - Sélection de variables pour la classification binaire en grande dimension : comparaisons et application aux données de biopuces
JO  - Journal de la société française de statistique
PY  - 2008
SP  - 43
EP  - 66
VL  - 149
IS  - 3
PB  - Société française de statistique
UR  - http://geodesic.mathdoc.fr/item/JSFS_2008__149_3_43_0/
LA  - fr
ID  - JSFS_2008__149_3_43_0
ER  - 
%0 Journal Article
%A Ghattas, Badih
%A Ben Ishak, Anis
%T Sélection de variables pour la classification binaire en grande dimension : comparaisons et application aux données de biopuces
%J Journal de la société française de statistique
%D 2008
%P 43-66
%V 149
%N 3
%I Société française de statistique
%U http://geodesic.mathdoc.fr/item/JSFS_2008__149_3_43_0/
%G fr
%F JSFS_2008__149_3_43_0
Ghattas, Badih; Ben Ishak, Anis. Sélection de variables pour la classification binaire en grande dimension : comparaisons et application aux données de biopuces. Journal de la société française de statistique, Tome 149 (2008) no. 3, pp. 43-66. http://geodesic.mathdoc.fr/item/JSFS_2008__149_3_43_0/