Numéro spécial : analyse des données en grande dimension
Comparison of sliced inverse regression approaches for underdetermined cases
[Comparaison d’approches de type SIR (régression inverse par tranches) pour les cas sous-déterminés ( n < p )]
Journal de la société française de statistique, Tome 155 (2014) no. 2, pp. 72-96

Voir la notice de l'article provenant de la source Numdam

Among methods to analyze high-dimensional data, the sliced inverse regression (SIR) is of particular interest for non-linear relations between the dependent variable and some indices of the covariate. When the dimension of the covariate is greater than the number of observations, classical versions of SIR cannot be applied. Various upgrades were then proposed to tackle this issue such as regularized SIR (RSIR) and sparse ridge SIR (SR-SIR), to estimate the parameters of the underlying model and to select variables of interest. In this paper, we introduce two new estimation methods respectively based on the QZ algorithm and on the Moore-Penrose pseudo-inverse. We also describe a new selection procedure of the most relevant components of the covariate that relies on a proximity criterion between submodels and the initial one. These approaches are compared with RSIR and SR-SIR in a simulation study. Finally we applied SIR-QZ and the associated selection procedure to a genetic dataset in order to find markers that are linked to the expression of a gene. These markers are called expression quantitative trait loci (eQTL).

Parmi les méthodes pour analyser des données de grande dimension, la régression inverse par tranches (sliced inverse regression ou SIR en anglais) est particulièrement intéressante si des relations non-linéaires existent entre la variable à expliquer et des combinaisons linéaires des prédicteurs (appelées indices). Lorsque la dimension de ces prédicteurs est plus grande que le nombre d’observations, les versions classiques de SIR ne peuvent plus être utilisées. Des améliorations diverses comme RSIR et SR-SIR (pour regularized SIR et sparse ridge SIR) ont été proposées dans la litérature pour résoudre ce problème, estimer les paramètres du modèle sous-jacent et enfin réaliser une sélection des prédicteurs les plus pertinents (en un certain sens). Dans cet article, nous introduisons deux nouvelles procédures d’estimation basées respectivement sur l’algorithme QZ et sur l’inverse généralisé de Moore-Penrose. Nous décrivons également une méthode qui repose sur un critère de proximité entre des sous-modèles et le modèle initial pour sélectionner les prédicteurs les plus pertinents. Ces approches sont ensuite comparées avec RSIR et SR-SIR par le biais de simulations. Enfin, nous illustrons, sur un jeu de données génétiques, l’intérêt de l’approche SIR-QZ proposée et de l’algorithme de sélection de prédicteurs associé pour trouver des marqueurs liés á l’expression d’un gène. De tels marqueurs sont appelés expression quantitative trait loci ou eQTL.

Keywords: dimension reduction, high-dimensional data, semiparametric regression, sparsity
Mots-clés : grande dimension, regression semi-paramétrique, réduction de dimension, sparsité
@article{JSFS_2014__155_2_72_0,
     author = {Coudret, Rapha\"el and Liquet, Benoit and Saracco, J\'er\^ome},
     title = {Comparison of sliced inverse regression approaches for underdetermined cases},
     journal = {Journal de la soci\'et\'e fran\c{c}aise de statistique},
     pages = {72--96},
     publisher = {Soci\'et\'e fran\c{c}aise de statistique},
     volume = {155},
     number = {2},
     year = {2014},
     zbl = {1316.62068},
     language = {en},
     url = {http://geodesic.mathdoc.fr/item/JSFS_2014__155_2_72_0/}
}
TY  - JOUR
AU  - Coudret, Raphaël
AU  - Liquet, Benoit
AU  - Saracco, Jérôme
TI  - Comparison of sliced inverse regression approaches for underdetermined cases
JO  - Journal de la société française de statistique
PY  - 2014
SP  - 72
EP  - 96
VL  - 155
IS  - 2
PB  - Société française de statistique
UR  - http://geodesic.mathdoc.fr/item/JSFS_2014__155_2_72_0/
LA  - en
ID  - JSFS_2014__155_2_72_0
ER  - 
%0 Journal Article
%A Coudret, Raphaël
%A Liquet, Benoit
%A Saracco, Jérôme
%T Comparison of sliced inverse regression approaches for underdetermined cases
%J Journal de la société française de statistique
%D 2014
%P 72-96
%V 155
%N 2
%I Société française de statistique
%U http://geodesic.mathdoc.fr/item/JSFS_2014__155_2_72_0/
%G en
%F JSFS_2014__155_2_72_0
Coudret, Raphaël; Liquet, Benoit; Saracco, Jérôme. Comparison of sliced inverse regression approaches for underdetermined cases. Journal de la société française de statistique, Tome 155 (2014) no. 2, pp. 72-96. http://geodesic.mathdoc.fr/item/JSFS_2014__155_2_72_0/