Voir la notice de l'article provenant de la source Numdam
‘Omics’ data now form a core part of systems biology by enabling researchers to understand the integrated functions of a living organism. The integrative analysis of these transcriptomics, proteomics, metabolomics data that are co jointly measured on the same samples represent analytical challenges for the statistician to extract meaningful information and to circumvent the high dimension, the noisiness and the multicollinearity characteristics of these multiple data sets. In order to correctly answer the biological questions, appropriate statistical methodologies have to be used to take into account the relationships between the different functional levels. The now well known multivariate projections approaches greatly facilitate the understanding of complex data structures. In particular, PLS-based methods can address a variety of problems and provide valuable graphical outputs. These approaches are therefore an indispensable and versatile tool in the statistician’s repertoire.
Variable selection on high throughput biological data becomes inevitable to select relevant information and to propose a parsimonious model. In this article, we give a general survey on PLS before focusing on the latest developments of PLS for variable selection to deal with large omics data sets. In a specific discriminant analysis framework, we compare two variants of PLS for variable selection on a biological data set: a backward PLS based on Variable Importance in Projection (VIP) which good performances have already been demonstrated, and a recently developed sparse PLS (sPLS) based on Lasso penalization of the loading vectors.
We demonstrate the good generalization performance of sPLS, its superiority in terms of computational efficiency and underline the importance of the graphical outputs resulting from sPLS to facilitate the biological interpretation of the results.
Les données ‘Omiques’ sont largement utilisées en biologie des systèmes pour comprendre les mécanismes biologiques impliqués dans le fonctionnement des organismes vivants. L’intégration de ces données transcriptomiques, protéomiques ou métabolomiques parfois mesurées sur les mêmes échantillons représente un challenge pour le statisticien. Il doit être capable d’extraire de ces données les informations pertinentes qu’elles contiennent, tout en devant composer avec des données à grandes dimensions et souffrant fréquemment de multicolinéarité. Dans ce contexte, il est primordial d’identifier les méthodes statistiques capables de répondre correctement aux questions biologiques, mélant parfois des relations entre différents niveaux de fonctionnalité. Les techniques statistiques multivariées de projections dans des espaces réduits facilitent grandement la compréhension des structures complexes des données omiques. En particulier, les approches basées sur la méthode PLS constituent un outil indispensable à la panoplie du statisticien. Leur grande polyvalence permet d’adresser une large variété de problèmes biologiques tout en fournissant des résultats graphiques pertinents pour l’interprétation biologique.
Etant donné le grand nombre de variables considérées (gènes, protéines ...), la sélection de variables est devenue une étape inévitable. L’objectif est de sélectionner uniquement l’information pertinente afin de construire le modèle le plus parcimonieux possible. Dans cet article, nous présentons la méthode PLS puis nous mettons l’accent sur les derniers développements en matière de sélection de variables pour la PLS dans le cadre de données omiques abondantes. Deux approches de sélection de variables avec PLS sont comparées dans le cas d’une analyse discriminante appliquée à un jeu de données biologiques : une approche descendante (‘backward’) basée sur le critère du VIP (‘Variable Importance in Projection’) pour laquelle de bonnes performances ont déjà été démontrées dans la littérature et la sparse PLS (sPLS), une approche récente basée sur une pénalisation Lasso des vecteurs ‘loadings’.
La sparse PLS montre de très bonnes perfomances globales ainsi qu’une très nette supériorité en temps de calcul. Elle permet aussi de démontrer l’efficacité des représentations graphiques issues de la PLS dans l’interprétation biologique des résultats.
@article{JSFS_2011__152_2_77_0, author = {L\^e Cao, Kim-Anh and Le Gall, Caroline}, title = {Integration and variable selection of {\textquoteleft}omics{\textquoteright} data sets with {PLS:} a survey}, journal = {Journal de la soci\'et\'e fran\c{c}aise de statistique}, pages = {77--96}, publisher = {Soci\'et\'e fran\c{c}aise de statistique}, volume = {152}, number = {2}, year = {2011}, zbl = {1316.62007}, language = {en}, url = {http://geodesic.mathdoc.fr/item/JSFS_2011__152_2_77_0/} }
TY - JOUR AU - Lê Cao, Kim-Anh AU - Le Gall, Caroline TI - Integration and variable selection of ‘omics’ data sets with PLS: a survey JO - Journal de la société française de statistique PY - 2011 SP - 77 EP - 96 VL - 152 IS - 2 PB - Société française de statistique UR - http://geodesic.mathdoc.fr/item/JSFS_2011__152_2_77_0/ LA - en ID - JSFS_2011__152_2_77_0 ER -
%0 Journal Article %A Lê Cao, Kim-Anh %A Le Gall, Caroline %T Integration and variable selection of ‘omics’ data sets with PLS: a survey %J Journal de la société française de statistique %D 2011 %P 77-96 %V 152 %N 2 %I Société française de statistique %U http://geodesic.mathdoc.fr/item/JSFS_2011__152_2_77_0/ %G en %F JSFS_2011__152_2_77_0
Lê Cao, Kim-Anh; Le Gall, Caroline. Integration and variable selection of ‘omics’ data sets with PLS: a survey. Journal de la société française de statistique, Tome 152 (2011) no. 2, pp. 77-96. http://geodesic.mathdoc.fr/item/JSFS_2011__152_2_77_0/