Voir la notice de l'article provenant de la source Numdam
The data generated by high-throughput biotechnologies are characterized by their high-dimension and heterogeneity. Usual, tried and tested inference approaches are questioned in the statistical analysis of such data. Motivated by issues raised by the analysis of gene expressions data, I focus on the impact of dependence on the properties of multiple testing procedures in high-dimension. This article aims at presenting the main results: after introducing the issues brought by dependence among variables, the impact of dependence on the error rates and on the procedures developed to control them is more particularly studied. It results in the description of an innovative methodology based on a factor structure to model the data heterogeneity, which provides a general framework to deal with dependence in multiple testing. The proposed framework leads to less variability for error rates and consequently shows large improvements of power and stability of simultaneous inference with respect to existing multiple testing procedures. Besides, the model parameters estimation in a high-dimensional setting and the determination of the number of factors to be considered in the model are evoked. These results are then illustrated by real data from microarray experiments analyzed using the R package called FAMT.
This paper is an extended written version of my oral presentation on the same topic at the 44th Journées de Statistique organized by the French Statistical Society (SFdS) in Bruxelles, Belgium, 2012, when being awarded the Marie-Jeanne Laurent-Duhamel prize.
Les données générées par les biotechnologies haut-débit sont caractérisées par leur grande dimension et leur hétérogénéité. L’analyse statistique de ces données remet en cause y compris les approches les plus éprouvées, comme les méthodes usuelles d’inférence statistique. Cet article a pour objectif de présenter une étude de l’impact de la dépendance sur les propriétés des procédures de tests multiples en grande dimension : après une description introductive des principales problématiques liées à la présence de dépendance, les mesures de risques d’erreurs et les algorithmes permettant de contrôler ces risques lors de la mise en œuvre de procédures de tests multiples sont plus particulièrement étudiés. Cette étude analytique aboutit à la définition d’un cadre général de la prise en compte de l’hétérogénéité des données, grâce à la modélisation de la structure de dépendance par Analyse en Facteurs. L’instabilité des procédures induite par la présence de dépendance est alors réduite, procurant à la fois une augmentation de la puissance des tests et une diminution de la variabilité des taux d’erreurs. La mise en œuvre de cette méthode est également évoquée, et les résultats méthodologiques sont illustrés à partir de données génomiques, analysées à l’aide du package FAMT du logiciel libre R qui implémente les méthodes présentées précédemment.
Cet article accompagne la conférence que j’ai eu l’honneur de donner lors de la réception du prix Marie-Jeanne Laurent-Duhamel, dans le cadre des 44èmes Journées de Statistique organisées par la Société Française de Statistique à Bruxelles, en mai 2012.
@article{JSFS_2012__153_2_100_0, author = {Friguet, Chlo\'e}, title = {A general approach to account for dependence in large-scale multiple testing}, journal = {Journal de la soci\'et\'e fran\c{c}aise de statistique}, pages = {100--122}, publisher = {Soci\'et\'e fran\c{c}aise de statistique}, volume = {153}, number = {2}, year = {2012}, mrnumber = {3008601}, zbl = {1316.62111}, language = {en}, url = {http://geodesic.mathdoc.fr/item/JSFS_2012__153_2_100_0/} }
TY - JOUR AU - Friguet, Chloé TI - A general approach to account for dependence in large-scale multiple testing JO - Journal de la société française de statistique PY - 2012 SP - 100 EP - 122 VL - 153 IS - 2 PB - Société française de statistique UR - http://geodesic.mathdoc.fr/item/JSFS_2012__153_2_100_0/ LA - en ID - JSFS_2012__153_2_100_0 ER -
%0 Journal Article %A Friguet, Chloé %T A general approach to account for dependence in large-scale multiple testing %J Journal de la société française de statistique %D 2012 %P 100-122 %V 153 %N 2 %I Société française de statistique %U http://geodesic.mathdoc.fr/item/JSFS_2012__153_2_100_0/ %G en %F JSFS_2012__153_2_100_0
Friguet, Chloé. A general approach to account for dependence in large-scale multiple testing. Journal de la société française de statistique, Tome 153 (2012) no. 2, pp. 100-122. http://geodesic.mathdoc.fr/item/JSFS_2012__153_2_100_0/