A general approach to account for dependence in large-scale multiple testing
[Un cadre global pour la prise en compte de la dépendance dans les procédures de tests multiples en grande dimension]
Journal de la société française de statistique, Tome 153 (2012) no. 2, pp. 100-122

Voir la notice de l'article provenant de la source Numdam

The data generated by high-throughput biotechnologies are characterized by their high-dimension and heterogeneity. Usual, tried and tested inference approaches are questioned in the statistical analysis of such data. Motivated by issues raised by the analysis of gene expressions data, I focus on the impact of dependence on the properties of multiple testing procedures in high-dimension. This article aims at presenting the main results: after introducing the issues brought by dependence among variables, the impact of dependence on the error rates and on the procedures developed to control them is more particularly studied. It results in the description of an innovative methodology based on a factor structure to model the data heterogeneity, which provides a general framework to deal with dependence in multiple testing. The proposed framework leads to less variability for error rates and consequently shows large improvements of power and stability of simultaneous inference with respect to existing multiple testing procedures. Besides, the model parameters estimation in a high-dimensional setting and the determination of the number of factors to be considered in the model are evoked. These results are then illustrated by real data from microarray experiments analyzed using the R package called FAMT.

This paper is an extended written version of my oral presentation on the same topic at the 44th Journées de Statistique organized by the French Statistical Society (SFdS) in Bruxelles, Belgium, 2012, when being awarded the Marie-Jeanne Laurent-Duhamel prize.

Les données générées par les biotechnologies haut-débit sont caractérisées par leur grande dimension et leur hétérogénéité. L’analyse statistique de ces données remet en cause y compris les approches les plus éprouvées, comme les méthodes usuelles d’inférence statistique. Cet article a pour objectif de présenter une étude de l’impact de la dépendance sur les propriétés des procédures de tests multiples en grande dimension : après une description introductive des principales problématiques liées à la présence de dépendance, les mesures de risques d’erreurs et les algorithmes permettant de contrôler ces risques lors de la mise en œuvre de procédures de tests multiples sont plus particulièrement étudiés. Cette étude analytique aboutit à la définition d’un cadre général de la prise en compte de l’hétérogénéité des données, grâce à la modélisation de la structure de dépendance par Analyse en Facteurs. L’instabilité des procédures induite par la présence de dépendance est alors réduite, procurant à la fois une augmentation de la puissance des tests et une diminution de la variabilité des taux d’erreurs. La mise en œuvre de cette méthode est également évoquée, et les résultats méthodologiques sont illustrés à partir de données génomiques, analysées à l’aide du package FAMT du logiciel libre R qui implémente les méthodes présentées précédemment.

Cet article accompagne la conférence que j’ai eu l’honneur de donner lors de la réception du prix Marie-Jeanne Laurent-Duhamel, dans le cadre des 44èmes Journées de Statistique organisées par la Société Française de Statistique à Bruxelles, en mai 2012.

Keywords: Multiple testing, Dependence, High-dimension, Error rates, Factor Analysis, Proportion of null hypotheses
Mots-clés : Tests multiples, Dépendance, Grande dimension, Taux d’erreurs, Analyse en facteurs, Proportion d’hypothèses nulles
@article{JSFS_2012__153_2_100_0,
     author = {Friguet, Chlo\'e},
     title = {A general approach to account for dependence in large-scale multiple testing},
     journal = {Journal de la soci\'et\'e fran\c{c}aise de statistique},
     pages = {100--122},
     publisher = {Soci\'et\'e fran\c{c}aise de statistique},
     volume = {153},
     number = {2},
     year = {2012},
     mrnumber = {3008601},
     zbl = {1316.62111},
     language = {en},
     url = {http://geodesic.mathdoc.fr/item/JSFS_2012__153_2_100_0/}
}
TY  - JOUR
AU  - Friguet, Chloé
TI  - A general approach to account for dependence in large-scale multiple testing
JO  - Journal de la société française de statistique
PY  - 2012
SP  - 100
EP  - 122
VL  - 153
IS  - 2
PB  - Société française de statistique
UR  - http://geodesic.mathdoc.fr/item/JSFS_2012__153_2_100_0/
LA  - en
ID  - JSFS_2012__153_2_100_0
ER  - 
%0 Journal Article
%A Friguet, Chloé
%T A general approach to account for dependence in large-scale multiple testing
%J Journal de la société française de statistique
%D 2012
%P 100-122
%V 153
%N 2
%I Société française de statistique
%U http://geodesic.mathdoc.fr/item/JSFS_2012__153_2_100_0/
%G en
%F JSFS_2012__153_2_100_0
Friguet, Chloé. A general approach to account for dependence in large-scale multiple testing. Journal de la société française de statistique, Tome 153 (2012) no. 2, pp. 100-122. http://geodesic.mathdoc.fr/item/JSFS_2012__153_2_100_0/