Voir la notice de l'article provenant de la source Numdam
Regularization is an important theme in statistics and machine earning and provides a principled way to address problems which would otherwise be ill-posed. It can be thought of as restriction of the set of functions in which an empirical risk minimization is performed. If the original empirical risk minimization problem is ill-posed in the sense that it admits several solutions or that the solution is very sensitive to small changes in the data, constraining the optimization to a small set of functions is known to sometimes yield better estimates of the true (population) risk minimizer. In particular, when one expects a good estimate to have a certain type of regularity, using this measure of regularity to build the constraint can decrease the variance of the estimator without adding too much bias. In a context of growing availability of biological data from high-throughput technologies like microarrays or next generation sequencing, being able to apply statistical learning methods to predict which treatment is best suited to a patient or how his disease is likely to evolve is of utmost importance. Since in practical situations few samples are available compared to the dimension of the data (typically tenth of thousand of measures), designing adequate regularity measures from biological prior information is important to make these problems amenable to statistical learning. Several such measures have been proposed in the recent years to address particular problems. In this work, we review some of these methods. We also present in more detail one of them, designed to enforce the support of a linear function to be a union of predefined overlapping groups of covariates, and discuss its performances on a breast cancer dataset.
La régularisation est un thème important en statistiques apprentissage automatique. Elle fournit un cadre général rigoureux pour résoudre des problèmes qui seraient autrement mal posés. On peut la présenter comme la restriction de l’ensemble des fonctions dans lequel on applique une minimisation du risque empirique. Lorsque le problème de minimisation du risque empirique est mal posé, dans le sens où il n’admet pas de solution unique ou que celle-ci est très sensible à de petits changements dans les données, contraindre l’optimisation dans un petit ensemble de fonctions améliore parfois l’estimation du minimum du vrai risque (en population). En particulier, si l’on s’attend à ce qu’un bon estimateur possède un certain type de régularité, utiliser cette mesure de régularité pour construire la contrainte peut permettre de diminuer la variance de l’estimateur sans pour autant trop augmenter son biais. La disponibilité grandissante des données biologiques issues de technologies dites à haut débit, telles que les puces à ADN ou le séquençage à haut débit rendent possible l’utilisation de méthodes d’apprentissage statistique pour prédire le traitement le plus adapté à un patient ou l’évolution la plus vraisemblable de sa maladie. Ces applications fondamentales sont limitées par le fait que peu d’échantillons sont généralement disponibles comparé à la dimension des données (typiquement des dizaines de milliers de mesures). La conception de mesures de régularité adaptées à ces problèmes est donc nécessaire. De nombreuses mesures, adaptées à des problèmes variés ont été récemment proposées. Nous proposons une revue de ces méthodes, et présentons plus en détail l’une d’entre elles, conçue pour contraindre le support de l’estimateur à une union de groupes de variables potentiellement chevauchants définis a priori. Nous présentons et discutons également ses performances sur un problème de prédiction impliquant des données de cancer du sein.
@article{JSFS_2011__152_2_51_0, author = {Jacob, Laurent}, title = {Regularized learning in bioinformatics}, journal = {Journal de la soci\'et\'e fran\c{c}aise de statistique}, pages = {51--76}, publisher = {Soci\'et\'e fran\c{c}aise de statistique}, volume = {152}, number = {2}, year = {2011}, zbl = {1316.62156}, language = {en}, url = {http://geodesic.mathdoc.fr/item/JSFS_2011__152_2_51_0/} }
TY - JOUR AU - Jacob, Laurent TI - Regularized learning in bioinformatics JO - Journal de la société française de statistique PY - 2011 SP - 51 EP - 76 VL - 152 IS - 2 PB - Société française de statistique UR - http://geodesic.mathdoc.fr/item/JSFS_2011__152_2_51_0/ LA - en ID - JSFS_2011__152_2_51_0 ER -
Jacob, Laurent. Regularized learning in bioinformatics. Journal de la société française de statistique, Tome 152 (2011) no. 2, pp. 51-76. http://geodesic.mathdoc.fr/item/JSFS_2011__152_2_51_0/