Revue Bibliographique des Méthodes de Couplage des Bases de Données : Applications et Perspectives dans le Cas des Données de Santé Publique
Journal de la société française de statistique, Tome 159 (2018) no. 3, pp. 79-123

Voir la notice de l'article provenant de la source Numdam

Le couplage des bases de données est un enjeu important en santé publique, particulièrement en cette période de multiplication des bases de données administratives et de cohortes ( Loth, 2015 ). Cette procédure consiste à faire correspondre des informations concernant un individu issues de base de données différentes sans pouvoir utiliser un identifiant unique. En France, dans le cas des données médicales et administratives, le Numéro d’Identification au Répertoire (NIR) est un exemple d’identifiant susceptible d’être utilisé pour servir de clé de couplage. Cependant ce dernier restera, en dépit de la loi du 26 janvier 2016 de modernisation de notre système de santé, difficile d’accès en raison de sa qualité d’identifiant direct commun à de nombreuses bases de données. Nous présentons les méthodes de chaînage susceptibles d’être utilisées par des chercheurs, en nous concentrant sur le modèle génératif de Fellegi et Sunter qui est une approche non supervisée, ainsi que sur quelques méthodes issues de l’apprentissage statistique. Enfin nous présentons rapidement différentes approches pour réaliser une analyse statistique sur des données appariées et comment répercuter l’incertitude de l’appariement dans l’analyse.

Record linkage has become a powerful tool for public health, since the rise of medical and administrative database or cohort ( Loth, 2015 ). This process allows matching individual’s information obtained from different databases which don’t have necessarily a common identifier. Furthermore, if such common identifier exists it could take a long time to obtain the necessary approval to use it. In France, the NIR is the identifier which is the most likely to be an identifier at the national level. However, in order to use the NIR, it is still compulsory to obtain the authorization from the CNIL even after the change of law concerning the modernization of the French Healthcare system. This paper presents a broad set of methods to perform record linkage, in particular the method proposed by Fellegi and Sunter and its extensions. The aim is to give some guidelines to researchers and to introduce some approaches to incorporate uncertainty associated with the linkage in their analysis.

Mots-clés : couplage/appariement indirect, bases de données médicales et administratives, réseau bayésien naïf, modèle mixte
Keywords: record linkage, healthcare database, naive bayes network, mixed model
@article{JSFS_2018__159_3_79_0,
     author = {Bounebache, Said Karim and Quantin, Catherine and Benzenine, \'Eric and Obozinski, Guillaume and Rey, Gr\'egoire},
     title = {Revue {Bibliographique} des {M\'ethodes} de  {Couplage} des {Bases} de {Donn\'ees~:} {Applications} et {Perspectives} dans le  {Cas} des {Donn\'ees} de {Sant\'e} {Publique}},
     journal = {Journal de la soci\'et\'e fran\c{c}aise de statistique},
     pages = {79--123},
     publisher = {Soci\'et\'e fran\c{c}aise de statistique},
     volume = {159},
     number = {3},
     year = {2018},
     mrnumber = {3901137},
     zbl = {1411.62313},
     language = {fr},
     url = {http://geodesic.mathdoc.fr/item/JSFS_2018__159_3_79_0/}
}
TY  - JOUR
AU  - Bounebache, Said Karim
AU  - Quantin, Catherine
AU  - Benzenine, Éric
AU  - Obozinski, Guillaume
AU  - Rey, Grégoire
TI  - Revue Bibliographique des Méthodes de  Couplage des Bases de Données : Applications et Perspectives dans le  Cas des Données de Santé Publique
JO  - Journal de la société française de statistique
PY  - 2018
SP  - 79
EP  - 123
VL  - 159
IS  - 3
PB  - Société française de statistique
UR  - http://geodesic.mathdoc.fr/item/JSFS_2018__159_3_79_0/
LA  - fr
ID  - JSFS_2018__159_3_79_0
ER  - 
%0 Journal Article
%A Bounebache, Said Karim
%A Quantin, Catherine
%A Benzenine, Éric
%A Obozinski, Guillaume
%A Rey, Grégoire
%T Revue Bibliographique des Méthodes de  Couplage des Bases de Données : Applications et Perspectives dans le  Cas des Données de Santé Publique
%J Journal de la société française de statistique
%D 2018
%P 79-123
%V 159
%N 3
%I Société française de statistique
%U http://geodesic.mathdoc.fr/item/JSFS_2018__159_3_79_0/
%G fr
%F JSFS_2018__159_3_79_0
Bounebache, Said Karim; Quantin, Catherine; Benzenine, Éric; Obozinski, Guillaume; Rey, Grégoire. Revue Bibliographique des Méthodes de  Couplage des Bases de Données : Applications et Perspectives dans le  Cas des Données de Santé Publique. Journal de la société française de statistique, Tome 159 (2018) no. 3, pp. 79-123. http://geodesic.mathdoc.fr/item/JSFS_2018__159_3_79_0/