Voir la notice de l'article provenant de la source Numdam
Le couplage des bases de données est un enjeu important en santé publique, particulièrement en cette période de multiplication des bases de données administratives et de cohortes ( Loth, 2015 ). Cette procédure consiste à faire correspondre des informations concernant un individu issues de base de données différentes sans pouvoir utiliser un identifiant unique. En France, dans le cas des données médicales et administratives, le Numéro d’Identification au Répertoire (NIR) est un exemple d’identifiant susceptible d’être utilisé pour servir de clé de couplage. Cependant ce dernier restera, en dépit de la loi du 26 janvier 2016 de modernisation de notre système de santé, difficile d’accès en raison de sa qualité d’identifiant direct commun à de nombreuses bases de données. Nous présentons les méthodes de chaînage susceptibles d’être utilisées par des chercheurs, en nous concentrant sur le modèle génératif de Fellegi et Sunter qui est une approche non supervisée, ainsi que sur quelques méthodes issues de l’apprentissage statistique. Enfin nous présentons rapidement différentes approches pour réaliser une analyse statistique sur des données appariées et comment répercuter l’incertitude de l’appariement dans l’analyse.
Record linkage has become a powerful tool for public health, since the rise of medical and administrative database or cohort ( Loth, 2015 ). This process allows matching individual’s information obtained from different databases which don’t have necessarily a common identifier. Furthermore, if such common identifier exists it could take a long time to obtain the necessary approval to use it. In France, the NIR is the identifier which is the most likely to be an identifier at the national level. However, in order to use the NIR, it is still compulsory to obtain the authorization from the CNIL even after the change of law concerning the modernization of the French Healthcare system. This paper presents a broad set of methods to perform record linkage, in particular the method proposed by Fellegi and Sunter and its extensions. The aim is to give some guidelines to researchers and to introduce some approaches to incorporate uncertainty associated with the linkage in their analysis.
@article{JSFS_2018__159_3_79_0, author = {Bounebache, Said Karim and Quantin, Catherine and Benzenine, \'Eric and Obozinski, Guillaume and Rey, Gr\'egoire}, title = {Revue {Bibliographique} des {M\'ethodes} de {Couplage} des {Bases} de {Donn\'ees~:} {Applications} et {Perspectives} dans le {Cas} des {Donn\'ees} de {Sant\'e} {Publique}}, journal = {Journal de la soci\'et\'e fran\c{c}aise de statistique}, pages = {79--123}, publisher = {Soci\'et\'e fran\c{c}aise de statistique}, volume = {159}, number = {3}, year = {2018}, mrnumber = {3901137}, zbl = {1411.62313}, language = {fr}, url = {http://geodesic.mathdoc.fr/item/JSFS_2018__159_3_79_0/} }
TY - JOUR AU - Bounebache, Said Karim AU - Quantin, Catherine AU - Benzenine, Éric AU - Obozinski, Guillaume AU - Rey, Grégoire TI - Revue Bibliographique des Méthodes de Couplage des Bases de Données : Applications et Perspectives dans le Cas des Données de Santé Publique JO - Journal de la société française de statistique PY - 2018 SP - 79 EP - 123 VL - 159 IS - 3 PB - Société française de statistique UR - http://geodesic.mathdoc.fr/item/JSFS_2018__159_3_79_0/ LA - fr ID - JSFS_2018__159_3_79_0 ER -
%0 Journal Article %A Bounebache, Said Karim %A Quantin, Catherine %A Benzenine, Éric %A Obozinski, Guillaume %A Rey, Grégoire %T Revue Bibliographique des Méthodes de Couplage des Bases de Données : Applications et Perspectives dans le Cas des Données de Santé Publique %J Journal de la société française de statistique %D 2018 %P 79-123 %V 159 %N 3 %I Société française de statistique %U http://geodesic.mathdoc.fr/item/JSFS_2018__159_3_79_0/ %G fr %F JSFS_2018__159_3_79_0
Bounebache, Said Karim; Quantin, Catherine; Benzenine, Éric; Obozinski, Guillaume; Rey, Grégoire. Revue Bibliographique des Méthodes de Couplage des Bases de Données : Applications et Perspectives dans le Cas des Données de Santé Publique. Journal de la société française de statistique, Tome 159 (2018) no. 3, pp. 79-123. http://geodesic.mathdoc.fr/item/JSFS_2018__159_3_79_0/