55èmes Journées de Statistique de la SFdS

sciencesconf.org:jds2024:530702

La confidentialité est centrale dans l'utilisation des données médicales. Néanmoins, à l'heure des entrepôts de données de santé, cette contrainte freine l'exploitation des données médicales. La question de l'anonymisation est une question difficile. Le remplacement des noms par des pseudonymes ne suffit pas: il est nécessaire qu'on ne puisse pas réidentifier les patients de la base de données. Les données médicales étant coûteuses à produire, l'idée est de produire des données synthétiques à la fois anonymisées et fidèles aux données originales. L'algorithme Avatar vise à la production de données synthétiques anonymisées ; il est reconnu conforme en termes d'anonymisation par la Commission National de l'Informatique et des Libertés, sous conditions. Nous le comparerons à l'algorithme CT-GAN (conditionnal tabular generative adversial network). Nous avons décidé de considérer des métriques de fidélité (inverse de la divergence de Kullback-Leibner, p-valeur du test de Kolmogorov-Smirnov) et de confidentialité (valeur de k-anonymisation). Deux jeux de données seront utilisés dans le domaine de la transplantation rénale : un jeu de données relatif à l'effet de l'inflammation sur l'exposition au tacrolimus (médicament anti-rejet, servant à prévenir la réaction immunitaire contre le greffon) et un jeu de données de pharmacocinétique de population. Nous montrerons qu'Avatar semble avoir une bonne capacité d'anonymisation sur les jeux de données de taille moyenne (inflammation du tacrolimus), sans perdre en fidélité.

Type :	:	oral
Thématiques	:	Statistique appliquée à la médecine 1
Mots-Clés	:	anonymisation ; confidentialité ; Avatar ; données génératives ; médecine

Poster

Vie privée | Accessibilité