cnrs mastodons medclean 2016-2018 · 2019-06-18 · angela bonifati1 bastien rance2,3 1- cnrs liris...
TRANSCRIPT
![Page 1: CNRS Mastodons MedClean 2016-2018 · 2019-06-18 · Angela Bonifati1 Bastien Rance2,3 1- CNRS Liris - Université de Lyon 2- AP-HP; Hôpital Européen Georges Pompidou 3- Université](https://reader036.vdocuments.mx/reader036/viewer/2022081611/5f0d45097e708231d43982ba/html5/thumbnails/1.jpg)
Angela Bonifati1
Bastien Rance2,3
1- CNRS Liris - Université de Lyon2- AP-HP; Hôpital Européen Georges Pompidou3- Université Paris Descartes - Faculté de médecine
CNRS Mastodons MedClean (2016-2018) Nettoyage et transformation virtuels des grandes masses de données médicales et des sciences du vivant
![Page 2: CNRS Mastodons MedClean 2016-2018 · 2019-06-18 · Angela Bonifati1 Bastien Rance2,3 1- CNRS Liris - Université de Lyon 2- AP-HP; Hôpital Européen Georges Pompidou 3- Université](https://reader036.vdocuments.mx/reader036/viewer/2022081611/5f0d45097e708231d43982ba/html5/thumbnails/2.jpg)
MedClean: Partenaires- A. Bonifati (PI), LIRIS (Laboratoire d’Informatique en Images et Systèmes d’Information), Lyon
- A. Burgun, Assistance Publique – Hôpitaux de Paris, HEGP; Centre de Recherche des Cordeliers, INSERM, Paris
- P. Bourdoncle, Imagerie Cellulaire, INSB CNRS, Paris
- F. Toumani, LIMOS (Laboratoire d’Informatique, de Modélisation etd’Optimisation des Systèmes), Clermont-Ferrand
- S. Benbernou, LIPADE (Laboratoire d’Informatique Paris Descartes),Paris
2
![Page 3: CNRS Mastodons MedClean 2016-2018 · 2019-06-18 · Angela Bonifati1 Bastien Rance2,3 1- CNRS Liris - Université de Lyon 2- AP-HP; Hôpital Européen Georges Pompidou 3- Université](https://reader036.vdocuments.mx/reader036/viewer/2022081611/5f0d45097e708231d43982ba/html5/thumbnails/3.jpg)
MedClean: Bilan des 3 années - Des publications communes (Liris/HEGP): article CMPB18 dédié à la qualité de données cliniques
- Release d’un prototype pour la détection des anomalies des données cliniques (https://npm.pkg.github.com/equipe22/BioQuality)
-Organisation de 2 éditions du Workshop DaQuaTA (Data Quality: From Theory to Applications) à Lyon en 2016 et 2017 (> 45 participants)
- Action multi-disciplinaire Arquads dans le cadre du GDR Madics (Angela, Bastien, L. Berti-Equille et A. Hadjali)
- Acceptation (en Juillet 2018) d’un projet ANR PRCE QualiHealth (nous allons continuer!)
![Page 4: CNRS Mastodons MedClean 2016-2018 · 2019-06-18 · Angela Bonifati1 Bastien Rance2,3 1- CNRS Liris - Université de Lyon 2- AP-HP; Hôpital Européen Georges Pompidou 3- Université](https://reader036.vdocuments.mx/reader036/viewer/2022081611/5f0d45097e708231d43982ba/html5/thumbnails/4.jpg)
Vie du patient
Séjours hospitaliers Données
cliniques
Données de laboratoire de biologie
(bilan sanguin, dosage de médicaments…)
Diagnostics des séjours(utilisés pour le
financement des hôpitaux – T2AA)
Patient Date et heure Nature de la données Valeur
Patient Date et heure Nature de la données Valeur
Patient Date et heure Nature de la données Valeur
Entrepôts de données cliniques
Données cliniques
![Page 5: CNRS Mastodons MedClean 2016-2018 · 2019-06-18 · Angela Bonifati1 Bastien Rance2,3 1- CNRS Liris - Université de Lyon 2- AP-HP; Hôpital Européen Georges Pompidou 3- Université](https://reader036.vdocuments.mx/reader036/viewer/2022081611/5f0d45097e708231d43982ba/html5/thumbnails/5.jpg)
Clinical Data WarehouseClinical Data Warehouse
(CDW)
DiagnosisClinical itemsBilling codesBiology (lab)
Nurse transmissionImaging reports
Pathology reportsDrug prescription
Chemotherapy
Standardized formatQueryable
Electronic Health Record(EHR)
Biobank Radiotherapy
5
![Page 6: CNRS Mastodons MedClean 2016-2018 · 2019-06-18 · Angela Bonifati1 Bastien Rance2,3 1- CNRS Liris - Université de Lyon 2- AP-HP; Hôpital Européen Georges Pompidou 3- Université](https://reader036.vdocuments.mx/reader036/viewer/2022081611/5f0d45097e708231d43982ba/html5/thumbnails/6.jpg)
Clinical Data Warehouse at HEGP
Unstructured data: transformation is needed before reuse
Concept # patients # observationsEHR concepts 602,198 124,852,989
Biology (Laboratory) 452,006 132,525,661
Nursing transmission 309,322 18,495,958
Billing (disease) codes
396,285 8,183,118
Rx prescription 191,531 7,243,484
Text reports 546,725 4,039,333
Imaging reports 351,702 1,325,270
Pathology codes 98,401 1,496,635
6
![Page 7: CNRS Mastodons MedClean 2016-2018 · 2019-06-18 · Angela Bonifati1 Bastien Rance2,3 1- CNRS Liris - Université de Lyon 2- AP-HP; Hôpital Européen Georges Pompidou 3- Université](https://reader036.vdocuments.mx/reader036/viewer/2022081611/5f0d45097e708231d43982ba/html5/thumbnails/7.jpg)
Data Conformity
Mes valeurs sont-elles conformes au format attendu ?
Complete-ness
Consiste-
ncy
Les valeurs sont-elles celles que l’on attends ? (Reglès d’integrité, Contraintes)
Glitches in Analysis
Tamraparni Dasu, Theodore Johnson: Exploratory Data Mining and Data Cleaning. John Wiley 2003, ISBN 0-471-26851-8
Quel est l’impacte des données bruitées sur le diagnostique ?
![Page 8: CNRS Mastodons MedClean 2016-2018 · 2019-06-18 · Angela Bonifati1 Bastien Rance2,3 1- CNRS Liris - Université de Lyon 2- AP-HP; Hôpital Européen Georges Pompidou 3- Université](https://reader036.vdocuments.mx/reader036/viewer/2022081611/5f0d45097e708231d43982ba/html5/thumbnails/8.jpg)
Glitches in Analysis
Definition adaptée aux données cliniques
It corresponds to the propagation of glitches in raw data to glitches in the analytical queries posed on such data and, subsequently in our respective domains, to glitches in the complex research studies built upon such queries in order to aid diagnosis in medicine or, generally speaking, medical research.
![Page 9: CNRS Mastodons MedClean 2016-2018 · 2019-06-18 · Angela Bonifati1 Bastien Rance2,3 1- CNRS Liris - Université de Lyon 2- AP-HP; Hôpital Européen Georges Pompidou 3- Université](https://reader036.vdocuments.mx/reader036/viewer/2022081611/5f0d45097e708231d43982ba/html5/thumbnails/9.jpg)
Data Conformity/Missingness
Exemple de requête dans CDW
Find the patients affected by a cancer type corresponding to the disease code CIM10:C50 (breast cancer) and one of the possible CCAM billing codes for whom the clinicians have entered a record in the case report form having number 20097, who underwent a surgery on a date which is sufficiently close to thedate of diagnosis, and who exhibit an hemoglobin value lesser than 12 in their latest blood test.
Data Validity
Completeness/Glitches in Analysis
Inconsistency
Glitches in Analysis
![Page 10: CNRS Mastodons MedClean 2016-2018 · 2019-06-18 · Angela Bonifati1 Bastien Rance2,3 1- CNRS Liris - Université de Lyon 2- AP-HP; Hôpital Européen Georges Pompidou 3- Université](https://reader036.vdocuments.mx/reader036/viewer/2022081611/5f0d45097e708231d43982ba/html5/thumbnails/10.jpg)
Exemple de requête (SQL) dans CDW
![Page 11: CNRS Mastodons MedClean 2016-2018 · 2019-06-18 · Angela Bonifati1 Bastien Rance2,3 1- CNRS Liris - Université de Lyon 2- AP-HP; Hôpital Européen Georges Pompidou 3- Université](https://reader036.vdocuments.mx/reader036/viewer/2022081611/5f0d45097e708231d43982ba/html5/thumbnails/11.jpg)
Exemple de requête (SQL) dans CDW
![Page 12: CNRS Mastodons MedClean 2016-2018 · 2019-06-18 · Angela Bonifati1 Bastien Rance2,3 1- CNRS Liris - Université de Lyon 2- AP-HP; Hôpital Européen Georges Pompidou 3- Université](https://reader036.vdocuments.mx/reader036/viewer/2022081611/5f0d45097e708231d43982ba/html5/thumbnails/12.jpg)
Pour commencer, visualisation des données
Volume plaquétaire moyen
![Page 13: CNRS Mastodons MedClean 2016-2018 · 2019-06-18 · Angela Bonifati1 Bastien Rance2,3 1- CNRS Liris - Université de Lyon 2- AP-HP; Hôpital Européen Georges Pompidou 3- Université](https://reader036.vdocuments.mx/reader036/viewer/2022081611/5f0d45097e708231d43982ba/html5/thumbnails/13.jpg)
Des événements remarquables
Breakpoint
![Page 14: CNRS Mastodons MedClean 2016-2018 · 2019-06-18 · Angela Bonifati1 Bastien Rance2,3 1- CNRS Liris - Université de Lyon 2- AP-HP; Hôpital Européen Georges Pompidou 3- Université](https://reader036.vdocuments.mx/reader036/viewer/2022081611/5f0d45097e708231d43982ba/html5/thumbnails/14.jpg)
Des événements remarquables
Discretisation
![Page 15: CNRS Mastodons MedClean 2016-2018 · 2019-06-18 · Angela Bonifati1 Bastien Rance2,3 1- CNRS Liris - Université de Lyon 2- AP-HP; Hôpital Européen Georges Pompidou 3- Université](https://reader036.vdocuments.mx/reader036/viewer/2022081611/5f0d45097e708231d43982ba/html5/thumbnails/15.jpg)
Des événements remarquablesChangements de tendance
![Page 16: CNRS Mastodons MedClean 2016-2018 · 2019-06-18 · Angela Bonifati1 Bastien Rance2,3 1- CNRS Liris - Université de Lyon 2- AP-HP; Hôpital Européen Georges Pompidou 3- Université](https://reader036.vdocuments.mx/reader036/viewer/2022081611/5f0d45097e708231d43982ba/html5/thumbnails/16.jpg)
Enjeux sur la réutilisation des données : besoin d’annotations
Facteurs externes
Pratiques de codage et facturation
Organisation des soins : nationale, régionale, locale
Facteurs internes (épidémiologie)
Epidémie Evolution des
traitements Phénomènes
épidémiologiques globaux vs. Phénomènes locaux
![Page 17: CNRS Mastodons MedClean 2016-2018 · 2019-06-18 · Angela Bonifati1 Bastien Rance2,3 1- CNRS Liris - Université de Lyon 2- AP-HP; Hôpital Européen Georges Pompidou 3- Université](https://reader036.vdocuments.mx/reader036/viewer/2022081611/5f0d45097e708231d43982ba/html5/thumbnails/17.jpg)
Données PMSI national
Codes diagnosticsClassification Internationale des Maladie – 10e version (ICD-10)
Hiérarchie de concepts
C Tumeur maligneC34 Tumeur maligne des bronches et du poumonC34.1 Tumeur maligne du lobe supérieur, bronches ou poumon
Utilisés pour le financement des hôpitauxBiais dans les données raisons intrinsèques et extrinsèques
Données structurées facilement réutilisablesIntégré dans le PMSI (Programme Médicalisé des Systèmes d’Information)
![Page 18: CNRS Mastodons MedClean 2016-2018 · 2019-06-18 · Angela Bonifati1 Bastien Rance2,3 1- CNRS Liris - Université de Lyon 2- AP-HP; Hôpital Européen Georges Pompidou 3- Université](https://reader036.vdocuments.mx/reader036/viewer/2022081611/5f0d45097e708231d43982ba/html5/thumbnails/18.jpg)
Des facteurs extrinsèques …
Fréquence relative du code C54 pour un mois
![Page 19: CNRS Mastodons MedClean 2016-2018 · 2019-06-18 · Angela Bonifati1 Bastien Rance2,3 1- CNRS Liris - Université de Lyon 2- AP-HP; Hôpital Européen Georges Pompidou 3- Université](https://reader036.vdocuments.mx/reader036/viewer/2022081611/5f0d45097e708231d43982ba/html5/thumbnails/19.jpg)
C53 : Tumeur maligne du col de l'utérusC54 : Tumeur maligne du corps de l'utérusC55 : Tumeur maligne de l'utérus, partie non précisée
Des facteurs extrinsèques …
![Page 20: CNRS Mastodons MedClean 2016-2018 · 2019-06-18 · Angela Bonifati1 Bastien Rance2,3 1- CNRS Liris - Université de Lyon 2- AP-HP; Hôpital Européen Georges Pompidou 3- Université](https://reader036.vdocuments.mx/reader036/viewer/2022081611/5f0d45097e708231d43982ba/html5/thumbnails/20.jpg)
E43: Malnutrition protéino-énergétique grave, sans précision (Sev. 3)E44 : Malnutrition protéino-énergétique légère ou modérée
(dont E440 (Sev. 3) et E442 (Sev.2))E46 : Malnutrition protéino-énergétique, sans précision (Sev. 2)
![Page 21: CNRS Mastodons MedClean 2016-2018 · 2019-06-18 · Angela Bonifati1 Bastien Rance2,3 1- CNRS Liris - Université de Lyon 2- AP-HP; Hôpital Européen Georges Pompidou 3- Université](https://reader036.vdocuments.mx/reader036/viewer/2022081611/5f0d45097e708231d43982ba/html5/thumbnails/21.jpg)
Serum Creatinine Levels Before, During, and After Pregnancy. Harel Z, McArthur E, Hladunewich M, et al. JAMA. 2019;321(2):205–207. doi:10.1001/jama.2018.17948
Qu’est ce qu’une valeur normale ?
![Page 22: CNRS Mastodons MedClean 2016-2018 · 2019-06-18 · Angela Bonifati1 Bastien Rance2,3 1- CNRS Liris - Université de Lyon 2- AP-HP; Hôpital Européen Georges Pompidou 3- Université](https://reader036.vdocuments.mx/reader036/viewer/2022081611/5f0d45097e708231d43982ba/html5/thumbnails/22.jpg)
What can Millions of Laboratory Test Results Tell Us about the Temporal Aspect of Data Quality? Study of Data Spanning 17
Years in a Clinical Data Warehouse
• Quelles données ?Données de biologie
Issues de l’entrepôt de données de l’HEGP
Entre 2000 et 2017
• Qu’est ce que l’on propose d’explorer ?Décrire leurs évolutions
Chercher des patterns d’évolution
V. Looten, L. Kong Win Chang, A. Neuraz, MA. Landau-Loriot, B. Vedie, JL. Paul, L. Mauge, N. Rivet, A. Bonifati, G. Chatellier, A. Burgun, B. Rance
Computer Methods and Programs in Biomedicine, 2018ISSN 0169-2607, doi:10.1016/j.cmpb.2018.12.030
![Page 23: CNRS Mastodons MedClean 2016-2018 · 2019-06-18 · Angela Bonifati1 Bastien Rance2,3 1- CNRS Liris - Université de Lyon 2- AP-HP; Hôpital Européen Georges Pompidou 3- Université](https://reader036.vdocuments.mx/reader036/viewer/2022081611/5f0d45097e708231d43982ba/html5/thumbnails/23.jpg)
Pattern temporelle et données de biologie : méthodes
• Détection des phénomènes de discrétisation– Calcul des fréquences de chiffres selon leur position
– Détection via une mesure cosine s’appuyant sur la loi de Benford
• Détection des breakpoints : – Pruned Exact Linear Time (PELT) de Killick et al.
– Un algorithme récursif s’appuyant sur une fonction de coût
– On peut détecter les changements de moyennes ou de variances.
• Détection des tendances– Régressions part partie sur la médiane
Killick R, Fearnhead P, Eckley IA. Optimal Detection of Changepoints With a Linear Computational Cost. JDOI: 10.1080/01621459.2012.737745
![Page 24: CNRS Mastodons MedClean 2016-2018 · 2019-06-18 · Angela Bonifati1 Bastien Rance2,3 1- CNRS Liris - Université de Lyon 2- AP-HP; Hôpital Européen Georges Pompidou 3- Université](https://reader036.vdocuments.mx/reader036/viewer/2022081611/5f0d45097e708231d43982ba/html5/thumbnails/24.jpg)
Résultats
![Page 25: CNRS Mastodons MedClean 2016-2018 · 2019-06-18 · Angela Bonifati1 Bastien Rance2,3 1- CNRS Liris - Université de Lyon 2- AP-HP; Hôpital Européen Georges Pompidou 3- Université](https://reader036.vdocuments.mx/reader036/viewer/2022081611/5f0d45097e708231d43982ba/html5/thumbnails/25.jpg)
Résultats
Category* # of biological parameters
Example of laboratory parameter impacted
Discretization 32 (16.7%) Erythrocytes
Breakpoints 30 (15.6%) Mean platelet volume
Trends 79 (41.1%) HDL Cholesterol
![Page 26: CNRS Mastodons MedClean 2016-2018 · 2019-06-18 · Angela Bonifati1 Bastien Rance2,3 1- CNRS Liris - Université de Lyon 2- AP-HP; Hôpital Européen Georges Pompidou 3- Université](https://reader036.vdocuments.mx/reader036/viewer/2022081611/5f0d45097e708231d43982ba/html5/thumbnails/26.jpg)
Identification des causes ?
• Causes extrinsèques – Changement d’automate de mesure
– Changement d’algorithme de calcul
– Changement de SGL
– …
• Causes intrinsèques– Evolution de la pratique médicale
– Evolution de la population
– …
![Page 27: CNRS Mastodons MedClean 2016-2018 · 2019-06-18 · Angela Bonifati1 Bastien Rance2,3 1- CNRS Liris - Université de Lyon 2- AP-HP; Hôpital Européen Georges Pompidou 3- Université](https://reader036.vdocuments.mx/reader036/viewer/2022081611/5f0d45097e708231d43982ba/html5/thumbnails/27.jpg)
Travaux en Cours entre les Partenaires (ANR QualiHealth)
• Thèse sur “Inconsistency-aware Query Answering” entre le Limos et le Liris
• Stage M1 entre le Liris et HEGP sur le data profiling de données cliniques
– Recherche de FDs et genuine FDs
• Stage M2 entre UBC (Canada), Liris et HEGP– Clustering de Séries Temporelles Cliniques
• Embauche d’un doctorant Liris par les partenaires du LIS (bourse Postdoc)
![Page 28: CNRS Mastodons MedClean 2016-2018 · 2019-06-18 · Angela Bonifati1 Bastien Rance2,3 1- CNRS Liris - Université de Lyon 2- AP-HP; Hôpital Européen Georges Pompidou 3- Université](https://reader036.vdocuments.mx/reader036/viewer/2022081611/5f0d45097e708231d43982ba/html5/thumbnails/28.jpg)
Conclusion: MedClean • Approche pragmatique pour détecter des patterns
d’évolution
- Approche visuelle
- Algorithmes de détection dédiés
• Nous avons seulement creusé les données des examens biologiques (papier CMPB 2018)
• Plusieurs données dans CDW restent inexplorées (dont l’ANR)
Séries temporelles Metadonnées sur les images Données inconsistantes/manquantes
![Page 29: CNRS Mastodons MedClean 2016-2018 · 2019-06-18 · Angela Bonifati1 Bastien Rance2,3 1- CNRS Liris - Université de Lyon 2- AP-HP; Hôpital Européen Georges Pompidou 3- Université](https://reader036.vdocuments.mx/reader036/viewer/2022081611/5f0d45097e708231d43982ba/html5/thumbnails/29.jpg)
MERCI DE VOTRE ATTENTION