cnrs mastodons medclean 2016-2018 · 2019-06-18 · angela bonifati1 bastien rance2,3 1- cnrs liris...

29
Angela Bonifa 1 Basen Rance 2,3 1- CNRS Liris - Université de Lyon 2- AP-HP; Hôpital Européen Georges Pompidou 3- Université Paris Descartes - Faculté de médecine CNRS Mastodons MedClean (2016-2018) Neoyage et transformaon virtuels des grandes masses de données médicales et des sciences du vivant

Upload: others

Post on 25-Jun-2020

2 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: CNRS Mastodons MedClean 2016-2018 · 2019-06-18 · Angela Bonifati1 Bastien Rance2,3 1- CNRS Liris - Université de Lyon 2- AP-HP; Hôpital Européen Georges Pompidou 3- Université

Angela Bonifati1

Bastien Rance2,3

1- CNRS Liris - Université de Lyon2- AP-HP; Hôpital Européen Georges Pompidou3- Université Paris Descartes - Faculté de médecine

CNRS Mastodons MedClean (2016-2018) Nettoyage et transformation virtuels des grandes masses de données médicales et des sciences du vivant

Page 2: CNRS Mastodons MedClean 2016-2018 · 2019-06-18 · Angela Bonifati1 Bastien Rance2,3 1- CNRS Liris - Université de Lyon 2- AP-HP; Hôpital Européen Georges Pompidou 3- Université

MedClean: Partenaires- A. Bonifati (PI), LIRIS (Laboratoire d’Informatique en Images et Systèmes d’Information), Lyon

- A. Burgun, Assistance Publique – Hôpitaux de Paris, HEGP; Centre de Recherche des Cordeliers, INSERM, Paris

- P. Bourdoncle, Imagerie Cellulaire, INSB CNRS, Paris

- F. Toumani, LIMOS (Laboratoire d’Informatique, de Modélisation etd’Optimisation des Systèmes), Clermont-Ferrand

- S. Benbernou, LIPADE (Laboratoire d’Informatique Paris Descartes),Paris

2

Page 3: CNRS Mastodons MedClean 2016-2018 · 2019-06-18 · Angela Bonifati1 Bastien Rance2,3 1- CNRS Liris - Université de Lyon 2- AP-HP; Hôpital Européen Georges Pompidou 3- Université

MedClean: Bilan des 3 années - Des publications communes (Liris/HEGP): article CMPB18 dédié à la qualité de données cliniques

- Release d’un prototype pour la détection des anomalies des données cliniques (https://npm.pkg.github.com/equipe22/BioQuality)

-Organisation de 2 éditions du Workshop DaQuaTA (Data Quality: From Theory to Applications) à Lyon en 2016 et 2017 (> 45 participants)

- Action multi-disciplinaire Arquads dans le cadre du GDR Madics (Angela, Bastien, L. Berti-Equille et A. Hadjali)

- Acceptation (en Juillet 2018) d’un projet ANR PRCE QualiHealth (nous allons continuer!)

Page 4: CNRS Mastodons MedClean 2016-2018 · 2019-06-18 · Angela Bonifati1 Bastien Rance2,3 1- CNRS Liris - Université de Lyon 2- AP-HP; Hôpital Européen Georges Pompidou 3- Université

Vie du patient

Séjours hospitaliers Données

cliniques

Données de laboratoire de biologie

(bilan sanguin, dosage de médicaments…)

Diagnostics des séjours(utilisés pour le

financement des hôpitaux – T2AA)

Patient Date et heure Nature de la données Valeur

Patient Date et heure Nature de la données Valeur

Patient Date et heure Nature de la données Valeur

Entrepôts de données cliniques

Données cliniques

Page 5: CNRS Mastodons MedClean 2016-2018 · 2019-06-18 · Angela Bonifati1 Bastien Rance2,3 1- CNRS Liris - Université de Lyon 2- AP-HP; Hôpital Européen Georges Pompidou 3- Université

Clinical Data WarehouseClinical Data Warehouse

(CDW)

DiagnosisClinical itemsBilling codesBiology (lab)

Nurse transmissionImaging reports

Pathology reportsDrug prescription

Chemotherapy

Standardized formatQueryable

Electronic Health Record(EHR)

Biobank Radiotherapy

5

Page 6: CNRS Mastodons MedClean 2016-2018 · 2019-06-18 · Angela Bonifati1 Bastien Rance2,3 1- CNRS Liris - Université de Lyon 2- AP-HP; Hôpital Européen Georges Pompidou 3- Université

Clinical Data Warehouse at HEGP

Unstructured data: transformation is needed before reuse

Concept # patients # observationsEHR concepts 602,198 124,852,989

Biology (Laboratory) 452,006 132,525,661

Nursing transmission 309,322 18,495,958

Billing (disease) codes

396,285 8,183,118

Rx prescription 191,531 7,243,484

Text reports 546,725 4,039,333

Imaging reports 351,702 1,325,270

Pathology codes 98,401 1,496,635

6

Page 7: CNRS Mastodons MedClean 2016-2018 · 2019-06-18 · Angela Bonifati1 Bastien Rance2,3 1- CNRS Liris - Université de Lyon 2- AP-HP; Hôpital Européen Georges Pompidou 3- Université

Data Conformity

Mes valeurs sont-elles conformes au format attendu ?

Complete-ness

Consiste-

ncy

Les valeurs sont-elles celles que l’on attends ? (Reglès d’integrité, Contraintes)

Glitches in Analysis

Tamraparni Dasu, Theodore Johnson: Exploratory Data Mining and Data Cleaning. John Wiley 2003, ISBN 0-471-26851-8

Quel est l’impacte des données bruitées sur le diagnostique ?

Page 8: CNRS Mastodons MedClean 2016-2018 · 2019-06-18 · Angela Bonifati1 Bastien Rance2,3 1- CNRS Liris - Université de Lyon 2- AP-HP; Hôpital Européen Georges Pompidou 3- Université

Glitches in Analysis

Definition adaptée aux données cliniques

It corresponds to the propagation of glitches in raw data to glitches in the analytical queries posed on such data and, subsequently in our respective domains, to glitches in the complex research studies built upon such queries in order to aid diagnosis in medicine or, generally speaking, medical research.

Page 9: CNRS Mastodons MedClean 2016-2018 · 2019-06-18 · Angela Bonifati1 Bastien Rance2,3 1- CNRS Liris - Université de Lyon 2- AP-HP; Hôpital Européen Georges Pompidou 3- Université

Data Conformity/Missingness

Exemple de requête dans CDW

Find the patients affected by a cancer type corresponding to the disease code CIM10:C50 (breast cancer) and one of the possible CCAM billing codes for whom the clinicians have entered a record in the case report form having number 20097, who underwent a surgery on a date which is sufficiently close to thedate of diagnosis, and who exhibit an hemoglobin value lesser than 12 in their latest blood test.

Data Validity

Completeness/Glitches in Analysis

Inconsistency

Glitches in Analysis

Page 10: CNRS Mastodons MedClean 2016-2018 · 2019-06-18 · Angela Bonifati1 Bastien Rance2,3 1- CNRS Liris - Université de Lyon 2- AP-HP; Hôpital Européen Georges Pompidou 3- Université

Exemple de requête (SQL) dans CDW

Page 11: CNRS Mastodons MedClean 2016-2018 · 2019-06-18 · Angela Bonifati1 Bastien Rance2,3 1- CNRS Liris - Université de Lyon 2- AP-HP; Hôpital Européen Georges Pompidou 3- Université

Exemple de requête (SQL) dans CDW

Page 12: CNRS Mastodons MedClean 2016-2018 · 2019-06-18 · Angela Bonifati1 Bastien Rance2,3 1- CNRS Liris - Université de Lyon 2- AP-HP; Hôpital Européen Georges Pompidou 3- Université

Pour commencer, visualisation des données

Volume plaquétaire moyen

Page 13: CNRS Mastodons MedClean 2016-2018 · 2019-06-18 · Angela Bonifati1 Bastien Rance2,3 1- CNRS Liris - Université de Lyon 2- AP-HP; Hôpital Européen Georges Pompidou 3- Université

Des événements remarquables

Breakpoint

Page 14: CNRS Mastodons MedClean 2016-2018 · 2019-06-18 · Angela Bonifati1 Bastien Rance2,3 1- CNRS Liris - Université de Lyon 2- AP-HP; Hôpital Européen Georges Pompidou 3- Université

Des événements remarquables

Discretisation

Page 15: CNRS Mastodons MedClean 2016-2018 · 2019-06-18 · Angela Bonifati1 Bastien Rance2,3 1- CNRS Liris - Université de Lyon 2- AP-HP; Hôpital Européen Georges Pompidou 3- Université

Des événements remarquablesChangements de tendance

Page 16: CNRS Mastodons MedClean 2016-2018 · 2019-06-18 · Angela Bonifati1 Bastien Rance2,3 1- CNRS Liris - Université de Lyon 2- AP-HP; Hôpital Européen Georges Pompidou 3- Université

Enjeux sur la réutilisation des données : besoin d’annotations

Facteurs externes

Pratiques de codage et facturation

Organisation des soins : nationale, régionale, locale

Facteurs internes (épidémiologie)

Epidémie Evolution des

traitements Phénomènes

épidémiologiques globaux vs. Phénomènes locaux

Page 17: CNRS Mastodons MedClean 2016-2018 · 2019-06-18 · Angela Bonifati1 Bastien Rance2,3 1- CNRS Liris - Université de Lyon 2- AP-HP; Hôpital Européen Georges Pompidou 3- Université

Données PMSI national

Codes diagnosticsClassification Internationale des Maladie – 10e version (ICD-10)

Hiérarchie de concepts

C Tumeur maligneC34 Tumeur maligne des bronches et du poumonC34.1 Tumeur maligne du lobe supérieur, bronches ou poumon

Utilisés pour le financement des hôpitauxBiais dans les données raisons intrinsèques et extrinsèques

Données structurées facilement réutilisablesIntégré dans le PMSI (Programme Médicalisé des Systèmes d’Information)

Page 18: CNRS Mastodons MedClean 2016-2018 · 2019-06-18 · Angela Bonifati1 Bastien Rance2,3 1- CNRS Liris - Université de Lyon 2- AP-HP; Hôpital Européen Georges Pompidou 3- Université

Des facteurs extrinsèques …

Fréquence relative du code C54 pour un mois

Page 19: CNRS Mastodons MedClean 2016-2018 · 2019-06-18 · Angela Bonifati1 Bastien Rance2,3 1- CNRS Liris - Université de Lyon 2- AP-HP; Hôpital Européen Georges Pompidou 3- Université

C53 : Tumeur maligne du col de l'utérusC54 : Tumeur maligne du corps de l'utérusC55 : Tumeur maligne de l'utérus, partie non précisée

Des facteurs extrinsèques …

Page 20: CNRS Mastodons MedClean 2016-2018 · 2019-06-18 · Angela Bonifati1 Bastien Rance2,3 1- CNRS Liris - Université de Lyon 2- AP-HP; Hôpital Européen Georges Pompidou 3- Université

E43: Malnutrition protéino-énergétique grave, sans précision (Sev. 3)E44 : Malnutrition protéino-énergétique légère ou modérée

(dont E440 (Sev. 3) et E442 (Sev.2))E46 : Malnutrition protéino-énergétique, sans précision (Sev. 2)

Page 21: CNRS Mastodons MedClean 2016-2018 · 2019-06-18 · Angela Bonifati1 Bastien Rance2,3 1- CNRS Liris - Université de Lyon 2- AP-HP; Hôpital Européen Georges Pompidou 3- Université

Serum Creatinine Levels Before, During, and After Pregnancy. Harel Z, McArthur E, Hladunewich M, et al. JAMA. 2019;321(2):205–207. doi:10.1001/jama.2018.17948

Qu’est ce qu’une valeur normale ?

Page 22: CNRS Mastodons MedClean 2016-2018 · 2019-06-18 · Angela Bonifati1 Bastien Rance2,3 1- CNRS Liris - Université de Lyon 2- AP-HP; Hôpital Européen Georges Pompidou 3- Université

What can Millions of Laboratory Test Results Tell Us about the Temporal Aspect of Data Quality? Study of Data Spanning 17

Years in a Clinical Data Warehouse

• Quelles données ?Données de biologie

Issues de l’entrepôt de données de l’HEGP

Entre 2000 et 2017

• Qu’est ce que l’on propose d’explorer ?Décrire leurs évolutions

Chercher des patterns d’évolution

V. Looten, L. Kong Win Chang, A. Neuraz, MA. Landau-Loriot, B. Vedie, JL. Paul, L. Mauge, N. Rivet, A. Bonifati, G. Chatellier, A. Burgun, B. Rance

Computer Methods and Programs in Biomedicine, 2018ISSN 0169-2607, doi:10.1016/j.cmpb.2018.12.030

Page 23: CNRS Mastodons MedClean 2016-2018 · 2019-06-18 · Angela Bonifati1 Bastien Rance2,3 1- CNRS Liris - Université de Lyon 2- AP-HP; Hôpital Européen Georges Pompidou 3- Université

Pattern temporelle et données de biologie : méthodes

• Détection des phénomènes de discrétisation– Calcul des fréquences de chiffres selon leur position

– Détection via une mesure cosine s’appuyant sur la loi de Benford

• Détection des breakpoints : – Pruned Exact Linear Time (PELT) de Killick et al.

– Un algorithme récursif s’appuyant sur une fonction de coût

– On peut détecter les changements de moyennes ou de variances.

• Détection des tendances– Régressions part partie sur la médiane

Killick R, Fearnhead P, Eckley IA. Optimal Detection of Changepoints With a Linear Computational Cost. JDOI: 10.1080/01621459.2012.737745

Page 24: CNRS Mastodons MedClean 2016-2018 · 2019-06-18 · Angela Bonifati1 Bastien Rance2,3 1- CNRS Liris - Université de Lyon 2- AP-HP; Hôpital Européen Georges Pompidou 3- Université

Résultats

Page 25: CNRS Mastodons MedClean 2016-2018 · 2019-06-18 · Angela Bonifati1 Bastien Rance2,3 1- CNRS Liris - Université de Lyon 2- AP-HP; Hôpital Européen Georges Pompidou 3- Université

Résultats

Category* # of biological parameters

Example of laboratory parameter impacted

Discretization 32 (16.7%) Erythrocytes

Breakpoints 30 (15.6%) Mean platelet volume

Trends 79 (41.1%) HDL Cholesterol

Page 26: CNRS Mastodons MedClean 2016-2018 · 2019-06-18 · Angela Bonifati1 Bastien Rance2,3 1- CNRS Liris - Université de Lyon 2- AP-HP; Hôpital Européen Georges Pompidou 3- Université

Identification des causes ?

• Causes extrinsèques – Changement d’automate de mesure

– Changement d’algorithme de calcul

– Changement de SGL

– …

• Causes intrinsèques– Evolution de la pratique médicale

– Evolution de la population

– …

Page 27: CNRS Mastodons MedClean 2016-2018 · 2019-06-18 · Angela Bonifati1 Bastien Rance2,3 1- CNRS Liris - Université de Lyon 2- AP-HP; Hôpital Européen Georges Pompidou 3- Université

Travaux en Cours entre les Partenaires (ANR QualiHealth)

• Thèse sur “Inconsistency-aware Query Answering” entre le Limos et le Liris

• Stage M1 entre le Liris et HEGP sur le data profiling de données cliniques

– Recherche de FDs et genuine FDs

• Stage M2 entre UBC (Canada), Liris et HEGP– Clustering de Séries Temporelles Cliniques

• Embauche d’un doctorant Liris par les partenaires du LIS (bourse Postdoc)

Page 28: CNRS Mastodons MedClean 2016-2018 · 2019-06-18 · Angela Bonifati1 Bastien Rance2,3 1- CNRS Liris - Université de Lyon 2- AP-HP; Hôpital Européen Georges Pompidou 3- Université

Conclusion: MedClean • Approche pragmatique pour détecter des patterns

d’évolution

- Approche visuelle

- Algorithmes de détection dédiés

• Nous avons seulement creusé les données des examens biologiques (papier CMPB 2018)

• Plusieurs données dans CDW restent inexplorées (dont l’ANR)

Séries temporelles Metadonnées sur les images Données inconsistantes/manquantes

Page 29: CNRS Mastodons MedClean 2016-2018 · 2019-06-18 · Angela Bonifati1 Bastien Rance2,3 1- CNRS Liris - Université de Lyon 2- AP-HP; Hôpital Européen Georges Pompidou 3- Université

MERCI DE VOTRE ATTENTION