soutenance de thèse 2/12/2008 indexation multi-terminologique de concepts en santé suzanne pereira...
TRANSCRIPT
Soutenance de thèse 2/12/2008
Indexation multi-terminologique de concepts en santé
Suzanne Pereira
Encadrée par : Élisabeth Serrot, Michel Joubert et Stefan J. Darmoni
LITIS, Université de Rouen - Équipe CISMeF, CHU de RouenLERTIM, Faculté de médecine, Marseille
Vidal, Issy les Moulineaux
1
Soutenance de thèse 2/12/2008
Plan Introduction
Indexation de documents en santéTrois contextesVers une indexation automatiqueObjectifs
État de l’art
F-MTI, un extracteur multi-terminologique pour l’aide à l’indexation
ConceptionÉvaluation Applications
Discussion
Conclusion et perspectives
2
Soutenance de thèse 2/12/2008
Introduction
3
Soutenance de thèse 2/12/2008
Principe« consiste à repérer des mots ou des expressions particulièrement significatifs (appelés termes) dans un contexte donné, et à créer un lien entre ces termes et le texte original. »
4
Documentdiabète de type 2
enfantsanté publique
épidémieobésite
Etats-UnisRoyaume-Uni
épidemiologiquescours
diagnostiqueFrance
malprévention
Recherche d’information
Aide à la décision
Statistique, budget, suivi médical du patient
Indexationcontrôlée
Indexation de documents en santé
Terminologies adaptées
De qualité
Soutenance de thèse 2/12/2008
Trois contextes CISMeF (le Catalogue et Index des Sites Médicaux Francophones)
• Projet initié en 1995 (http://www, cismef.org)• ~60 000 ressources Web professionnels de santé,
étudiants, patients• Indexation manuelle à l’aide du MeSH
5
Diffusion d’information sur les médicaments et aide à la prescription (société Vidal)
• Débuts en 1911• + 5 000 médicaments (RCP)• Indexation manuelle à l’aide de 4 terminologies et bientôt du
TUV
Dossier Médicaux (travaux LERTIM)• Réflexion depuis 1990• ~ 4 millions de comptes rendus hospitaliers (CRH) pour CHU de Rouen• Indexation manuelle à l’aide de la CIM10, de la CCAM et bientôt de la SNOMED 3.5
Soutenance de thèse 2/12/2008
Cinq terminologies
6
MeSH (Medical Subject Heading)TUV (Thésaurus Unifié Vidal)CIM10 (Classification statistique Internationale des Maladies et des problèmes de santé connexes 10ème révision)CCAM (Classification Commune des Actes Médicaux)SNOMED 3.5 (Nomenclature Systématique de MÉdecine humaine et vétérinaire version 3.5)UMLS (Unified Medical Language System)
SNOMED 3.5 CIM10
TUV
CCAM
MeSHUMLS
Soutenance de thèse 2/12/2008
Vers une indexation automatique
Indexation humaine, automatique ou semi-automatique :
Semi-automatique : le compromis
Critères Humaine Automatique
Variabilité inter-indexeurs élevée non
Synthèse oui bas
Problème d’ambiguïté bas élevé
Connaissances élevées basses
Temps d’indexation élevé bas
7
Soutenance de thèse 2/12/2008
Objectifs Continuité de projets communs (CISMeF – Vidal –
LERTIM)UMLF : Lexique médical unifié français (Ministère de la Recherche ACI 2002) VUMeF : Terminologies françaises et aide à l’indexation (Ministère de la Recherche RNTS 2003)
Faciliter l’indexation des documentsConcevoir des méthodes d’indexation automatiqueÉvaluer ces méthodesProposer des applications pour CISMeF, Vidal et LERTIM
8
Soutenance de thèse 2/12/2008
État de l’art
9
Soutenance de thèse 2/12/2008 10
A. Baneyx (SPIM)
D. Nakache (CEDRIC)
A. Névéol (CISMeF)
A. Aronson (NLM)
MTIMAIF
Medckare
CIREA
?
Medsight ®SNOCODE
?MeSH
TUV
Indexation de comptes rendus
SNOMED 3.5
CIM10
CCAM
Indexation de sites
Web Indexation de RCP
Outils existants
Soutenance de thèse 2/12/2008
État de l’art
Indexation mono-terminologie directeCIREA (CIM10), MAIF (MeSH), Snocode (SNOMED 3.5)
Indexation mono-terminologie indirecte (à partir d’un transcodage)
MedCKARe (ontologie pneumologie->CIM10),
Indexation multi-terminologiqueIndexation directe et indirecte pour plusieurs terminologies (une seule terminologie considérée)
• MTI (UMLS) : indexation en MeSH et CIM9-CM
11
Terminologie 1 à indexer
Terminologie 2Lien de transcodage
Terminologie 1 à indexer
Terminologie 1 à indexer
Lien de transcodage
Terminologie X
Soutenance de thèse 2/12/2008
F-MTI, un extracteur multi-terminologique
pour l’aide à l’indexation
12
Soutenance de thèse 2/12/2008
F-MTI
13
Indexation multi-terminologique (inspiré de MTI)Indexation directe : CIM10, SNOMED, CCAM, MeSH, TUVProjection vers les terminologies désirées grâce aux transcodages (recherche de termes équivalents)
Indexation multi-document : dépendante du type de document
Traitement particulier des CRH, des sites médicaux et des RCPIndexation basique pour les autres documents (convertibles au format texte)
Indexation multi-tâche : dépendante de la tâche à effectuer (règles d’indexation)
Paramétrable (terminologies à utiliser, terminologies en sortie)
Soutenance de thèse 2/12/2008
F-MTI
14
Termes MeSH, CCAM, SNOMED, TUV et CIM10
NOOJ + dico de
constituants
Restriction à (une ou plusieurs terminologies)
Proposition d’indexation à l’aide d’une ou plusieurs terminologies
Algo SDM
Agrégation
Un Document Un ensemble de documents (RCP, lettre de sortie, site Internet, ou autres convertis au format .txt)
NOOJ + dico de termes
Identification des rubriques, paragraphes et phrases
+ localisations
Phrases Ensemble de phrases (corpus)
Base de données
multi-terminologique
Post-traitement
Soutenance de thèse 2/12/2008
Base de données multi-terminologique
Principe / MotivationInterrogation rapide des cinq terminologiesStructure de données simple et générique contenant des terminologies de structure différente
MéthodeModélisation de la structure de chaque terminologieÉlaboration du modèle général à partir des modélisations unitaires (inspiré du metathesaurus de l’UMLS)
Base de données
multi-terminologique
15
Soutenance de thèse 2/12/2008
F-MTI
16
Termes MeSH, CCAM, SNOMED, TUV et CIM10
NOOJ + dico de
constituants
Restriction à (une ou plusieurs terminologies)
Proposition d’indexation à l’aide d’une ou plusieurs terminologies
Algo SDM
Agrégation
Un Document Un ensemble de documents (RCP, lettre de sortie, site Internet, ou autres convertis au format .txt)
NOOJ + dico de termes
Identification des rubriques, paragraphes et phrases
+ localisations
Phrases Ensemble de phrases (corpus)
Base de données
multi-terminologique
Post-traitement
Soutenance de thèse 2/12/2008
Découpage en rubriques, paragraphes et phrases
17
Principe / MotivationIdentifier les unités d’indexation : les phrases Prise en compte du contexte (rubriques et paragraphes)Indexation du document = agrégation de l’ensemble des indexations pour toutes les phrases du document
Méthode
Découpage en phrase
Découpage
Découpage en rubriques
Découpage en paragraphes
Liste de nomsde rubriques
Balises, retour chariot etc…
TransducteurNooJ
Logiciel NOOJ(M, Silberztein)
Soutenance de thèse 2/12/2008
Découpage en rubriques, paragraphes et phrases
18
Exemple
Antécédents 1 1 Ulcère gastrique opéré il y a 20 ans.Antécédents 1 2 Tabagisme à 40 paquets/an.Antécédents 1 3 Maladie d'Osler.Antécédents 1 4 Arythmie complète par fibrillation auriculaire en 90, 94 et en 2002.EXAMEN CLINIQUE 1 1 12-7.EXAMEN CLINIQUE 1 2 Pouls à 70.EXAMEN CLINIQUE 1 3 52 kg.EXAMEN CLINIQUE 1 4 Asymptomatique.EXAMEN CLINIQUE 1 5 Bruits du cœur réguliers avec un souffle d'insuffisance mitrale résiduel 1 à 2/6ème maximal au foyer mitral.
Antécédents
Ulcère gastrique opéré il y a 20 ans. Tabagisme à 40 paquets/an. Maladie d'Osler. Arythmie complète par fibrillation auriculaire en 90, 94 et en 2002.
EXAMEN CLINIQUE : 12-7. Pouls à 70. 52 kg. Asymptomatique. Bruits du cœur réguliers avec un souffle d'insuffisance mitrale résiduel 1 à 2/6ème maximal au foyer mitral.
Soutenance de thèse 2/12/2008
Création de libellés d’indexation
Principe / Motivation3 méthodes de TAL basées sur les libellés des termesLibellés de chaque terme non élaborés à l’origine pour faciliter leur indexation
Exemple : « angine, sans autre précision »
MéthodeCréation de libellés d’indexationApplication à la CIM10
• Élimination des expressions « sans précision » « sans autre indication »
• Élimination des exclusions• Création de 2 libellés d’indexation pour les alternatives
en « ou »• Traitement des précisions entre parenthèses
19
Soutenance de thèse 2/12/2008
F-MTI
20
Termes MeSH, CCAM, SNOMED, TUV et CIM10
NOOJ + dico de
constituants
Restriction à (une ou plusieurs terminologies)
Proposition d’indexation à l’aide d’une ou plusieurs terminologies
Algo SDM
Agrégation
Un Document Un ensemble de documents (RCP, lettre de sortie, site Internet, ou autres convertis au format .txt)
NOOJ + dico de termes
Identification des rubriques, paragraphes et phrases
+ localisations
Phrases Ensemble de phrases (corpus)
Base de données
multi-terminologique
Post-traitement
Soutenance de thèse 2/12/2008
L’algorithme du sac de mots
21
Principe / Motivation
Utilisé à l’origine dans CISMeF pour retranscrire les requêtes des utilisateurs en termes MeSH
Phrase considérée comme un sac de mots (les plus signifiants) rendus à leur forme la plus simple (lemme ou stème)
Termes des différentes terminologies (TUV, SNOMED, MeSH, CIM10, CCAM) considérés comme des sacs de mots
Algorithme revu pour l’indexation de documents
Soutenance de thèse 2/12/2008
L’algorithme du sac de mots
22
Désuffixation ou lemmatisation
Rangement (ordre alphabétique)
Méthode de l’algorithme du sac de mots
Normalisation (ponctuation, minuscules…)
Découpage en mots
Mise en correspondanceavec les termes des
différentes terminologies
Élimination des mots vides et mots non pertinents
Sémiographe(Memodata ®)
Frenchstemmer(Lucene)
Base de données
multi-terminologique
Soutenance de thèse 2/12/2008
L’algorithme du sac de mots
23
Ulcère gastrique opéré il y a 20 ans.
ulcère gastrique opéré il y a 20 ans
ulcère gastrique opéré 20 ans
20;an;gastrique;opérer; ulcère ou 20;an;gastric;opér; ulcèr+ ajouts selon la rubrique rattachée (antécédent ou anteced)
Toutes les combinaisons sont générées : 20;an;gastrique;opéré; ulcère an;gastrique;opéré; ulcère gastrique;opéré; ulcère an;gastrique;opéré etc…
Et comparées aux termes des différentes terminologies traités de la même façon
ulcère gastrique PE1192 TUV ;gastrique;ulcère; ;gastric;ulcer;
ulcère gastrique D013276 MSH ;gastrique;ulcère; ;gastric;ulcer;
ulcère gastrique D5-32100 SNMI ;gastrique;ulcère; ;gastric;ulcer;
Résultats :
Exemple :
Lemmatisation Désuffixation
Soutenance de thèse 2/12/2008
L’algorithme du sac de mots
24
Avantages / InconvénientsMéthode simple nécessitant peu de ressourcesOrdre des mots non important (erreurs possibles)Méthode pour le moment limitéeGestion des termes complexes et des négations difficile
Soutenance de thèse 2/12/2008
F-MTI
25
Termes MeSH, CCAM, SNOMED, TUV et CIM10
NOOJ + dico de
constituants
Restriction à (une ou plusieurs terminologies)
Proposition d’indexation à l’aide d’une ou plusieurs terminologies
Algo SDM
Agrégation
Un Document Un ensemble de documents (RCP, lettre de sortie, site Internet, ou autres convertis au format .txt)
NOOJ + dico de termes
Identification des rubriques, paragraphes et phrases
+ localisations
Phrases Ensemble de phrases (corpus)
Base de données
multi-terminologique
Post-traitement
Soutenance de thèse 2/12/2008
7
Le dictionnaire de termes
MotivationInspiré de l’approche TAL de MAIF (A.Névéol)
Variantes validées en amont• Contient les différentes formes textuelles des termes : leurs
dérivations (ex : asthme - asthmatique), flexions (ex : bactérie - bactéries) et synonymes
Méthode très rapidePossibilité de gérer les termes complexes et la négation
PrincipeFormat DELA (Dictionnaires Electroniques du LADL*)
FormeTextuellePossibleDuTerme,LibelléDuTerme,InformationsDivers
Application NOOJ
26
*Laboratoire d'Analyse et de Description Linguistique
Soutenance de thèse 2/12/2008
7
Le dictionnaire de termes
Exemple
27
Ulcère gastrique opéré il y a 20 ans. Dictionnaire de termes
ulcère gastrique,Ulcère gastrique,TUVulcères gastriques,Ulcère gastrique,TUVulcère de l’estomac,Ulcère gastrique,TUVulcère gastrique,Ulcère gastrique,MSHulcères gastriques,Ulcère gastrique,MSHulcère de l’estomac,Ulcère gastrique,MSHulcère gastrique,Ulcère gastrique,SNMIulcères gastriques,Ulcère gastrique,SNMIulcère de l’estomac,Ulcère gastrique,SNMI
ulcère gastrique,Ulcère gastrique,EII2048+TUVulcère gastrique,Ulcère gastrique,D013276+MSHulcère gastrique,Ulcère gastrique,D5-32100 +SNMI
Soutenance de thèse 2/12/2008
7
Le dictionnaire de termes
28
Constitution manuelle d’un dictionnaire = fastidieux
Méthode de construction automatique de dictionnaires
Reprise de l’existant• Variantes des différentes terminologies• Variantes provenant de précédents travaux (UMLF,
dictionnaire MeSH de MAIF, lexiques du projet VUMeF)
Soutenance de thèse 2/12/2008
7
Construction automatique de dictionnaires
Recueil automatique de nouvelles variantes• Extraction de variantes à partir de corpus• Utilisation de patrons d’extraction et d’un
dictionnaire de mots
Création de nouvelles variantes (pluriels et singuliers)
29
Exemple : « diminution des facteurs de coagulation »
Application au TUV Création de 33 719 transducteurs liés à un dictionnaire 38 219
variantes de mots
Corpus de 50 000 documents : 7 800 recueillies dont 1 007 pour le TUV (validation à 55%)
Création de 4 279 pluriels/singuliers (validation à 92,3%)
Soutenance de thèse 2/12/2008
Prise en compte du contexte
30
Négations
Négation verbale
Négation postérieure
Négation antérieure
Soutenance de thèse 2/12/2008
F-MTI
31
Termes MeSH, CCAM, SNOMED, TUV et CIM10
NOOJ + dico de
constituants
Restriction à (une ou plusieurs terminologies)
Proposition d’indexation à l’aide d’une ou plusieurs terminologies
Algo SDM
Agrégation
Un Document Un ensemble de documents (RCP, lettre de sortie, site Internet, ou autres convertis au format .txt)
NOOJ + dico de termes
Identification des rubriques, paragraphes et phrases
+ localisations
Phrases Ensemble de phrases (corpus)
Base de données
multi-terminologique
Post-traitement
Soutenance de thèse 2/12/2008
Le dictionnaire de constituants
32
Principe / MotivationPrendre en compte les éléments constitutifs du terme et non les mots seuls ou le terme dans sa globalité
Un constituant est défini comme toute variante incluse dans un terme,
Ex : le terme « angine de poitrine sévère » comprend plus de 6 constituants : « angine », « angines », « poitrine », « sévère », « aigu », « angor » etc…
Un terme est indexé si la phrase couvre l’ensemble des constituants requis (calcul d’un score)Application NOOJ
Soutenance de thèse 2/12/2008
Le dictionnaire de constituants
33
Exemple« Le patient est atteint d’un syndrome sévère, le syndrome de Down accompagné d’asthme. »
syndrome, syndrome de Down, 1+TUVsyndrome, syndrome de X, 1+TUVsyndrome, syndrome de Down,1+TUVsyndrome, syndrome de X, 1+TUVdown, syndrome de Down, 1+TUVasthme, asthme,1+TUV
Après élimination des doublons et ajout des scores pour chaque termes : – 2 pour « syndrome de Down » – 1 pour « syndrome de X » – 1 pour « asthme »
syndrome de Down 2syndrome de X 2Asthme 1
Dictionnaire de constituants Base de données multi-terminologique
Seuls les termes « syndrome de Down » et « asthme » sont indexés
Soutenance de thèse 2/12/2008
F-MTI
34
Termes MeSH, CCAM, SNOMED, TUV et CIM10
NOOJ + dico de
constituants
Restriction à (une ou plusieurs terminologies)
Proposition d’indexation à l’aide d’une ou plusieurs terminologies
Algo SDM
Agrégation
Un Document Un ensemble de documents (RCP, lettre de sortie, site Internet, ou autres convertis au format .txt)
NOOJ + dico de termes
Identification des rubriques, paragraphes et phrases
+ localisations
Phrases Ensemble de phrases (corpus)
Base de données
multi-terminologique
Post-traitement
Soutenance de thèse 2/12/2008 35
Projection et restriction vers une ou plusieurs terminologies
PrincipeRestriction aux termes équivalents appartenant aux terminologies désirées
Méthode Les différents transcodages utilisés :
• MeSH, CIM10, SNOMED : UMLS et SFINM*• CCAM->MeSH créé par CISMeF (P. Massari et B.
Thirion)• CIM10->CCAM de TOTHEM (enlevé)• TUV->MeSH créé par CISMeF et validé par Vidal
(enlevé)• TUV->CIM10 créé par Vidal (enlevé)
*Secrétariat Francophone International de Nomenclature Médicale
Soutenance de thèse 2/12/2008
Projection et restriction vers une ou plusieurs terminologies
Exemple : « Ulcère gastrique opéré il y a 20 ans. »
ulcère gastrique PE1192 TUV
ulcère gastrique D013276 MSH
ulcère gastrique D5-32100 SNMI
RésultatsIndexationdirecte :
ulcère de l'estomac | non précisé comme étant aigu K25.9 CIM10ou chronique, sans hémorragie ni perforation
ulcère gastrique sans hémorragie ni perforation D5-32422 SNMIou obstruction
estomac D013270 MSH
tumeur maligne estomac, sans précision C16.9 CIM10
RésultatsIndexationindirecte :
36
Soutenance de thèse 2/12/2008 37
Post-traitements
Élimination des doublons (mêmes termes ou un terme et son synonyme de la même terminologie)
Application des règles d’indexation
Règles générales• Indexation au plus précis : père/fils, termes dont le
sac de mots est inclus dans un autre
Règles spécifiques à chaque terminologie• MeSH : élimination des termes peu pertinents,
appariement terme/qualificatif, élimination des qualificatifs non appariés
• Aucune pour CCAM/TUV/SNOMED 3.5/CIM10
Proposition d’indexation à l’aide d’une ou plusieurs terminologies
Post-traitement
Soutenance de thèse 2/12/2008
Évaluation de l’indexation de termes CIM10 et CCAM pour les dossiers patients
38
MéthodeComparaison de l’indexation automatique (F-MTI - algorithme du sac de mots) et l’indexation medico-économique ou descriptive manuelle
MatérielsCorpus de 794 CRH du CHU de Rouen
• 490 de Cardiologie• 304 de Pneumologie • Indexation manuelle médico-économique CCAM et CIM10
Corpus de 100 CRH• 50 de Cardiologie• 50 de Pneumologie• Indexation descriptive par un expert (en aveugle)
MesuresPrécision (inverse du bruit), rappel (inverse du silence), F-mesure
Soutenance de thèse 2/12/2008
Évaluation de l’indexation de termes CIM10 et CCAM pour les dossiers patients
Résultats
Cardiologie
Pneumologie
794CRH
100CRH
+ diagnostics
ou symptômes
Pneumologie+ diagnostics
ou symptômes
39
Restriction des termes Cardiologie
51,3 75,4Précision
%Rappel
%
3,4 29,7
15,4 76,4
4,0 19,9
3,0 35,7
41,0 96,1
39,3 97,5
Indexation médico-économique
Indexation descriptive
Précision %
Rappel%
F-mesure%
Précision %
Rappel%
F-mesure %
2,6 38,0 4,9 3,7 32,9 5,8
Soutenance de thèse 2/12/2008
Évaluation de l’indexation de termes CIM10 et CCAM pour les dossiers patients
Discussion
Précision faible • Problème des contextes (négations, proche concerné)• Problème des transcodages• Problème du nombre de termes proposés –> difficultés à déterminer ce
qui est important
Rappel faible • Problème de la rédaction des CRH (manque précision, abréviations
etc.)• Dispersion des informations
Méthode d’évaluation discutable• 18% de consensus inter indexeur• Peu de formation à l’indexation
Restriction spécialité/diagnostic/symptôme : différentes vues pour l’indexation semi-automatique
CCAM résultats ~0% (F-MTI inadapté)
40
Soutenance de thèse 2/12/2008
Évaluation de l’indexation de termes SNOMED pour les dossiers patients
PrincipeComparaison de deux indexations automatiques SNOMED : F-MTI et SnocodeDifficulté d’obtenir une référence manuelle (indexation manuelle fastidieuse)Choix d’un transcodage vers une terminologie moins complexe : CIM10
Matériel100 CRH indexés manuellement à l’aide de la CIM10
41
Soutenance de thèse 2/12/2008
Évaluation de l’indexation de termes SNOMED pour les dossiers patients
Résultats
42
SNOMED
CIM10
transcodage
F-MTI extrait 2 fois plus de codes que Snocode
Pourcentage de codes F-MTI couvrant les codes Snocode
29,9
Pourcentage de codes Snocode couvrant les codes F-MTI
51,5
Mesure de Hooper % 31,3
Précision%
Rappel%
F-mesure%
F-MTI 4,4 30,7 8,7
Snocode 6,1 24,7 9,8
Soutenance de thèse 2/12/2008
Évaluation de l’indexation de termes MeSH pour les sites Web
Principe Comparaison entre l’indexation automatique
(F-MTI) pour les titres et l’indexation manuelle (indexeurs CISMeF) de la ressource
Matériel Corpus CISMeF (18 814 ressources) indexé
manuellement par quatre indexeurs CISMeF
43
Soutenance de thèse 2/12/2008
Évaluations
F-MTI Désuffixation F-MTI Lemmatisation
(%) Précision – Rappel (%) Précision – Rappel
Termes d’indexation Tous 25,9 - 13,5 Tous 26,7 - 13,1
44
F-MTI Mono-termino F-MTI Multi-termino
Termes d’indexationMC/Q
Tous 29,4 - 13,0 Tous 25,9 - 13,5
DescripteursMC
Tous 37,7 - 21,3Enseign 43,7 - 17,9Recos 51,6 - 24,7Patient 42,4 - 27,5
Tous 35,5 - 23,1Enseign 39,9 - 18,7Recos 44,4 - 25,7Patient 38,3 - 27,8
Lemmatisation/Désuffixation
sous-analyse des variantes
sur-analyse des termes
Évaluation secondaire (1 000 ressources) : Peu pertinent : 15,9%, pertinent : 4,5%, impact négatif : 79,6%
Mono/Multi-terminologie
Soutenance de thèse 2/12/2008
Évaluation de l’indexation de termes TUV pour les RCP
PrincipeÉvaluation du dictionnaire de terme (approche mono-teminologique)Comparaison de l’indexation automatique de F-MTI avec l’indexation manuelle de l’équipe du Vidal
MatérielsCorpus de 5 191 RCP indexés manuellement à l’aide des quatre thésauri VidalRéalisation de la table de transcodage anciens thésauri – TUVTranscodage en TUV
45
Soutenance de thèse 2/12/2008
Évaluation de l’indexation de termes TUV pour les RCP
Résultats
46
Rubriques concernées Précision % Rappel %
Indications 48,1 21,7
Contre-indications 46,1 23,5
Effets secondaires 77,0 59,4
Précautions d’emploi 28,4 49,3
Total des 4 rubriques 52,9 46,2
Total (non prise compte des rubriques)
57,6 43,4
Terminologie en adéquation avec les documents indexés Insuffisance des variantes répertoriées dans le dictionnaire Conversion des documents pdf en txt (titres, tableaux)
Soutenance de thèse 2/12/2008
ApplicationsIndexation automatique de ressources Web
Indexation automatique des ressources• 2006 : F-MTI mono-terminologique (34 000 ressources)
Indexation semi-automatique des ressourcesInterprétation des requêtesVers une recherche d’information multi-terminologique
• Application concrète dans le PIM de CISMeF (Classification ATC, codes CAS, CIS, CIP en place)
• 2009 : F-MTI multi-terminologique (Autres terminologies)
Indexation automatique de dossiers patientsRecherche d’informationAide au codage médico-économiqueStructuration des dossiersProduction de résumésAide à la rédaction
47
Soutenance de thèse 2/12/2008
Applications
Indexation semi-automatique de RCP : BIBLIS (IMAG)
48
RCP
Indexation Automatique
F-MTI
Indexationmanuelle
Documentsproches
Soutenance de thèse 2/12/2008
ApplicationsOutil d’aide à l’indexation généraliste
49
Serveur multi-terminologique
Indexation multi-terminologique
manuelle
Indexationmulti-terminologique
automatique
Type dedocument
Document
Quelques fonctionnalités
supplémentaires
Soutenance de thèse 2/12/2008
Discussion
50
Soutenance de thèse 2/12/2008
Discussion
Résultats d’évaluation différents selon : la tâche d’indexation la terminologie le corpus le type de document au sein du corpus les rubriques au sein du document
Aide au transcodage
51
Soutenance de thèse 2/12/2008
Discussion
Aide au transcodage
52
Comment tendre vers une indexation de qualité? :
Amélioration des terminologies et développement de règles d’indexation (terminologues)Formation à l’indexation, apprentissage des terminologies utilisées, et développement de règles d’indexation pour les tâches visées (indexeurs)Rédaction adaptée (auteurs de documents devant être indexés)Développement d’outils d’aide à l’indexation et à la rédaction automatiques plus performants (informaticiens)
Soutenance de thèse 2/12/2008
Discussion
Publications et valorisation
Pereira S., Névéol A., Kerdelhué G., Serrot E., Joubert M., Darmoni S.J. Using multi-terminology indexing for the assignment of MeSH descriptors to health resources in a french online catalogue. AMIA Annu Symp Proc. 2008; 586-590.
Pereira S., Névéol A., Massari P., Joubert M., Darmoni S.J. Construction of a semi-automated ICD-10 coding help system to optimize medical and economic coding, Proceedings of MIE2006. Stud Health Technol Inform, 2006 ;124 :845-50.
Pereira S., Massari P., Joubert M., Darmoni S. Utilisation de métatermes pour la recherche d’information dans les dossiers médicaux. In Actes des journées Francophones d’Informatique Médicale. 2007.
Pereira S., Massari P., Buemi A., Dahamna B., Serrot E., Darmoni S., Joubert M. F-MTI : un outil d’indexation automatique : application à l’indexation autmoatique de la SNOMED Internationale. Soumis à JFIM2009.
53
Soutenance de thèse 2/12/2008
DiscussionPublications et valorisation
Massari P., Pereira S., Thirion B., Derville A., Darmoni S.J. Use of super–concepts to customize electronic medical records data display. Stud Health Technol Inform. 2008 ; 136 :845–850.
Merabti T., Pereira S., Lecroq T., Joubert M., Darmoni S.J. Inheritance of SNOMED CT relations between concepts to two health terminologies (SNOMED International and ICD10). Proceedings of the 3rd international conference on Knowledge Representation in Medicine (KR-MED). 2008 ;118.
Merabti T., Pereira S., Letord C., Lecroq T., Dahamna B., Joubert M., Darmoni J. Searching Related Resources in a Quality Controlled Health Gateway : a Feasibility Study. Proceedings of MIE2008, Stud Health Technol Inform, Volume 136, Pages 235–240, 2008
Névéol A., Pereira S., Kerdelhué G., Dahamna B., Joubert M., Darmoni S.J. Evaluation of a simple method for the automatic assignment of MeSH descriptors to health resources in a french online catalogue. Proceedings of Medinfo2007, Stud Health Technol Inform. 2007 ; 129 :407-11.
Névéol A., Pereira S., Soualmia F.F., Thirion B., Darmoni S.J. A method of cross-lingual consumer health information retrieval. Proceedings of MIE2006, Stud Health Technol Inform. 2006 ; 124 :601–608.
Pereira S., Névéol A., Massari P., Darmoni S., Joubert M. Evaluation de plusieurs terminologies médicales pour optimiser l’aide au codage médico-économique par analyse automatique de dossiers électroniques de patients. In Acte EMOI2006. 2006.
Valorisation à l’université - Infobutton
53
Soutenance de thèse 2/12/2008
Conclusion et
Perspectives
54
Soutenance de thèse 2/12/2008
ConclusionNotre contribution :
Base de données multi-terminologique Création de libellés d’indexation Trois méthodes d’indexation complémentaires Méthode de création automatique de dictionnaires Prise en compte des contextes Outil d’indexation automatique multi-terminologique (F-MTI)
55
Soutenance de thèse 2/12/2008
Perspectives
Amélioration de l’outil Coopération des 3 méthodes Amélioration des transcodages Prise en compte d’autres contextes Implémentation de règles médicales Implémentation des méthodes de Metamap
(MTI)
56
Soutenance de thèse 2/12/2008
Perspectives
Aide au transcodage
57
CISMeFPassage d’une stratégie mono-terminologique à une stratégie multi-terminologiqueNouvelles voies de recherche :
• Interopérabilité sémantique inter et intra-terminologies (T. Merabti 2A)• Recherche d’information multi-terminologique dans un portail de santé
(S. Sakji 2A)• Recherche d’information multi-terminologique dans un dossier patient
électronique (A.D. Diriehdibad 1A)
VidalAide à l’indexation TUV avec BIBLISExploitation d’autres terminologies pour des alertes toujours plus performantes
LERTIMNouveau pas vers l’élaboration d’un SIH performantPoursuite des travaux avec T. Merabti, S. Sakji, A.D. Diriehdibad
Soutenance de thèse 2/12/2008
Perspectives
Aide au transcodage
58
Vers d’autres projets communsInterSTIS : Interopérabilité sémantique des terminologies dans les systèmes d’information de santé français (ANR TecSan 2007)
• SMTS : Serveur Multi-Terminologique en Santé
PSIP : optimisation de la prescription informatisée (7ème PCRD)
ALADIN-DTH : Assistant de Lutte Automatisé et de Détection des Infections Nosocomiales à partir de Documents Textuels Hospitaliers (ANR TecSan 2008)
Soutenance de thèse 2/12/2008
Remerciements
L’équipe scientifique Vidal : Elisabeth, Mathilde, Josiane, Sophie, Francine, Olivier, Michelle, Blandine, Nicolas, Ghislaine, Gismonde, Jean-François
L’équipe CISMeF & TIBS : Josette, Gaëtan, Catherine, Benoît, Saoussen, Tayeb, Yvan, Badisse, Philippe, Élise, Thierry, Aurélie et Stefan
L’équipe du LERTIM : Michel Joubert, Mario Fieschi, Paul Avillach
Les intervenants extérieurs : Antoine Buemi, Max Silberztein, Gaëlle Lortal et Lina Soualmia
59
Soutenance de thèse 2/12/2008
Remerciements
ET VOUS !
60
THE ENDTo be continued …