equipe tatoo : extraction de connaissances dans les bases de données : motifs séquentiels et...
DESCRIPTION
Anne Laurent (LIRMM) présente les compétences de l'équipe TATOO en extraction de connaissances dans les bases de données.TRANSCRIPT
![Page 1: Equipe TATOO : Extraction de connaissances dans les bases de données : motifs séquentiels et ontologies](https://reader033.vdocuments.mx/reader033/viewer/2022051817/548317b4b07959330c8b49a4/html5/thumbnails/1.jpg)
Equipe‐projet TATOO Extrac3on de connaissances dans les bases de données : mo3fs séquen3els et ontologies
Responsable : Pascal Poncelet
![Page 2: Equipe TATOO : Extraction de connaissances dans les bases de données : motifs séquentiels et ontologies](https://reader033.vdocuments.mx/reader033/viewer/2022051817/548317b4b07959330c8b49a4/html5/thumbnails/2.jpg)
Extrac'on de connaissances dans de grandes bases de données
PROBLEME Fouille de données
CONNAISSANCE DECISION
Visualisation
EXPERTISE
DONNEES
Représentation
Traitement
Mots clés : extrac'on de connaissances, fouille de données, mo'fs séquen'els, entrepôts de données, logique floue, ontologie, annota'on automa'que
![Page 3: Equipe TATOO : Extraction de connaissances dans les bases de données : motifs séquentiels et ontologies](https://reader033.vdocuments.mx/reader033/viewer/2022051817/548317b4b07959330c8b49a4/html5/thumbnails/3.jpg)
Fouille de données / Extrac'on de Connaissance
Fayyad (1996) : the non-trivial process of identifying valid, potentially useful and ultimately understandable patterns in data
Nombreuses applications : marketing, santé, etc.
Algorithmes supervisés/non supervisés
Algorithmes prédictifs/descriptifs
Problématiques associées : nettoyage des données, présentation des résultats, évaluation des méthodes, …
![Page 4: Equipe TATOO : Extraction de connaissances dans les bases de données : motifs séquentiels et ontologies](https://reader033.vdocuments.mx/reader033/viewer/2022051817/548317b4b07959330c8b49a4/html5/thumbnails/4.jpg)
Thèmes scien'fiques
Motifs séquentiels (Contraintes temporelles)
Fouille de données complexes Textes (Text Mining) Arborescentes (Schema - Web Structure Mining) Multidimensionnelles (Cube - Web Usage Mining) Flots (Stream Mining)
Fouille de données approximative
![Page 5: Equipe TATOO : Extraction de connaissances dans les bases de données : motifs séquentiels et ontologies](https://reader033.vdocuments.mx/reader033/viewer/2022051817/548317b4b07959330c8b49a4/html5/thumbnails/5.jpg)
Exemple : Les mo'fs séquen'els
Recherche de corréla'ons au sein de gros volumes de données historisées
⟨(Lecteur DVD) (Ecran LCD, DVD1, DVD2) (Magnétoscope)⟩
Prise en compte d’informations spatio-temporelles
Données mul'‐dimensionnelles
![Page 6: Equipe TATOO : Extraction de connaissances dans les bases de données : motifs séquentiels et ontologies](https://reader033.vdocuments.mx/reader033/viewer/2022051817/548317b4b07959330c8b49a4/html5/thumbnails/6.jpg)
Des données disponibles de plus en plus rapidement
Comment maintenir la connaissance extraite ? Eviter de recommencer « from scratch »
Comment faire face à des données disponibles sous la forme d’un flot ?
Impossible de stocker les données (capteurs, clickstream, RFID, news, …) !
Comment extraire de la connaissance ?
Comment résumer ces données ?
![Page 7: Equipe TATOO : Extraction de connaissances dans les bases de données : motifs séquentiels et ontologies](https://reader033.vdocuments.mx/reader033/viewer/2022051817/548317b4b07959330c8b49a4/html5/thumbnails/7.jpg)
Fouille de données environnementales : CEMAGREF‐LIRMM (M. Teisseire) Quelques exemples …
Suivi de l’évolu'on de phénomènes via des dépêches de presses (exemple H1N1 traité dans l’équipe)
Evolu'on de la Dengue (Nevantropic, CEMAGREF) A par'r d’une base de données de l’INVS, iden'fica'on des quar'ers à risque et des
périodes caractéris'ques précédant une propaga'on de l’épidémie
Données Teru'‐Lucas
Connaître les différentes catégories d’occupa'on du sol et d’usage de l’ensemble du territoire (agricole, naturel et urbanisé)
![Page 8: Equipe TATOO : Extraction de connaissances dans les bases de données : motifs séquentiels et ontologies](https://reader033.vdocuments.mx/reader033/viewer/2022051817/548317b4b07959330c8b49a4/html5/thumbnails/8.jpg)
Conclusion
Défis de la fouille de données :
Volume, rapidité et complexité/hétérogénéité des données
Temps réel
Présenta'on de la connaissance extraite
Quelle est la qualité des données collectées ?
Imprécisions/incer'tudes
Comment insérer d’autres connaissances ?
Données externes (e.g. météo)
Connaissance experte