EQUIPE TaToo
Extraction de connaissances dans les bases de données :
motifs séquentiels et ontologie
LIRMM - CNRS - Université Montpellier II
EQUIPE TaToo 8 Permanents (3 Pr, 5 MCF dont 1 HDR),
2 Associés, 7 Doctorants
Thèmes de recherche :
Fouille de donnéesTextes (Text Mining), Arborescentes (Schema - Web Structure Mining) Multidimensionnelles (Cube - Web Usage Mining) Flots (Stream Mining)
Ontologie Annotation, Indexation, Modélisation, Mise-à-jour
Motifs séquentiels2
3
PROBLEMEFouille dedonnées
CONNAISSANCES
aux DECISIONS
Visualisation
EXPERTISE
Des DONNEESReprésentation
Traitement
Vers un nouveau processus
Résultats récents 6 thèses soutenues 2008-2007 (Jurys prestigieux : Jian Pei, Toon
Calders, Osmar Zaiäne …)
Publications (co-publications) avec CL sur 2008 (2007) : 5 (3) RI - 28 (14) CI
DMKD, IEEE Transaction on Fuzzy Sets, ODBASE, CIKM, PAKDD, PKDD, DASFAA, BDA …
Comités de Programme, Relecteur
ICDM, PKDD, DEXA, IEEE TKDE, …
4
Domaines d’application
Web Mining, Text Mining, Schema Mining, Tree Mining, Stream Mining …
Santé : • 3 partenariats forts (Inserm Bordeaux, Montpellier I et II)• 2 Programmes Exploratoires Pluridisciplinaires 2008
PEPS ST2I « GeneMining » PEPS STI-SHS « Langage, Mémoire et Alzheimer »
Environnement …. 5
Outils de visualisation Demon
6
Transferts de technologie•Axiliance (Région LR) (30K)
Filtrage de requêtes à risque
•EDF (R&D Paris) (80K)
Recherche de comportements temporels atypiques
•ANR Midas avec ENST, INRIA, EDF R&D, Orange R&D
Modélisation et fouille dans les flots de données
•We are cloud
Calcul dans les cubes de données
•En cours (PIKKO, Spotter)
7
Conclusion Ambition (Equipe – Séminaire)
Forte implication au sein de l’Université (Présidence, Direction adjointe UFR Info, Direction Dept IG, Responsable de Parcours …), de la région (IBM, cluster INTS, journées MIPS)
Mais Affectation des ressources
8
9
Le Processus d’Extraction de Connaissances
10
Panier de la ménagère
Produits achetés
Identification
Date, heure
Localisation
11
Règles d’Association vs Motifs Séquentiels
Corrélation entre les produits (RA) Les personnes qui achètent des couches achètent de la bière
Comportement des clients au cours du temps (MS) Les personnes qui achètent des couches achètent trois jours après de la bière
Extraction de Motifs Séquentiels
C1 t1
t2
a,b,c,d
a,b
C2 t3 a,b
C3 t1
t4
b,c,d
a,b
Considérons la base de données D suivante avec I = {a,b,c,d} :
<(a,b)> séquence fréquente
[Agrawal & Srikant, 95]
[Srikant & Agrawal, 96]GSP
[Masseglia et al., 98]PSP
[Zaki., 01]SPADE
[Ayres et al. 02]SPAM
[Han et al.., 00]FreeSpan
[Pei et al.., 01]PrefixSpan
[Zaki, 07]PRIMAL
Par niveau Pattern-Growth
Par niveau, représentation
13
Des constats
Quid • des nouvelles données ? • des quantités ?• des contraintes temporelles ? • des données plus complexes ?• des connaissances plus riches ?