L’agrégation de données géodécisionnelles :
questions pour mieux la définir
Eve GrenierUniversité Laval
Yvan BédardUniversité Laval
Nicholas ChrismanRéseau GEOIDE, Université Laval
Géomatique 201113 octobre 2011
Plan de la présentation
Approche analytique
Agrégation de données
Questions
Approche analytique
Date et heure
Position
Type de véhicule
Cause
Secteur
Nb depassagers
Nb deblessés
Nb dedécès
Approche analytique
Date et heure
Position
Type de véhicule
Cause
Secteur
Nb depassagers
Nb deblessés
Données recherchées
Axes d’analyse
Nb dedécès
Approche analytique
• Axes d’analyse– Thématique– Temporel
Causes
Mécanique Météo
Panne Neige Pluie
…
Crevaison … …
2005 – 2010
Année
Mois
Jour
Heure
Approche analytique
• Axes d’analyse– Spatial géométrique
Province
Régions administratives
MRC
Québec
01 – Bas-St-Laurent 17 – Centre-du-Québec
140 - Kamouraska
Kamouraska Saint-Carmel
…
070 – La Matapédia …
…Municipalités
487 68 4
Approche analytique
• Données recherchées– Données numériques ou géométriques– Opérateurs d’agrégation
1- Requête transactionnelle
2- Requête multi-niveaux
DécèsPassagers Blessés Position
Somme Somme Somme Regroupement
2 1 0
Agrégation de données
• Processus d’agrégation– Donnée recherchée– Opérateur d’agrégation– Axes d’analyse
• Spécificités de l’agrégation géodécisionnelle– Type de géométrie– Définition sémantique– Interrelations spatiales– Comportement temporel
Blessés
Somme
Moyenne
• Validation du résultat
Agrégation de données
Années Occupation Age Région
Population SommeSomme (A2, A3, A4)Moyenne (A1)
Option 1 Option 2
?
Question – Donnée recherchée
• Données géospatiales– Données géométriques– Données descriptives– Métadonnées
• Représentation multiple
Superficie : 15 haSuperficie estimée en ha
Jour 1 Jour 2 Jour 3 Étendue totale
Feu no 325
?
Question – Donnée recherchée
• Données géospatiales– Données géométriques– Données descriptives– Métadonnées
• Représentation multiple
Superficie : 15 haSuperficie estimée en ha
Jour 1 Jour 2 Jour 3 Étendue totale
Feu no 325
Quelle représentation géométrique doit-on choisir?
Convient-elle pour l’échelle de l’affichage souhaitée?
Doit-on privilégier la donnée descriptive ou géométrique?
Question – Opérateur d’agrégation
Position d’accident routier
Enveloppe convexe Ellipse de distribution?
Question – Opérateur d’agrégation
Quel opérateur/algorithme peut-on choisir pourmettre en valeur les données et répondre aux besoins?
Est-ce que la nature de l’opérateur implique de traiter seulement les données détaillées?
Est-ce que le résultat de l’agrégation est significatif?
Question – Axe d’analyse
Maladie
Option 1
Option 2
Option 3
1 maladie/personne
règle d’agrégation spécifique par niveau
toutes les maladies nb personnes
Région socio-sanitaire Médecin
Règle d’agrégationspécifique
?
Question – Axe d’analyse
Est-ce qu’il existe une relation unique entre la donnée recherchée et l’axe d’analyse?
Est-ce que le type d’axe d’analyse nécessite des règles spécifiques afin d’agréger correctement?
Conclusion
• Agrégation de données géodécisionnelles adéquate– Pas de solution unique– Traitement des données géospatiales plus
complexe– Réflexions nécessaire– Impacts directs sur les décisions
Remerciements
• Chaire industrielle CRSNG en bases de données géospatiales décisionnelles
• CRSNG pour son financement
Merci de votre attention!
Questions?
Types de donnée recherchée
• Types de données numériques [Lenz et Shoshani, 1997]
– Inventaire (stock ) : inventaire d’auto, nombre de citoyens– Cumul (flow ) : naissance mensuelle, revenu annuel– Valeur par unité (value-per-unit ) : coût par unité produite,
taux de change
• Types de données géospatiales– Phénomène ponctuel : position accident routier– Phénomène durable : segment de travaux routiers– Instantané de phénomène évolutif à fréquence temporelle
fixe : feux de forêt évalué quotidiennement– Instantané de phénomène évolutif à fréquence temporelle
variable suivant l’évolution
Classes opérateurs d’agrégation
• 3 classes d’opérateurs [Gray et al., 1997]
– DistributivePeut diviser les données à traiter en plusieurs ensembles disjoints sans affecter le résultat finalEx. somme, minimum, maximum
– AlgébriquePeut être exprimé comme une fonction d’opérateurs distributifsEx. moyenne (somme / dénombrement)
– HolistiqueDoit absolument être utilisé sur la totalité des données à évaluer pour obtenir le bon résultatEx. médiane
Catégories opérateur agrégation
• Opérateurs mathématiques(somme, moyenne, minimum, maximum)
• Opérateurs géométriques(fusion, intersection, centroïde, enveloppe convexe)
• Opérateurs combinant un opérateur mathématiques avec un opérateur d’analyse géospatiale(moyenne superficie, maximum intersection, somme-distance, densité surfacique)
Références
• [Gray et al., 1997]Gray, J., S. Chaudhuri, et al. (1997). Data Cube: A relational aggregation operator generalizing group-by, cross-tab, and sub-totals, Data Mining and Knowledge Discovery, 1(1), pp. 29-53.
• [Lenz et Shoshani, 1997]Lenz, H. & A. Shoshani (1997). Summarizability in OLAP and Statistical Data Bases. Proceedings of the 9th International Conference on Scientific and Statistical Database Management, Olympia, USA, pp. 132-143.