introduction quelques outils de base de l’eda méthodes à noyaux filtres spatiaux robustes

of 114/114
Analyse Exploratoire des Analyse Exploratoire des Données Géographiques Données Géographiques ESDA ESDA Didier JOSSELIN ESPACE, UMR 6012, CNRS, Avignon, France [email protected] Tél.: 04 90 16 26 93

Post on 19-Jan-2016

30 views

Category:

Documents

0 download

Embed Size (px)

DESCRIPTION

Analyse Exploratoire des Données Géographiques ESDA Didier JOSSELIN ESPACE, UMR 6012, CNRS, Avignon, France [email protected] Tél.: 04 90 16 26 93. P L A N. Introduction Quelques outils de base de l’EDA Méthodes à noyaux Filtres spatiaux robustes Variogrammes robustes - PowerPoint PPT Presentation

TRANSCRIPT

  • Analyse Exploratoire des Donnes Gographiques

    ESDA

    Didier JOSSELINESPACE, UMR 6012, CNRS, Avignon, [email protected]: 04 90 16 26 93

  • Introduction

    Quelques outils de base de lEDA Mthodes noyauxFiltres spatiaux robustesVariogrammes robustesAutocorrlation spatialeFiltres adaptatifsMdienne, DistogrammeRapport SIG / outils de Statistique ARPEGE, LAVSTATConclusion

  • Exploratory Spatial Data Analysis :Application de lEDA lanalyse spatiale

  • Lenjeux principal de lanalyse spatiale et donc de lESDA - Lanalyse densemble locale dobjets gographiques pointssurfaceslignesobjets complexes

    - Pour rechercher les :relations statistiquesrelations spatialesrelations travers les chellesrelations statistico-spatiales travers

  • L E D A et la statistique classique

  • Analyse des donnes

    Confirmatoire

    Exploratoire

    Moyenne

    Mdiane

    Histogramme (amplitude gale)

    Branchage, histogramme dynamique, bote pattes

    Test de normalit

    Quantile-Quantile Plot

    Rgression linaire,

    non linaire

    R-expression, Lowess

    rgression robuste

    An. de la variance

    Median polish

    An. factorielle

    Projection rvlatrice

  • La voie de lEDA

  • Histogramme, branchage,bote pattes, dot plot ...

  • Question : quels sont les qualits et les dfauts de lhistogramme ?

  • Les qualits ...Mode de reprsentation synthtique

    Mathmatiquement bien tudi et tabli

    Permet de nombreux tests de dpendance statistique (contingence)

    - Mthodes de discrtisations automatiques

  • Les dfauts ...Sensibilit au nombre de classes

    Mlange dindividus diffrents par classe

    Contrainte de surfaces proportionnelles aux frquences formes bizarres

    - Mthodes de discrtisations automatiques

  • Rponse apporte par le branchage (Stem and leaf)

    Branchage de la Population Urbaine (% de la population dans des zones urbaines)

    37

    87

    95

    64

    97

    71

    41

    68

    54

    56

    85

    76

    73

    63

    75

    76

    89

    59

    65

    58

    92

    67

    73

    21

    72

    89

    60

    89

    52

    100

    73

    89

    64

    36

    56

    65

    94

    51

    59

    61

    83

    69

    70

    57

    feuilles non ordonnes

    feuilles ordonnes

    Tronc

    Feuilles

    Tronc

    Feuilles

    2

    3

    4

    5

    6

    7

    8

    9

    10

    1

    76

    1

    469826197

    4835704519

    163563230

    7599993

    5724

    0

    2

    3

    4

    5

    6

    7

    8

    9

    10

    1

    67

    1

    124667899

    0134455789

    012333566

    3579999

    2457

    0

    D. Ladiray, 1999

  • Rponse apporte par des graphiques simplesDot PlotStacked PlotJittered Plot

    Sheet:

    POPURB

    dot

    stack

    Sheet:

    POPURB

    dot

    stack

    Sheet:

    ESPER96

    dot

    jitt

  • Rponse apporte par la bote pattesintrieursadjaentsprocheslointainsDistance Inter Quartile (dIQ)1,5 x (Q3-Q2)Q2Q1Q3minmax

  • Rponse apporte par lhistogramme dynamique(ex : le distogramme, Josselin, 1999)

  • Dmo histogramme dynamiqueet bote pattes

  • Question : quels sont les qualits et les dfauts des mthodes classiques de comparaison de distributions (Khi2, Kolmogorov-Smirnov ...) sur tableau de contingence ?

  • Les qualits ...Utilisent lhistogramme

    Sont synthtiques et font appel des tests de probabilit

    Mathmatiquement bien tudi et tabli

  • Les dfauts ...Sensibilit au nombre de cases

    On perd lindividu

    On ne peut pas valuer la forme de la distribution

    - Plusieurs valeurs peuvent correspondre des ralits significativement diffrentes

  • La rponse du QQ Plot Valeurs xiclassespar ordrecroissant(i est lindice)Quantiles thoriques suivant une loi normale

  • Dmo QQ-Plot

  • R-expression de variable,rgressions robustes, Lowess

  • Question : quels sont les qualits et les dfauts des rgressions de type moindres carrs, linaires ou non linaires ?

  • Les mmes qualits que dhabitude ... et les mmes dfauts ...

    Sensibilit aux valeurs extrmes

    Ncessit de normalit des rsidus et bonne rpartitions des individus en X et Y

  • Une premire rponse : la r-expression des donnes Lchelle de puissance de TukeyPuissanceTransforme4X43X32X21Xracine(X)0log(X)--1/racine(X)-1-1/X-2-1/X2-3-1/X3Log(x)

  • La rponse de la droite rsistante la rgression linaire (ex :grigri-plot, A. Banos, 1999)RgressionMoindres carrsRsistant line

  • Principe de la droite rsistanteOn regroupe les individus en 3 paquets deffectifs gaux (en fonction de X)

    On calcule pour chaque groupe lindividu robuste {mdiane des X, mdiane des Y}

    On ajuste la droite sur les 2 points mdians extrmes, puis sur le point mdian central

  • Dmo Droite Rsistante

  • La rponse du Lowess la rgression non linaire

  • Principe du lowess (lissage robuste dun nuage de points)On dfinit une distance et on calcule, pour chaque point les poids des points voisins

    On calcule la rgression locale sur chaque point (polynme)

    On calcule les rsidus et on applique un ajustement robuste par la mdiane, pour liminer les rsidus trop importants

  • La voie de lESDA ?

  • Dmo Lowess, filtres robustes sur donnes

  • ESDA : outils existants

    Stat. usuelle

    exploratoire

    Moyenne mobile (pondre)

    Mdiane mobile temporelle / spatiale

    Bootstrap

    Bootstrap spatial

    Filtres spatiaux moyens (pondrs)

    filtres mdians, adaptatifs,

    estimateurs de densits, kernel

    Rgression

    Rgression gographique locale

    Variogramme

    Variogramme robuste

    Autocorrlation spatiale globale

    LISA: autocorrlation spatiale locale

    Analyse spatiale multivarie

    Data mining interactif, GAM

  • Question : Comment lisser, homogniser, simplifieretanalyser travers les chelles... un phnomne observ ?

  • Filtres spatiaux robustes

  • Principe

    On promne un filtre damplitude a choisi par lutilisateur

    En chaque valeur de la srie, on applique la fonction f (pour nous la mdiane) :

  • Mdiane mobile

  • Filtres spatiauxMme principeque sur srie,mais sappliqueen 2DDegr de contigutDistance

  • Contigut 5 zones Matrice de contigut (i,j)Cij = 1 si i et j ont une frontire commune0 sinon On peut aussi dfinir des degrs de contigut : - d'ordre k (suprieur 1) - d'ordre infrieur k IJ

  • Distance 5 zones Matrice de contigut (i,j)Cij = 1/daij si i j avec a > 10 sinon On peut aussi dfinir des pondrations dans la distance en jouant sur a IJa = 1

  • Filtres spatiaux

  • Estimateurs de densitA. Banos, F. Huguenin-Richard, 1999Application aux accidents de la route en 1996 dans la CUDLSource : CUDL, 1996

  • Estimation de densit par fonction de Kernelet les fentres mobiles adaptativesPrincipe gnral : - estimation en tout point de lespace de lintensit dun phnomne (nombre daccidents)- balayage systmatique de la zone dtude par une fentre circulaire mobile de rayon r dfini par lutilisateur ou auto-adaptative- pondration du nombre daccidents en fonction de la distance de chaque accident au centre de la fentre circulaire

    Daprs Bailey T., Gatrell, A., 1995A. Banos, F. Huguenin-Richard, 1999

  • Estimation de densits locales. Reprsentation surfaciqueDensits estimes partir de 20 000 fentres mobiles fixes de rayon 1000 mDensits estimes partir de 20 000 fentres mobiles adaptatives de rayon 1000 mSource : CUDL, 1996A. Banos, F. Huguenin-Richard, 1999

  • Estimation de densits locales. Reprsentation 3DSource : CUDL, 1996Densits estimes partir de 20 000 fentres mobiles fixes de rayon 1000 mDensits estimes partir de 20 000 fentres mobiles adaptatives de rayon 1000 mA. Banos, F. Huguenin-Richard, 1999

  • Les clustersSoit une population de rfrence : lensemble des accidents en 1996 dans la Cudl

    Population de rfrenceSous-populationConstat visuel : forme de la distribution spatiale des 2 semis de points semble identique

    Question : - existent-t ils dans la sous-population des concentrations locales non identifiables lil nu ?Extraction dune sous-population : les accidents ayant impliqu au moins un piton enfant

    A. Banos, F. Huguenin-Richard, 1999

  • Principe de la mthode des clustersComparaison statistique de la distribution spatiale de la sous-population avec sa distribution thorique associe, construite sous hypothse dune rpartition spatiale alatoire

    Application de la loi de Poisson pour tester la significativit des carts observs entre les 2 distributions

    Couverture de la zone dtude par des fentres mobiles circulaires - nombre dfini par lutilisateur - rayon variable, choisi au hasard dans un intervalle fix par lutilisateur

  • Identification de concentrations localesP(,) < 0.05P(,) < 0.01P(,) < 0.005P(,) < 0.001A. Banos, F. Huguenin-Richard, 1999

  • Dmo Filtres spatiaux robustes

  • Question : Comment quantifier la variation dun phnomne dans lespace, travers les chelles, en changeant de rsolution spatiale ?

  • Variogrammes ... robustes

  • Principe sur une maille fixe(Modles Numriques de Terrain)Z1Zn2.2 0.5.dZ20

    Croiser variance et distance pour identifier des structures spatiales

  • Possible aussi sur semis de points sans structure

  • Mthode 1 - On dtermine la matrice des distances dij entre tous les couples de points {i,j}

    2 Pour toutes les valeurs de distance dij (rparties en classes, multiples de d ou non), on calcule la variance de la variable Z

    3 On ralise un nuage de points croisant cette variance (Y) et les distances (dij)

  • Variogramme classique et robuste

    avec i et j les points considrsd la rsolution spatialeZ la variable tudierndle nombre de couples de points la rsolution d

  • Exemple : population communaleQuantilesAmplitudes gales1 : variogramme classique2 : variogramme robuste 13 variogramme robuste 21231,23fortefaible

  • Variogramme exploratoireWe propose to use a spatio-temporal co-occurrence matrice in order to :

    assess spatio-temporal autocorrelation look for spatio-temporal patterns based on pullulation scores local relations and organization in timeLowess

  • Autocorrlation spatiale

  • Question : Comment mesurer quel point des individus proches gographiquement se ressemblent ?

  • Buts et usages de la mesure d'autocorrlation spatialeMesurer des contrastes sur une carte ou une imageEvaluer globalement ou localement la structure d'un phnomneIdentifier des zones homognes vs htrognes Aider la dtection de discontinuts spatiales et des frontires

  • Disciplines et domaines concernsAnalyse spatiale, gographie quantitativeGostatistiques (phnomnes continus et discrets)Traitement d'imagesAnalyse des rseauxEconomie spatialeArchologieEcologieEtc.

  • Les individus proches se ressemblent... (autocorrlation +)

  • Les individus proches sont diffrents... (autocorrlation -)

  • De quoi ai-je besoin pour mesurer l'autocorrlation spatiale ?- D'une (ou de) variable(s) mesurer- D'une mthode pour mesurer la distance ou la contigut :* choix d'une mesure* calcul d'une matrice de distance ou contigut- D'une mthode pour valuer l'autocorrlation sous contrainte de distance / contigut* choix d'une mesure* choix d'une fentre d'application- D'une mthode de validation, visualisation

  • Indices de MORANLindice de MORAN global est dfini comme suit (Moran) :

    avec u la moyenne des valeursnle nombre dindividuslij =1 si i et j contigus ou rpondent une condition, 0 sinonM0si lautocorrlation est positiveEt son quivalent local (LISA, Anselin) :

  • Indices de GEARYLindice de GEARY global est dfini comme suit (Geary):

    avec u la moyenne des valeursnle nombre dindividuslij =1 si i et j contigus ou rpondent une contrainte, 0 sinonG ou Giplus la valeur est grande et plus lautocorrlation est forteEt son quivalent local (LISA, Anselin) :

  • Dmo LISA

  • Filtres temporels et spatiaux robustes

  • Les individus proches se ressemblent... (autocorrlation +)

  • Les individus proches sont diffrents... (autocorrlation -)

  • Mme principe,que filtres spatiaux lien lijDegr de contigut (lij = cij)Distance (lij = dij)

  • Indices de MORANLindice de MORAN global est dfini comme suit (Moran) :

    avec u la moyenne des valeursnle nombre dindividuslij =1 si i et j contigus ou rpondent une condition, 0 sinonM0si lautocorrlation est positiveEt son quivalent local (LISA, Anselin) :

  • Indices de GEARYLindice de GEARY global est dfini comme suit (Geary):

    avec u la moyenne des valeursnle nombre dindividuslij =1 si i et j contigus ou rpondent une contrainte, 0 sinonG ou Giplus la valeur est grande et plus lautocorrlation est forteEt son quivalent local (LISA, Anselin) :

  • Dmo LISA

  • Principe

    On promne un filtre damplitude a choisi par lutilisateur

    En chaque valeur de la srie, on applique la fonction f :

  • Filtres sur srie temporelle

  • Filtres spatiauxMme principe,mais sappliqueen 2DDegr de contigutDistance

  • Les outils du march ... SIG, logiciels de cartographie ou logiciels de Statistique ?

  • Des logiciels de statistique trs labors...La varit et la puissance des modles et des logiciels statistiques disponibles

    Lintgration des outils classiques et de lEDA

    Lexistence de modles statistiques et de logiciels spcifiques en EDA spatiale (ESDA)

  • qui intgrent peu le spatial.Il nexiste que des viewers de donnes gographiques

    Les grands logiciels de statistique intgrent peu les modles de lESDA

    Lapproche gnrale reste de type Entre-Sortie

  • Des logiciels de cartographie conviviaux ... Linteractivit

    La facilit dutilisation

    La qualit de la smiologie

    Lassociation des reprsentations statistiques

  • avec cependant quelques limites ...Outils relativement ferms

    Pas de structure de donnes accessible

    Pas de langage de requte autre que graphique

    Absence de modle topologique

  • Des Systmes dInformation Gographique puissants ...AcqurirAccderAfficherAnalyserArchiverAbstraire

  • Les fonctionnalits lavantage des SIGLe gocodage de linformationIntgration dinformations htrognesLangages de requte laborsModles de donnes structursVarit des SIG ddis ou gnralistesLangage de programmation souvent intgrParfois modle topologique

  • Mais quelques inconvnients majeurs ...Interactivit faible (sauf requte SQL)Peu dintgration d outils statistiques (sauf gros systmes)Souvent empilement dinformations mal structures (couches)Anarchie ?

  • Conclusion : 3 voies sont techniquement possiblesPrendre un outil existant et lutiliser,

    Marier deux (ou plusieurs) outils pour le meilleur et pour le pire (LAVSTAT)

    Dvelopper les besoins spcifiques dans les outils proposs (ARPEGE)

  • Exploratory Spatial Data Analysis :nos propositions pour lenseignement et la recherche

  • Le Distogramme

  • ObjectifsRechercher les discontinuits spatiales

    Analyser les discontinuits dans les valeurs des variables dcrivant les individus

    Chercher la meilleure configuration statistique pour restituer une information cartographique

  • La rgle des D une Double vue : une carte et une distribution statistiqueDeux types de Distributions croises : spatiale et statistiqueUn lien Dynamique entre ellesUn outil pour Discrtiser des variables continuesUn outil pour analyser les Discontinuits spatiales et statistiquesUn outil pour transformer les Donnes (Distorsion de valeurs)

  • Le Distogramme : un lien dynamiqueentre une carte et des distributions

  • Dmo Distogramme

  • ARPEGEpour dtecter les objets gographiques composites multiscalaires

  • Hypothse

    Analyser dynamiquement les relations statistiques et spatiales diffrentes chelles permet une meilleure comprhension des entits gographies et des relations quelles entretiennent (statistiques, spatiales et topologiques)

  • Commune ACommune BLexemple des flux agricoles intercommunaux

  • 1 ha10 ha360 haSAU = flux internes + entrantsFlux sortants

  • Un enchevtrementinextricable...

  • Notion de pertinence territorialeBonMauvais

  • Pi = flux internes / tous les flux

    avec Tous flux = flux internes (Fint) + flux externeso flux externes = sortants (Fout) + entrants (Finc)

  • La pertinence territoriale calcule pour la PEZMA(si elle tait mal attribue territorialement)

  • Distribution spatiale de la pertinence territoriale communale

  • Qualit des donnes : compltude (Josselin, Bolot, Chatonnay,2000)Effet de bordureSecret statistique

  • Que cherchons-nous ?Des collectionsdobjets compositesassocis par :

    leurs dpendances smantiqueset/ou statistiques

    leurs relations spatiales, topologiques et/oufonctionnelles

  • Le visionneur dARPEGE

  • Application du prototype ARPEGE

  • Dmo ARPEGE

  • LAVSTATUn lien dynamique entre ArcView et XlispStat

  • ObjectifsAnalyser lespace de manire systmique

    Ne pas rinventer la roue

    Faire cooprer des outils complmentaires

  • ArcView Un SIG associ ArcInfo Modle topologiqueRequtes variesTables indexes et liens entre tablesUne connexion SQL ( Access par ex.)Un langage de meta-programmation (Avenue)

  • Xlisp-Stat Un environment puissant de programmation statistiqueReprsentations statistiques multiples Bas sur mthodes robustes (ESDA)Un langage de programmation ouvert (LISP Orient Objet)Un lien dynamique entre les reprsentations

  • Mthodologie de lienArcViewXlisp-StatApplication NServices, DDEServeurApplication 3

  • Application de LAVSTAT