datamining etude et analyse des usagers impliqués dans un ......caussanel olivier 5/47 dess 220 -...
TRANSCRIPT
CAUSSANEL Olivier DESS 220 Ŕ Informatique de Gestion
Université PARIS DAUPHINE
Professeur : Edwin DIDAY
DATAMINING
Etude et analyse des usagers
impliqués dans un accident de la
circulation routière.
__________________________________________________________________________________________
CAUSSANEL Olivier 2/47 DESS 220 - Informatique de Gestion
SOMMAIRE
1 INTRODUCTION .............................................................................................................................. 4
2 LE DATA MINING MIS EN ŒUVRE SOUS SODAS ...................................................................... 5
2.1 Objectifs généraux du DATAMINING ................................................................................................... 5
2.2 Présentation du logiciel SODAS (Symbolic Official Data Analysis System) ........................................ 6 2.2.1 Schéma illustrant les étapes de mise en œuvre du logiciel SODAS .................................................... 8 2.2.2 Description sommaire du mode opératoire.......................................................................................... 9
2.2.2.1 Présentation de la page d’accueil .................................................................................................... 9 2.2.2.2 Généralités sur la méthode d’utilisation du logiciel ........................................................................ 9 2.2.2.3 Sélection d’une base d’étude ......................................................................................................... 10 2.2.2.4 Choix des méthodes à appliquer .................................................................................................... 11
3 PRESENTATION DE L’ETUDE ..................................................................................................... 14
3.1 Contexte de l’étude et présentation des données .................................................................................. 14 3.1.1 Présentation de la BDSR (Base Départementale des statistiques de la Route).................................. 14 3.1.2 Présentation de la base de données MSACCESS DEP780 support de l’étude .................................. 14
3.2 Les objectifs ............................................................................................................................................. 16
4 MISE EN ŒUVRE DE SODAS ...................................................................................................... 17
4.1 Mise en œuvre de DB2SO ....................................................................................................................... 17 4.1.1 Généralités sur DB2SO ..................................................................................................................... 17 4.1.2 Extraction des données de la baseDEP780 via DB2SO .................................................................... 17 4.1.3 Modifications des variables extraites ................................................................................................ 20
4.1.3.1 Adjonction de « single-valued variables » .................................................................................... 20 4.1.3.2 Adjonction de « taxonomies » ....................................................................................................... 21 4.1.3.3 Adjonction de « set-valued multiple variable » ............................................................................. 22
4.2 La méthode SOE (Symbolic Object Editor) .......................................................................................... 25 4.2.1 Présentation de la méthode SOE ....................................................................................................... 25 4.2.2 Mise en œuvre de la méthode SOE ................................................................................................... 26
4.2.2.1 L’étoile zoom à deux dimensions .................................................................................................. 26 4.2.2.2 L’étoile zoom à trois dimensions .................................................................................................. 27 4.2.2.3 Les histogramme horizontaux ou verticaux .................................................................................. 28
4.3 La méthode STAT ................................................................................................................................... 29 4.3.1 Présentation de la méthode STAT ..................................................................................................... 29 4.3.2 Mise en œuvre de la méthode STAT ................................................................................................. 30
4.3.2.1 Fréquences relatives pour des variables multimodales .................................................................. 30 4.3.2.2 Fréquences relatives pour des variables intervalles ....................................................................... 31 4.3.2.3 Capacités et min/max/mean pour des variables multimodales probabilistes ................................. 32 4.3.2.4 Biplot avec des variables intervalle ............................................................................................... 33
4.4 La méthode DIV : Divisive Clustering on Symbolic Objects ............................................................... 34 4.4.1 Présentation de la méthode DIV ........................................................................................................ 34 4.4.2 Mise en œuvre de la méthode DIV .................................................................................................... 35
4.4.2.1 La méthode DIV appliquée aux variables qualitatives .................................................................. 35 4.4.2.2 La méthode DIV appliquée aux variables quantitatives ................................................................ 36
4.5 La méthode DSD (Discriminant Symbolic Description) ...................................................................... 38
__________________________________________________________________________________________
CAUSSANEL Olivier 3/47 DESS 220 - Informatique de Gestion
4.5.1 Présentation de la méthode DSD ....................................................................................................... 38 4.5.2 Mise en œuvre de la méthode DSD ................................................................................................... 38
4.6 La méthode TREE (Decision Tree) ........................................................................................................ 39 4.6.1 Présentation de la méthode TREE ..................................................................................................... 39 4.6.2 Mise en œuvre de la méthode TREE ................................................................................................. 39
4.7 La méthode PYR : Pyramidale Clustering on Symbolic Objects ........................................................ 41 4.7.1 Présentation de la méthode PYR ....................................................................................................... 41 4.7.2 Mise en œuvre de la méthode PYR ................................................................................................... 41
4.8 La méthode PCM : Principal Component Analysis ............................................................................. 44 4.8.1 Présentation de la méthode PCM ...................................................................................................... 44 4.8.2 Mise en œuvre de la méthode PCM .................................................................................................. 44
4.9 La méthode FDA : Factorial Discriminant Analysis ............................................................................ 46 4.9.1 Présentation de la méthode FDA ....................................................................................................... 46 4.9.2 Mise en œuvre de la méthode FDA ................................................................................................... 46
5 CONCLUSION ............................................................................................................................... 47
__________________________________________________________________________________________
CAUSSANEL Olivier 4/47 DESS 220 - Informatique de Gestion
1 INTRODUCTION
Le datamining est un processus qui permet de découvrir, dans de grosses bases
de données consolidées, des informations jusque là inconnues.
L’exploitation de ces nouvelles informations peut présenter un intérêt pour
analyser et interpréter les comportements d’individus par exemple. Les résultats
obtenus s’insérant dans un dispositif d’analyse globale permettent alors de dresser
dans des plans stratégiques ou politiques les axes d’effort à respecter.
Les techniques statistiques du datamining sont bien connues. Il s’agit
notamment de la régression linéaire et logistique, de l’analyse multi variée, de
l’analyse des composantes principales, des arbres décisionnels et des réseaux de
neurones. Cependant, les approches traditionnelles de l’inférence statistique échouent
avec les grosses bases de données, car en présence de milliers ou de million de cas et
de centaines ou de milliers de variables, on trouvera forcément un niveau élevé de
redondance parmi les variables, certaines relations seront fausses, et même les
relations les plus faibles paraîtront statistiquement importantes dans tout test
statistique. L’objectif est de construire un modèle dont le pouvoir de prédiction est
satisfaisant.
L’analyse de données symboliques prend actuellement de plus en plus
d’importance, en témoigne le développement du logiciel spécifique SODAS. C’est ce
logiciel qui va être utilisé dans le cadre de ce projet afin d’extraire les données
concentrées dans une base de donnée relationnelle de type ACCESS et d’y appliquer
les méthodes d’analyse contenues dans SODAS.
La base d’étude du projet concerne les usagers de la route impliqués dans un
accident de la circulation routière dans le département des Yvelines entre 1995 et
2003.
Le présent rapport est constitué de deux parties principales.
La première est une présentation générale du datamining et du logiciel
SODAS.
La deuxième partie décrit plus précisément le contexte de l’étude, et détaille en
particulier les modalités d’extraction des variables analysées et la mise en œuvre des
diverses méthodes d’analyse associées.
__________________________________________________________________________________________
CAUSSANEL Olivier 5/47 DESS 220 - Informatique de Gestion
2 LE DATA MINING MIS EN ŒUVRE SOUS SODAS
2.1 OBJECTIFS GENERAUX DU DATAMINING
Les progrès de la technologie informatique dans le recueil et le transport de données
font que dans tous les grands domaines de l’activité humaine, des données de toutes sortes
(numériques, textuelles, graphiques…) peuvent maintenant être réunies et en quantité souvent
très importante.
Les systèmes d’interrogation des données, qui n’étaient autrefois réalisables que via
des langages informatiques nécessitant l’intervention d’ingénieurs informaticiens de haut
niveau, deviennent de plus en plus simples d’accès et d’utilisation.
Résumer ces données à l’aide de concepts sous-jacents (une ville, un type de chômeur,
un produit industriel, une catégorie de panne …), afin de mieux les appréhender et d’en
extraire de nouvelles connaissances constitue une question cruciale. Ces concepts sont décrits
par des données plus complexes que celles habituellement rencontrées en statistique. Ces
données sont dites « symboliques », car elles expriment la variation interne inéluctable des
concepts et sont structurées.
Dans ce contexte, l’extension des méthodes de l’Analyse des Données Exploratoires et
plus généralement, de la statistique multidimensionnelle à de telles données, pour en extraire
des connaissances d’interprétation aisée, devient d’une importance grandissante.
L’analyse porte sur des « atomes », ou « unités » de connaissances (les individus ou
concepts munis de leur description) considérés au départ comme des entités séparées les unes
des autres et qu’il s’agit d’analyser et d’organiser de façon automatique.
Par rapport aux approches classiques, l’analyse des données symboliques présente les
caractéristiques et ouvertures suivantes :
Elle s’applique à des données plus complexes. En entrée elle part de données
symboliques (variables à valeurs multiples, intervalle, histogramme, distribution de
probabilité, de possibilité, capacité …) munies de règles et de taxonomies et peut fournir en
sortie des connaissances nouvelles sous forme d’objets symboliques présentant les avantages
qui sont développés supra :
- Elle utilise des outils adaptés à la manipulation d’objets symboliques de
généralisation et de spécialisation, d’ordre et de treillis, de calcul
d’extension, d’intention et de mesures de ressemblances ou d’adéquation
tenant compte des connaissances sous-jacentes basées sur les règles de
taxonomies ;
- Elle fournit des représentations graphiques exprimant, entre autres, la
variation interne des descriptions symboliques. Par exemple, en analyse
factorielle, un objet symbolique sera représenté par une zone (elle-même
exprimable sous forme d’objet symbolique) et pas seulement par un point ;
Les principaux avantages des objets symboliques peuvent se résumer comme suit :
__________________________________________________________________________________________
CAUSSANEL Olivier 6/47 DESS 220 - Informatique de Gestion
- Ils fournissent un résumé de la base, plus riche que les données agrégées
habituelles car ils tiennent compte de la variation interne et des règles sous-
jacentes aux classes décrites, mais aussi des taxonomies fournies. Nous
sommes donc loin des simples centres de gravité ;
- Ils sont explicatifs, puisqu’ils s’expriment sous forme de propriétés des
variables initiales ou de variables significatives obtenues (axes factoriels),
donc en termes proches de l’utilisation ;
- En utilisant leur partie descriptive, ils permettent de construire un nouveau
tableau de données de plus haut niveau sur lequel une analyse de données
symboliques de second niveau peut s’appliquer ;
- Afin de modéliser des concepts, ils peuvent aisément exprimer des
propriétés joignant des variables provenant de plusieurs tableaux associés à
différentes populations. Par exemple, pour construire un objet symbolique
associé à une ville, on peut utiliser des propriétés issues d’une relation
décrivant les habitants de chaque ville et une autre relation décrivant les
foyers de chaque ville.
- Plutôt que de fusionner plusieurs bases pour étudier ensuite la base
synthétique obtenue, il peut être plus avantageux d’extraire d’abord des
objets symboliques de chaque base puis d’étudier l’ensemble des objets
symboliques ainsi obtenus ;
- Ils peuvent facilement être transformés sous forme de requête sur une Base
de Données.
Ceci a au moins les deux conséquences suivantes :
Ils peuvent donc propager les concepts qu’ils représentent d’une base à une
autre (par exemple, d’un pays à l’autre de la communauté européenne,
EUROSTAT ayant fait un grand effort de normalisation des différents types
d’enquête sociodémographiques).
Alors qu’habituellement on pose des questions sous forme de requête à la
base de données pour fournir des informations intéressant l’utilisateur, les
objets symboliques formés à partir de la base par les outils de l’analyse des
données symboliques permettent à l’inverse de définir des requêtes et donc
de fournir des questions qui peuvent être pertinentes à l’utilisateurs.
2.2 PRESENTATION DU LOGICIEL SODAS (SYMBOLIC OFFICIAL DATA
ANALYSIS SYSTEM)
Il s’agit d’un logiciel prototype public apte à analyser des données symboliques.
Le logiciel SODAS est issu d’un projet de EUROSTAT portant le même nom. Ce
logiciel a pour vocation de fournir un cadre aux différentes avancées récentes et futures dans
le domaine de l’analyse des données symboliques.
L’idée générale de ce projet est de construire, à partir d’une base de données
relationnelle, un tableau de données symboliques muni éventuellement de règles de
taxonomies. Le but étant de décrire des concepts résumant un vaste ensemble de données et
d’analyser ensuite ce tableau pour en extraire des connaissances par des méthodes d’analyse
de données symboliques.
__________________________________________________________________________________________
CAUSSANEL Olivier 7/47 DESS 220 - Informatique de Gestion
Une analyse des données dans SODAS suit les étapes suivantes :
Partir d’une base de données relationnelle (ORACLE, ACCESS…) ;
Définir ensuite un contexte par :
Des unités statistiques de premier niveau (habitants, familles, entreprises,
accidents...) ;
Les variables qui les décrivent ;
Des concepts (villes, groupes socio-économiques, scénario d’accident…).
Chaque unité statistique de premier niveau est associée à un concept (par exemple,
chaque habitant est associé à sa ville). Ce contexte est défini par une requête sur la base de
données relationnelle.
Le tableau de données symboliques peut être construit, les nouvelles unités statistiques
sont les concepts décrits par généralisation des propriétés des unités statistiques de premier
niveau qui leur sont associées.
Ainsi, chaque concept est décrit par des variables dont les valeurs peuvent être des
histogrammes, des intervalles, des valeurs uniques (éventuellement munies de règles et de
taxonomies) selon le type de variables et le choix de l’utilisateur.
Il est alors possible de créer un fichier d’objets symboliques sur lequel une douzaine
de méthodes d’analyse de données symboliques peut déjà s’appliquer (histogrammes des
variables symboliques, classification automatique, analyse factorielle, analyse discriminante,
visualisations graphiques…).
Nota : le logiciel SODAS est téléchargeable à l’adresse suivante
http:/www.ceremade.dauphine.fr/~touati/sodas-pagegarde.htm
__________________________________________________________________________________________
CAUSSANEL Olivier 8/47 DESS 220 - Informatique de Gestion
2.2.1 Schéma illustrant les étapes de mise en œuvre du logiciel SODAS
__________________________________________________________________________________________
CAUSSANEL Olivier 9/47 DESS 220 - Informatique de Gestion
2.2.2 Description sommaire du mode opératoire
2.2.2.1 Présentation de la page d’accueil
La fenêtre principale de SODAS se compose de 3 éléments principaux :
1 – La barre d’outils qui comporte 5 menus.
2 – La fenêtre Methods de la fenêtre principale propose, par groupe, les différentes
méthodes disponibles.
3 – La fenêtre Chaining de la fenêtre principale gère l’enchaînement des méthodes
appliquées à la base choisie.
2.2.2.2 Généralités sur la méthode d’utilisation du logiciel
Il est tout d’abord important de définir ce qu’est une filière dans le logiciel
SODAS. Il s’agit d’une représentation graphique des calculs à effectuer qu’il est
possible de visionner dans la fenêtre Chaining.
En tête d’une filière, figure l’icône BASE représentant le fichier SODAS (.sds)
sur lequel les calculs vont être effectués. A la suite de cette icône BASE, viendront se
placer les icônes des méthodes représentant les calculs souhaités.
__________________________________________________________________________________________
CAUSSANEL Olivier 10/47 DESS 220 - Informatique de Gestion
Après le paramétrage des méthodes et l’enregistrement de la filière, les
résultats figureront sous forme d’icônes, à droite de chacune des méthodes.
2.2.2.3 Sélection d’une base d’étude
Nota : pour qu’un fichier SODAS possède l’extension .sds qui permette de
l’identifier comme une base support à l’application des méthodes, il faut se positionner
sur une fichier que l’on a sauvegardé en .gaj et «l’exporter » :
SODAS File
Import…– Importation (DB2SO)
File
Open
(Rechercher le .gaj)
File
Export
__________________________________________________________________________________________
CAUSSANEL Olivier 11/47 DESS 220 - Informatique de Gestion
Une fois cette opération effectuée, pour sélectionner la « base » support de
l’analyse, il ne reste plus qu’à satisfaire les étapes suivantes :
- double-cliquer sur l’icône BASE ;
- .sélectionner le .sds qui nous intéresse ;
- cliquer sur OK.
La filière a été modifiée, et maintenant il est possible de lire le nom de la base
associée à la filière ainsi que son chemin d’accès sur le disque dur.
2.2.2.4 Choix des méthodes à appliquer
Il faut maintenant enrichir la filière définie précédemment grâce à des
méthodes (Methods) afin d’analyser les données de la base.
Pour cela il est possible d’utiliser des filières prédéfinies (Model/Predefined
chaining) ou bien composer soi-même une filière en enchaînant des méthodes issues
de la fenêtre Methods.
Pour insérer de nouvelles méthodes, il suffit de choisir le menu Method et de
cliquer sur Insert Method. Un carré vide apparaît alors sous l’icône BASE ; il faut
alors sélectionner la méthode à appliquer, dans la fenêtre Methods et la faire glisser
jusqu’à l’emplacement vide.
__________________________________________________________________________________________
CAUSSANEL Olivier 12/47 DESS 220 - Informatique de Gestion
Les méthodes constituant maintenant la filière sont affichées à la suite de
l’icône BASE, selon l’ordre défini par l’utilisateur, dans lequel elles vont s’enchaîner.
Chaque méthode est représentée par une icône à gauche de laquelle se trouve son nom
ainsi qu’une description sommaire.
La couleur de l’icône de la méthode renseigne sur son état :
Gris : la méthode n’est pas encore paramétrée ;
Rouge : la méthode est paramétrée.
Par défaut, les méthodes qui viennent d’être insérées sont grisées.
Chaque méthode est numérotée dans la filière : ce numéro apparaît dans une
petite boîte située à gauche de la méthode.
La couleur de cette boîte indique le statut de la méthode :
Gris : la méthode ne peut être exécutées car elle n’est pas paramétrée
Vert : la méthode est exécutable car elle est paramétrée
Rouge : la méthode est désactivée. Elle est exécutable mais l’utilisateur
en interdit l’exécution (menu Methods puis Desactive method).
Ensuite, il faut paramétrer la méthode. Il suffit de double-cliquer sur l’icône de
la méthode. Alors, une fenêtre structurée en fiches à onglets s’ouvre, elle regroupe
l’ensemble des différents paramètres de la méthode.
Après le paramétrage des diverses méthodes, l’affichage de la filière a changé.
Toutes les méthodes sont maintenant exécutables, car paramétrées (les icônes sont
rouges).
Le paramétrage des toutes les méthodes de la filière étant terminé, il est
possible de l’exécuter.
Par contre, toute exécution d’une filière doit être obligatoirement précédée de
sa sauvegarde (menu Chaining puis Save chaining as et saisie d’un nom dont
l’extension est .fil).
Une fois cette opération effectuée, la filière est exécutée en cliquant sur le
sous-menu Run chaining du menu Chaining.
__________________________________________________________________________________________
CAUSSANEL Olivier 13/47 DESS 220 - Informatique de Gestion
Filière avant exécution des méthodes :
Filière après exécution des méthodes :
__________________________________________________________________________________________
CAUSSANEL Olivier 14/47 DESS 220 - Informatique de Gestion
3 PRESENTATION DE L’ETUDE
3.1 CONTEXTE DE L’ETUDE ET PRESENTATION DES DONNEES
La base de données relationnelle sur laquelle s’appuie l’étude représente une
fraction des données collationnées via l’application « Base Départementale des
Statistiques de la Route » de la gendarmerie nationale qui permet le suivi des accidents
corporels de la circulation routière d’un département.
3.1.1 Présentation de la BDSR (Base Départementale des statistiques de la Route)
L’application BDSR (Base Départementale des Statistiques de la Route)
intègre dans des tables d’une base de données de type MSACCESS, les données
contenues dans les fichiers BAAC (Bulletin d’Analyse des Accidents Corporels de la
circulation routière) qui concernent les accidents corporels de la circulation routière
s’étant produits dans un département. Les bulletins sont saisis dans des applications
dédiées au suivi du service par les unités élémentaires, brigades territoriales (niveau
canton administratif) ou motorisées.
La BDSR offre au commandant de groupement de gendarmerie départementale
(niveau département administratif) un outil de contrôle des informations et surtout de
suivi de statistiques routières en temps réel pour son département.
Elle génère, par extraction des données qu’elle contient, un fichier au format
texte qui regroupe les renseignements que tous les accidents corporels de la circulation
routière constatés sur l’ensemble du département concerné pour le mois écoulé. Ce
fichier permet d’alimenter la base centrale d’où sont tirés les renseignements fournis
aux divers grands organismes et institutions.
3.1.2 Présentation de la base de données MSACCESS DEP780 support de l’étude
Renseignées par les unités élémentaires du 78 la base de données DEP780
contient les données relatives aux accidents corporels survenus dans le département
des Yvelines depuis 1995.
Elle est constituée de cinq tables principales :
o SRP_ACCIDENT qui permet d’enregistrer entre autres la localisation
de l’accident, le type de collision, les conditions atmosphériques…
o SRP_USAGER qui permet d’enregistrer entre autres le type de trajet
emprunté par l’usager, son âge, sa catégorie socioprofessionnelle, son
dépistage d’alcoolémie…
o SRP_LIEUX qui permet d’enregistrer les renseignements relatifs à la
physionomie et à l’état des lieux
o SRP_VEHICULES qui permet d’enregistrer les renseignements relatifs
aux véhicules.
o Unités, cette table permet quant à elle d’enregistrer tous les
renseignements concernant la ou les unités qui sont intervenues sur
l’accident.
__________________________________________________________________________________________
CAUSSANEL Olivier 15/47 DESS 220 - Informatique de Gestion
Une autre table « Codification » est utilisée par l’application BDSR pour
assurer l’intelligibilité des codes utilisés dans les tables mentionnées infra.
Dans le cadre d’étude, il a été nécessaire de procéder à une première intervention
pour modifier le format des données contenues dans les tables afin de remplacer les
codes par leurs libellés.
Une deuxième intervention a été nécessaire, en effet, tous les champs n’étant
pas toujours renseignés ou renseignés de manières différentes, en fonction des unités,
des erreurs se sont produites lors de l’extraction via DB2SO. Les données impliquées
ont été corrigées (il s’agit en particulier des données du champ COD_DEP lorsque le
pays est étranger).
Enfin, en vue d’assurer la présence de données répondant aux critères de
taxonomies un nouveau champ a été ajouté « CAT_VEHICULE » lié au champ
« COD_ADMINISTRATIVE ».
Le schéma relationnel de la base « DEP780 » est présenté ci-dessous afin
de mieux la définir :
__________________________________________________________________________________________
CAUSSANEL Olivier 16/47 DESS 220 - Informatique de Gestion
3.2 LES OBJECTIFS
L’objectif de l’étude est de présenter les modalités de mise en œuvre de l’outil
SODAS aussi bien au niveau de l’extraction et de la mise en forme des données que de
l’application des méthodes d’analyse de données symboliques.
Avertissement :
Il n’est pas question ici de se livrer à une interprétation des résultats obtenus
étant donnée la sensibilité du sujet retenu, mais plutôt d’apporter un éclaircissement
sur les capacités de l’outil SODAS et son intérêt éventuel pour l’analyse des données
collationnées par les unités de gendarmerie en matière d’accident de la circulation
routière.
La démarche suivie ne s’intègre pas dans une réflexion globale de l’institution
qu’elle ne saurait engager quant aux conclusions auxquelles elle aboutit.
Les individus retenus dans le cadre de cette étude, c'est-à-dire les unités
statistiques de premier niveau sont les identifiants d’usagers de type « conducteur ». Il
s’agit donc des conducteurs impliqués dans un accident corporel de la circulation
routière.
Ces individus sont plus particulièrement décrits dans la table SRP_USAGER.
Les concepts n’apparaissent pas de façon naturelle, parmi les différentes
possibilités, ce sont les types de trajets empruntés par ces conducteurs au cours duquel
a eu lieu l’accident qui ont été retenus.
Plusieurs requêtes ont été nécessaires sur cette base afin de créer le contexte de
l’étude.
__________________________________________________________________________________________
CAUSSANEL Olivier 17/47 DESS 220 - Informatique de Gestion
4 MISE EN ŒUVRE DE SODAS
Une fois le cadre d’étude défini, il est alors possible de débuter l’analyse des
données à l’aide du logiciel SODAS.
4.1 MISE EN ŒUVRE DE DB2SO
4.1.1 Généralités sur DB2SO
DB2SO est le module du logiciel SODAS qui permet de créer un ensemble de
concepts à partir des données stockées dans la base de données relationnelle.
Une série d’individus répartis entre plusieurs groupes est stockée dans la base. Alors
DB2SO peut construire un concept pour chaque groupe d’individus. Des variables mère/filles
et des taxonomies peuvent également être associées aux concepts ainsi obtenus.
4.1.2 Extraction des données de la baseDEP780 via DB2SO
Le système de liaisons ODBC de SODAS lui permet d’accéder directement aux bases
de données et en particulier aux bases Microsoft Access.
Pour importer les données de la base Dep780, il faut sélectionner la commande
Importation (DB2SO) dans le sous menu Import du menu SODAS File.
SODAS File
Import…– Importation (DB2SO)
File
New
L’écran suivant nous invite à sélectionner une source de données machine. Dans le cas
de l’étude il s’agit d’une base Microsoft Access 97.
Ce SGBDR inclut le driver ODBC permettant l’accès de DB2SO à la base de données
relationnelles.
SODAS ne propose aucun menu de connexion à la base de données car l’utilisateur est
automatiquement invité à s’y connecter quand cela est nécessaire, c'est-à-dire lorsqu’il
souhaite exécuter une requête.
A tout moment, l’utilisateur peut décider de changer de base de données en choisissant
le menu File\Disconnect. Il sera alors invité à spécifier une nouvelle base de données.
__________________________________________________________________________________________
CAUSSANEL Olivier 18/47 DESS 220 - Informatique de Gestion
L’étape suivante consiste à rechercher la base de travail à sélectionner.
Lorsque ces étapes préliminaires sont exécutées, il est nécessaire de procéder à
l’extraction des individus. Pour ce faire, il faut taper une requête SQL dans l’écran qui se
présente alors.
__________________________________________________________________________________________
CAUSSANEL Olivier 19/47 DESS 220 - Informatique de Gestion
Cette requête est de la forme : select * from requête1 avec requête1 une requête qui
renvoie une table du type : individus / concepts / description des individus.
Soit résultat de la requête 1 :
1ère
colonne = individus ;
2ième
colonne = concepts ;
3ième
colonne et suivantes = descriptions des individus.
Dans la présente étude, la requête 1 correspond à la requête INDIV_CONCEPT_VARIABLE 1 présentée ci-dessous :
SELECT INDIV_CONCEPT_VARIABLE.ID_CONDUC,
INDIV_CONCEPT_VARIABLE.COD_TRAJET, INDIV_CONCEPT_VARIABLE.COD_NAT,
INDIV_CONCEPT_VARIABLE.COD_DEP, INDIV_CONCEPT_VARIABLE.COD_PAYS,
INDIV_CONCEPT_VARIABLE.DAT_NAIS,
INDIV_CONCEPT_VARIABLE.COD_SOCIO_PROF,
INDIV_CONCEPT_VARIABLE.COD_SEXE, INDIV_CONCEPT_VARIABLE.DAT_PERMIS,
INDIV_CONCEPT_VARIABLE.COD_ALCOOLEMIE,
INDIV_CONCEPT_VARIABLE.COD_UTILISATION,
INDIV_CONCEPT_VARIABLE.COD_EXISTANCE,
INDIV_CONCEPT_VARIABLE.COD_GRAVITE, INDIV_CONCEPT_VARIABLE.COD_PERMIS
FROM INDIV_CONCEPT_VARIABLE;
La requête doit retourner une ligne pour chaque individu, chaque ligne ayant une
structure précisée infra : identifiant de l’individu, groupe auquel appartient l’individu et
ensuite les différents attributs décrivant les individus.
Le nombre de ces attributs est variable mais un minimum d’un attribut est requis.
Une fois la requête SQL tapée et validée, elle s’exécute dans la base de données, les
individus sont alors extraits de la base de données, ils sont stockés en mémoire et un tableau
de concepts est généré.
A l’issue de l’extraction des individus, il est possible de visualiser les résultats, à
savoir les tableaux des individus et des concepts en sélectionnant le menu View et en
choisissant Individuals ou bien Assertions.
__________________________________________________________________________________________
CAUSSANEL Olivier 20/47 DESS 220 - Informatique de Gestion
A ce stade, le résultat obtenu peut être sauvegarder en choisissant File\Save as, le
fichier est alors enregistré avec l’extension .gaj.
4.1.3 Modifications des variables extraites
Le menu Modify permet à l’utilisateur de modifier les concepts à l’aide de plusieurs
opérations d’adjonction de différents types de variables.
4.1.3.1 Adjonction de « single-valued variables »
Le mode opératoire consiste à partir de l’écran ci-dessus à ouvrir le menu
Modify\Add single valued variable, et à écrire une requête SQL destinée à extraire de la
base relationnelle les variables décrivant le concept retenu.
La requête qui sera appliquée ici ramène uniquement des attributs numériques ce qui
posera des problèmes pour l’application des méthodes décrites supra.
Nota : Il n’existe pas dans la base support de l’étude, pour le concept sélectionné, de
données permettant d’obtenir des variables nominales qualitatives simples. Aussi pour ne pas
être dans l’incapacité totale de mettre en œuvre les méthodes ayant recours à ce type de
variable il a été créé artificiellement via une requête SQL des données répondant aux critères
attendus, il s’agira de COD_TRAJET_1. Cette démarche analytiquement fort peu
__________________________________________________________________________________________
CAUSSANEL Olivier 21/47 DESS 220 - Informatique de Gestion
satisfaisante a pour objet essentiel de permettre d’illustrer les méthodes mises en œuvre supra
au travers les sorties qui leur sont associées.
Le résultat obtenu à l’écran est le suivant :
4.1.3.2 Adjonction de « taxonomies »
Le mode opératoire consiste à ouvrir le menu Modify\Create taxonomy, et d’écrire
une requête SQL destinée à extraire de la base relationnelle les variables attendues. La requête
renvoie en première colonne les variables enfants et en deuxième colonne la variable parent.
Dans le cadre de la présente étude deux taxonomies sont identifiées :
La première, entre les départements et les pays.
__________________________________________________________________________________________
CAUSSANEL Olivier 22/47 DESS 220 - Informatique de Gestion
La deuxième, entre les catégories administratives des véhicules et les types
véhicules
4.1.3.3 Adjonction de « set-valued multiple variable »
Pour l’adjonction de ce type de variables, la requête à utiliser doit renvoyer
exactement un attribut multi-valué en relation avec une variable multi-valuée et décrivant le
concept.
La première colonne de la requête décrit le concept, la seconde contient les modalités
de l’attribut multi-valué et la troisième est la cardinalité de la modalité considérée, au sein du
concept.
Les résultats obtenus à l’écran sont les suivants :
__________________________________________________________________________________________
CAUSSANEL Olivier 23/47 DESS 220 - Informatique de Gestion
Les catégories socioprofessionnelles
Les gravités (blessés graves, blessés légers, tués, indemnes)
__________________________________________________________________________________________
CAUSSANEL Olivier 24/47 DESS 220 - Informatique de Gestion
L’existence ou non de dispositifs de sécurités (ceinture,…)
Le sexe des conducteurs impliqués dans l’accident
__________________________________________________________________________________________
CAUSSANEL Olivier 25/47 DESS 220 - Informatique de Gestion
4.2 LA METHODE SOE (SYMBOLIC OBJECT EDITOR)
4.2.1 Présentation de la méthode SOE
La méthode SOE permet à un utilisateur de visionner facilement dans un
tableau tous les objets symboliques présents dans un fichier SODAS ainsi que d’opérer
quelques changements sur ces données.
Ces changements sont par exemple la modification des libellés des objets, des
modalités, des variables …
L’éditeur fournit également la possibilité de visionner les objets symboliques
sous une représentation graphique : l’étoile zoom.
L’étoile zoom représente un objet symbolique. Cette représentation graphique
en étoile zoom est basée sur des axes radiaux où chaque axe représente une variable.
Le but de cette représentation est de fournir une image synthétique de l’objet,
un profil, et de comparer des profils entre eux.
L’étoile zoom a la particularité de proposer différents types de détails de
manière interactive, et ce, notamment grâce à une représentation en deux dimensions
ou en trois dimensions.
Nota : toutes les étoiles zoom de tous les objets symboliques générés ne seront
pas présentées. L’objectif est ici de montrer l’intérêt, la puissance et l’apport de SOE
et des objets symboliques et non pas d’être exhaustif dans les connaissances qui
pourraient être tirées de la base DEP780.mdb.
__________________________________________________________________________________________
CAUSSANEL Olivier 26/47 DESS 220 - Informatique de Gestion
4.2.2 Mise en œuvre de la méthode SOE
4.2.2.1 L’étoile zoom à deux dimensions
Une première représentation de la méthode, en étoile zoom à deux dimensions,
appliquée aux individus impliqués dans un accident survenu au cours d’une
« utilisation professionnelle » du véhicule ou à l’occasion d’une « promenade ou d’un
loisir » permet de faire ressortir les différentes données associées à ces deux concepts.
Seules les indications les plus importantes et surtout les plus exploitables sont
retenues (les dates de naissance, par exemple, trop nombreuses, sont écartées).
Les variables (qualitatives) sont représentées par des points de taille
proportionnelle au nombre d’occurrences rencontrées dans l’étude pour une valeur
donnée.
Le graphique relie entre eux les points de plus grosses tailles (présentant donc
le plus grand nombre d’occurrences).
Pour chaque variable, certaines valeurs peuvent ne pas être prises en compte
dans la représentation, en l’occurrence, la valeur « non renseignée » ne figure pas sur
les deux représentations proposées ci-dessous.
__________________________________________________________________________________________
CAUSSANEL Olivier 27/47 DESS 220 - Informatique de Gestion
4.2.2.2 L’étoile zoom à trois dimensions
Une deuxième représentation consiste en l’étoile zoom en 3 dimensions, où les
variables qualitatives figurent sous forme d’histogramme et les variables quantitatives
sous forme d’intervalle, matérialisé par un trait épais sur un axe (avec mention
également des valeurs extrêmes rencontrées pour l’ensemble des concepts).
Pour chaque variable, certaines valeurs peuvent ne pas être prises en compte
dans la représentation, en l’occurrence, la valeur « non renseignée » ne figure pas sur
les deux représentations proposées ci-dessous.
__________________________________________________________________________________________
CAUSSANEL Olivier 28/47 DESS 220 - Informatique de Gestion
4.2.2.3 Les histogramme horizontaux ou verticaux
Les représentations en étoiles zoom sont parfois un peu trop condensées, il est
toujours possible de visualiser un troisième type de représentation, pour un axe donné,
sous forme d’histogrammes verticaux ou horizontaux (application au dépistage
alcoolémie et au sexe des conducteurs).
Utilisation professionnelle
Promenade - Loisir
Utilisation professionnelle Promenade - Loisir
__________________________________________________________________________________________
CAUSSANEL Olivier 29/47 DESS 220 - Informatique de Gestion
4.3 LA METHODE STAT
4.3.1 Présentation de la méthode STAT
STAT permet d’appliquer des méthodes, habituellement utilisées pour des
données conventionnelles, à des données symboliques représentées par leurs
descriptions.
Ces méthodes dépendent du type des variables présentes dans la base SODAS.
1 – les fréquences relatives pour les variables multimodales ;
2 – les fréquences relatives pour les variables intervalles ;
3 – les capacités et min/max/mean pour les variables multimodales
probabilistes ;
4 – biplot pour les variables intervalles.
Le format de sortie est, selon le choix de l’utilisateur, un listing ou bien un
graphique.
Exemple de listing :
SODAS - STAT RELATIVE FREQUENCIES (MODAL) Jun 01 2003
15:59
File: DEP780.SDS
Title: DEP780
---------------------------------------------------------------------------
-----
COD_SOCIO_PROF
AF01 Cadre Moyen, Employe 0.1187
AF02 Ouvrier 0.1187
AF03 Autre 0.1187
AF04 Conducteur Professionnel 0.1187
AF05 Cadre Superieur, Profession Liberale, Chef d'Entreprise 0.1187
AF06 Artisan, Commercant, Profession Independante 0.1187
AF07 Retraite 0.0949
AF08 Chomeur 0.1187
AF09 Agriculteur 0.0741
COD_EXISTANCE_1
BF01 Autre 0.1528
BF02 Casque 0.2083
BF03 Ceinture 0.2083
BF04 Dispositif enfant 0.1111
BF05 Equipement Reflechissant 0.1111
BF06 Non renseigné 0.2083
COD_SEXE_1
BG01 Féminin 0.5000
BG02 Masculin 0.5000
__________________________________________________________________________________________
CAUSSANEL Olivier 30/47 DESS 220 - Informatique de Gestion
4.3.2 Mise en œuvre de la méthode STAT
Les graphiques peuvent être modifiés et personnalisés (figures, formes,
couleurs, texte, commentaires …) par l’utilisateur, ils peuvent également être copiés et
sauvegardés.
4.3.2.1 Fréquences relatives pour des variables multimodales
Avec cette méthode, il est possible de calculer la fréquence relative de chaque
modalité de la variable multimodale en tenant compte des règles contenues dans le
fichier SODAS.
Le graphique obtenu peut être présenté soit sous forme d’histogramme soit
sous forme de camembert.
__________________________________________________________________________________________
CAUSSANEL Olivier 31/47 DESS 220 - Informatique de Gestion
4.3.2.2 Fréquences relatives pour des variables intervalles
Soit X une variable intervalle donnée en paramètre ;
Soit k un nombre des classes donné en paramètre ;
La méthode construit alors un histogramme pour la variable X sur un intervalle
[a,b] (où a correspond à la borne inférieure de X et b à la borne supérieure de X) de la
manière suivante :
- l’intervalle [a,b] est découpé en k classes de longueurs identiques ;
- le calcul de la fréquence relative associée à la classe Ck tient compte du
« recouvrement » de la classe Ck par les valeurs intervalle de X sur chaque
objet symbolique.
__________________________________________________________________________________________
CAUSSANEL Olivier 32/47 DESS 220 - Informatique de Gestion
4.3.2.3 Capacités et min/max/mean pour des variables multimodales
probabilistes
Cette méthode construit d’une part un histogramme des capacités des
différentes modalités prises par une variable donnée et d’autre part un histogramme
présentant la probabilité minimum, la probabilité maximale et la probabilité moyenne
prise par chaque modalité.
__________________________________________________________________________________________
CAUSSANEL Olivier 33/47 DESS 220 - Informatique de Gestion
4.3.2.4 Biplot avec des variables intervalle
Le graphique résultat de cette méthode représente un objet symbolique par un
rectangle dans un plan où les deux axes sont deux variables sélectionnées par
l’utilisateur.
Chaque côté du rectangle correspond à la plage intervalle prise par l’objet
symbolique pour la variable axe correspondante.
__________________________________________________________________________________________
CAUSSANEL Olivier 34/47 DESS 220 - Informatique de Gestion
4.4 LA METHODE DIV : DIVISIVE CLUSTERING ON SYMBOLIC OBJECTS
4.4.1 Présentation de la méthode DIV
DIV est une méthode de classification hiérarchique qui part de tous les objets
symboliques réunis dans une seule classe et procède ensuite par divisions successives
de chaque classe.
A chaque étape, une classe est divisée en deux classes suivant une question
binaire, ceci permet d’obtenir le meilleur partitionnement en deux classes,
conformément à l’extension du critère d’inertie.
L’algorithme s’arrête après avoir effectuer k-1 divisions, k étant le nombre de
classes donné en entrée à la méthode par l’utilisateur.
Il ne s’agit pas du seul paramètre à saisir en entrée de la méthode. L’utilisateur
doit également choisir les variables qui seront utilisées pour calculer la matrice de
dissimilarité, l’extension du critère d’inertie et pour définir l’ensemble, des questions
binaires utiles pour effectuer le découpage.
Au moment de choisir les variables, il faut être attentif à deux choses
principales :
- le domaine de définition des variables doit être ordonné, en effet dans le cas
contraire, les résultats obtenus seront totalement faux ;
- il n’est pas possible de mélanger des variables dont le domaine de définition
est continu avec des variables dont le domaine de définition est discret. Dans la
fenêtre de définition des paramètres de la méthode DIV du logiciel SODAS,
l’utilisateur doit choisir entre des variables qualitatives et des variables
continues.
Trois paramètres doivent également être définis :
- la dissimilarité entre 2 objets peut être normalisée ou non. Elle peut être
normalisée en choisissant l’inverse de la dispersion ou bien l’inverse du
maximum de la déviation. La dispersion des variables est ici une extension aux
objets symboliques de la notion de variance ;
- le nombre k de classes de la dernière partition. La division s’arrêtera après k-1
itérations et la méthode DIV calculera des partitions de la classe 2 à la classe
k ;
- la méthode DIV offre également la possibilité de créer un fichier partition, il
s’agit d’un fichier teste contenant une matrice (aij) dans laquelle, chaque ligne i
appartenant à l’intervalle [1,n] correspond à un objet et chaque rangée j
appartenant à l’intervalle [2,k-1] correspond à une partition en j classes. Ainsi,
(aij) signifie que l’objet j appartient à la classe k, dans la partition en j classes.
Une fois ces différents paramètres définis, il est possible d’exécuter la méthode
DIV. Le listing disponible en sortie contient les informations suivantes :
- une liste de la « variance » des variables sélectionnées, à condition que ces
variables soient continues ;
- pour chaque partition de 2 à k classes, une liste des objets contenus dans
chaque classe ainsi que l’inertie expliquée relative à la partition ;
- l’arbre de classification.
__________________________________________________________________________________________
CAUSSANEL Olivier 35/47 DESS 220 - Informatique de Gestion
4.4.2 Mise en œuvre de la méthode DIV
4.4.2.1 La méthode DIV appliquée aux variables qualitatives
-------------------------------------------------------
BASE=C:\SODAS\Tmp\BJVFB001.CMD nind=6 nvar=33 nvarsel=2
METHOD=DIVISIVE CLUSTERING
-------------------------------------------------------
THE SELECTED VARIABLES ARE : (Verify the order of the modality)
--------------------------
( 5) :COD_SOCIO_PROF (Initial order)
1- Cadre Moyen, Employe
2- Ouvrier
3- Autre
4- Conducteur Professionnel
5- Cadre Superieur, Profession Liberale, ChCOD_SOCIO_PROF
6- Artisan, Commercant, Profession IndependCOD_SOCIO_PROF
7- Retraite
8- Chomeur
9- Agriculteur
( 6) :COD_SEXE (Initial order)
1- Masculin
2- Féminin
PARTITION IN 2 CLUSTERS :
-------------------------:
Cluster 1 (n=5) :
"Autre" "Promenade - Loisirs" "Domicile - Travail" "Domicile - Ecole"
"Courses - Achats"
Cluster 2 (n=1) :
"Utilisation Professionnelle"
Explicated inertia : 52.978795
PARTITION IN 3 CLUSTERS :
-------------------------:
Cluster 1 (n=1) :
"Domicile - Travail"
Cluster 2 (n=1) :
"Utilisation Professionnelle"
Cluster 3 (n=4) :
"Autre" "Promenade - Loisirs" "Domicile - Ecole" "Courses - Achats"
Explicated inertia : 71.790741
THE CLUSTERING TREE :
---------------------
- the number noted at each node indicates
the order of the divisions
- Ng <-> yes and Nd <-> no
+---- Classe 1 (Ng=1)
!
!----2- [COD_SOCIO_PROF <= Ouvrier]
! !
! +---- Classe 3 (Nd=4)
!
!----1- [COD_SOCIO_PROF <= Autre]
!
+---- Classe 2 (Nd=1)
__________________________________________________________________________________________
CAUSSANEL Olivier 36/47 DESS 220 - Informatique de Gestion
4.4.2.2 La méthode DIV appliquée aux variables quantitatives
-------------------------------------------------------
BASE=C:\SODAS\Tmp\BJXS6901.CMD nind=6 nvar=33 nvarsel=2
METHOD=DIVISIVE CLUSTERING
-------------------------------------------------------
VARIANCE OF THE SELECTED VARIABLES :
------------------------------------
NBR_TUES : 1.472222
NBR_VL : 69.888889
-------------------------------------------------------
PARTITION IN 2 CLUSTERS :
-------------------------:
Cluster 1 (n=2) :
"Autre" "Domicile - Ecole"
Cluster 2 (n=4) :
"Promenade - Loisirs" "Utilisation Professionnelle" "Domicile - Travail"
"Courses - Achats"
Explicated inertia : 49.160092
PARTITION IN 3 CLUSTERS :
-------------------------:
Cluster 1 (n=2) :
"Autre" "Domicile - Ecole"
Cluster 2 (n=2) :
"Domicile - Travail" "Courses - Achats"
Cluster 3 (n=2) :
"Promenade - Loisirs" "Utilisation Professionnelle"
Explicated inertia : 84.537451
PARTITION IN 4 CLUSTERS :
-------------------------:
Cluster 1 (n=1) :
"Domicile - Ecole"
Cluster 2 (n=2) :
"Domicile - Travail" "Courses - Achats"
Cluster 3 (n=2) :
__________________________________________________________________________________________
CAUSSANEL Olivier 37/47 DESS 220 - Informatique de Gestion
"Promenade - Loisirs" "Utilisation Professionnelle"
Cluster 4 (n=1) :
"Autre"
Explicated inertia : 96.096679
PARTITION IN 5 CLUSTERS :
-------------------------:
Cluster 1 (n=1) :
"Domicile - Ecole"
Cluster 2 (n=2) :
"Domicile - Travail" "Courses - Achats"
Cluster 3 (n=1) :
"Utilisation Professionnelle"
Cluster 4 (n=1) :
"Autre"
Cluster 5 (n=1) :
"Promenade - Loisirs"
Explicated inertia : 99.463434
THE CLUSTERING TREE :
---------------------
- the number noted at each node indicates
the order of the divisions
- Ng <-> yes and Nd <-> no
+---- Classe 1 (Ng=1)
!
!----3- [NBR_TUES <= 1.500000]
! !
! +---- Classe 4 (Nd=1)
!
!----1- [NBR_VL <= 7.750000]
!
! +---- Classe 2 (Ng=2)
! !
!----2- [NBR_TUES <= 1.500000]
!
! +---- Classe 3 (Ng=1)
! !
!----4- [NBR_TUES <= 2.250000]
!
+---- Classe 5 (Nd=1)
__________________________________________________________________________________________
CAUSSANEL Olivier 38/47 DESS 220 - Informatique de Gestion
4.5 LA METHODE DSD (DISCRIMINANT SYMBOLIC DESCRIPTION)
4.5.1 Présentation de la méthode DSD
La méthode DSD consiste à trouver des descriptions qui généralisent et
discriminent un ensemble de classes donné sur la base d’un ensemble d’observations.
Ces descriptions sont formalisées sous la forme d’objets symboliques
probabilistes.
A partir d’un seuil calculé en comparant l’extension des objets symboliques
avec les classes, la méthode DSD construit un ou plusieurs objets symboliques pour
chaque classe. Ces nouveaux objets créés peuvent éventuellement se superposer. Dans
le modèle symbolique, la description générale d’une classe correspond à une
disjonction d’objets symboliques.
« L’input » de la méthode DSD est une matrice de données classiques où toutes
les variables doivent être nominales.
Avant d’exécuter la méthode, l’utilisateur doit définir les variables qui seront
utilisées par DSD.
- une « variable partition » qui est appelée « Variable Class Identifier » : les
valeurs que prend cette variable correspondent aux classes à généraliser et à
discriminer ;
- des « variables de description » qui seront utilisées pour décrire chaque classe.
Trois paramètres doivent également être définis :
- Disc : il s’agit d’un pourcentage représenté par un entier (de 0 à 100). C’est un
ratio d’erreur des objets symboliques, dans la couverture des individus en
dehors de la classe.
Disc = 16 signifie que, pour chaque classe, l’union de l’extension des objets
symboliques couvre 16 % des individus non présents dans la classe.
- Ext : il s’agit également d’un pourcentage représenté par un entier (de 0 à 100).
C’est le seuil correspondant à la couverture de chaque classe par les objets
symboliques.
Par exemple, Ext = 80 signifie que, pour chaque classe, l’union de l’extension des
objets symboliques recouvre 80 % des individus de la classe.
- Idind : ce paramètre a la valeur « yes » si les individus, dans la matrice, sont
nommés, et non, dans le cas contraire.
4.5.2 Mise en œuvre de la méthode DSD
Sans objet.
__________________________________________________________________________________________
CAUSSANEL Olivier 39/47 DESS 220 - Informatique de Gestion
4.6 LA MÉTHODE TREE (DECISION TREE)
4.6.1 Présentation de la méthode TREE
La méthode TREE propose un algorithme par agrandissement d’arbre. Il s’agit
d’une procédure récursive de partitionnement qui peut être vue comme une recherche
itérative d’un ensemble organisé d’objets symboliques qui correspond le mieux aux
données initiales.
A chaque étape, le meilleur partitionnement est obtenu grâce à une mesure
donnée en paramètre.
4.6.2 Mise en œuvre de la méthode TREE
Les paramètres d’entrée de la méthode sont les suivants :
- Variable class identifier = COD_TRAJET_1
Rappel : ne disposant pas dans la base DEP780.mdb de données pouvant se
traduire en variable qualitative nominale simple, la variable COD_TRAJET_1 a été
créée « artificiellement » pour pouvoir exécuter cette méthode, elle ne s’appuie
toutefois sur aucun fondement empirique. Il s’agit uniquement d’une manipulation
technique.
- Predictor variable = CAT_VEH
- Number of terminal node = 2
La sortie obtenue avec au final l’arbre de décision est la suivante :
-------------------------------------------------------
BASE= C:\SODAS\BASES\DB2SO\DEP780.SDS
Number of OS = 6
Number of variables = 33
METHOD=SODAS_TREE Version 1.3 01:03:01 INRIA 1998
--------------------------------------------------------
Learning Set : 6
Number of variables : 1
Max. number of nodes: 3
Soft Assign : ( 1 ) FUZZY
Criterion coding : ( 3 ) LOG-LIKELIHOOD
Min. number of object by node : 5
Min. size of no-majority classes : 2
Min. size of descendant nodes : 1.00
Frequency of test set : 0.00
GROUP OF PREDICATE VARIABLES :
( 21 ) CAT_VEH 6 MODALITIES
__________________________________________________________________________________________
CAUSSANEL Olivier 40/47 DESS 220 - Informatique de Gestion
CLASSIFICATION VARIABLE :
( 33 ) COD_TRAJET_1
NUMBER OF A PRIORI CLASSES : 6
ID_CLASS NAME_CLASS
1 Autre
2 Courses - Achats
3 Domicile - Ecole
4 Domicile - Travail
5 Promenade - Loisirs
6 Utilisation Professionnelle
LIST OF SYMBOLIC OBJECTS IN THE LEARNING SET :
"Autre"
"Promenade - Loisirs"
"Utilisation Professionnelle"
"Domicile - Travail"
"Domicile - Ecole"
"Courses - Achats"
… ==================================
| EDITION OF DECISION TREE |
==================================
PARAMETERS :
Learning Set : 6
Number of variables : 1
Max. number of nodes: 3
Soft Assign : ( 1 ) FUZZY
Criterion coding : ( 3 ) LOG-LIKELIHOOD
Min. number of object by node : 5
Min. size of no-majority classes : 2
Min. size of descendant nodes : 1.00
Frequency of test set : 0.00
+ --- IF ASSERTION IS TRUE (up)
!
--- x [ ASSERTION ]
!
+ --- IF ASSERTION IS FALSE (down)
+---- < 2 >Autre ( 0.84 0.81 0.73 0.80 0.81
0.62 )
!
!----1[ CAT_VEH = 100000 ]
!
+---- < 3 >Utilisation Professionnelle ( 0.16 0.19
0.27 0.20 0.19 0.38 )
__________________________________________________________________________________________
CAUSSANEL Olivier 41/47 DESS 220 - Informatique de Gestion
4.7 LA METHODE PYR : PYRAMIDALE CLUSTERING ON SYMBOLIC
OBJECTS
4.7.1 Présentation de la méthode PYR
La méthode PYR est une classification pyramidale qui généralise la
hiérarchisation en autorisant les classes non disjointes à un niveau donné.
La pyramide constitue un modèle intermédiaire entre les arbres et les structures
en treillis. Cette méthode permet de classer des données plus complexes que ce
qu’autorisait le modèle tabulaire et ceci en considérant la variation des valeurs prises
par les variables. La pyramide est construite par un algorithme d’agglomération
opérant du bas (les objets symboliques) vers le haut (à chaque niveau, des classes sont
agglomérées).
Dans une classification pyramidale, chaque classe formée est définie non
seulement par une extension (l’ensemble de ses éléments) mais aussi par un objet
symbolique qui décrit ses propriétés (l’intention de la classe). L’intention est héritée
d’un prédécesseur vers son successeur et nous obtenons ainsi une structure d’héritage.
La structure d’ordre permet l’identification de concepts intermédiaires ; c'est-à-
dire de concepts qui comblent un vide entre des classes bien identifiées.
En entrée de cette méthode, l’utilisateur doit choisir les variables qui seront
utilisées pour construire la pyramide. Ces variables peuvent être continues (des valeurs
réelles), des intervalles de valeurs réelles ou bien des histogrammes. L’utilisateur est
invité à choisir entre des variables qualitatives et continues mais il lui est également
possible de les mélanger.
4.7.2 Mise en œuvre de la méthode PYR
Les paramètres d’entrée saisis et les résultats obtenus sont les suivants :
__________________________________________________________________________________________
CAUSSANEL Olivier 42/47 DESS 220 - Informatique de Gestion
DESCRIPTION-OF-THE-NODES
Where_the_labels_are_of_the_individuals_are:
1.="Autre"
2.="Promenade_-_Loisirs"
3.="Utilisation_Professionnelle"
4.="Domicile_-_Travail"
5.="Domicile_-_Ecole"
6.="Courses_-_Achats"
Where_the_labels_are_of_the_variables_are:
y5.=COD_SOCIO_PROF
y19.=NBR_BLLEG
__________________________________________________________________________________________
CAUSSANEL Olivier 43/47 DESS 220 - Informatique de Gestion
DESCRIPTION-OF-THE-NODES
Where_the_labels_are_of_the_individuals_are:
1.="Autre"
2.="Promenade_-_Loisirs"
3.="Utilisation_Professionnelle"
4.="Domicile_-_Travail"
5.="Domicile_-_Ecole"
6.="Courses_-_Achats"
Where_the_labels_are_of_the_variables_are:
y11.=COD_GRAVITE
y15.=NBR_TC
y16.=NBR_PL
y17.=NBR_2roues
y18.=NBR_VL
__________________________________________________________________________________________
CAUSSANEL Olivier 44/47 DESS 220 - Informatique de Gestion
4.8 LA METHODE PCM : PRINCIPAL COMPONENT ANALYSIS
4.8.1 Présentation de la méthode PCM
La méthode PCM correspond à l’analyse en composantes principales
classiques. Mais au lieu d’obtenir une représentation par points sur un plan factoriel, la
méthode PCM propose une visualisation de chaque concept par des rectangles.
L’objectif est d’étudier l’intensité des liaisons entre les variables et de repérer les
concepts présentant des caractéristiques voisines.
La méthode PCM est donc une méthode factorielle de réduction du nombre de
caractères permettant des représentations géométriques des individus et des variables.
La réduction se fait par la construction de nouveaux caractères synthétiques obtenus en
combinant les variables initiales au moyen des « facteurs ».
Les éléments de la matrice de données sont des intervalles et chacun décrit la
variation de la variable observée (minimum et maximum). La méthode n’accepte que
les variables continues. Pour chacune, l’utilisateur choisit ainsi son maximum et son
minimum.
L’exécution de la méthode donne deux résultats :
1 - Le listing qui contient :
- la description de la matrice de données par une table : chaque ligne correspond
à une classe ;
- les valeurs propres, le pourcentage d’inertie et les premières composantes
principales. Chaque classe est caractérisée d’abord par deux composantes
principales et visualisée dans un plan factoriel par un rectangle ;
- les corrélations entre chaque variable descriptive et les composantes
principales.
2 - Une représentation graphique.
4.8.2 Mise en œuvre de la méthode PCM
La méthode accepte seulement les variables continues en entrée :
L’analyse portera pour chacun des types de trajets :
- le nombre de tués ;
- le nombre des VL impliqués.
Le résultat obtenu est le suivant :
Matrix of input data:
NBR_TUES NBR_VL
"Autre" [0.00 , 4.00] [0.00 , 8.00]
"Promenade - Loisirs" [0.00 , 5.00] [0.00 , 26.00]
"Utilisation Professionnelle" [0.00 , 4.00] [0.00 , 23.00]
"Domicile - Travail" [0.00 , 2.00] [0.00 , 23.00]
"Domicile - Ecole" [0.00 , 2.00] [0.00 , 6.00]
__________________________________________________________________________________________
CAUSSANEL Olivier 45/47 DESS 220 - Informatique de Gestion
"Courses - Achats" [0.00 , 2.00] [0.00 , 26.00]
Matrix Variance/Covariance :
NBR_TUES 3.2431 0.3889
NBR_VL 0.3889 122.0556
Correlations Matrix :
NBR_TUES 1.0000 0.0195
NBR_VL 0.0195 1.0000
Propers Values and inerty percentage:
NBR_TUES= 1.020 (50.98%) NBR_VL= 0.980 (49.02%)
Factorials Descriptions of interval type upon axes: PC1,PC2,PC3,PC4 :
"Autre" [-1.22, 0.86] [-1.55, 0.54] [-1.55, 0.54] [-1.55, 0.54]
"Promenade - Loisirs" [-1.22, 2.41] [-1.94, 1.69] [-1.94, 1.69] [-1.94,
1.69]
"Utilisation Professionnelle" [-1.22, 1.82] [-1.55, 1.50] [-1.55, 1.50]
[-1.55, 1.50]
"Domicile - Travail" [-1.22, 1.04] [-0.76, 1.50] [-0.76, 1.50] [-0.76,
1.50]
"Domicile - Ecole" [-1.22, -0.05] [-0.76, 0.41] [-0.76, 0.41] [-0.76,
0.41]
"Courses - Achats" [-1.22, 1.23] [-0.76, 1.69] [-0.76, 1.69] [-0.76,
1.69]
Correlations Matrix, initiales Variables/principals components PC1...PC4
NBR_TUES 0.714 -0.700 -0.700 -0.700
NBR_VL 0.714 0.700 0.700 0.700
__________________________________________________________________________________________
CAUSSANEL Olivier 46/47 DESS 220 - Informatique de Gestion
4.9 LA METHODE FDA : FACTORIAL DISCRIMINANT ANALYSIS
4.9.1 Présentation de la méthode FDA
La méthode FDA permet de mettre en évidence les liaisons qui existent entre
une variable à expliquer qualitative et un ensemble de variables explicatives
quantitatives, à l’aide d’un plan factoriel approprié.
L’objectif est de déterminer q classes se différenciant au mieux.
Comme pour la méthode PCM, un nouveau caractère, combinaison linéaire des
anciens caractères est déterminé. Cependant, il ne s’agit plus d’obtenir un caractère de
variance maximale mais un caractère séparant au mieux les groupes entre eux.
Il faut spécifier :
- une variable variable_class_identifier qui permettra d’identifier les différentes
classes. Celle-ci doit être nominale et non probabiliste ;
- une variable variable_set_identifier qui obligatoire pour pouvoir déterminer au
moins un axe d’analyse et qui doit être nominale et non probabiliste ;
- des variables variable_to_be_selected qui peuvent être nominales,
multinominales, probabilistes, modales ou bien d’intervalles ;
- le nombre d’axes factoriels d’analyse. Il en faut au moins deux.
4.9.2 Mise en œuvre de la méthode FDA
Ne disposant pas dans la base DEP780.mdb de variables nominales différentes,
cette méthode ne peut être exécutée ici, comme le mentionne le listing de sortie
suivant :
-- SODAS WP2.5 Version 2.0 --
FDA : Factorial Discriminant Analysis
D.M.S. University of Naples
SODAS file : c:\sodas\bases\db2so\dep780.sds
Command File : C:\SODAS\Tmp\BJ8ZBM01.CMD
Number of Symbolic Objects : 6
Number of Variables : 33
Starting Time : Sat Jun 07 17:13:08 2003
Parsing the PAD file : c:\sodas\tmp\bj8zbm01.pad
---------------------------------------------
Class ID variable used is n° 6
Set ID variable used is n° 33
Parameters :
NUMB = 1
AXES = 1
CLSM = 1
CLASSRULE = 0
NVARS = 4
SELECT = 15, 16, 17, 18
---------------------------------------------
ERROR . You must select a nominal variable as set identificator with only
two categories
Nota : la seule variable nominale simple (artificiellement constituée à partir
des données de DEP780.mdb est prise pour identifier la classe. Elle ne peut donc pas
être utilisée à nouveau comme set_identificator.
__________________________________________________________________________________________
CAUSSANEL Olivier 47/47 DESS 220 - Informatique de Gestion
5 CONCLUSION
Le choix d’appuyer cette étude du logiciel SODAS et des méthodes d’analyse
associées sur une base de données « réelles » a permis de tirer quelques enseignements
quant aux difficultés de mise en œuvre que cela engendre.
En effet dès lors que vous travaillez sur des données renseignées par des
utilisateurs physiques dans des applications dédiées, vous êtes confronté à des
« données incohérentes » imputables à des erreurs de manipulations ou à l’absence de
donnée (saisie partielle …).
Certes, ce point doit lorsque cela est possible, être traité en amont de l’analyse
c'est-à-dire au niveau des applications de saisie initiale qui nécessitent d’être le plus
sécurisées possible pour assurer la cohérence des données recueillies, mais force est de
constater qu’en l’absence d’un tel dispositif il est difficile voire impossible d’extraire
les données via DB2SO.
Si ces verrous garantissent sans aucun doute le format des données remontées
ils obligent à altérer l’intégrité des données recueillies (ou non, il s’agira alors
d’ajouter les données manquantes) pour en permettre l’exploitation ce qui en soit n’est
pas totalement satisfaisant.
Par ailleurs, en fonction du concept retenu, il arrive qu’aucune variable
nominale qualitative simple ne puisse être dégagée. Il n’est alors pas possible
d’exécuter certaines méthodes d’analyse (TREE, DSD, FDA …). Il faut donc se poser
la question d’intégrer ou non dans les bases de recueil des données des champs qui
favorisent le collationnement d’éléments assurant la construction de variables qui
permettent d’appliquer d’une manière exhaustive les méthodes d’analyses des objets
symboliques envisagés.
Au-delà de ces quelques difficultés techniques c’est au niveau même de la
définition des individus et des concepts que le risque d’écueil est important. En effet,
face la multitude et l’hétérogénéité des données recueillies, il est fort délicat d’arrêter
le périmètre de l’étude. Le risque est réel, soit de se disperser, soit au contraire de se
cantonner à un champ d’analyse trop restrictif. Le choix d’un seul concept est en ce
sens relativement frustrant car il ne permet pas forcément d’étendre l’analyse à tous
les axes envisageables.
Ces quelques nuances ne doivent toutefois pas faire oublié que ce logiciel
présente d’intéressantes capacités d’analyse et permet en particulier de produire des
résultats exploitables sous des formes variées (listing, graphes, …). Il nécessite une
phase d’appropriation, et ce n’est vraisemblablement qu’après une solide
expérimentation qu’il livre toute sa puissance d’analyse des données symboliques.