data warehouse

41
Module : Informatique décisionnelle (Business Intelligence) Aouatef ROUAHI [email protected] ISG – Master en Informatique Appliquée à la Gestion 27/05/2022 Université de Tunis Institut Supérieur de Gestion de Tunis

Upload: aouatef2010

Post on 30-Jun-2015

971 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Data Warehouse

Module :

Informatique décisionnelle

(Business Intelligence)

Aouatef [email protected]

ISG – Master en Informatique Appliquée à la Gestion 12/04/2023

Université de TunisInstitut Supérieur de Gestion de Tunis

Page 2: Data Warehouse

Syllabus du cours

Objectifs Sensibiliser les étudiants à l’importance du décisionnel; Se familiariser avec les technologies de l'informatique

décisionnelle; Appréhender les enjeux et les problématiques de la gestion et

du traitement de données.

Pré-requis   Algorithmique, Programmation, Statistiques, et Bases de

données.

12/04/2023

2

Page 3: Data Warehouse

Organisation du cours  Data Warehouse

(10h) : cours 6h, TP 4h; Rédaction en binôme d'un rapport d'étude.

Analyse de données (8h) : cours 4h, TP 4h; Évaluation individuelle écrite 1h.

Data Mining (8h) : cours 4h, TP 4h; Évaluation individuelle écrite 1h.

Visualisation de données (10h): cours 5h, TP 5h; Projet individuel de programmation.

12/04/2023

3

Page 4: Data Warehouse

Data Warehouse

12/04/2023

4

Module : Informatique décisionnelle (Business Intelligence)

Les Entrepôts de Données

(Data Warehouse)

Page 5: Data Warehouse

PLAN Veuillez nous suivre…

12/04/2023

5

Introduction Définition DW

Domaines d’application

Architecture Préparation Stockage Présentation Actualités &

PerspectivesConclusion Références

Editeurs&

Outils

Page 6: Data Warehouse

Introduction

1Bruno Chaudet, « Introduction à la communication organisationnelle »

12/04/2023

6

Donnée

Information

Connaissance

Décision

« Une donnée est un élément brut, qui n’a pas encore été interprété, mis en contexte.»1

«Une information est par définition une donnée interprétée. »1

«La connaissance comme une information comprise.»1

«Une action réalisée en fonction des connaissances disponibles.»

Cycle Décisionnel Enjeux et Difficultés Données de Production VS

Données Décisionnelles

Page 7: Data Warehouse

Introduction Une pression concurrentielle continue; Une explosion des données;

Distribuées, Détaillées, Hétérogènes.

12/04/2023

7

Comment prendre des décisions dans un

environnement parfaitement hétérogène?

Cycle Décisionnel Enjeux et Problématique Données de Production VS

Données Décisionnelles

Page 8: Data Warehouse

Informatique de production Un mode d’exploitation de données tourné vers la saisie, le

stockage, la mise à jour, la sécurité et l’intégrité des données. l'informatique décisionnelle  Un mode d’exploitation de données visant à fournir à tout

utilisateur reconnu et autorisé, les informations nécessaires à son métier. Une vision analytique de l'activité de l'entreprise; Un suivi du fonctionnement de l'entreprise; Un suivi de la performance de l’entreprise; Une prédiction des tendances prospectives; Etc.

Introduction

12/04/2023

8

Cycle Décisionnel Enjeux et Difficultés Données de Production VS

Données Décisionnelles

Page 9: Data Warehouse

Introduction

12/04/2023

9

Données Opérationnelles Données décisionnelles

Orientées application Orientées activité

Volumes limités Gros volumes

Vue instantanée Vue historisée

Cohérence atomique Cohérence globale

Structure rigide Structure flexible

Usage répété Usage ad-hoc

… …

Cycle Décisionnel Enjeux et Difficultés Données de Production VS

Données Décisionnelles

Page 10: Data Warehouse

Définition

12/04/2023

10

«Un entrepôt de données est une collection de données

orientées sujet, intégrées, non volatiles et historisées, organisées pour le support d’un processus d’aide à la décision.» Bill Inmon (1991).

Orienté Sujet Intégré Non Volatile Historisé Un support du processus d’AAD

Page 11: Data Warehouse

Définition

12/04/2023

11

«Un entrepôt de données est une collection de données

orientées sujet, intégrées, non volatiles et historisées, organisées pour le support d’un processus d’aide à la décision.» Bill Inmon (1991).

Données orientées sujet: Une vue synthétique permettant de réaliser des analyses

transversales aux structures fonctionnelles et organisationnelles de l'entreprise.

Orienté Sujet Intégré Non Volatile Historisé Un support du processus d’AAD

Page 12: Data Warehouse

Définition

12/04/2023

12

«Un entrepôt de données est une collection de données

orientées sujet, intégrées, non volatiles et historisées, organisées pour le support d’un processus d’aide à la décision.» Bill Inmon (1991).

Données intégrées: Un besoin d’ homogénéisation des données hétérogènes afin

de parfaire la cohérence globale de l’entrepôt de données.

Orienté Sujet Intégré Non Volatile Historisé Un support du processus d’AAD

Page 13: Data Warehouse

Définition

12/04/2023

13

«Un entrepôt de données est une collection de données

orientées sujet, intégrées, non volatiles et historisées, organisées pour le support d’un processus d’aide à la décision.» Bill Inmon (1991).

Données non volatiles: Seulement les actions d’ajout et de lecture qui sont autorisées

et aucune opération de mise à jour n’est permise.

Orienté Sujet Intégré Non Volatile Historisé Un support du processus d’AAD

Page 14: Data Warehouse

Définition

12/04/2023

14

«Un entrepôt de données est une collection de données

orientées sujet, intégrées, non volatiles et historisées, organisées pour le support d’un processus d’aide à la décision.» Bill Inmon (1991).

Données historisées: L'historisation est nécessaire pour suivre dans le temps

l'évolution des différentes valeurs des indicateurs à analyser.

Un référentiel temps doit être associé à toute structure « clé » dans le data warehouse.

Orienté Sujet Intégré Non Volatile Historisé Un support du processus d’AAD

Page 15: Data Warehouse

Définition

12/04/2023

15

«Un entrepôt de données est une collection de données

orientées sujet, intégrées, non volatiles et historisées, organisées pour le support d’un processus d’aide à la décision.» Bill Inmon (1991).

Un support d’un processus d’aide à la décision :

Le data warehouse est un élément essentiel dans le processus d’extraction de connaissances à partir de données (KDD).

Orienté Sujet Intégré Non Volatile Historisé Un support du processus d’AAD

Page 16: Data Warehouse

Domaines d’application

12/04/2023

16

Domaines d’application du Data

Warehousing

Commerce

Econométrie

Santé

Banque

Assurance

Web

Logistique

Page 17: Data Warehouse

Architecture

12/04/2023

17

L’acquisition de données;

Le pré-traitement des données ;

L’alimentation de l’entrepôt;

L’analyse de données.

Zone Préparation Zone Stockage Zone Présentation

Page 18: Data Warehouse

Une zone de préparation: une zone temporaire de stockage des données extraites pour la réalisation des transformations.

Une zone de présentation: l’accès aux données contenues dans le DW à l’aide d’une palette des outils d’analyse dont l'information est visualisée à travers des interfaces interactives.

Architecture

12/04/2023

18

ETLExtraction

Transformation

Chargement

Zone de Préparation

Zone de Stockage

Zone de Présentation

RequêteursEIS

Data Mining

Une zone de stockage: le stockage permanent des données nettoyées.

Zone Préparation Zone Stockage Zone Présentation

Donnée Information

Page 19: Data Warehouse

Architecture

12/04/2023

19

ETL : Extract – Transform – Load Découvrir et extraire les données brutes; Transformer les données extraites; Charger les données nettoyées dans l’entrepôt de données.

M, F

1, 0

Male, FemaleTND

USD

EUR

M, F

EUR

Zone Préparation Zone Stockage Zone Présentation

Page 20: Data Warehouse

12/04/2023

20

Modélisation Multidimensionnelle

Une méthode de conception logique qui vise à présenter les données

sous une forme standardisée intuitive permettant des accès hautement performants en se

basant sur les notions Fait - Dimension.

Architecture

Zone Préparation Zone Stockage Zone Présentation

Page 21: Data Warehouse

12/04/2023

21

Fait - Dimension: Une mesure économique (Quantités achetées, montant des achats, etc.). La table de faits contient les indicateurs de performances. Les enregistrements sont identifiés par une clé multiple composée de la concaténation des clés des tables de dimensions.  La granularité définit le niveau de détails de la table de faits = nombre de dimensions liées. Exemple: une ligne de commande par :

Produit; + client; + jour.

-

+

Architecture

Zone Préparation Zone Stockage Zone Présentation

Page 22: Data Warehouse

12/04/2023

22

Fait - Dimension: Un axe d’analyse (Client, Produit, Temps, etc.). La table de dimensions est identifiée par une clé primaire unique correspondant à l’un des composants de la clé multiple de la table de faits et un ensemble d’attributs permettant de décrire les aspects intéressants de cette dimension.

Une organisation hiérarchique (Temps, Région, etc.). La granularité d’une dimension = nombre des niveaux hiérarchiques. Une dimension temps est obligatoire dans tout modèle.

Architecture

Zone Préparation Zone Stockage Zone Présentation

Page 23: Data Warehouse

12/04/2023

23

Le schéma en étoile

Architecture

Zone Préparation Zone Stockage Zone Présentation

Page 24: Data Warehouse

12/04/2023

24

Le schéma en flocon

Architecture

Zone Préparation Zone Stockage Zone Présentation

Page 25: Data Warehouse

12/04/2023

25

Exercice L’ED doit fournir le CA des ventes d’un produit, par date, client,

et vendeur, ainsi que toutes les sommations possibles de chiffre d’affaires dans une année donnée.

Une vente est caractérisée par: produit, client, vendeur, date, prix de vente. Produit : code produit, code famille, libellé Client : code client, type client Vendeur : code vendeur, nom, code service Date : jour, semaine, mois Donner le schéma en étoile, en flocon de cet entrepôt?

Architecture

Zone Préparation Zone Stockage Zone Présentation

Page 26: Data Warehouse

12/04/2023

26

Réponse

Modèle en étoile

Architecture

Zone Préparation Zone Stockage Zone Présentation

Page 27: Data Warehouse

12/04/2023

27

Réponse

Modèle en flocon

Architecture

Zone Préparation Zone Stockage Zone Présentation

Page 28: Data Warehouse

12/04/2023

28

Data Mart Un data Mart est un sous-ensemble de données extrait du data

warehouse et ciblé sur un sujet unique, destiné à répondre aux besoins d’un secteur ou d’une fonction particulière de l’entreprise.

Un modèle réduit du data warehouse: Facilement compréhensible; Facilement manipulable.

 

Data Mart Service Marketing

Data Mart Service GRH

Architecture

Zone Préparation Zone Stockage Zone Présentation

Page 29: Data Warehouse

12/04/2023

29

Restitution de l’information« Les données ne naissent pas pertinentes, elles le deviennent».

Requêtes : Donner une réponse à une question plus ou moins complexe (type SQL);

EIS (Executive Information Systems): Outils de visualisation et de navigation dans les données statistiques avec un interfaçage graphique;

Applications spécialisées (ad-hoc) : Applications développées spécialement pour les besoins décisionnels de l’entreprise;

Data Mining : Outils et techniques évolués de prédiction, simulation, etc.

Architecture

Zone Préparation Zone Stockage Zone Présentation

Page 30: Data Warehouse

Outils et Editeurs 

12/04/2023

30 Editeurs Outils

Page 31: Data Warehouse

Outils et Editeurs 

12/04/2023

31

Préparation

Warehouse Manager (Prism), Access (SAS), DataStage (VMark), InfoRefiner (Platinum), PASSPORT & NATURAL (Software AG), etc.

Stockage

Oracle, Sybase, Informix, Ingres (CA), DB2 (IBM), Tandem, Teradata, etc.

Présentation

Discoverer (Oracle), ESPERANT (Software AG), Explorer (Business Objects), etc.

Editeurs Outils

Octopus, Kettle, CloverETL, etc.

MySQL, Postgresql, Biz gres, etc.

Mondarian, Palo, etc.

Page 32: Data Warehouse

Actualités :  l’enquête Decideo sur le décisionnel en entreprise pour l’année 2011

Le nombre d'applications décisionnelles;

Le décisionnel pour métiers.

Actualités et Perspectives

12/04/2023

32 Actualités Perspectiv

es

Page 33: Data Warehouse

Perspectives : Axes de recherche Extraction automatique des données; Auto administration des entrepôts de données; Le data warehouse distribué; Entreposage et analyse en ligne de données non-structurées et semi-

structurées; Entreposage et analyse en ligne de données spatiales et spatio-

temporelles; Entreposage et analyse en ligne de données en flots; Real-time business intelligence; Sécurité des entrepôts de données; Gestion et maintenance des entrepôts de données; Data warehouse et Grid computing; Data warehouse et Cloud computing.

Actualités et perspectives

12/04/2023

33 Actualités Perspectiv

es

Page 34: Data Warehouse

Un projet du Data Warehousing Un pari à gagner

Ne pas sous-estimer la complexité d’un projet du Data Warehousing;

La mise en place d’une démarche rigoureuse;

Une équipe compétente et expérimentée;

Des partenaires influents;

La conscience de l’importance du projet.

Conclusion

12/04/2023

34

Page 35: Data Warehouse

Travail à faire

12/04/2023

35

Un rapport d’étude d’un entrepôt de données

l'entrepôt de données transport de Rennes Métropole http://data.keolis-rennes.com/,

la collection des manuscrits numérisées de la Bibliothèque Nationale de France http://www.bnf.fr/

Etc.

Page 36: Data Warehouse

Bibliographie

12/04/2023

36

Bibliographie – Livres Rob Mattison, «Data Warehousing -Strategies, Technologies and

Technics», IEEE Computer Society, 1996.

J.-M. Franco, «Le Data Warehouse -Le Data Mining», Eyrolles, 1997.

W. H. Inmon, «Managing the Data Warehouse», Wiley, 1997.

Bédard, Y., et al., Data Warehousing for Spatial Data: Research Issues, Proceedings of the International Symposium: Geomatics in the Era of Radarsat (GER'97), May 25-30, 1997.

Ralph Kimball et al., « The Data Warehouse Lifecycle Toolkit: Expert Methods for Designing, Developing, and Deploying Data Warehouses », Wiley, 1998.

J.-M. Franco, S. De Lignerolles, «Piloter l'entreprise grâce au data warehouse», Eyrolles, 2000.

Livres WWW Recherche

Page 37: Data Warehouse

Bibliographie

12/04/2023

37

Bibliographie – Livres W. H. Inmon, «Building the Data Warehouse», Wiley, 2e: 2000.

Ralph Kimball, Richard Merz, «The Data Webhouse Toolkit: Building the Web-Enabled Data Warehouse», Wiley, 2000.

Ralph Kimball, Margy Ross. «The Data Warehouse Toolkit: The Complete Guide to Dimensional Modeling», Vuibert, 2e: 2003.

Laura Reeves, «A Manager's Guide to Data Warehousing», Wiley, 2009.

Robert Laberge, «The Data Warehouse Mentor: Practical Data Warehouse and Business Intelligence Insights», McGraw-Hill Osborne Media, 2011.

W.H. Inmon, Krish Krishnan, «Building the Unstructured Data Warehouse», Technics Publications, LLC, 2011.

Livres WWW Recherche

Page 38: Data Warehouse

Bibliographie

12/04/2023

38

Bibliographie – WWW http://inmoninstitute.com/ : The Inmon Institute

http://www.tdwi.org : The Data Warehousing Institute

http://www.cait.wustl.edu/cait/papers/prism/ : Société Prism Solutions fondée par W.H. Inmon

http://www.dwinfocenter.org/ : The Data Warehousing Information Center 

http://www.olapcouncil.org/ : Outils OLAP

http://www.mediatid.fr/datawarehouse : Forum

http://www.datawarehouse.com/

http://www.datawarehousing.com/

Livres WWW Recherche

Page 39: Data Warehouse

Bibliographie

12/04/2023

39

Bibliographie – Recherche ACM SIGMOD : The ACM Special Interest Group on Management of Data

http://www.sigmod.org/

VLDB : The International conference on Very Large Data Bases 37th conference: Seattle, Washington, August 29 -

September 3, 2011 http://www.vldb.org/

DaWaK : Data Warehousing and Knowledge Discovery 13th International Conference on Data Warehousing and

Knowledge Discovery -DaWaK '11 http://www.dexa.org

Livres WWW Recherche

Page 40: Data Warehouse

Bibliographie

12/04/2023

40

Bibliographie – Recherche ACM SIG KDD : The ACM Special Interest Group on Knowledge Discovery

and Data Mining Conférence scientifique spécialisée http://www.sigkdd.org/

BIDW: Business Intelligence and Data Warehousing 2nd Annual International Conference on BIDW, 27 - 28 June

2011, Singapore http://www.bizintelligenceconf.org/

Livres WWW Recherche

Page 41: Data Warehouse

12/04/2023 41

Merci Pour Votre

Attention