introduzione al data warehousing ed alla progettazione di data warehouse dimensionali
DESCRIPTION
Data warehouse description.TRANSCRIPT
Introduzione al Data Warehousing ed alla Progettazione di Data Warehouse Dimensionali
Università degli Studi di Perugia – Facoltà di Scienze MM.FF.NN.Corso di laurea specialistica in informatica – A.A. 2008/2009
Corso di basi di dati avanzate e tecniche di data mining
Studenti:Andrea ManfucciDavide Ciambelli
Professore:Giorgio Cecconi
2
SOMMARIO
Il modello dimensionaleVendite al dettaglio (studio di caso)Spedizioni (studio di caso)Catena del valore (studio di caso)Servizi finanziari (studio di caso)Il ciclo di vita
Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali
3
Il modello dimensionale
La progettazione dei dati del data warehouse (DW) è la pietra angolare del progetto dell'intero DW
Basandosi sul progetto dei dati è possibilePianificare e progettare le applicazioniPianificare l'estrazione e la trasformazione dei datiStimare l'occupazione di memoria complessiva del DW
La progettazione dei dati in un DW dimensionaleÈ basata sulla modellazione dimensionale
Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali
4Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali
Schemi dimensionali
La modellazione dimensionale è una tecnica di progettazione logica dei dati nel DW
È orientata alla definizione di schemi relazionali di tipo “dimensionale”Uno schema dimensionale (chiamato anche star schema o schema a stella) è composto da
Una tabella dei fatti (fact table)Un insieme di tabelle ausiliarie (dimension tables)
Questo schema modella i dati delle vendite di prodotti in un certo numero di negozi nel corso del tempo
5Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali
Scopo di uno schema dimensionale
In uno schema dimensionaleUna dimension table serve a rappresentare un insieme di elementi chiamati membriUna fact table serve a memorizzare un insieme di funzioni numeriche
6Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali
Tabelle dimensione
Una dimension table memorizza una dimensione rispetto alla quale è interessante analizzare un processo
Una dimensione è un insieme di elementi chiamati membriCiascuna riga di una tabella dimensione rappresenta un membro della dimensioneGli altri campi di una tabella dimensione memorizzano gli attributi dei membri
7Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali
Tabella fatti
Una fact table memorizza le misure numeriche di un proces-so
Per fatto si intende una misura relativa ad un processoLa chiave è normalmente composta da riferimenti alle chiavi delle varie tabelle dimensioneGli altri campi rappresentano i fatti
8Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali
Additività e semi additività dei fatti
Un fatto è additivo se ha senso sommarlo rispetto ad ogni possibile combinazione delle dimensioniI fatti possono anche essere:
Semi additivi se ha senso sommarli rispetto ad alcune dimensioniNon additivi se non ha senso sommarliPuò avere senso combinare fatti anche non completamente additivi me-diante operazioni diverse dalla somma
9Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali
Attributi e interrogazioni
Gli attributi delle tabelle dimensione sono il principale stru-mento per l'interrogazione del DW
Gli attributi delle dimensioni vengono usati perSelezionare un sottoinsieme dei dati di interesseRaggruppare i dati di interesse
10Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali
Formato delle interrogazioni
Le interrogazioni assumono solitamente il seguente formato standard
Possibili anche interrogazioni che effettuano confronti e/o rapporti
11
Il modello dimensionaleVendite al dettaglio (studio di caso)Spedizioni (studio di caso)Catena del valore (studio di caso)Servizi finanziari (studio di caso)Il ciclo di vita
Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali
SOMMARIO
12Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali
Studi di caso
Le tecniche di modellazione dimensionale vengono illustrate mediante un certo numero di esempi chiamati studi di caso
Ciascun studio di caso è relativo ad un esempio concretoCiascun studio di caso introduce una o più tecniche di modellazione di-mensionaleCiascuna tecnica può essere usata in più contesti
Inizialmente viene introdotta una semplice metodologia per la progettazione di uno schema dimensionale
Uno schema dimensionale è composto da una singola tabella fatti e da un insieme di tabelle dimensione
Bisogna tenere presente cheUn data mart può essere composto da più schemi dimensionaliUn DW dimensionale è normalmente composto da più data mart
13Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali
Progettazione di uno schema dimensionale
La progettazione di uno schema dimensionale richiede lo svolgimento di quattro passi
Scelta del processo di business da modellareScelta della grana del processoScelta delle dimensioni da cui dipende ciascun record della tabella fattiScelta dei fatti misurabili che popoleranno ogni record della tabella fatti
Queste scelte devono essere guidateDai requisitiDalle sorgenti informative disponibili
14Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali
Progettazione di uno schema dimensionale
Scelta del processo di business da modellareQuale processo stiamo modellando?Per processo si intende un processo operazionale, supportato da uno o più sistemi operazionali, i cui dati possono essere utilizzati per popolare lo schema dimensionale
Scelta della grana del processoChe cosa descrive una singola riga della tabella fatti?Per grana si intende il livello di dettaglio atomico che deve essere rap-presentato nella tabella fatti per il processo
15Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali
Progettazione di uno schema dimensionale
Scelta delle dimensioni da cui dipende ogni record della ta-bella fatti
In che modo sono descritti i dati di interesse per il processo che stiamo modellando?Una dimensione è un insieme di membri caratterizzati da un certo nu-mero di attributi da usare nelle select e nei raggruppamenti
Scelta dei fatti misurabili che popoleranno ogni record della tabella fatti
Che cosa stiamo misurando?I fatti sono misure del processo selezionato
16Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali
Il processo delle vendite
Si consideri il seguente caso di studio, relativo al processo delle vendite al dettaglio in una catena di negozi alimentari
Lavoriamo nella direzione di una grande catena di alimentariLa catena comprende 500 grandi negozi alimentari, distribuiti in 3 re-gioniOgni negozio è un supermercato con diversi repartiNella catena di negozi sono venduti circa 60.000 tipi di prodotti indivi-duali (SKU)Circa 40.000 SKU vengono da fornitori esterni e su di essi è stampato un codice a barre chiamato codice universale del prodotto (UPC)Gli altri 20.000 SKU corrispondono a prodotti che non sono confezionati o che sono confezionati localmente e non hanno un UPC
17Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali
Il processo delle vendite
Dove vengono raccolti i dati della catena di negozi alimentari?I dati relativi alle vendite vengono raccolti in ciascuna cassa mediante dei siste-mi POS
La direzione della catena si occupa della logistica delle ordinazioni, della disposizione delle merci sugli scaffali, della vendita dei pro-dotti e della massimizzazione del profitto
Sorgenti del profittoLe scelte sotto il controllo della direzione della catena si negozi riguardano
Le promozioni comprendonoPubblicitàEsposizione sugli scaffali
Uno degli obiettivi della direzione è la comrpendione dell'impatto delle promozioni sulle vendite e, quindi, sui profitti
18Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali
Il data mart delle vendite
Scelta della granaPer il data mart per il processo delle vendite sono possibili diverse scelte per la grana
Ad esempio unità di vendita (SKU) per negozio per giorno
La scelta della grana ha influenzaSulle dimensioni usate nel data martSul tipo di analisi che può essere effettuatoSull'occupazione di memoria del data mart
19Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali
Il data mart delle vendite
Scelta delle dimensioni Fissati il processo e la grana bisogna scegliere le dimensioni. Per alcune dimensioni la scelta è immediata
Si tratta delle dimensioni primarie che fissano la grana delle misurazioni e sono tra loro indipendenti poiché le misure relative ai movimenti giornalie-ri dei prodotti dipendono funzionalmente da queste dimensioni
La scelta di altre dimensioni è meno ovviaSi tratta delle dimensioni supplementari che dipendono funzionalmente dalle dimensioni primarie nel senso che per ogni possibile combinazione del-le dimensioni primarie è univoca la scelta del valore delle dimensioni sup-plementari
20Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali
Il data mart delle vendite
Scelta dei fattiLe misure disponibili relativamente alle vendite giornaliere dei prodotti sono
Incasso totale in dollari (dollar_sales)Numero totale di unità vendute (units_sales)Costo totale in dollari (dollar_cost)Numero di clienti (customer_count)
21Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali
La dimensione del tempo
La dimensione tempo descrive i giorni di un intervallo tempora-le di interesseLa dimensione tempo è presente nella maggior parte degli schemi dimensionali e praticamente in tutti I DW
La realizzazione di una tabella dimensionale per il tempo è semplice
22Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali
Le dimensioni prodotto, negozio, numero di transazione e promozione
La dimensione prodotto descrive le unità di vendità (SKU) della catena di negozi
La dimensione negozio descrive i negozi della catena e rap-presenta una dimensione essenzialmente geografica
La dimensione numero di transazione rappresenta gli scon-trini di vendita
Utilizzando anche questa dimensione come dimensione primaria la gra-na dei dati nella tabella fatti diventa quella di una riga per ciascuna voce di scontrino di vendita
La dimensione promozione descrive ogni possibile promo-zione che si applica alla vendita dei prodotti ed è una dimen-sione causale
Descrive fattori che sono la causa di potenziali cambiamenti (abitudini dei clienti)
23
Il modello dimensionaleVendite al dettaglio (studio di caso)Spedizioni (studio di caso)Catena del valore (studio di caso)Servizi finanziari (studio di caso)Il ciclo di vita
Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali
SOMMARIO
24Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali
Il processo delle spedizioni
Il processo delle spedizioni riguarda il flusso di spedizione dei prodotti dall'organizzazione al cliente
Il processo delle spedizioni viene analizzato dal punto di vista del caricamento delle merci sui mezzi di trasporto destinati ai clienti
I dati conosciuti dall'organizzazione relativamente ad una spedi-zione non si limitano ai dati mostrati sul documento allegato ma comprendono anche
Prezzi di listino, costi di produzione, distribuzione e commercializzazio-ne
Il data mart delle spedizioni è una sorgente informativa molto potente
Contiene dati relativi a tutti i prodotti, tutti i clienti, e tutti i contratti con cui l'organizzazione vende prodotti
25Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali
Schema dimensionale per le spedizioni
La grana della tabella fatti rappresenta la linea nel documento di accompagnamento della spedizione
Tempo e prodottoSede destinazione (Cust Ship-to)Accordo commerciale (Deal)Sede sorgente (Ship-from)Modalità di spedizione (Ship-mode)
26Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali
Le dimensioni Cust Ship-to, Deal, Ship-from e Ship-mode
La dimensione Cust Ship-to descrive le possibili sedi di de-stinazioni a cui vengono effettuate le spedizioni
La dimensione Deal descrive gli incentivi che sono stati of-ferti al cliente relativamente alla vendita che ha portato alla spedizione
La dimensione Ship-from descrive le sedi da cui hanno origi-ne le spedizioni
La dimensione Ship-mode descrive informazioni relative alla modalità di spedizione ai clienti
27Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali
Dichiarazione profitti e perdite e soddisfazione del cliente
Al momento della consegna sono note molte informazioni re-lative al valore della merce consegnata
una dichiarazione profitti e perdite descrive tutti gli incassi e i costi dal valore di vendita massimo (senza sconti) al valore effettivo di vendita (dopo tutti gli sconti, deduzioni e costi)è corretto associare alla consegna solo i valori direttamente imputabili ad essa
Al momento della consegna sono noti alcuni fatti che in-fluenzano la soddisfazione del cliente
Consegna in tempoConsegna completataConsegna senza danni
28
Il modello dimensionaleVendite al dettaglio (studio di caso)Spedizioni (studio di caso)Catena del valore (studio di caso)Servizi finanziari (studio di caso)Il ciclo di vita
Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali
SOMMARIO
29Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali
Il processo catena del valore
Lato della domanda: uno scenario tipico legato alla domanda dei prodotti è rappresentato dai seguenti schemi dimensio-nali, ordinati dal punto in cui il prodotto ha origine al punto in cui viene venduto all'utente finale
Magazzino dei prodotti finitiTempo, prodotto, magazzino
Spedizione al centro di distribuzioneTempo, prodotto, magazzino, modalità di consegna
Magazzino del centro di distribuzioneTempo, prodotto, centro di distribuzione
Spedizione ai negozi di venditaTempo, prodotto, negozio
Magazzino dei negozi di venditaTempo, prodotto, negozio
Vendita al dettaglioTempo, prodotto, negozio, promozione, cliente
30Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali
Il processo catena del valore
Lato della produzione: il processo di produzione riguarda l'acquisizione di parti ed il loro montaggio in prodotti finiti
Ordinazione materialiTempo, ingrediente, fornitore
Consegna materialiTempo, ingrediente, fornitore, stabilimento, modalità di consegna
Magazzino materialiTempo, ingrediente, stabilimento
Monitoraggio dei processi produttiviTempo, ingrediente, processo, stabilimento
MontaggioTempo, ingrediente, prodotto
Inventario prodotti finitiTempo, prodotto, magazzino
Programmazione della produzioneTempo, prodotto
31Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali
Dimensioni conformi
Una dimensione conforme è una dimensione che ha esattamen-te lo stesso significato in più schemi dimensionaliUn insieme di schemi dimensionali forma un data mart se è sta-to costruito attorno ad un insieme coerente e coordinato di di-mensioni conformiEsistono diversi tipi di dimensioni conformi
Dimensioni assolutamente identicheDimensioni con gli stessi membri e gli stessi identificatori ma attributi diversiDimensioni con dettaglio ridotto
32Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali
Architettura del DW a Bus
L'idea è quella di definire uno standard aziendale per connette-re i diversi data mart all'architettura più ampia del DW infatti i data mart possono essere collegati e cooperare se rispettano questo standard aziendaleViceversa, è inaccettabile creare data mart separati che ignora-no l'aspetto della condivisione dei dati perché di fatto, bloccano lo sviluppo di un ambiente di DW coerenteL'architettura del DW a bus è basata sulle nozioni di
Dimensioni conformiFatti conformi
33
Il modello dimensionaleVendite al dettaglio (studio di caso)Spedizioni (studio di caso)Catena del valore (studio di caso)Servizi finanziari (studio di caso)Il ciclo di vita
Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali
SOMMARIO
34Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali
Il processo dei servizi finanziari
Viene ora considerato il DW per una grande bancaLa banca offre diversi servizi finanziari
Ad esempio conti correnti, libretti di risparmio, mutui, investimenti, prestiti personali, carte di credito, cassette di sicurezza, ...
Vogliamo analizzare tutti i conti gestiti dalla banca, con i relativi titolari individuali, ma soprattutto le famiglie (residenziali e commerciali) a cui appartengonoLo scopo è
Offrire servizi più efficientiOffrire servizi supplementari
35Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali
Il processo dei servizi finanziari
Mediante delle interviste sono stati raccolti i seguenti requisiti
Devono essere memorizzati cinque anni di storia per ciascun contoOgni tipo di conto ha un saldo primarioOgni tipo di conto è caratterizzato da attributi e fatti numerici propriOgni conto è considerato appartenente ad una famiglia (residenziale o commerciale)
36Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali
Il data mart dei servizi finanziari
Viene deciso di realizzare un data mart per il processo dei conti delle famiglie
La progettazione del data mart viene svolta in due passiPrima viene progettato uno schema dimensionale nucleo (core) relativo a tutti i conti (ovvero a tutti i tipi di conto)Successivamente il progetto del data mart verrà completato tenendo in considerazione le caratteristiche individuali di ciascun tipo di conto
37Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali
Progettazione della tabella fatti nucleo
La tabella fatti nucleo per il processo dei conti delle famiglie dipende dalle seguenti dimensioni
Conto (account), famiglia (household), filiale (branch), prodotto (product), stato (status) e tempo (time)La grana della tabella fatti è conto per mese
Le dimensioni primarie sono conto e tempoLe dimensioni famiglia, filiale, prodotto e stato sono dimensioni supplementari
I fatti di interesse sonoSaldo primario (primary balance) e numero di transazioni (transaction count)
38Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali
Attributi delle dimensioni
ContoNome primario, nome secondario, indirizzo, zip, stato, città, data apertura, età primario, sesso primario, stato civile primario
FamigliaNome capofamiglia, indirizzo, zip, stato, città, reddito, tipo di famiglia
FilialeNome filiale, indirizzo, zip, stato, città, tipo filiale
ProdottoDescrizione, tipo, categoria
StatoDescrizione dello stato, ragione, flag nuovo conto, flag coto chiuso
TempoMese, anno, trimestre fiscale
39Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali
Conti e famiglie
La scelta di trattare separatamente conti e famiglie è legata principalmente al fatto che la dimensione conto è grande ed è soggetta a cambiamenti nel tempo
La definizione degli elementi di una famiglia cambia nel tempoLa nozione di conto è fondamentale nella banca
Bisogna evitare di gestire la dimensione conto come di tipo 2 (non sono interessanti le versioni dei conti)
La corrispondenza tra i conti e famiglie è gestita come fatto nella tabella fatti
40Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali
Prodotti e stato
La dimensione prodotto contiene solo gli attributi comuni a tutti i diversi tipi di conto offerti dalla banca
Contiene una gerarchia di attributi elementari (descrizione, tipo e categoria)Non contiene nessun attributo proprio di nessun tipo particolare di conto
Il prodotto è una caratteristica di ciascun contoLa dimensione prodotto è stata mantenuta separata dalla dimensione conto perché la banca pensa ai prodotti come a una dimensione fondamentale della banca
La dimensione stato descrive lo stato in cui può trovarsi un conto
Viene usata anche per tenere traccia dei cambiamenti di stato dei conti
41Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali
Dimensioni sporche
Nello schema dimensionale per i servizi finanziari non è presente una dimensione cliente
La dimensione più vicina a cliente è contoNei servizi finanziari (per ragioni storiche e culturali) l'enfasi è sui conti e non sui loro titolariSe fosse presente la dimensione cliente sarebbe una dimensione sporca
Ovvero una dimensione che contiene molti membri duplicati o non completamente corretti
La dimensione famiglia è probabilmente una dimensione sporca (con una accuratezza dell'80% circa)
42Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali
Semi-additività dei saldi
I saldi dei conti sono fatti semi-additivi (come i livelli di inventario)
Non sono additivi rispetto al tempoPer combinare un insieme di saldi attraverso un intervallo temporale, calcolandone la media, bisogna sommare I saldi e dividere per il numero di periodi dell'intervallo temporale
Le applicazioni che devono calcolare la media di dati semi-additivi (non additivi rispetto al tempo)
Non devono usare direttamente la funzione AVG di SQLDevono calcolare in proprio la funzione (virtuale) “media su un intervallo temporale”
43Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali
Prodotti eterogenei
La progettazione del data mart dei servizi finanziari deve considerare anche la presenza di diverse tipologie di prodotti eterogenei
I prodotti sono eterogenei nel senso che ciascun prodotto è caratterizzato da un proprio insieme di attributi (descrittivi) e di fatti (numerici)Ad esempio
I conti correnti sono caratterizzati da un saldo del conto, saldo minimo, limite dello scoperto, spese, collegamento a carte di credito, ...Le carte di credito sono caratterizzate da un saldo, limite del credito, data di emissione e scadenza
44Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali
Gestione prodotti eterogenei
Una prima soluzione è quella di estendere la tabella fatti con i fatti di ciascun tipo di conto e la dimensione prodotto con gli attributi di ciascun tipo di conto
Tuttavia questi fatti e attributi sarebbero spesso non significativi e vuoti con notevole spreco di occupazione di memoria e degrado delle prestazioniInoltre l'introduzione di nuovi tipi di prodotto sarebbe difficoltosa
Una soluzione più efficace consiste nell'introduzione di una nuova tabella fatti e di una nuova dimensione personalizzata per ciascun tipo di conto
45Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali
Schema dimensionale dei prodotti eterogenei
46Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali
Schema dimensionale dei prodotti eterogenei
Il data mart completo dei servizi finanziari comprendeUna tabella fatti e una tabella dimensione nucleoUna tabella fatti e una tabella dimensione personalizzata per ciascun tipo di prodottoOgni membro della dimensione prodotto nucleo è anche membro di (esattamente) una dimensione prodotto personalizzataOgni record della tabella fatti nucleo descrive un insieme di fatti che è riportato anche in un record di (esattamente) una tabella fatti personalizzata
47Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali
Analisi dei prodotti eterogenei
Le analisi di interesse per una base di dati di prodotti eterogenei sono di due tipi
Analisi interessate a più tipi di prodotti eterogeneiSono interessate solo a fatti e attributi comuni a tutti i tipi di prodotto
Analisi interessate ad un solo tipo di prodottoSono interessate anche a fatti e attributi propri del particolare tipo di prodotto
48Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali
Altre rappresentazioni di prodotti eterogenei
Il data mart dei servizi finanziari è formato dalle istantanee relative a conti appartenenti ad un certo numero di classi di prodotti eterogenei
La tabella fatti contiene in questo caso molti fatti
Che cosa sarebbe successo se la grana del data mart fosse stata quella delle transazioni?
In questo caso l'unico fatto interessante sarebbe stato la quantità indipendentemente dalla classe di prodotto
49Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali
Uso di minidimensioni
Le dimensioni conto e famiglia sono grandi e oggette a cambiamenti lenti nel tempo
In questo caso può essere opportuno evidenziare gli attributi variabili nel tempo di cui interessa tenere traccia e decomporre le dimensioni mediante l'introduzione di minidimensioni
Le minidimensioni rappresenterebbero classi predefinite (e sostanzialmente invarianti nel tempo) di combinazioni degli attributi variabiliSarebbe poi possibile accedere ai fatti sia sulla base dei valori delle dimensioni nei periodi relativi ai fatti che dei valori correnti
50
Il modello dimensionaleVendite al dettaglio (studio di caso)Spedizioni (studio di caso)Catena del valore (studio di caso)Servizi finanziari (studio di caso)Il ciclo di vita
Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali
SOMMARIO
51Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali
Ciclo di vita dimensionale e sue fasi
Viene ora descritta una metodologia completa di progettazione e realizzazione di DW
La metodologia è descritta dal ciclo di vita dimensionale dei DWFornisce il contesto di riferimento per la progettazione e realizzazione di DW dimensionali
52Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali
Pianificazione e gestione progetto
Il ciclo di vita di un DW ha inizio con la pianificazione e per tutta la sua durata richiede una attività di gestione
La pianificazione riguarda la definizione del progetto di DW e dei suoi confini
Analisi preliminare dei requisiti e dei confini del progettoValutazioni economicheIdentificazione delle risorseFormazione dei gruppi di lavoroDefinizione del piano di sviluppo
Gestione del progettoMonitoraggio e controlloGestione dei cambiamenti
53Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali
Raccolta e analisi dei requisiti
Comprensione dettagliata dei requisiti del DWRequisiti raccolti dai responsabili dei processi
Obiettivi dell'organizzazioneProcessi dell'organizzazioneMetriche di prestazione dei processiDimensioniModalità correnti e desiderate di analisi
Requisiti raccolti dai responsabili del sistema informativoSorgenti di datiModalità correnti di analisi
54Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali
Progettazione de DW
La progettazione del DW avviene su tre tracce paralleleProgettazione dei datiProgettazione tecnologicaProgettazione delle applicazioni
55Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali
Progettazione dimensionale
La progettazione dimensionale è la progettazione logica dei dati del DW basata sull'architettura a bus
Progettazione dei data martProgettazione di un insieme di dimensioni conformiProgettazione degli schemi dimensionaliAnalisi delle sorgenti informativePiano preliminare delle aggregazioni
Lo schema logico del DW è la pietra angolare della progettazione dell'intero DW
56Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali
Progettazione fisica
Definizione delle strutture fisiche adeguate a una rappresen-tazione efficiente dello schema logico del DW
Definizione dello schema dei datiProgettazione preliminare delle srategie di
IndicizzazionePartizionamento dei dati
57Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali
Progetto e sviluppo della preparazione dei dati
Il processo di preparazione dei datiHa tre passi principali
EstrazioneTrasformazioneCaricamento
Deve gestire la qualità dei dati presenti nelle sorgenti informativeDeve essere realizzata in due forme
Preparazione al caricamento iniziale del DW (preparazione statica)Preparazione ai caricamenti periodici (preparazione incrementale)
58Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali
Progettazione tecnologica
Progettazione dell'architettura globale del DW (ovvero del sistema di data warehousing)
Richiede l'integrazione di numerosi sistemi e tecnologie
Selezione e installazione dei prodottiScelta degli ambienti hardware e software
59Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali
Progettazione delle applicazioni
Specifica delle applicazioni utenteNon tutti gli utenti useranno strumenti ad hoc di interrogazioneÈ quindi necessario sviluppare un insieme di applicazioni per gli utenti finaliBasata sullo schema logico (dimensionale) dei dati
Sviluppo delle applicazioniSolitamente basato sull'uso di
Strumenti avanzati di accesso ai datiMetadati
60Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali
Installazione e avviamento
Le tracce di progettazione dei dati, tecnologia e delle applicazioni convergono in questa fase
Il DW viene costruito e reso accessibile agli utenti finaliInstallazione delle applicazioniFormazione degli utentiSupporto agli utenti
61Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali
Manutenzione e crescita
La manutenzione comprendeSupporto e formazione continuiVerifica di qualità del DW
Un DW realizzato con il ciclo di vita dimensionale è pronto a evolvere e crescere
L'evoluzione di un DW è indice di successo, non di fallimentoSolitamente l'evoluzione riguarda il miglioramento dei data mart esistenti e la realizzazione di nuovi data mart
62Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali
FINE
GRAZIE PER L'ATTENZIONE