introduzione al data warehousing ed alla progettazione di data warehouse dimensionali

62
Introduzione al Data Warehousing ed alla Progettazione di Data Warehouse Dimensionali Università degli Studi di Perugia – Facoltà di Scienze MM.FF.NN. Corso di laurea specialistica in informatica – A.A. 2008/2009 Corso di basi di dati avanzate e tecniche di data mining Studenti: Andrea Manfucci Davide Ciambelli Professore: Giorgio Cecconi

Upload: davide-ciambelli

Post on 12-May-2015

2.930 views

Category:

Technology


1 download

DESCRIPTION

Data warehouse description.

TRANSCRIPT

Page 1: Introduzione al Data Warehousing ed alla Progettazione di Data Warehouse Dimensionali

Introduzione al Data Warehousing ed alla Progettazione di Data Warehouse Dimensionali

Università degli Studi di Perugia – Facoltà di Scienze MM.FF.NN.Corso di laurea specialistica in informatica – A.A. 2008/2009

Corso di basi di dati avanzate e tecniche di data mining

Studenti:Andrea ManfucciDavide Ciambelli

Professore:Giorgio Cecconi

Page 2: Introduzione al Data Warehousing ed alla Progettazione di Data Warehouse Dimensionali

2

SOMMARIO

Il modello dimensionaleVendite al dettaglio (studio di caso)Spedizioni (studio di caso)Catena del valore (studio di caso)Servizi finanziari (studio di caso)Il ciclo di vita

Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali

Page 3: Introduzione al Data Warehousing ed alla Progettazione di Data Warehouse Dimensionali

3

Il modello dimensionale

La progettazione dei dati del data warehouse (DW) è la pietra angolare del progetto dell'intero DW

Basandosi sul progetto dei dati è possibilePianificare e progettare le applicazioniPianificare l'estrazione e la trasformazione dei datiStimare l'occupazione di memoria complessiva del DW

La progettazione dei dati in un DW dimensionaleÈ basata sulla modellazione dimensionale

Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali

Page 4: Introduzione al Data Warehousing ed alla Progettazione di Data Warehouse Dimensionali

4Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali

Schemi dimensionali

La modellazione dimensionale è una tecnica di progettazione logica dei dati nel DW

È orientata alla definizione di schemi relazionali di tipo “dimensionale”Uno schema dimensionale (chiamato anche star schema o schema a stella) è composto da

Una tabella dei fatti (fact table)Un insieme di tabelle ausiliarie (dimension tables)

Questo schema modella i dati delle vendite di prodotti in un certo numero di negozi nel corso del tempo

Page 5: Introduzione al Data Warehousing ed alla Progettazione di Data Warehouse Dimensionali

5Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali

Scopo di uno schema dimensionale

In uno schema dimensionaleUna dimension table serve a rappresentare un insieme di elementi chiamati membriUna fact table serve a memorizzare un insieme di funzioni numeriche

Page 6: Introduzione al Data Warehousing ed alla Progettazione di Data Warehouse Dimensionali

6Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali

Tabelle dimensione

Una dimension table memorizza una dimensione rispetto alla quale è interessante analizzare un processo

Una dimensione è un insieme di elementi chiamati membriCiascuna riga di una tabella dimensione rappresenta un membro della dimensioneGli altri campi di una tabella dimensione memorizzano gli attributi dei membri

Page 7: Introduzione al Data Warehousing ed alla Progettazione di Data Warehouse Dimensionali

7Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali

Tabella fatti

Una fact table memorizza le misure numeriche di un proces-so

Per fatto si intende una misura relativa ad un processoLa chiave è normalmente composta da riferimenti alle chiavi delle varie tabelle dimensioneGli altri campi rappresentano i fatti

Page 8: Introduzione al Data Warehousing ed alla Progettazione di Data Warehouse Dimensionali

8Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali

Additività e semi additività dei fatti

Un fatto è additivo se ha senso sommarlo rispetto ad ogni possibile combinazione delle dimensioniI fatti possono anche essere:

Semi additivi se ha senso sommarli rispetto ad alcune dimensioniNon additivi se non ha senso sommarliPuò avere senso combinare fatti anche non completamente additivi me-diante operazioni diverse dalla somma

Page 9: Introduzione al Data Warehousing ed alla Progettazione di Data Warehouse Dimensionali

9Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali

Attributi e interrogazioni

Gli attributi delle tabelle dimensione sono il principale stru-mento per l'interrogazione del DW

Gli attributi delle dimensioni vengono usati perSelezionare un sottoinsieme dei dati di interesseRaggruppare i dati di interesse

Page 10: Introduzione al Data Warehousing ed alla Progettazione di Data Warehouse Dimensionali

10Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali

Formato delle interrogazioni

Le interrogazioni assumono solitamente il seguente formato standard

Possibili anche interrogazioni che effettuano confronti e/o rapporti

Page 11: Introduzione al Data Warehousing ed alla Progettazione di Data Warehouse Dimensionali

11

Il modello dimensionaleVendite al dettaglio (studio di caso)Spedizioni (studio di caso)Catena del valore (studio di caso)Servizi finanziari (studio di caso)Il ciclo di vita

Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali

SOMMARIO

Page 12: Introduzione al Data Warehousing ed alla Progettazione di Data Warehouse Dimensionali

12Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali

Studi di caso

Le tecniche di modellazione dimensionale vengono illustrate mediante un certo numero di esempi chiamati studi di caso

Ciascun studio di caso è relativo ad un esempio concretoCiascun studio di caso introduce una o più tecniche di modellazione di-mensionaleCiascuna tecnica può essere usata in più contesti

Inizialmente viene introdotta una semplice metodologia per la progettazione di uno schema dimensionale

Uno schema dimensionale è composto da una singola tabella fatti e da un insieme di tabelle dimensione

Bisogna tenere presente cheUn data mart può essere composto da più schemi dimensionaliUn DW dimensionale è normalmente composto da più data mart

Page 13: Introduzione al Data Warehousing ed alla Progettazione di Data Warehouse Dimensionali

13Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali

Progettazione di uno schema dimensionale

La progettazione di uno schema dimensionale richiede lo svolgimento di quattro passi

Scelta del processo di business da modellareScelta della grana del processoScelta delle dimensioni da cui dipende ciascun record della tabella fattiScelta dei fatti misurabili che popoleranno ogni record della tabella fatti

Queste scelte devono essere guidateDai requisitiDalle sorgenti informative disponibili

Page 14: Introduzione al Data Warehousing ed alla Progettazione di Data Warehouse Dimensionali

14Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali

Progettazione di uno schema dimensionale

Scelta del processo di business da modellareQuale processo stiamo modellando?Per processo si intende un processo operazionale, supportato da uno o più sistemi operazionali, i cui dati possono essere utilizzati per popolare lo schema dimensionale

Scelta della grana del processoChe cosa descrive una singola riga della tabella fatti?Per grana si intende il livello di dettaglio atomico che deve essere rap-presentato nella tabella fatti per il processo

Page 15: Introduzione al Data Warehousing ed alla Progettazione di Data Warehouse Dimensionali

15Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali

Progettazione di uno schema dimensionale

Scelta delle dimensioni da cui dipende ogni record della ta-bella fatti

In che modo sono descritti i dati di interesse per il processo che stiamo modellando?Una dimensione è un insieme di membri caratterizzati da un certo nu-mero di attributi da usare nelle select e nei raggruppamenti

Scelta dei fatti misurabili che popoleranno ogni record della tabella fatti

Che cosa stiamo misurando?I fatti sono misure del processo selezionato

Page 16: Introduzione al Data Warehousing ed alla Progettazione di Data Warehouse Dimensionali

16Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali

Il processo delle vendite

Si consideri il seguente caso di studio, relativo al processo delle vendite al dettaglio in una catena di negozi alimentari

Lavoriamo nella direzione di una grande catena di alimentariLa catena comprende 500 grandi negozi alimentari, distribuiti in 3 re-gioniOgni negozio è un supermercato con diversi repartiNella catena di negozi sono venduti circa 60.000 tipi di prodotti indivi-duali (SKU)Circa 40.000 SKU vengono da fornitori esterni e su di essi è stampato un codice a barre chiamato codice universale del prodotto (UPC)Gli altri 20.000 SKU corrispondono a prodotti che non sono confezionati o che sono confezionati localmente e non hanno un UPC

Page 17: Introduzione al Data Warehousing ed alla Progettazione di Data Warehouse Dimensionali

17Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali

Il processo delle vendite

Dove vengono raccolti i dati della catena di negozi alimentari?I dati relativi alle vendite vengono raccolti in ciascuna cassa mediante dei siste-mi POS

La direzione della catena si occupa della logistica delle ordinazioni, della disposizione delle merci sugli scaffali, della vendita dei pro-dotti e della massimizzazione del profitto

Sorgenti del profittoLe scelte sotto il controllo della direzione della catena si negozi riguardano

Le promozioni comprendonoPubblicitàEsposizione sugli scaffali

Uno degli obiettivi della direzione è la comrpendione dell'impatto delle promozioni sulle vendite e, quindi, sui profitti

Page 18: Introduzione al Data Warehousing ed alla Progettazione di Data Warehouse Dimensionali

18Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali

Il data mart delle vendite

Scelta della granaPer il data mart per il processo delle vendite sono possibili diverse scelte per la grana

Ad esempio unità di vendita (SKU) per negozio per giorno

La scelta della grana ha influenzaSulle dimensioni usate nel data martSul tipo di analisi che può essere effettuatoSull'occupazione di memoria del data mart

Page 19: Introduzione al Data Warehousing ed alla Progettazione di Data Warehouse Dimensionali

19Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali

Il data mart delle vendite

Scelta delle dimensioni Fissati il processo e la grana bisogna scegliere le dimensioni. Per alcune dimensioni la scelta è immediata

Si tratta delle dimensioni primarie che fissano la grana delle misurazioni e sono tra loro indipendenti poiché le misure relative ai movimenti giornalie-ri dei prodotti dipendono funzionalmente da queste dimensioni

La scelta di altre dimensioni è meno ovviaSi tratta delle dimensioni supplementari che dipendono funzionalmente dalle dimensioni primarie nel senso che per ogni possibile combinazione del-le dimensioni primarie è univoca la scelta del valore delle dimensioni sup-plementari

Page 20: Introduzione al Data Warehousing ed alla Progettazione di Data Warehouse Dimensionali

20Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali

Il data mart delle vendite

Scelta dei fattiLe misure disponibili relativamente alle vendite giornaliere dei prodotti sono

Incasso totale in dollari (dollar_sales)Numero totale di unità vendute (units_sales)Costo totale in dollari (dollar_cost)Numero di clienti (customer_count)

Page 21: Introduzione al Data Warehousing ed alla Progettazione di Data Warehouse Dimensionali

21Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali

La dimensione del tempo

La dimensione tempo descrive i giorni di un intervallo tempora-le di interesseLa dimensione tempo è presente nella maggior parte degli schemi dimensionali e praticamente in tutti I DW

La realizzazione di una tabella dimensionale per il tempo è semplice

Page 22: Introduzione al Data Warehousing ed alla Progettazione di Data Warehouse Dimensionali

22Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali

Le dimensioni prodotto, negozio, numero di transazione e promozione

La dimensione prodotto descrive le unità di vendità (SKU) della catena di negozi

La dimensione negozio descrive i negozi della catena e rap-presenta una dimensione essenzialmente geografica

La dimensione numero di transazione rappresenta gli scon-trini di vendita

Utilizzando anche questa dimensione come dimensione primaria la gra-na dei dati nella tabella fatti diventa quella di una riga per ciascuna voce di scontrino di vendita

La dimensione promozione descrive ogni possibile promo-zione che si applica alla vendita dei prodotti ed è una dimen-sione causale

Descrive fattori che sono la causa di potenziali cambiamenti (abitudini dei clienti)

Page 23: Introduzione al Data Warehousing ed alla Progettazione di Data Warehouse Dimensionali

23

Il modello dimensionaleVendite al dettaglio (studio di caso)Spedizioni (studio di caso)Catena del valore (studio di caso)Servizi finanziari (studio di caso)Il ciclo di vita

Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali

SOMMARIO

Page 24: Introduzione al Data Warehousing ed alla Progettazione di Data Warehouse Dimensionali

24Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali

Il processo delle spedizioni

Il processo delle spedizioni riguarda il flusso di spedizione dei prodotti dall'organizzazione al cliente

Il processo delle spedizioni viene analizzato dal punto di vista del caricamento delle merci sui mezzi di trasporto destinati ai clienti

I dati conosciuti dall'organizzazione relativamente ad una spedi-zione non si limitano ai dati mostrati sul documento allegato ma comprendono anche

Prezzi di listino, costi di produzione, distribuzione e commercializzazio-ne

Il data mart delle spedizioni è una sorgente informativa molto potente

Contiene dati relativi a tutti i prodotti, tutti i clienti, e tutti i contratti con cui l'organizzazione vende prodotti

Page 25: Introduzione al Data Warehousing ed alla Progettazione di Data Warehouse Dimensionali

25Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali

Schema dimensionale per le spedizioni

La grana della tabella fatti rappresenta la linea nel documento di accompagnamento della spedizione

Tempo e prodottoSede destinazione (Cust Ship-to)Accordo commerciale (Deal)Sede sorgente (Ship-from)Modalità di spedizione (Ship-mode)

Page 26: Introduzione al Data Warehousing ed alla Progettazione di Data Warehouse Dimensionali

26Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali

Le dimensioni Cust Ship-to, Deal, Ship-from e Ship-mode

La dimensione Cust Ship-to descrive le possibili sedi di de-stinazioni a cui vengono effettuate le spedizioni

La dimensione Deal descrive gli incentivi che sono stati of-ferti al cliente relativamente alla vendita che ha portato alla spedizione

La dimensione Ship-from descrive le sedi da cui hanno origi-ne le spedizioni

La dimensione Ship-mode descrive informazioni relative alla modalità di spedizione ai clienti

Page 27: Introduzione al Data Warehousing ed alla Progettazione di Data Warehouse Dimensionali

27Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali

Dichiarazione profitti e perdite e soddisfazione del cliente

Al momento della consegna sono note molte informazioni re-lative al valore della merce consegnata

una dichiarazione profitti e perdite descrive tutti gli incassi e i costi dal valore di vendita massimo (senza sconti) al valore effettivo di vendita (dopo tutti gli sconti, deduzioni e costi)è corretto associare alla consegna solo i valori direttamente imputabili ad essa

Al momento della consegna sono noti alcuni fatti che in-fluenzano la soddisfazione del cliente

Consegna in tempoConsegna completataConsegna senza danni

Page 28: Introduzione al Data Warehousing ed alla Progettazione di Data Warehouse Dimensionali

28

Il modello dimensionaleVendite al dettaglio (studio di caso)Spedizioni (studio di caso)Catena del valore (studio di caso)Servizi finanziari (studio di caso)Il ciclo di vita

Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali

SOMMARIO

Page 29: Introduzione al Data Warehousing ed alla Progettazione di Data Warehouse Dimensionali

29Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali

Il processo catena del valore

Lato della domanda: uno scenario tipico legato alla domanda dei prodotti è rappresentato dai seguenti schemi dimensio-nali, ordinati dal punto in cui il prodotto ha origine al punto in cui viene venduto all'utente finale

Magazzino dei prodotti finitiTempo, prodotto, magazzino

Spedizione al centro di distribuzioneTempo, prodotto, magazzino, modalità di consegna

Magazzino del centro di distribuzioneTempo, prodotto, centro di distribuzione

Spedizione ai negozi di venditaTempo, prodotto, negozio

Magazzino dei negozi di venditaTempo, prodotto, negozio

Vendita al dettaglioTempo, prodotto, negozio, promozione, cliente

Page 30: Introduzione al Data Warehousing ed alla Progettazione di Data Warehouse Dimensionali

30Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali

Il processo catena del valore

Lato della produzione: il processo di produzione riguarda l'acquisizione di parti ed il loro montaggio in prodotti finiti

Ordinazione materialiTempo, ingrediente, fornitore

Consegna materialiTempo, ingrediente, fornitore, stabilimento, modalità di consegna

Magazzino materialiTempo, ingrediente, stabilimento

Monitoraggio dei processi produttiviTempo, ingrediente, processo, stabilimento

MontaggioTempo, ingrediente, prodotto

Inventario prodotti finitiTempo, prodotto, magazzino

Programmazione della produzioneTempo, prodotto

Page 31: Introduzione al Data Warehousing ed alla Progettazione di Data Warehouse Dimensionali

31Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali

Dimensioni conformi

Una dimensione conforme è una dimensione che ha esattamen-te lo stesso significato in più schemi dimensionaliUn insieme di schemi dimensionali forma un data mart se è sta-to costruito attorno ad un insieme coerente e coordinato di di-mensioni conformiEsistono diversi tipi di dimensioni conformi

Dimensioni assolutamente identicheDimensioni con gli stessi membri e gli stessi identificatori ma attributi diversiDimensioni con dettaglio ridotto

Page 32: Introduzione al Data Warehousing ed alla Progettazione di Data Warehouse Dimensionali

32Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali

Architettura del DW a Bus

L'idea è quella di definire uno standard aziendale per connette-re i diversi data mart all'architettura più ampia del DW infatti i data mart possono essere collegati e cooperare se rispettano questo standard aziendaleViceversa, è inaccettabile creare data mart separati che ignora-no l'aspetto della condivisione dei dati perché di fatto, bloccano lo sviluppo di un ambiente di DW coerenteL'architettura del DW a bus è basata sulle nozioni di

Dimensioni conformiFatti conformi

Page 33: Introduzione al Data Warehousing ed alla Progettazione di Data Warehouse Dimensionali

33

Il modello dimensionaleVendite al dettaglio (studio di caso)Spedizioni (studio di caso)Catena del valore (studio di caso)Servizi finanziari (studio di caso)Il ciclo di vita

Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali

SOMMARIO

Page 34: Introduzione al Data Warehousing ed alla Progettazione di Data Warehouse Dimensionali

34Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali

Il processo dei servizi finanziari

Viene ora considerato il DW per una grande bancaLa banca offre diversi servizi finanziari

Ad esempio conti correnti, libretti di risparmio, mutui, investimenti, prestiti personali, carte di credito, cassette di sicurezza, ...

Vogliamo analizzare tutti i conti gestiti dalla banca, con i relativi titolari individuali, ma soprattutto le famiglie (residenziali e commerciali) a cui appartengonoLo scopo è

Offrire servizi più efficientiOffrire servizi supplementari

Page 35: Introduzione al Data Warehousing ed alla Progettazione di Data Warehouse Dimensionali

35Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali

Il processo dei servizi finanziari

Mediante delle interviste sono stati raccolti i seguenti requisiti

Devono essere memorizzati cinque anni di storia per ciascun contoOgni tipo di conto ha un saldo primarioOgni tipo di conto è caratterizzato da attributi e fatti numerici propriOgni conto è considerato appartenente ad una famiglia (residenziale o commerciale)

Page 36: Introduzione al Data Warehousing ed alla Progettazione di Data Warehouse Dimensionali

36Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali

Il data mart dei servizi finanziari

Viene deciso di realizzare un data mart per il processo dei conti delle famiglie

La progettazione del data mart viene svolta in due passiPrima viene progettato uno schema dimensionale nucleo (core) relativo a tutti i conti (ovvero a tutti i tipi di conto)Successivamente il progetto del data mart verrà completato tenendo in considerazione le caratteristiche individuali di ciascun tipo di conto

Page 37: Introduzione al Data Warehousing ed alla Progettazione di Data Warehouse Dimensionali

37Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali

Progettazione della tabella fatti nucleo

La tabella fatti nucleo per il processo dei conti delle famiglie dipende dalle seguenti dimensioni

Conto (account), famiglia (household), filiale (branch), prodotto (product), stato (status) e tempo (time)La grana della tabella fatti è conto per mese

Le dimensioni primarie sono conto e tempoLe dimensioni famiglia, filiale, prodotto e stato sono dimensioni supplementari

I fatti di interesse sonoSaldo primario (primary balance) e numero di transazioni (transaction count)

Page 38: Introduzione al Data Warehousing ed alla Progettazione di Data Warehouse Dimensionali

38Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali

Attributi delle dimensioni

ContoNome primario, nome secondario, indirizzo, zip, stato, città, data apertura, età primario, sesso primario, stato civile primario

FamigliaNome capofamiglia, indirizzo, zip, stato, città, reddito, tipo di famiglia

FilialeNome filiale, indirizzo, zip, stato, città, tipo filiale

ProdottoDescrizione, tipo, categoria

StatoDescrizione dello stato, ragione, flag nuovo conto, flag coto chiuso

TempoMese, anno, trimestre fiscale

Page 39: Introduzione al Data Warehousing ed alla Progettazione di Data Warehouse Dimensionali

39Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali

Conti e famiglie

La scelta di trattare separatamente conti e famiglie è legata principalmente al fatto che la dimensione conto è grande ed è soggetta a cambiamenti nel tempo

La definizione degli elementi di una famiglia cambia nel tempoLa nozione di conto è fondamentale nella banca

Bisogna evitare di gestire la dimensione conto come di tipo 2 (non sono interessanti le versioni dei conti)

La corrispondenza tra i conti e famiglie è gestita come fatto nella tabella fatti

Page 40: Introduzione al Data Warehousing ed alla Progettazione di Data Warehouse Dimensionali

40Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali

Prodotti e stato

La dimensione prodotto contiene solo gli attributi comuni a tutti i diversi tipi di conto offerti dalla banca

Contiene una gerarchia di attributi elementari (descrizione, tipo e categoria)Non contiene nessun attributo proprio di nessun tipo particolare di conto

Il prodotto è una caratteristica di ciascun contoLa dimensione prodotto è stata mantenuta separata dalla dimensione conto perché la banca pensa ai prodotti come a una dimensione fondamentale della banca

La dimensione stato descrive lo stato in cui può trovarsi un conto

Viene usata anche per tenere traccia dei cambiamenti di stato dei conti

Page 41: Introduzione al Data Warehousing ed alla Progettazione di Data Warehouse Dimensionali

41Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali

Dimensioni sporche

Nello schema dimensionale per i servizi finanziari non è presente una dimensione cliente

La dimensione più vicina a cliente è contoNei servizi finanziari (per ragioni storiche e culturali) l'enfasi è sui conti e non sui loro titolariSe fosse presente la dimensione cliente sarebbe una dimensione sporca

Ovvero una dimensione che contiene molti membri duplicati o non completamente corretti

La dimensione famiglia è probabilmente una dimensione sporca (con una accuratezza dell'80% circa)

Page 42: Introduzione al Data Warehousing ed alla Progettazione di Data Warehouse Dimensionali

42Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali

Semi-additività dei saldi

I saldi dei conti sono fatti semi-additivi (come i livelli di inventario)

Non sono additivi rispetto al tempoPer combinare un insieme di saldi attraverso un intervallo temporale, calcolandone la media, bisogna sommare I saldi e dividere per il numero di periodi dell'intervallo temporale

Le applicazioni che devono calcolare la media di dati semi-additivi (non additivi rispetto al tempo)

Non devono usare direttamente la funzione AVG di SQLDevono calcolare in proprio la funzione (virtuale) “media su un intervallo temporale”

Page 43: Introduzione al Data Warehousing ed alla Progettazione di Data Warehouse Dimensionali

43Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali

Prodotti eterogenei

La progettazione del data mart dei servizi finanziari deve considerare anche la presenza di diverse tipologie di prodotti eterogenei

I prodotti sono eterogenei nel senso che ciascun prodotto è caratterizzato da un proprio insieme di attributi (descrittivi) e di fatti (numerici)Ad esempio

I conti correnti sono caratterizzati da un saldo del conto, saldo minimo, limite dello scoperto, spese, collegamento a carte di credito, ...Le carte di credito sono caratterizzate da un saldo, limite del credito, data di emissione e scadenza

Page 44: Introduzione al Data Warehousing ed alla Progettazione di Data Warehouse Dimensionali

44Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali

Gestione prodotti eterogenei

Una prima soluzione è quella di estendere la tabella fatti con i fatti di ciascun tipo di conto e la dimensione prodotto con gli attributi di ciascun tipo di conto

Tuttavia questi fatti e attributi sarebbero spesso non significativi e vuoti con notevole spreco di occupazione di memoria e degrado delle prestazioniInoltre l'introduzione di nuovi tipi di prodotto sarebbe difficoltosa

Una soluzione più efficace consiste nell'introduzione di una nuova tabella fatti e di una nuova dimensione personalizzata per ciascun tipo di conto

Page 45: Introduzione al Data Warehousing ed alla Progettazione di Data Warehouse Dimensionali

45Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali

Schema dimensionale dei prodotti eterogenei

Page 46: Introduzione al Data Warehousing ed alla Progettazione di Data Warehouse Dimensionali

46Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali

Schema dimensionale dei prodotti eterogenei

Il data mart completo dei servizi finanziari comprendeUna tabella fatti e una tabella dimensione nucleoUna tabella fatti e una tabella dimensione personalizzata per ciascun tipo di prodottoOgni membro della dimensione prodotto nucleo è anche membro di (esattamente) una dimensione prodotto personalizzataOgni record della tabella fatti nucleo descrive un insieme di fatti che è riportato anche in un record di (esattamente) una tabella fatti personalizzata

Page 47: Introduzione al Data Warehousing ed alla Progettazione di Data Warehouse Dimensionali

47Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali

Analisi dei prodotti eterogenei

Le analisi di interesse per una base di dati di prodotti eterogenei sono di due tipi

Analisi interessate a più tipi di prodotti eterogeneiSono interessate solo a fatti e attributi comuni a tutti i tipi di prodotto

Analisi interessate ad un solo tipo di prodottoSono interessate anche a fatti e attributi propri del particolare tipo di prodotto

Page 48: Introduzione al Data Warehousing ed alla Progettazione di Data Warehouse Dimensionali

48Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali

Altre rappresentazioni di prodotti eterogenei

Il data mart dei servizi finanziari è formato dalle istantanee relative a conti appartenenti ad un certo numero di classi di prodotti eterogenei

La tabella fatti contiene in questo caso molti fatti

Che cosa sarebbe successo se la grana del data mart fosse stata quella delle transazioni?

In questo caso l'unico fatto interessante sarebbe stato la quantità indipendentemente dalla classe di prodotto

Page 49: Introduzione al Data Warehousing ed alla Progettazione di Data Warehouse Dimensionali

49Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali

Uso di minidimensioni

Le dimensioni conto e famiglia sono grandi e oggette a cambiamenti lenti nel tempo

In questo caso può essere opportuno evidenziare gli attributi variabili nel tempo di cui interessa tenere traccia e decomporre le dimensioni mediante l'introduzione di minidimensioni

Le minidimensioni rappresenterebbero classi predefinite (e sostanzialmente invarianti nel tempo) di combinazioni degli attributi variabiliSarebbe poi possibile accedere ai fatti sia sulla base dei valori delle dimensioni nei periodi relativi ai fatti che dei valori correnti

Page 50: Introduzione al Data Warehousing ed alla Progettazione di Data Warehouse Dimensionali

50

Il modello dimensionaleVendite al dettaglio (studio di caso)Spedizioni (studio di caso)Catena del valore (studio di caso)Servizi finanziari (studio di caso)Il ciclo di vita

Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali

SOMMARIO

Page 51: Introduzione al Data Warehousing ed alla Progettazione di Data Warehouse Dimensionali

51Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali

Ciclo di vita dimensionale e sue fasi

Viene ora descritta una metodologia completa di progettazione e realizzazione di DW

La metodologia è descritta dal ciclo di vita dimensionale dei DWFornisce il contesto di riferimento per la progettazione e realizzazione di DW dimensionali

Page 52: Introduzione al Data Warehousing ed alla Progettazione di Data Warehouse Dimensionali

52Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali

Pianificazione e gestione progetto

Il ciclo di vita di un DW ha inizio con la pianificazione e per tutta la sua durata richiede una attività di gestione

La pianificazione riguarda la definizione del progetto di DW e dei suoi confini

Analisi preliminare dei requisiti e dei confini del progettoValutazioni economicheIdentificazione delle risorseFormazione dei gruppi di lavoroDefinizione del piano di sviluppo

Gestione del progettoMonitoraggio e controlloGestione dei cambiamenti

Page 53: Introduzione al Data Warehousing ed alla Progettazione di Data Warehouse Dimensionali

53Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali

Raccolta e analisi dei requisiti

Comprensione dettagliata dei requisiti del DWRequisiti raccolti dai responsabili dei processi

Obiettivi dell'organizzazioneProcessi dell'organizzazioneMetriche di prestazione dei processiDimensioniModalità correnti e desiderate di analisi

Requisiti raccolti dai responsabili del sistema informativoSorgenti di datiModalità correnti di analisi

Page 54: Introduzione al Data Warehousing ed alla Progettazione di Data Warehouse Dimensionali

54Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali

Progettazione de DW

La progettazione del DW avviene su tre tracce paralleleProgettazione dei datiProgettazione tecnologicaProgettazione delle applicazioni

Page 55: Introduzione al Data Warehousing ed alla Progettazione di Data Warehouse Dimensionali

55Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali

Progettazione dimensionale

La progettazione dimensionale è la progettazione logica dei dati del DW basata sull'architettura a bus

Progettazione dei data martProgettazione di un insieme di dimensioni conformiProgettazione degli schemi dimensionaliAnalisi delle sorgenti informativePiano preliminare delle aggregazioni

Lo schema logico del DW è la pietra angolare della progettazione dell'intero DW

Page 56: Introduzione al Data Warehousing ed alla Progettazione di Data Warehouse Dimensionali

56Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali

Progettazione fisica

Definizione delle strutture fisiche adeguate a una rappresen-tazione efficiente dello schema logico del DW

Definizione dello schema dei datiProgettazione preliminare delle srategie di

IndicizzazionePartizionamento dei dati

Page 57: Introduzione al Data Warehousing ed alla Progettazione di Data Warehouse Dimensionali

57Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali

Progetto e sviluppo della preparazione dei dati

Il processo di preparazione dei datiHa tre passi principali

EstrazioneTrasformazioneCaricamento

Deve gestire la qualità dei dati presenti nelle sorgenti informativeDeve essere realizzata in due forme

Preparazione al caricamento iniziale del DW (preparazione statica)Preparazione ai caricamenti periodici (preparazione incrementale)

Page 58: Introduzione al Data Warehousing ed alla Progettazione di Data Warehouse Dimensionali

58Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali

Progettazione tecnologica

Progettazione dell'architettura globale del DW (ovvero del sistema di data warehousing)

Richiede l'integrazione di numerosi sistemi e tecnologie

Selezione e installazione dei prodottiScelta degli ambienti hardware e software

Page 59: Introduzione al Data Warehousing ed alla Progettazione di Data Warehouse Dimensionali

59Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali

Progettazione delle applicazioni

Specifica delle applicazioni utenteNon tutti gli utenti useranno strumenti ad hoc di interrogazioneÈ quindi necessario sviluppare un insieme di applicazioni per gli utenti finaliBasata sullo schema logico (dimensionale) dei dati

Sviluppo delle applicazioniSolitamente basato sull'uso di

Strumenti avanzati di accesso ai datiMetadati

Page 60: Introduzione al Data Warehousing ed alla Progettazione di Data Warehouse Dimensionali

60Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali

Installazione e avviamento

Le tracce di progettazione dei dati, tecnologia e delle applicazioni convergono in questa fase

Il DW viene costruito e reso accessibile agli utenti finaliInstallazione delle applicazioniFormazione degli utentiSupporto agli utenti

Page 61: Introduzione al Data Warehousing ed alla Progettazione di Data Warehouse Dimensionali

61Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali

Manutenzione e crescita

La manutenzione comprendeSupporto e formazione continuiVerifica di qualità del DW

Un DW realizzato con il ciclo di vita dimensionale è pronto a evolvere e crescere

L'evoluzione di un DW è indice di successo, non di fallimentoSolitamente l'evoluzione riguarda il miglioramento dei data mart esistenti e la realizzazione di nuovi data mart

Page 62: Introduzione al Data Warehousing ed alla Progettazione di Data Warehouse Dimensionali

62Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali

FINE

GRAZIE PER L'ATTENZIONE