data warehouse

Download Data Warehouse

Post on 05-Jul-2015

494 views

Category:

Documents

0 download

Embed Size (px)

TRANSCRIPT

INTRODUZIONE AL DATA WAREHOUSING1

IL PROBLEMAIn genere: genere: abbondanza di dati DB4 DB1 DB2

DB3

ma anche abbondanza di ridondanza ed inconsistenza che non permette di utilizzare i dati in modo utile a fini decisionali2

TIPICHE RICHIESTE A CUI SPESSO DIFFICILE DARE UNA RISPOSTA

Qual il volume delle vendite per regione e categorie di prodotto durante lultimo anno? Come si correlano i prezzi delle azioni delle societ produttrici di hardware con i profitti trimestrali degli ultimi 10 anni? Quali sono stati i volumi di vendita dello scorso anno per regione e categoria di prodotto? In che modo i dividendi di aziende di hardware sono correlatiai porfitti trimestrali negli ultimi 10 anni? Quali ordini dovremmo soddisfare per massimizzare le entrate?

3

Possibili applicazionitelecomunicazioni contesti banking universit gestione dei rischi assicurazioni analisi finanziaria programmi di marketing beni di consumo salute analisi statistica produzione integrazione DB clienti integrazione relazioni clienti problematiche analisi temporale4

SISTEMI INFORMATICI: UNA CLASSIFICAZIONE

Tr

s cti

r c ssi g systr tivi

s:

r i r c ssi

D cisi

s

rt syst

s:

f rt t i t gr ti, i s rt i r c ssi ir zi li Ric i r zi i r vist ri ri i v lg s ss gr iq tit i ti, c st rici i v lg ti r v i ti v ri f ti r tiv , c

ggr g ti st r

5

IN SINTESI ...

sistemi di supporto alle decisioni (DSS)

dati

conoscenza utile allazienda

DSS: Tecnologia che supporta la dirigenza aziendale nel prendere decisioni tattico-strategiche in modo migliore e pi veloce6

Perch i sistemi tradizionali non sono sufficienti? no dati storici sistemi eterogenei basse prestazioni DBMS non adeguati al supporto decisionale problemi di sicurezza

7

PI FORMALMENTE ...

Sistemi tradizionali On-Line

Transaction Processing (OLTP)

Sistemi di data warehousing On-Line

Analytical Processing (OLAP)

Profondamente diversi

8

IN DETTAGLIO ...OLTPfunzione progettazione frequenza dati sorgente uso accesso flessibilit accesso # record acceduti tipo utenti # utenti tipo DB performance dimensione DB gestione giornaliera orientata alle applicazioni gironaliera recenti, dettagliati

OLAPsupporto alle decisioni orientata al soggetto

sporadica storici, riassuntivi, multidimensionali singola DB DB multiple ripetitivo ad hoc read/write read uso di programmi generatori di query precompilati decine migliaia operatori manager migliaia centinaia singola multiple, eterogenee alta bassa 100 MB - GB 100 GB - TB

9

EVOLUZIONE DEI DSS

Anni 60: rapporti batch

difficile trovare ed analizzare i dati costo, ogni richiesta richiede un nuovo programma non integrato con strumenti di automazione dufficio strumenti di interrogazione, fogli elettronici, interfacce grafiche accesso ai dati operazionali

Anni 70: SS basato su terminale

Anni 80: strumento dautomazione dufficio

Anni 90: data warehousing, con strumenti integrati OLAP

10

SISTEMI DI DATA WAREHOUSINGIl ata Warehousing si pu definire come il processo di integrazione di basi di dati indipendenti in un singolo repository (il data warehouse) dal uale gli utenti finali possano facilmente ed efficientemente eseguire uery, generare report ed effettuare analisi

11

I SISTEMI DI DATA WAREHOUSINGClient Query & Analysis Client

Metadata

Warehouse

Integration

Source

Source

Source

12

IL DATA WAREHOUSEColl zione i ti c e soddisf le seg enti roprieta`: usata per il supporto alle decisioni orientata ai soggetti integrata: livello aziendale e non diparti entale correlata alla variabile tempo: ampio orizzonte temporale con dati tipicamente aggregati: per effettuare stime fuori linea: dati aggiornati periodicamente

13

IL DATA WAREHOUSE

Orientata ai soggetti: considera i dati di interesse ai soggetti dellorganizzazione e non uelli rilevanti ai processi organizzativi basi data

di dati operazionali dipartimentali:produzione, marketing

vendita,

warehouse: prodotti, clienti, fornitori

14

IL DATA WAREHOUSEIntegrata: i dati provengono da tutte le sorgenti informative il data warehouse rappresenta i dati in modo univoco, riconciliando le eterogeneita` delle diverse rappresentazioni:

nomi struttura codifica rappresentazione multipla

15

IL DATA WAREHOUSECorrelata alla variabile tempo: presenza di dati storici per eseguire confronti, previsioni e per individuare tendenze Le basi di dati operazionali mantengono il valore corrente delle informazioni Lorizzonte temporale di interesse dellordine dei pochi mesi Nel data warehouse di interesse levoluzione storica delle informazioni Lorizzonte temporale di interesse dellordine degli anni16

IL DATA WAREHOUSE

Dati aggregati: nellattivita` di analisi dei dati per il supporto alle decisioni: non

interessa chi ma uanti

non

interessa un dato ma la somma, la media, il minimo, il massimo di un insieme di dati

17

IL DATA WAREHOUSE

Fuori linea: base

di dati operazionale: i dati venono acceduti, inseriti, modificati, cancellati pochi record alla volta data warehouse: operazioni

di accesso e interrogazione diurne operazioni di caricamento e aggiornamento notturne

che riguardano milioni di record

18

IL DATA WAREHOUSE

Un DW rappresenta spesso lunione di pi data mart Data mart: restrizione data warehouse ad un singolo processo o ad un gruppo di processi aziendali (es. Marketing)

DWData mart #1 Data DW mart #2 Data mart #3

19

... UNA BASE DI DATI SEPARATA ...

Per tanti motivinon esiste ununica base di dati operazionale che contiene tutti i dati di interesse la base di dati deve essere integrata non tecnicamente possibile fare lintegrazione in linea i dati di interesse sarebbero comun ue diversi devono

essere mantenuti dati storici devono essere mantenuti dati aggregati

lanalisi dei dati richiede per i dati organizzazioni speciali e metodi di accesso specifici degrado generale delle prestazioni senza la separazione

20

ARCHITETTURA DI RIFERIMENTO21

CARATTERISTICHE ARCHITETTURALI IRRINUNCIABILI Separazione: lelaborazione analitica e uella transazionale devono essere il pi possibile separate Scalabilit: larchitettura hw e sw deve essere facilmente ridimensionabile Estendibilit: deve essere possibile accogliere nuove applicazioni e tecnologie Sicurezza: il controllo sugli accessi essenziale (dati strategici) Amministabilit: lattivit di amministrazione non deve essere troppo complessa22

Architettura di riferimento (a due livelli)acquisizione memorizzazione accessoBack roomcatalogo dei metadati

Front room

dw

23

Architettura ad un livelloacquisizione middlewareBack roomcatalogo dei metadatiDw virtuale

accesso

Front room

24

ARCHITETTURA A TRE LIVELLIBack roomcatalogo dei metadati

acquisizione memorizzazione accessoFront room

dw

Dati riconciliati25

SISTEMI SORGENTEOgni sorgente di informazioni aziendali Spesso rappresentate da dati operazionali: insieme di record la cui funzione uella di catturare le transazioni del sistema organizzativo tipico accesso OLTP uso di production keys (non vengono usate nel DW)26

DATI RICONCILIATI

Integrazione dati sorgente simile

ad integrazione schemi relazionali

isiedono su data staging area Area

di memorizzazione i dati sorgente vengono trasformati tecnologia relazionale ma anche flat files

27

DATA WAREHOUSE

Risiede su Presentation Server Componente

che permette la memorizzazione e la gestione del data warehouse, secondo un approccio dimensionale

Pu essere basato su: tecnologia

relazionale (ROLAP) tecnologia multidimensionale (MOLAP)

28

END-USER DATA ACCESS TOOLS

Client del DW, di facile utilizzo tools per interrogare, analizzare e presentare linformazione contenuta del DW a supporto di un particolare bisogno aziendale invio specifiche richieste al presentation server in formato SQL

29

I METADATI= dati sui dati Link tra i DB operazionali e il DW ogni passo eseguito durante la costruzione del DW genera metadati che possono poi essere utilizzati dalle fasi successive

Esempi: schema, data in cui un dato stato creato, uale tool lha creato, storia delle trasformazioni di un dato nel tempo, statistiche, dimensione tabelle, ecc. ecc.

30

DUE RITMI DIVERSI ...

Uso bimodale: 16-22

ore al giorno usati per attivit di interrogazione funzionalit

front room

2-8

ore al giorno per caricamento, indicizzazione, controllo ualit e pubblicazione funzionalit

back room

31

SERVIZI PRINCIPALI BACK ROOM

Processo ETL: Extraction,Transformation, Loading Extraction

Estrazione dei dati dalle sorgenti informative operazionali Opzioni: tutti i dati / solo dati modificati (incrementale) Pulizia, per migliorare la ualit dei dati Trasformazione di formato, da formato sorgente a uello del DW Correlazione con oggetti provenienti da altre sorgenti Caricamento (refresh o update) con aggiunta di informazioni temporali e generazione di dati aggregati

Transformation

Loading

32

SERVIZI PRINCIPALI BACK ROOM

Il ruolo degli strumenti ETL uello di alimentare una sorgente dati singola, dettagliata, esauriente e di alta ualit che possa a sua volta alimentare il DW