master matitsistemi informativi direzionali1 sistemi informativi direzionali

71
Master MATIT Sistemi Informativi Direz ionali 1 SISTEMI INFORMATIVI SISTEMI INFORMATIVI DIREZIONALI DIREZIONALI

Upload: robertina-basso

Post on 01-May-2015

235 views

Category:

Documents


2 download

TRANSCRIPT

Page 1: Master MATITSistemi Informativi Direzionali1 SISTEMI INFORMATIVI DIREZIONALI

Master MATIT Sistemi Informativi Direzionali 1

SISTEMI INFORMATIVI SISTEMI INFORMATIVI DIREZIONALIDIREZIONALI

Page 2: Master MATITSistemi Informativi Direzionali1 SISTEMI INFORMATIVI DIREZIONALI

Master MATIT Sistemi Informativi Direzionali 2

I Livelli di un SI Aziendale livello direzionale – vengono svolte tutte quelle attività necessarie alla definizione degli obiettivi da raggiungere ed alle azioni, eventualmente

correttive, da intraprendere per perseguirli.

livello operativo – si occuperà delle attività attraverso cui l’azienda produce i propri servizi e prodotti.

il livello direzionale è supportato dai cosiddetti sistemi informativi direzionali.

Page 3: Master MATITSistemi Informativi Direzionali1 SISTEMI INFORMATIVI DIREZIONALI

Master MATIT Sistemi Informativi Direzionali 3

Schema di un sistema direzionale

Motori di calcolo (DSS)

Motori di presentazione Q&R (EIS)

Data Entry (budget, dati direzionali)

Alimentazione

Data Warehouse

DB TRANSAZIONALI

OLAPOLAP

OLTPOLTP

Page 4: Master MATITSistemi Informativi Direzionali1 SISTEMI INFORMATIVI DIREZIONALI

Master MATIT Sistemi Informativi Direzionali 4

Caratteristiche di un SID

i sistemi informativi direzionali hanno la caratteristica di essere alimentati da altri sistemi quali ad esempio i sistemi informativi aziendali oppure mediante informazioni introdotte manualmente dagli utenti finali.

Page 5: Master MATITSistemi Informativi Direzionali1 SISTEMI INFORMATIVI DIREZIONALI

Master MATIT Sistemi Informativi Direzionali 5

Le informazioni trattate informazioni fortemente aggregate.

– I SID devono fornire ai dirigenti aziendali dati sintetici (indicatori gestionali) • medie, ricavi globali,

– in certi intervalli temporali • tempificate.

– in diverse dimensioni. • Il tempo• la dimensione prodotto • dimensione processi • dimensione responsabilità• cliente, al fine di analizzare redditività, volume di affari e bacino

di utenza.

Page 6: Master MATITSistemi Informativi Direzionali1 SISTEMI INFORMATIVI DIREZIONALI

Master MATIT Sistemi Informativi Direzionali 6

Un nuovo ruolo

Il nuovo ruolo dell'Information Technology (IT) aziendale è quello di fornire al top management informazioni rapide ed efficaci sulle quali basare le decisioni strategiche

Page 7: Master MATITSistemi Informativi Direzionali1 SISTEMI INFORMATIVI DIREZIONALI

Master MATIT Sistemi Informativi Direzionali 7

OLTP

On Line Transaction Processing– Transazioni predefinite e di breve durata– Dati dettagliati, recenti e aggiornati– Dati residenti su un unico DB– Read & write di pochi record– Critiche le proprietà ACIDe– Implementate su Main Frame

Page 8: Master MATITSistemi Informativi Direzionali1 SISTEMI INFORMATIVI DIREZIONALI

Master MATIT Sistemi Informativi Direzionali 8

Sistemi direzionali

– Decisioni di tipo “tattico” e “strategico”– Es.

• Quanti prodotti sono stati venduti nello scorso anno per regione e categoria?

• Uno sconto tra il 10 ed il 20% potrebbe aumentare le vendite di auto nel prossimo bimestre?

– Su quali dati? Su quelli accumulati da OLTP

Page 9: Master MATITSistemi Informativi Direzionali1 SISTEMI INFORMATIVI DIREZIONALI

Master MATIT Sistemi Informativi Direzionali 9

Metodologia OLAP

L’obiettivo che si pone la metodologia OLAP è quello di fornire un supporto efficiente l’analisi delle informazioni prendendo in considerazione più variabili contemporaneamente (analisi multi dimensionale dei dati).

Page 10: Master MATITSistemi Informativi Direzionali1 SISTEMI INFORMATIVI DIREZIONALI

Master MATIT Sistemi Informativi Direzionali 10

OLAP

On Line Analytical Processing– Interrogazioni complesse e casuali– Dati storici e aggregati– Dati provenienti da più DB eterogenei– Moltissime operazioni di Read (nessuna di

write)– Visualizzazione dei dati su PC

Page 11: Master MATITSistemi Informativi Direzionali1 SISTEMI INFORMATIVI DIREZIONALI

Master MATIT Sistemi Informativi Direzionali 11

Cosa vuol dire OLAP (Codd) “OLAP è il nome dato all’analisi dinamica

dell’impresa necessaria per – creare, manipolare, animare e sintetizzare

informazioni

dai Data Models Aziendali. Questo processo consente di scoprire

– nuove relazioni tra le variabili,– di identificare i parametri necessari alla gestione di

grosse quantità di dati, – di creare un numero illimitato di dimensioni – di specificare condizioni ed espressioni che

coinvolgono, contemporaneamente, più dimensioni.

Page 12: Master MATITSistemi Informativi Direzionali1 SISTEMI INFORMATIVI DIREZIONALI

Master MATIT Sistemi Informativi Direzionali 12

Da tener ben presente ….

I dati usati dai sistemi OLAP sono gli stessi di quelli usati dai sistemi OLTP: – quello che cambia nei due tipi di sistemi è

l’elaborazione compiuta sui dati.

.

Page 13: Master MATITSistemi Informativi Direzionali1 SISTEMI INFORMATIVI DIREZIONALI

Master MATIT Sistemi Informativi Direzionali 13

OLTP vs OLAP

Users: Impiegati Op. giornaliere Op. Correnti Op. Ripetitivo Trans. Breve Decine di record

acceduti per volta Migliaia di utenti 100 MB – 1 GB

Users: dirigenti Supporto Decisioni Dati Storici Oper. Casuali Int. Complesse Milioni di record

acceduti Centinaia di utenti 100 GB – 1 TB

Page 14: Master MATITSistemi Informativi Direzionali1 SISTEMI INFORMATIVI DIREZIONALI

Master MATIT Sistemi Informativi Direzionali 14

Cosa è un data warehouse?

Definizione (Inmon)Un data warehouse è un data base relazionale– Subject Oriented– Integrato– Non volatile– Time Variant

… progettato per “query and analysis” – ---- invece che per l’elaborazione di transazioni.

Page 15: Master MATITSistemi Informativi Direzionali1 SISTEMI INFORMATIVI DIREZIONALI

Master MATIT Sistemi Informativi Direzionali 15

Un DW Contiene dati storici derivati dalle transazioni,

anche se può contenere dati di altra fonte Separa il carico dell’analisi da quello delle

transazioni Contiene, oltre ad un DB relazionale, moduli

di:– ETL (Extraction, Transformation Loading)– OLAP (On Line Analytical Processing)– Client analysis tools– Altre applicazioni per analisi dei dati e produzione

di rapporti a utenti “business”

Page 16: Master MATITSistemi Informativi Direzionali1 SISTEMI INFORMATIVI DIREZIONALI

Master MATIT Sistemi Informativi Direzionali 16

Subject Oriented ….

Subject Oritented– I DW sono progettati

per aiutarti ad analizzare i tuoi dati per i tuoi scopi …

Chi è stato il nostro miglior venditore di aspirapolveri lo scorso anno??– Topic: “miglior

venditore di aspirapolveri”: analisi orientata al soggetto

Page 17: Master MATITSistemi Informativi Direzionali1 SISTEMI INFORMATIVI DIREZIONALI

Master MATIT Sistemi Informativi Direzionali 17

Integrated ….

Risoluzione dei conflitti tra nomi e dei problemi derivanti dal fatto che i dati si trovano espressi in unità di misure differenti.

Nel DB della succursale di Roma il Sig. Rossi ha venduto 1000 aspirapolveri a 900.000 lire mentre nel DB della filiale di NY, Mr Bush ha venduto 900 aspirapolveri a $ 600 … come confronto i dati? Come risolvo i conflitti tra nomi?

Page 18: Master MATITSistemi Informativi Direzionali1 SISTEMI INFORMATIVI DIREZIONALI

Master MATIT Sistemi Informativi Direzionali 18

Non volatile

I dati non variano una volta entrati nel warehouse …

Il warehouse deve analizzare ciò che è accaduto

Il Sig. Rossi ha venduto 1000 aspirapolveri, ed ad oggi è il RecordMan di vendite– Se tra mezz’ora Mr.

Bush ne vende altre 250, questa informazione non deve entrare nel WH

Page 19: Master MATITSistemi Informativi Direzionali1 SISTEMI INFORMATIVI DIREZIONALI

Master MATIT Sistemi Informativi Direzionali 19

Time Variant

La maggior parte delle analisi per i business sono analisi di “trend”. Per questo si ha bisogno di una grande mole di dati storici.

Voglio sapere negli ultimi tre anni l’andamento in borsa della Compagnia su Milano, Londra e Francoforte

Page 20: Master MATITSistemi Informativi Direzionali1 SISTEMI INFORMATIVI DIREZIONALI

Master MATIT Sistemi Informativi Direzionali 20

Considerazioni …..

Non interessa un singolo dato, ma dati aggregati– Somma, media, minimo, massimo

Le operazioni di aggregazione sono fondamentali per popolare e mantenere un Data Warehousing

Le operazioni tipiche di un DW saranno:– Accesso e interrogazione – diurne– Caricamento e Aggiornamento dati – notturne

Su milioni di record

Page 21: Master MATITSistemi Informativi Direzionali1 SISTEMI INFORMATIVI DIREZIONALI

Master MATIT Sistemi Informativi Direzionali 21

Considerazioni …

Esigenza di una base dati separata perché– Esistono diverse sorgenti di dati …– sorgenti che devono essere integrate e

tecnicamente ciò non può essere fatto in linea

– I dati da integrare devono essere aggregati– Metodi di accesso specifici– Degrado delle prestazioni

Page 22: Master MATITSistemi Informativi Direzionali1 SISTEMI INFORMATIVI DIREZIONALI

Master MATIT Sistemi Informativi Direzionali 22

Architettura di un sistema direzionale

analisi

reporting

mining

Sorgenti dei dati

Magazzino dati

DataMarts

utenti

Sistemi di supporto operativo

File piatti

Acquisti

Vendite

Inventario

Area di Staging

Page 23: Master MATITSistemi Informativi Direzionali1 SISTEMI INFORMATIVI DIREZIONALI

Master MATIT Sistemi Informativi Direzionali 23

Rappresentazione dei Dati

Sorgenti informative… i DB preesistenti … dipartimentali ….– Vendita, promozione, marketing

DW: la base dati integrata con soggetti comuni a tutta l’organizzazione

Data Marts – componente del DW – soggetti dipartimentali o settoriali selezionati

Strumenti di analisi, focalizzati su un problema in esame

Page 24: Master MATITSistemi Informativi Direzionali1 SISTEMI INFORMATIVI DIREZIONALI

Master MATIT Sistemi Informativi Direzionali 24

Come viene popolato un DW Attività

– Estrazione dei dati• Dalle sorgenti informative

– Trasformazione• Pulizia dei dati, trasformazione di formato, correlazione

con oggetti in sorgenti diverse

– Caricamento• Con introduzione di informazione temporali e

generazione di dati aggregati

– Refresh• Le stesse fasi eseguite incrementalmente

A supporto di queste attività sono mantenute certe informazioni dette METADATI

Page 25: Master MATITSistemi Informativi Direzionali1 SISTEMI INFORMATIVI DIREZIONALI

Master MATIT Sistemi Informativi Direzionali 25

Tecniche di Analisi dei dati

Un data warehouse viene costruito per fornire un accesso facile a sorgenti contenenti una grossa quantità di dati– Si tratta allora di un mezzo per arrivare ad un fine.– Quale è il fine? Effettuare analisi e prendere

decisioni a partire da quei dati.

Quali sono allora le tecniche di analisi dei dati comunemente usate oggigiorno?

Page 26: Master MATITSistemi Informativi Direzionali1 SISTEMI INFORMATIVI DIREZIONALI

Master MATIT Sistemi Informativi Direzionali 26

Classificazione Tecniche

Query and reporting Analisi multi dimensionale Data mining

DWData Mart

Display, Analizza, Scopri

In funzione dell’uso

Page 27: Master MATITSistemi Informativi Direzionali1 SISTEMI INFORMATIVI DIREZIONALI

Master MATIT Sistemi Informativi Direzionali 27

1) Query And Reporting

E’ il processo di– Porre una interrogazione– Rilevare dati fondamentali dal DW– Trasformare i dati in un contesto

appropriato– Porre i risultati in un formato leggibile

Page 28: Master MATITSistemi Informativi Direzionali1 SISTEMI INFORMATIVI DIREZIONALI

Master MATIT Sistemi Informativi Direzionali 28

Q&R Query Definition

Data Accessand retrieval

Calculationmanipulation

ReportPreparation

ReportDelivery

Quanti aspirapolvereSono stai venduti dall’10-9 al 16-9?E quanti nel nostronegozio di Agnano?

Answer Set

Page 29: Master MATITSistemi Informativi Direzionali1 SISTEMI INFORMATIVI DIREZIONALI

Master MATIT Sistemi Informativi Direzionali 29

2) Analisi Multidimensionale L’analisi dei dati viene eseguita sui dati

estratti dal DW o dal Data Mart e rappresentata in forma multidimensionale.

E’ basata di solito su– Fatti:

• un concetto sul quale centrare l’analisi

– Misura: • Una proprietà atomica di un fatto da analizzare

– Dimensione:• Una prospettiva lungo la quale effettuare l’analisi

Esempio:• Telefonata/Costo, durata/Chiamata, Chiamante, Tempo

Page 30: Master MATITSistemi Informativi Direzionali1 SISTEMI INFORMATIVI DIREZIONALI

Master MATIT Sistemi Informativi Direzionali 30

Un Esempio

Un’azienda si occupa delle vendite di determinati prodotti, per la quale sono rilevanti tre dimensioni: prodotti, tempo e mercati geografici. – Per descrivere questa situazione si può

pensare ad un cubo, sulle cui dimensioni geometriche riportiamo le dimensioni di interesse dell’azienda

Page 31: Master MATITSistemi Informativi Direzionali1 SISTEMI INFORMATIVI DIREZIONALI

Master MATIT Sistemi Informativi Direzionali 31

I punti di vista

il manager di prodotto – è interessato alle vendite di un determinato prodotto in tutti i

mercati e in tutto il periodo di tempo preso in considerazione l’analista finanziario

– è interessato ai risultati di vendita relativi a tutti i prodotti e tutti i mercati in un determinato periodo temporale

il responsabile regionale – ha bisogno di conoscere le vendite nel tempo di tutti i prodotti

disponibili sul mercato di sua competenza l’analista di mercato

– può essere interessato alle vendite di un determinato prodotto, su di un singolo mercato e relative ad un preciso periodo temporale

Page 32: Master MATITSistemi Informativi Direzionali1 SISTEMI INFORMATIVI DIREZIONALI

Master MATIT Sistemi Informativi Direzionali 32

Le prospettive …

Le prime tre prospettive sono ricavabili fissando il valore di una delle tre dimensioni e aggregando i dati lungo le rimanenti due – Ciò corrisponde ad una visualizzazione

bidimensionale, tipo foglio elettronico.

L’ultima prospettiva, quella dell’analista di mercato, si ottiene fissando un intervallo su ognuna delle tre dimensioni – Un cubo

Page 33: Master MATITSistemi Informativi Direzionali1 SISTEMI INFORMATIVI DIREZIONALI

Master MATIT Sistemi Informativi Direzionali 33

Page 34: Master MATITSistemi Informativi Direzionali1 SISTEMI INFORMATIVI DIREZIONALI

Master MATIT Sistemi Informativi Direzionali 34

Approcci all’OLAP L’insieme dei dati da navigare è archiviato su

una struttura dati a matrice dove sono registrate tutte le sintesi statistiche degli incroci multidimensionali possibili– il viewer in questo caso chiede i dati direttamente

al database multidimensionale

insieme dei dati su cui navigare è registrato su una o più tabelle relazionali; – i dati, in questo caso, sono acceduti tramite query– su di essi, vengono effettuate le sintesi

necessarie per la visualizzazione dei risultati.

Page 35: Master MATITSistemi Informativi Direzionali1 SISTEMI INFORMATIVI DIREZIONALI

Master MATIT Sistemi Informativi Direzionali 35

Rappresentazione multidimensionale

Prodotti

Periodi di tempo

Mercati

Quantità

Vendite

Page 36: Master MATITSistemi Informativi Direzionali1 SISTEMI INFORMATIVI DIREZIONALI

Master MATIT Sistemi Informativi Direzionali 36

ROLAP La R sta per relazionale

– ed indica la caratteristica peculiare di estrazione dati da una strutture dati di tipo relazionale (una o più tabelle in formato riga-colonna).

vantaggio – dati acceduti sono sempre gli ultimi disponibili.

• Esiste una classe di strumenti che è in grado di recuperare i dati dalle tabelle e sintetizzarli.

svantaggio – risiede, invece, nel fatto che una volta usciti dal

viewer i dati di sintesi si perdono e quindi per riaccedervi è necessario rieseguire le estrazioni e le sommarizzazioni.

Page 37: Master MATITSistemi Informativi Direzionali1 SISTEMI INFORMATIVI DIREZIONALI

Master MATIT Sistemi Informativi Direzionali 37

MOLAP

indica l’esistenza di una struttura per dati multi dimensionali. – il viewer chiede i dati direttamente a questa

struttura, la quale li ha già memorizzati secondo le dimensioni,

Vantaggio– in questo caso sono i tempi di risposta.

svantaggio – il Multidimensional Data Base deve essere allineato

all’aggiornamento dei dati di base dal quale viene generato.

Page 38: Master MATITSistemi Informativi Direzionali1 SISTEMI INFORMATIVI DIREZIONALI

Master MATIT Sistemi Informativi Direzionali 38

Una nota sul MOLAP

Il Gartner Group, sostenitore dell’approccio MOLAP, ha affermato in una Research Note che i database multidimensionali permettono di concentrarsi sulla business view, – ovvero sugli aspetti più propriamente aziendali

…. mentre i tradizionali database relazionali richiedono la cosiddetta system view,– impedendo, di fatto, un’interazione diretta dei

responsabili aziendali poco pratici in materia

Page 39: Master MATITSistemi Informativi Direzionali1 SISTEMI INFORMATIVI DIREZIONALI

Master MATIT Sistemi Informativi Direzionali 39

La soluzione MOLAP Ha come perno il concetto di array multidimensionale,

– tecnica per la riorganizzazione e la memorizzazione di dati aggregati, in modo che possano essere analizzati da più prospettive.

Un array multidimensionale è costituito da un insieme di celle di dati, – ciascuna delle quali contiene il valore assunto da una

specifica misura, trovato in base alla formula di calcolo e alle dimensioni che determinano il processo di aggregazione.

In tale struttura, ciascuna dimensione funge da indice per l’individuazione di un insieme di celle di dati, eventualmente composto da un singolo elemento

Page 40: Master MATITSistemi Informativi Direzionali1 SISTEMI INFORMATIVI DIREZIONALI

Master MATIT Sistemi Informativi Direzionali 40

Un esempio di MOLAP 2D

  1° TRIM. 2° TRIM. 3° TRIM. 4° TRIM.

PROD. A 100 110 96 94

PROD. B 200 203 174 88

PROD. C 45 49 35 56

PROD. D 78 88 69 71

Page 41: Master MATITSistemi Informativi Direzionali1 SISTEMI INFORMATIVI DIREZIONALI

Master MATIT Sistemi Informativi Direzionali 41

Ovvero ….

L' esempio riportato in tabella corrisponde essenzialmente alla gestione dei dati caratteristica dei fogli elettronici.

Nell’esempio le dimensioni considerate sono la dimensione prodotto e la dimensione tempo, la misura riguarda le vendite dei prodotti e la formula di aggregazione consiste nel calcolo del numero totale di unità vendute.

Page 42: Master MATITSistemi Informativi Direzionali1 SISTEMI INFORMATIVI DIREZIONALI

Master MATIT Sistemi Informativi Direzionali 42

Individuazione degli elementi

fissando uno specifico prodotto ed uno specifico trimestre– si individua la cella che riporta il numero totale di unità

vendute di quel prodotto in quel periodo.

fissando, un valore su una sola delle due dimensioni– si ha accesso a tutti i dati relativi al valore fissato lungo tutta

la dimensione su cui non è stato specificato un attributo.

volendo determinare il numero totale di unità vendute del prodotto A in tutto l’anno– è sufficiente accedere all’array fissando l’attributo PROD. A

e sommando i valori presenti su tutta la riga selezionata.

Page 43: Master MATITSistemi Informativi Direzionali1 SISTEMI INFORMATIVI DIREZIONALI

Master MATIT Sistemi Informativi Direzionali 43

Operazioni sui dati Multidimensionali Roll Up

– Aggregazione dei dati• Es. volume di vendita totale dello scorso anno per categoria e

regione

Drill down– Disaggregazione dei dati

• Es. mostra le vendite giornaliere e dettagliate di ciascun negozio per una certa categoria di prodotti

Slice & Dice– Proiezione su un piano

• Solitamente bidimensionale

Pivot– Riorientamento del cubo

Page 44: Master MATITSistemi Informativi Direzionali1 SISTEMI INFORMATIVI DIREZIONALI

Master MATIT Sistemi Informativi Direzionali 44

Ovvero ….vendite

Europa Asia Nord America

Regione Regione

Città Città Città

Impiegato Impiegato

Drill Down

Roll Up

Page 45: Master MATITSistemi Informativi Direzionali1 SISTEMI INFORMATIVI DIREZIONALI

Master MATIT Sistemi Informativi Direzionali 45

Dimensional Fact Model (DFM)

E’ un modello concettuale grafico per DW.– La rappresentazione generata dal DFM è detta

Dimensional Scheme (DS) e consiste in un insieme di Fact Scheme (FS).

– Il DFM è indipendente dal modello logico target (multidimensionale o relazionale).

– FS compatibili possono essere sovrapposti permettere in relazione e comparare dati.

– I FS possono essere integrati con informazioni sulcarico di lavoro, da usarsi come input per il

progetto logico.

Page 46: Master MATITSistemi Informativi Direzionali1 SISTEMI INFORMATIVI DIREZIONALI

Master MATIT Sistemi Informativi Direzionali 46

Fact Scheme

I componenti di base dei FS sono fatti, dimensioni e gerarchie.– Un fatto è un evento di interesse per l’ impresa ed

è descritto da un insieme di misure.– Una dimensione determina la granularità di

rappresentazione dei fatti.– Una gerarchia determina come le istanze di fatto

possono essere aggregate e selezionate in modo significativo per il processo decisionale.

Page 47: Master MATITSistemi Informativi Direzionali1 SISTEMI INFORMATIVI DIREZIONALI

Master MATIT Sistemi Informativi Direzionali 47

Fatti : associazioni molti a molti

Page 48: Master MATITSistemi Informativi Direzionali1 SISTEMI INFORMATIVI DIREZIONALI

Master MATIT Sistemi Informativi Direzionali 48

Il Dimensional Fact Model

Le misure sono attributi a valori continui tipicamente numerici che descrivono il fatto da diversi punti di vista. – Ad esempio, ogni vendita è misurata dal suo incasso.

Le dimensioni sono attributi discreti che definiscono la la granularità minima di rappresentazione dei fatti– dimensioni tipiche per il fatto vendite sono prodotto, negozio, data.

Le gerarchie (una per ciascuna dimensione) sono costituite da attributi discreti collegati da associazioni -to-one. – La gerarchia sulla dimensione prodotto include ad esempio gli

attributi tipo di prodotto, categoria, dipartimento, ecc. Alcuni attributi, rappresentati da una linea, sono detti attributi

non dimensionali e non possono essere utilizzati per aggregare i dati.

Page 49: Master MATITSistemi Informativi Direzionali1 SISTEMI INFORMATIVI DIREZIONALI

Master MATIT Sistemi Informativi Direzionali 49

Modellazione dei dati: Star Schema

individuazione delle variabili oggetto dell’analisi corrente

per ciascuna di queste variabili devono essere definite le misure e, per ciascuna misura, le dimensioni ad essa associata che, ricordiamo, determinano il tipo e il livello del processo di aggregazione.

scelta degli attributi di ciascuna dimensione che devono essere memorizzati nella tabella associata. – Questa scelta determina il livello di dettaglio con cui viene

descritta la misura e la gerarchia di aggregazione nella dimensione.

Page 50: Master MATITSistemi Informativi Direzionali1 SISTEMI INFORMATIVI DIREZIONALI

Master MATIT Sistemi Informativi Direzionali 50

Modello logico Relazionale

Lo star schema prevede una tabella centrale, detta Fact Table, che determina l’oggetto dello studio e più tabelle di appoggio, denominate Dimensional Table, che rappresentano le dimensioni utilizzate per l’analisi.– La chiave della FT è composta dalle chiavi delle varie DT.

– Le sottoparti della chiave della FT sono chiavi importate delle DT.

– Esiste una relazione di tipo 1-a-n tra le Dimension Table e la Fact Table

L’accesso ai dati avviene tramite join tra le Dimension Table e la Fact Table

Page 51: Master MATITSistemi Informativi Direzionali1 SISTEMI INFORMATIVI DIREZIONALI

Master MATIT Sistemi Informativi Direzionali 51

Esempio

Page 52: Master MATITSistemi Informativi Direzionali1 SISTEMI INFORMATIVI DIREZIONALI

Master MATIT Sistemi Informativi Direzionali 52

Esempio di Query

Page 53: Master MATITSistemi Informativi Direzionali1 SISTEMI INFORMATIVI DIREZIONALI

Master MATIT Sistemi Informativi Direzionali 53

Star Schema: osservazioni Le Dimension Table sono completamente

denormalizzate.– Si riduce il numero di join necessari– Ma …

• Aumenta la dimensione delle tabelle• La Fact Table contiene tuple relative a diversi livelli di

aggregazione

L’elevata dimensione della Fact Table incide sui tempi di accesso– Non si hanno problemi di sparsità in quanto vengono

memorizzati soltanto le tuple corrispondenti a punti dello spazio multi-dimensionale per cui esistono le informazioni

Page 54: Master MATITSistemi Informativi Direzionali1 SISTEMI INFORMATIVI DIREZIONALI

Master MATIT Sistemi Informativi Direzionali 54

DENORMALIZZAZIONE Nei casi pratici il numero di

– variabili da controllare– delle misure per ciascuna variabile – delle dimensioni associate a ciascuna misura

sono molto più elevati – …. ciò comporta una proliferazione notevole del numero

delle tabelle• sia di quelle associate alle dimensioni, sia di quelle associate

alle misure.

Poiché i dati aggregati memorizzati nelle tabelle delle misure non sono soggetti a ripetizione, tali tabelle sono normalizzate– laddove quelle delle dimensioni sono normalmente

denormalizzate, dovendo memorizzare tutti gli attributi di ogni livello di aggregazione implementato.

Page 55: Master MATITSistemi Informativi Direzionali1 SISTEMI INFORMATIVI DIREZIONALI

Master MATIT Sistemi Informativi Direzionali 55

LO SCHEMA A FIOCCO DI NEVE(snowflake)

La variante nota con il termine schema a fiocco di neve consiste nella suddivisione delle tabelle delle dimensioni a livello degli attributi di aggregazione

Si ottiene normalizzando una o più dimensioni dello star schema– il che consente di avere un numero di tabelle

maggiori ma di piccole dimensioni e normalizzate– con conseguente semplicità di gestione in fase di

popolazione ed aggiornamento delle tabelle

Page 56: Master MATITSistemi Informativi Direzionali1 SISTEMI INFORMATIVI DIREZIONALI

Master MATIT Sistemi Informativi Direzionali 56

Lo snowflake schema

Si riduce la dimensione e la cardinalità delle Dimension Table– Ogni Fact Table conterrà solo informazioni

a particolari livelli di aggregazione– È necessario un modulo del DBMS

(Aggregation Navigator) che, per ogni query, decida a quale fact table accedere

Page 57: Master MATITSistemi Informativi Direzionali1 SISTEMI INFORMATIVI DIREZIONALI

Master MATIT Sistemi Informativi Direzionali 57

esempio

Page 58: Master MATITSistemi Informativi Direzionali1 SISTEMI INFORMATIVI DIREZIONALI

Master MATIT Sistemi Informativi Direzionali 58

Come fare le interrogazioni?

In linea di principio, la popolazione di uno star schema può essere effettuata ricorrendo al linguaggio SQL standard:– questa soluzione, però, è estremamente complicata e

dispendiosa in termini di tempo, in quanto, per ciascuna misura, bisogna considerare alternativamente ogni dimensione e applicare esplicitamente la formula di aggregazione desiderata (conteggio, somma, media, etc.).

Per tale motivo, le applicazioni ROLAP utilizzano tecniche proprietarie per la popolazione e l’aggiornamento degli star schema, tecniche che si basano su opportune estensioni del linguaggio SQL.

Page 59: Master MATITSistemi Informativi Direzionali1 SISTEMI INFORMATIVI DIREZIONALI

Master MATIT Sistemi Informativi Direzionali 59

3) DATA MINING

Discovery Technique – E’ una tecnica di analisi dei dati

relativamente nuova– Non effettua query ma usa algoritmi

specifici che analizzano i dati e riportano quanto scoperto

• Trova relazioni tra certi dati, attraverso tecniche di clusterizzazione

Page 60: Master MATITSistemi Informativi Direzionali1 SISTEMI INFORMATIVI DIREZIONALI

Master MATIT Sistemi Informativi Direzionali 60

Cosa è il DM

 Col termine data mining si indicano una serie di tecniche atte ad individuare delle relazioni tra dati non esplicitamente rappresentate ed inattese. – Il processo di analisi comincia acquisendo

conoscenza a partire da un certo campione di dati via via più ampio assumendo che le caratteristiche di un ampio set di dati sono simili a quelle di un campione limitato

Page 61: Master MATITSistemi Informativi Direzionali1 SISTEMI INFORMATIVI DIREZIONALI

Master MATIT Sistemi Informativi Direzionali 61

PREDICTIVE MODELING

questa tecnica cerca di ripercorrere i processi di apprendimento umani costruendo un modello che descriva le più importanti caratteristiche di un certo fenomeno. – Il modello viene costruito in due fasi:

• Training set: costruisce il modello a partire da un grosso campione di dati storici;

• Testing set: verifica il modello cercando di predire i dati non visti precedentemente;

Page 62: Master MATITSistemi Informativi Direzionali1 SISTEMI INFORMATIVI DIREZIONALI

Master MATIT Sistemi Informativi Direzionali 62

Le tecniche di PM

Classificazione– mediante alberi decisionali e reti neurali possono

essere individuati record di particolari aggregati comportamentali

Value prediction– mediante modelli di regressione statistici lineari o

non, viene effettuata la previsione futura per un certo aggregato di dati.

• La tecnica è simile alla tecnica di interpolazione utilizzata in analisi numerica ed è relativamente semplice da utilizzare

Page 63: Master MATITSistemi Informativi Direzionali1 SISTEMI INFORMATIVI DIREZIONALI

Master MATIT Sistemi Informativi Direzionali 63

DATABASE SEGMENTATION

Lo scopo è partizionare il database in cluster di record omogenei (aventi cioè proprietà comuni) al fine di individuare dei profili di sub-popolazioni di dati presenti nel database. – Fanno largo uso di queste tecniche quelle

applicazione orientate a definire profili di utenza, marketing etc.

Page 64: Master MATITSistemi Informativi Direzionali1 SISTEMI INFORMATIVI DIREZIONALI

Master MATIT Sistemi Informativi Direzionali 64

DEVIATION DETECTION

Tendono ad individuare entità che si discostano dalle previsioni effettuate mediante modelli statistici. – Queste tecniche possono fare uso di

strumenti di visualizzazione grafica che possono riportare gli aggregati del modello ed i loro complementi

Page 65: Master MATITSistemi Informativi Direzionali1 SISTEMI INFORMATIVI DIREZIONALI

Master MATIT Sistemi Informativi Direzionali 65

Analisi dei dati

Guidata dall’

Analista

Assistita dall’ Analista

DataDriven

Query and reporting Analisi Multidimensionale

DataMining

Page 66: Master MATITSistemi Informativi Direzionali1 SISTEMI INFORMATIVI DIREZIONALI

Master MATIT Sistemi Informativi Direzionali 66

L’importanza del modeling

Il tipo di analisi fatto per un DW può determinarne– Il tipo– Il contenuto

• Summarization, Metadati espliciti: Q&R, MOLAP

• Drilling Down, Rolling UP: MOLAP• Basso livello di dettaglio: Data Mining

Page 67: Master MATITSistemi Informativi Direzionali1 SISTEMI INFORMATIVI DIREZIONALI

Master MATIT Sistemi Informativi Direzionali 67

Architetture di DW e Scelte implementative

Cosa è un Data Mart– Un DW più piccolo che funziona

indipendentemente o può essere interconnesa per formare un warehouse integrato

• “Un data mart è un sottoinsieme di un DW che assiste un particolare dipartimento o una particolare funzione direzionale”.

• memorizza un sottoinsieme dei dati del DW normalmente in forma molto aggregata utile ad un particolare dipartimento direzionale

Page 68: Master MATITSistemi Informativi Direzionali1 SISTEMI INFORMATIVI DIREZIONALI

Master MATIT Sistemi Informativi Direzionali 68

Data Mart: ArchitetturaMonitoraggio & Amministrazione

MetadatiData

Warehouse

Data MartSorgenti dei dati

SorgentiSorgentiesterneesterne

Basi di datiBasi di datioperazionalioperazionali

Strumenti di analisi

AnalisiAnalisidimensionaledimensionale

Data miningData mining

VisualizzazioneVisualizzazione

Page 69: Master MATITSistemi Informativi Direzionali1 SISTEMI INFORMATIVI DIREZIONALI

Master MATIT Sistemi Informativi Direzionali 69

Data Mart vs Data Warehouse

Un data mart contiene meno informazioni e quindi è più facile navigare in essi

Un data mart non contiene dati operativi Un data mart si focalizza solo sui

requisiti di un particolare dipartimento

Page 70: Master MATITSistemi Informativi Direzionali1 SISTEMI INFORMATIVI DIREZIONALI

Master MATIT Sistemi Informativi Direzionali 70

Perché un Data Mart Essi permettono agli utenti un accesso rapido

alle informazioni usate da loro più frequentemente – migliorando i tempi di risposta del sistema

(essendo diminuito il volume dei dati da visitare). Forniscono strutture dati appropriate ad

esigenze specifiche agevolando le tecniche di data mining.

Il costo per la creazione e la gestione di un data mart è normalmente più basso di quello di un DW

Page 71: Master MATITSistemi Informativi Direzionali1 SISTEMI INFORMATIVI DIREZIONALI

Master MATIT Sistemi Informativi Direzionali 71

Data Mart: caratteristiche

Scalabilità; Dimensioni:

– devono garantire tempi di risposta più brevi rispetto ad un DW

• Rapporto tra la loro crescita e le loro performance;

Le Viste logiche di diversi data mart fisici hanno il nome di virtual data marts;

Le tecnologie di networking sono intimamente legate ai data marts– Al crescere del numero di data marts cresce l’esigenza di

avere un management centralizzato degli stessi al fine di coordinarne l’attività e mantenerne la consistenza