master matitsistemi informativi direzionali1 sistemi informativi direzionali
TRANSCRIPT
Master MATIT Sistemi Informativi Direzionali 1
SISTEMI INFORMATIVI SISTEMI INFORMATIVI DIREZIONALIDIREZIONALI
Master MATIT Sistemi Informativi Direzionali 2
I Livelli di un SI Aziendale livello direzionale – vengono svolte tutte quelle attività necessarie alla definizione degli obiettivi da raggiungere ed alle azioni, eventualmente
correttive, da intraprendere per perseguirli.
livello operativo – si occuperà delle attività attraverso cui l’azienda produce i propri servizi e prodotti.
il livello direzionale è supportato dai cosiddetti sistemi informativi direzionali.
Master MATIT Sistemi Informativi Direzionali 3
Schema di un sistema direzionale
Motori di calcolo (DSS)
Motori di presentazione Q&R (EIS)
Data Entry (budget, dati direzionali)
Alimentazione
Data Warehouse
DB TRANSAZIONALI
OLAPOLAP
OLTPOLTP
Master MATIT Sistemi Informativi Direzionali 4
Caratteristiche di un SID
i sistemi informativi direzionali hanno la caratteristica di essere alimentati da altri sistemi quali ad esempio i sistemi informativi aziendali oppure mediante informazioni introdotte manualmente dagli utenti finali.
Master MATIT Sistemi Informativi Direzionali 5
Le informazioni trattate informazioni fortemente aggregate.
– I SID devono fornire ai dirigenti aziendali dati sintetici (indicatori gestionali) • medie, ricavi globali,
– in certi intervalli temporali • tempificate.
– in diverse dimensioni. • Il tempo• la dimensione prodotto • dimensione processi • dimensione responsabilità• cliente, al fine di analizzare redditività, volume di affari e bacino
di utenza.
Master MATIT Sistemi Informativi Direzionali 6
Un nuovo ruolo
Il nuovo ruolo dell'Information Technology (IT) aziendale è quello di fornire al top management informazioni rapide ed efficaci sulle quali basare le decisioni strategiche
Master MATIT Sistemi Informativi Direzionali 7
OLTP
On Line Transaction Processing– Transazioni predefinite e di breve durata– Dati dettagliati, recenti e aggiornati– Dati residenti su un unico DB– Read & write di pochi record– Critiche le proprietà ACIDe– Implementate su Main Frame
Master MATIT Sistemi Informativi Direzionali 8
Sistemi direzionali
– Decisioni di tipo “tattico” e “strategico”– Es.
• Quanti prodotti sono stati venduti nello scorso anno per regione e categoria?
• Uno sconto tra il 10 ed il 20% potrebbe aumentare le vendite di auto nel prossimo bimestre?
– Su quali dati? Su quelli accumulati da OLTP
Master MATIT Sistemi Informativi Direzionali 9
Metodologia OLAP
L’obiettivo che si pone la metodologia OLAP è quello di fornire un supporto efficiente l’analisi delle informazioni prendendo in considerazione più variabili contemporaneamente (analisi multi dimensionale dei dati).
Master MATIT Sistemi Informativi Direzionali 10
OLAP
On Line Analytical Processing– Interrogazioni complesse e casuali– Dati storici e aggregati– Dati provenienti da più DB eterogenei– Moltissime operazioni di Read (nessuna di
write)– Visualizzazione dei dati su PC
Master MATIT Sistemi Informativi Direzionali 11
Cosa vuol dire OLAP (Codd) “OLAP è il nome dato all’analisi dinamica
dell’impresa necessaria per – creare, manipolare, animare e sintetizzare
informazioni
dai Data Models Aziendali. Questo processo consente di scoprire
– nuove relazioni tra le variabili,– di identificare i parametri necessari alla gestione di
grosse quantità di dati, – di creare un numero illimitato di dimensioni – di specificare condizioni ed espressioni che
coinvolgono, contemporaneamente, più dimensioni.
Master MATIT Sistemi Informativi Direzionali 12
Da tener ben presente ….
I dati usati dai sistemi OLAP sono gli stessi di quelli usati dai sistemi OLTP: – quello che cambia nei due tipi di sistemi è
l’elaborazione compiuta sui dati.
.
Master MATIT Sistemi Informativi Direzionali 13
OLTP vs OLAP
Users: Impiegati Op. giornaliere Op. Correnti Op. Ripetitivo Trans. Breve Decine di record
acceduti per volta Migliaia di utenti 100 MB – 1 GB
Users: dirigenti Supporto Decisioni Dati Storici Oper. Casuali Int. Complesse Milioni di record
acceduti Centinaia di utenti 100 GB – 1 TB
Master MATIT Sistemi Informativi Direzionali 14
Cosa è un data warehouse?
Definizione (Inmon)Un data warehouse è un data base relazionale– Subject Oriented– Integrato– Non volatile– Time Variant
… progettato per “query and analysis” – ---- invece che per l’elaborazione di transazioni.
Master MATIT Sistemi Informativi Direzionali 15
Un DW Contiene dati storici derivati dalle transazioni,
anche se può contenere dati di altra fonte Separa il carico dell’analisi da quello delle
transazioni Contiene, oltre ad un DB relazionale, moduli
di:– ETL (Extraction, Transformation Loading)– OLAP (On Line Analytical Processing)– Client analysis tools– Altre applicazioni per analisi dei dati e produzione
di rapporti a utenti “business”
Master MATIT Sistemi Informativi Direzionali 16
Subject Oriented ….
Subject Oritented– I DW sono progettati
per aiutarti ad analizzare i tuoi dati per i tuoi scopi …
Chi è stato il nostro miglior venditore di aspirapolveri lo scorso anno??– Topic: “miglior
venditore di aspirapolveri”: analisi orientata al soggetto
Master MATIT Sistemi Informativi Direzionali 17
Integrated ….
Risoluzione dei conflitti tra nomi e dei problemi derivanti dal fatto che i dati si trovano espressi in unità di misure differenti.
Nel DB della succursale di Roma il Sig. Rossi ha venduto 1000 aspirapolveri a 900.000 lire mentre nel DB della filiale di NY, Mr Bush ha venduto 900 aspirapolveri a $ 600 … come confronto i dati? Come risolvo i conflitti tra nomi?
Master MATIT Sistemi Informativi Direzionali 18
Non volatile
I dati non variano una volta entrati nel warehouse …
Il warehouse deve analizzare ciò che è accaduto
Il Sig. Rossi ha venduto 1000 aspirapolveri, ed ad oggi è il RecordMan di vendite– Se tra mezz’ora Mr.
Bush ne vende altre 250, questa informazione non deve entrare nel WH
Master MATIT Sistemi Informativi Direzionali 19
Time Variant
La maggior parte delle analisi per i business sono analisi di “trend”. Per questo si ha bisogno di una grande mole di dati storici.
Voglio sapere negli ultimi tre anni l’andamento in borsa della Compagnia su Milano, Londra e Francoforte
Master MATIT Sistemi Informativi Direzionali 20
Considerazioni …..
Non interessa un singolo dato, ma dati aggregati– Somma, media, minimo, massimo
Le operazioni di aggregazione sono fondamentali per popolare e mantenere un Data Warehousing
Le operazioni tipiche di un DW saranno:– Accesso e interrogazione – diurne– Caricamento e Aggiornamento dati – notturne
Su milioni di record
Master MATIT Sistemi Informativi Direzionali 21
Considerazioni …
Esigenza di una base dati separata perché– Esistono diverse sorgenti di dati …– sorgenti che devono essere integrate e
tecnicamente ciò non può essere fatto in linea
– I dati da integrare devono essere aggregati– Metodi di accesso specifici– Degrado delle prestazioni
Master MATIT Sistemi Informativi Direzionali 22
Architettura di un sistema direzionale
analisi
reporting
mining
Sorgenti dei dati
Magazzino dati
DataMarts
utenti
Sistemi di supporto operativo
File piatti
Acquisti
Vendite
Inventario
Area di Staging
Master MATIT Sistemi Informativi Direzionali 23
Rappresentazione dei Dati
Sorgenti informative… i DB preesistenti … dipartimentali ….– Vendita, promozione, marketing
DW: la base dati integrata con soggetti comuni a tutta l’organizzazione
Data Marts – componente del DW – soggetti dipartimentali o settoriali selezionati
Strumenti di analisi, focalizzati su un problema in esame
Master MATIT Sistemi Informativi Direzionali 24
Come viene popolato un DW Attività
– Estrazione dei dati• Dalle sorgenti informative
– Trasformazione• Pulizia dei dati, trasformazione di formato, correlazione
con oggetti in sorgenti diverse
– Caricamento• Con introduzione di informazione temporali e
generazione di dati aggregati
– Refresh• Le stesse fasi eseguite incrementalmente
A supporto di queste attività sono mantenute certe informazioni dette METADATI
Master MATIT Sistemi Informativi Direzionali 25
Tecniche di Analisi dei dati
Un data warehouse viene costruito per fornire un accesso facile a sorgenti contenenti una grossa quantità di dati– Si tratta allora di un mezzo per arrivare ad un fine.– Quale è il fine? Effettuare analisi e prendere
decisioni a partire da quei dati.
Quali sono allora le tecniche di analisi dei dati comunemente usate oggigiorno?
Master MATIT Sistemi Informativi Direzionali 26
Classificazione Tecniche
Query and reporting Analisi multi dimensionale Data mining
DWData Mart
Display, Analizza, Scopri
In funzione dell’uso
Master MATIT Sistemi Informativi Direzionali 27
1) Query And Reporting
E’ il processo di– Porre una interrogazione– Rilevare dati fondamentali dal DW– Trasformare i dati in un contesto
appropriato– Porre i risultati in un formato leggibile
Master MATIT Sistemi Informativi Direzionali 28
Q&R Query Definition
Data Accessand retrieval
Calculationmanipulation
ReportPreparation
ReportDelivery
Quanti aspirapolvereSono stai venduti dall’10-9 al 16-9?E quanti nel nostronegozio di Agnano?
Answer Set
Master MATIT Sistemi Informativi Direzionali 29
2) Analisi Multidimensionale L’analisi dei dati viene eseguita sui dati
estratti dal DW o dal Data Mart e rappresentata in forma multidimensionale.
E’ basata di solito su– Fatti:
• un concetto sul quale centrare l’analisi
– Misura: • Una proprietà atomica di un fatto da analizzare
– Dimensione:• Una prospettiva lungo la quale effettuare l’analisi
Esempio:• Telefonata/Costo, durata/Chiamata, Chiamante, Tempo
Master MATIT Sistemi Informativi Direzionali 30
Un Esempio
Un’azienda si occupa delle vendite di determinati prodotti, per la quale sono rilevanti tre dimensioni: prodotti, tempo e mercati geografici. – Per descrivere questa situazione si può
pensare ad un cubo, sulle cui dimensioni geometriche riportiamo le dimensioni di interesse dell’azienda
Master MATIT Sistemi Informativi Direzionali 31
I punti di vista
il manager di prodotto – è interessato alle vendite di un determinato prodotto in tutti i
mercati e in tutto il periodo di tempo preso in considerazione l’analista finanziario
– è interessato ai risultati di vendita relativi a tutti i prodotti e tutti i mercati in un determinato periodo temporale
il responsabile regionale – ha bisogno di conoscere le vendite nel tempo di tutti i prodotti
disponibili sul mercato di sua competenza l’analista di mercato
– può essere interessato alle vendite di un determinato prodotto, su di un singolo mercato e relative ad un preciso periodo temporale
Master MATIT Sistemi Informativi Direzionali 32
Le prospettive …
Le prime tre prospettive sono ricavabili fissando il valore di una delle tre dimensioni e aggregando i dati lungo le rimanenti due – Ciò corrisponde ad una visualizzazione
bidimensionale, tipo foglio elettronico.
L’ultima prospettiva, quella dell’analista di mercato, si ottiene fissando un intervallo su ognuna delle tre dimensioni – Un cubo
Master MATIT Sistemi Informativi Direzionali 33
Master MATIT Sistemi Informativi Direzionali 34
Approcci all’OLAP L’insieme dei dati da navigare è archiviato su
una struttura dati a matrice dove sono registrate tutte le sintesi statistiche degli incroci multidimensionali possibili– il viewer in questo caso chiede i dati direttamente
al database multidimensionale
insieme dei dati su cui navigare è registrato su una o più tabelle relazionali; – i dati, in questo caso, sono acceduti tramite query– su di essi, vengono effettuate le sintesi
necessarie per la visualizzazione dei risultati.
Master MATIT Sistemi Informativi Direzionali 35
Rappresentazione multidimensionale
Prodotti
Periodi di tempo
Mercati
Quantità
Vendite
Master MATIT Sistemi Informativi Direzionali 36
ROLAP La R sta per relazionale
– ed indica la caratteristica peculiare di estrazione dati da una strutture dati di tipo relazionale (una o più tabelle in formato riga-colonna).
vantaggio – dati acceduti sono sempre gli ultimi disponibili.
• Esiste una classe di strumenti che è in grado di recuperare i dati dalle tabelle e sintetizzarli.
svantaggio – risiede, invece, nel fatto che una volta usciti dal
viewer i dati di sintesi si perdono e quindi per riaccedervi è necessario rieseguire le estrazioni e le sommarizzazioni.
Master MATIT Sistemi Informativi Direzionali 37
MOLAP
indica l’esistenza di una struttura per dati multi dimensionali. – il viewer chiede i dati direttamente a questa
struttura, la quale li ha già memorizzati secondo le dimensioni,
Vantaggio– in questo caso sono i tempi di risposta.
svantaggio – il Multidimensional Data Base deve essere allineato
all’aggiornamento dei dati di base dal quale viene generato.
Master MATIT Sistemi Informativi Direzionali 38
Una nota sul MOLAP
Il Gartner Group, sostenitore dell’approccio MOLAP, ha affermato in una Research Note che i database multidimensionali permettono di concentrarsi sulla business view, – ovvero sugli aspetti più propriamente aziendali
…. mentre i tradizionali database relazionali richiedono la cosiddetta system view,– impedendo, di fatto, un’interazione diretta dei
responsabili aziendali poco pratici in materia
Master MATIT Sistemi Informativi Direzionali 39
La soluzione MOLAP Ha come perno il concetto di array multidimensionale,
– tecnica per la riorganizzazione e la memorizzazione di dati aggregati, in modo che possano essere analizzati da più prospettive.
Un array multidimensionale è costituito da un insieme di celle di dati, – ciascuna delle quali contiene il valore assunto da una
specifica misura, trovato in base alla formula di calcolo e alle dimensioni che determinano il processo di aggregazione.
In tale struttura, ciascuna dimensione funge da indice per l’individuazione di un insieme di celle di dati, eventualmente composto da un singolo elemento
Master MATIT Sistemi Informativi Direzionali 40
Un esempio di MOLAP 2D
1° TRIM. 2° TRIM. 3° TRIM. 4° TRIM.
PROD. A 100 110 96 94
PROD. B 200 203 174 88
PROD. C 45 49 35 56
PROD. D 78 88 69 71
Master MATIT Sistemi Informativi Direzionali 41
Ovvero ….
L' esempio riportato in tabella corrisponde essenzialmente alla gestione dei dati caratteristica dei fogli elettronici.
Nell’esempio le dimensioni considerate sono la dimensione prodotto e la dimensione tempo, la misura riguarda le vendite dei prodotti e la formula di aggregazione consiste nel calcolo del numero totale di unità vendute.
Master MATIT Sistemi Informativi Direzionali 42
Individuazione degli elementi
fissando uno specifico prodotto ed uno specifico trimestre– si individua la cella che riporta il numero totale di unità
vendute di quel prodotto in quel periodo.
fissando, un valore su una sola delle due dimensioni– si ha accesso a tutti i dati relativi al valore fissato lungo tutta
la dimensione su cui non è stato specificato un attributo.
volendo determinare il numero totale di unità vendute del prodotto A in tutto l’anno– è sufficiente accedere all’array fissando l’attributo PROD. A
e sommando i valori presenti su tutta la riga selezionata.
Master MATIT Sistemi Informativi Direzionali 43
Operazioni sui dati Multidimensionali Roll Up
– Aggregazione dei dati• Es. volume di vendita totale dello scorso anno per categoria e
regione
Drill down– Disaggregazione dei dati
• Es. mostra le vendite giornaliere e dettagliate di ciascun negozio per una certa categoria di prodotti
Slice & Dice– Proiezione su un piano
• Solitamente bidimensionale
Pivot– Riorientamento del cubo
Master MATIT Sistemi Informativi Direzionali 44
Ovvero ….vendite
Europa Asia Nord America
Regione Regione
Città Città Città
Impiegato Impiegato
Drill Down
Roll Up
Master MATIT Sistemi Informativi Direzionali 45
Dimensional Fact Model (DFM)
E’ un modello concettuale grafico per DW.– La rappresentazione generata dal DFM è detta
Dimensional Scheme (DS) e consiste in un insieme di Fact Scheme (FS).
– Il DFM è indipendente dal modello logico target (multidimensionale o relazionale).
– FS compatibili possono essere sovrapposti permettere in relazione e comparare dati.
– I FS possono essere integrati con informazioni sulcarico di lavoro, da usarsi come input per il
progetto logico.
Master MATIT Sistemi Informativi Direzionali 46
Fact Scheme
I componenti di base dei FS sono fatti, dimensioni e gerarchie.– Un fatto è un evento di interesse per l’ impresa ed
è descritto da un insieme di misure.– Una dimensione determina la granularità di
rappresentazione dei fatti.– Una gerarchia determina come le istanze di fatto
possono essere aggregate e selezionate in modo significativo per il processo decisionale.
Master MATIT Sistemi Informativi Direzionali 47
Fatti : associazioni molti a molti
Master MATIT Sistemi Informativi Direzionali 48
Il Dimensional Fact Model
Le misure sono attributi a valori continui tipicamente numerici che descrivono il fatto da diversi punti di vista. – Ad esempio, ogni vendita è misurata dal suo incasso.
Le dimensioni sono attributi discreti che definiscono la la granularità minima di rappresentazione dei fatti– dimensioni tipiche per il fatto vendite sono prodotto, negozio, data.
Le gerarchie (una per ciascuna dimensione) sono costituite da attributi discreti collegati da associazioni -to-one. – La gerarchia sulla dimensione prodotto include ad esempio gli
attributi tipo di prodotto, categoria, dipartimento, ecc. Alcuni attributi, rappresentati da una linea, sono detti attributi
non dimensionali e non possono essere utilizzati per aggregare i dati.
Master MATIT Sistemi Informativi Direzionali 49
Modellazione dei dati: Star Schema
individuazione delle variabili oggetto dell’analisi corrente
per ciascuna di queste variabili devono essere definite le misure e, per ciascuna misura, le dimensioni ad essa associata che, ricordiamo, determinano il tipo e il livello del processo di aggregazione.
scelta degli attributi di ciascuna dimensione che devono essere memorizzati nella tabella associata. – Questa scelta determina il livello di dettaglio con cui viene
descritta la misura e la gerarchia di aggregazione nella dimensione.
Master MATIT Sistemi Informativi Direzionali 50
Modello logico Relazionale
Lo star schema prevede una tabella centrale, detta Fact Table, che determina l’oggetto dello studio e più tabelle di appoggio, denominate Dimensional Table, che rappresentano le dimensioni utilizzate per l’analisi.– La chiave della FT è composta dalle chiavi delle varie DT.
– Le sottoparti della chiave della FT sono chiavi importate delle DT.
– Esiste una relazione di tipo 1-a-n tra le Dimension Table e la Fact Table
L’accesso ai dati avviene tramite join tra le Dimension Table e la Fact Table
Master MATIT Sistemi Informativi Direzionali 51
Esempio
Master MATIT Sistemi Informativi Direzionali 52
Esempio di Query
Master MATIT Sistemi Informativi Direzionali 53
Star Schema: osservazioni Le Dimension Table sono completamente
denormalizzate.– Si riduce il numero di join necessari– Ma …
• Aumenta la dimensione delle tabelle• La Fact Table contiene tuple relative a diversi livelli di
aggregazione
L’elevata dimensione della Fact Table incide sui tempi di accesso– Non si hanno problemi di sparsità in quanto vengono
memorizzati soltanto le tuple corrispondenti a punti dello spazio multi-dimensionale per cui esistono le informazioni
Master MATIT Sistemi Informativi Direzionali 54
DENORMALIZZAZIONE Nei casi pratici il numero di
– variabili da controllare– delle misure per ciascuna variabile – delle dimensioni associate a ciascuna misura
sono molto più elevati – …. ciò comporta una proliferazione notevole del numero
delle tabelle• sia di quelle associate alle dimensioni, sia di quelle associate
alle misure.
Poiché i dati aggregati memorizzati nelle tabelle delle misure non sono soggetti a ripetizione, tali tabelle sono normalizzate– laddove quelle delle dimensioni sono normalmente
denormalizzate, dovendo memorizzare tutti gli attributi di ogni livello di aggregazione implementato.
Master MATIT Sistemi Informativi Direzionali 55
LO SCHEMA A FIOCCO DI NEVE(snowflake)
La variante nota con il termine schema a fiocco di neve consiste nella suddivisione delle tabelle delle dimensioni a livello degli attributi di aggregazione
Si ottiene normalizzando una o più dimensioni dello star schema– il che consente di avere un numero di tabelle
maggiori ma di piccole dimensioni e normalizzate– con conseguente semplicità di gestione in fase di
popolazione ed aggiornamento delle tabelle
Master MATIT Sistemi Informativi Direzionali 56
Lo snowflake schema
Si riduce la dimensione e la cardinalità delle Dimension Table– Ogni Fact Table conterrà solo informazioni
a particolari livelli di aggregazione– È necessario un modulo del DBMS
(Aggregation Navigator) che, per ogni query, decida a quale fact table accedere
Master MATIT Sistemi Informativi Direzionali 57
esempio
Master MATIT Sistemi Informativi Direzionali 58
Come fare le interrogazioni?
In linea di principio, la popolazione di uno star schema può essere effettuata ricorrendo al linguaggio SQL standard:– questa soluzione, però, è estremamente complicata e
dispendiosa in termini di tempo, in quanto, per ciascuna misura, bisogna considerare alternativamente ogni dimensione e applicare esplicitamente la formula di aggregazione desiderata (conteggio, somma, media, etc.).
Per tale motivo, le applicazioni ROLAP utilizzano tecniche proprietarie per la popolazione e l’aggiornamento degli star schema, tecniche che si basano su opportune estensioni del linguaggio SQL.
Master MATIT Sistemi Informativi Direzionali 59
3) DATA MINING
Discovery Technique – E’ una tecnica di analisi dei dati
relativamente nuova– Non effettua query ma usa algoritmi
specifici che analizzano i dati e riportano quanto scoperto
• Trova relazioni tra certi dati, attraverso tecniche di clusterizzazione
Master MATIT Sistemi Informativi Direzionali 60
Cosa è il DM
Col termine data mining si indicano una serie di tecniche atte ad individuare delle relazioni tra dati non esplicitamente rappresentate ed inattese. – Il processo di analisi comincia acquisendo
conoscenza a partire da un certo campione di dati via via più ampio assumendo che le caratteristiche di un ampio set di dati sono simili a quelle di un campione limitato
Master MATIT Sistemi Informativi Direzionali 61
PREDICTIVE MODELING
questa tecnica cerca di ripercorrere i processi di apprendimento umani costruendo un modello che descriva le più importanti caratteristiche di un certo fenomeno. – Il modello viene costruito in due fasi:
• Training set: costruisce il modello a partire da un grosso campione di dati storici;
• Testing set: verifica il modello cercando di predire i dati non visti precedentemente;
Master MATIT Sistemi Informativi Direzionali 62
Le tecniche di PM
Classificazione– mediante alberi decisionali e reti neurali possono
essere individuati record di particolari aggregati comportamentali
Value prediction– mediante modelli di regressione statistici lineari o
non, viene effettuata la previsione futura per un certo aggregato di dati.
• La tecnica è simile alla tecnica di interpolazione utilizzata in analisi numerica ed è relativamente semplice da utilizzare
Master MATIT Sistemi Informativi Direzionali 63
DATABASE SEGMENTATION
Lo scopo è partizionare il database in cluster di record omogenei (aventi cioè proprietà comuni) al fine di individuare dei profili di sub-popolazioni di dati presenti nel database. – Fanno largo uso di queste tecniche quelle
applicazione orientate a definire profili di utenza, marketing etc.
Master MATIT Sistemi Informativi Direzionali 64
DEVIATION DETECTION
Tendono ad individuare entità che si discostano dalle previsioni effettuate mediante modelli statistici. – Queste tecniche possono fare uso di
strumenti di visualizzazione grafica che possono riportare gli aggregati del modello ed i loro complementi
Master MATIT Sistemi Informativi Direzionali 65
Analisi dei dati
Guidata dall’
Analista
Assistita dall’ Analista
DataDriven
Query and reporting Analisi Multidimensionale
DataMining
Master MATIT Sistemi Informativi Direzionali 66
L’importanza del modeling
Il tipo di analisi fatto per un DW può determinarne– Il tipo– Il contenuto
• Summarization, Metadati espliciti: Q&R, MOLAP
• Drilling Down, Rolling UP: MOLAP• Basso livello di dettaglio: Data Mining
Master MATIT Sistemi Informativi Direzionali 67
Architetture di DW e Scelte implementative
Cosa è un Data Mart– Un DW più piccolo che funziona
indipendentemente o può essere interconnesa per formare un warehouse integrato
• “Un data mart è un sottoinsieme di un DW che assiste un particolare dipartimento o una particolare funzione direzionale”.
• memorizza un sottoinsieme dei dati del DW normalmente in forma molto aggregata utile ad un particolare dipartimento direzionale
Master MATIT Sistemi Informativi Direzionali 68
Data Mart: ArchitetturaMonitoraggio & Amministrazione
MetadatiData
Warehouse
Data MartSorgenti dei dati
SorgentiSorgentiesterneesterne
Basi di datiBasi di datioperazionalioperazionali
Strumenti di analisi
AnalisiAnalisidimensionaledimensionale
Data miningData mining
VisualizzazioneVisualizzazione
Master MATIT Sistemi Informativi Direzionali 69
Data Mart vs Data Warehouse
Un data mart contiene meno informazioni e quindi è più facile navigare in essi
Un data mart non contiene dati operativi Un data mart si focalizza solo sui
requisiti di un particolare dipartimento
Master MATIT Sistemi Informativi Direzionali 70
Perché un Data Mart Essi permettono agli utenti un accesso rapido
alle informazioni usate da loro più frequentemente – migliorando i tempi di risposta del sistema
(essendo diminuito il volume dei dati da visitare). Forniscono strutture dati appropriate ad
esigenze specifiche agevolando le tecniche di data mining.
Il costo per la creazione e la gestione di un data mart è normalmente più basso di quello di un DW
Master MATIT Sistemi Informativi Direzionali 71
Data Mart: caratteristiche
Scalabilità; Dimensioni:
– devono garantire tempi di risposta più brevi rispetto ad un DW
• Rapporto tra la loro crescita e le loro performance;
Le Viste logiche di diversi data mart fisici hanno il nome di virtual data marts;
Le tecnologie di networking sono intimamente legate ai data marts– Al crescere del numero di data marts cresce l’esigenza di
avere un management centralizzato degli stessi al fine di coordinarne l’attività e mantenerne la consistenza