carme thesis presentation
TRANSCRIPT
![Page 1: Carme Thesis Presentation](https://reader034.vdocuments.mx/reader034/viewer/2022042614/5598bc2c1a28abb24a8b4839/html5/thumbnails/1.jpg)
UN APPROCCIO DI REVERSE-ENGINEERING PER INDIVIDUARE I FATTI ALL’INTERNO DI SORGENTI DATI RELAZIONALI
Presentato da Andrea Carmè Cesena, 21 ottobre 2010
![Page 2: Carme Thesis Presentation](https://reader034.vdocuments.mx/reader034/viewer/2022042614/5598bc2c1a28abb24a8b4839/html5/thumbnails/2.jpg)
DATI E INFORMAZIONI
Sorgenti dati relazionali
Data Warehouse
Informazioni
Modello multidimensionale
Modello relazionale
-Fatti-Dimensioni
- Relazioni- Attributi
![Page 3: Carme Thesis Presentation](https://reader034.vdocuments.mx/reader034/viewer/2022042614/5598bc2c1a28abb24a8b4839/html5/thumbnails/3.jpg)
PROGETTAZIONE CONCETTUALE
Una progettazione concettuale accurata è fondamentale per la costruzione di un Data Warehouse
Ben documentatoSoddisfare i bisogni degli utenti del business
Analisi delle sorgenti relazionaliIndividuazione degli elementi multidimensionali
Scopo
PROGETTAZIONE GUIDATA DAI DATI
![Page 4: Carme Thesis Presentation](https://reader034.vdocuments.mx/reader034/viewer/2022042614/5598bc2c1a28abb24a8b4839/html5/thumbnails/4.jpg)
INDIVIDUAZIONE DEGLI ELEMENTI MD
Linee guida
Glossari Vendite Ciclo Fertilità
APPROCCI MANUALI
APPROCCI AUTOMATIZZATI
S_CCCP
Documentazione sorgenti dati
Focalizzati sulle dimensioni
Vendite Ciclo Fertilità
S_CCCP
PROBLEMI
PROBLEMI
I fatti sono gli elementi multidimensionali più importanti dal momento che corrispondono agli eventi di interesse del business
![Page 5: Carme Thesis Presentation](https://reader034.vdocuments.mx/reader034/viewer/2022042614/5598bc2c1a28abb24a8b4839/html5/thumbnails/5.jpg)
INDIVIDUAZIONE DEI FATTI
APPROCCIO PER FORMALIZZARE L’INDIVIDUAZIONE DEI FATTI
Documentazione sorgenti dati
Basato su euristiche
CWM Relazionale Profilo UML
CARATTERISTICHE
Basato e guidato dai modelli
Vendite Ciclo Fertilità
S_CCCP
UFRO TAHE Fertilidad
![Page 6: Carme Thesis Presentation](https://reader034.vdocuments.mx/reader034/viewer/2022042614/5598bc2c1a28abb24a8b4839/html5/thumbnails/6.jpg)
APPROCCIO PER INDIVIDUARE I FATTI
![Page 7: Carme Thesis Presentation](https://reader034.vdocuments.mx/reader034/viewer/2022042614/5598bc2c1a28abb24a8b4839/html5/thumbnails/7.jpg)
ESTRAZIONE ELEMENTI RELAZIONALI
Dizionariodati CWM relazionale
CWM relazionale
Richiesta la partecipazione
degli utenti
![Page 8: Carme Thesis Presentation](https://reader034.vdocuments.mx/reader034/viewer/2022042614/5598bc2c1a28abb24a8b4839/html5/thumbnails/8.jpg)
INDIVIDUAZIONE STRUTTURE MD
Store City
R = Select idCity from Store where idCity is not null
P = Select distinct idCity from RStore City
M-1
0 0
![Page 9: Carme Thesis Presentation](https://reader034.vdocuments.mx/reader034/viewer/2022042614/5598bc2c1a28abb24a8b4839/html5/thumbnails/9.jpg)
INDIVIDUAZIONE STRUTTURE MD
MISURE EURISTICHE UTILIZZATE
Ratio degli attributi numerici: Le misure sono sempre numeriche e le tabelle con un alto ratio sono più adatte a ricoprire il ruolo di fatto
Numero di istanze: Le tabelle con il maggior numero di istanze potrebbero corrispondere a fatti
Grado d’ingresso: Le tabelle con poche o nessuna chiavi importate in ingresso potrebbero corrispondere a fatti
SOGLIA: > 25-esimo percentile
SOGLIA: > 75-esimo percentile
SOGLIA: < 0 o 1
![Page 10: Carme Thesis Presentation](https://reader034.vdocuments.mx/reader034/viewer/2022042614/5598bc2c1a28abb24a8b4839/html5/thumbnails/10.jpg)
INDIVIDUAZIONE STRUTTURE MD
F
D
D
D
1-1 F
M-1M-1
M-1
M-1
M-1
![Page 11: Carme Thesis Presentation](https://reader034.vdocuments.mx/reader034/viewer/2022042614/5598bc2c1a28abb24a8b4839/html5/thumbnails/11.jpg)
DERIVAZIONE SCHEMA MD
F
D
D
D
1-1 FM-1
M-1
M-1
M-1
M-1
Modello CWM marcato
Schema concettuale multidimensionaleTrasformazione formale tra modelli
![Page 12: Carme Thesis Presentation](https://reader034.vdocuments.mx/reader034/viewer/2022042614/5598bc2c1a28abb24a8b4839/html5/thumbnails/12.jpg)
CONCLUSIONI
Approccio per formalizzare il processo di identificazione dei fatti a partire da sorgenti dati relazionali
Non richiede la documentazione delle sorgenti dati relazionali
Basato su misure euristiche
Bassa complessità computazionale
~ 30 secondi
(130 tabelle, 140 FKs)
CARATTERISTICHE
![Page 13: Carme Thesis Presentation](https://reader034.vdocuments.mx/reader034/viewer/2022042614/5598bc2c1a28abb24a8b4839/html5/thumbnails/13.jpg)
SVILUPPI FUTURI
Derivare anche le altre strutture multidimensionali: gerarchie delle dimensioni
Considerare anche le sorgenti non-relazionali
Considerare anche misure euristiche basate sulle caratteristiche semantiche delle sorgenti
![Page 14: Carme Thesis Presentation](https://reader034.vdocuments.mx/reader034/viewer/2022042614/5598bc2c1a28abb24a8b4839/html5/thumbnails/14.jpg)
DOMANDE?
UN APPROCCIO DI REVERSE-ENGINEERING PER INDIVIDUARE I FATTI ALL’INTERNO DI SORGENTI DATI RELAZIONALI
Andrea Carmè Cesena, 21 ottobre 2010