![Page 1: 1 La qualita dei dati nei sistemi informativi C. Batini - Aipa A man with a watch knows what time it is A man with two is never sure Mark Twain](https://reader035.vdocuments.mx/reader035/viewer/2022070312/5542eb4a497959361e8b5f7a/html5/thumbnails/1.jpg)
1
La qualita’ dei dati nei sistemi informativi
C. Batini - Aipa
A man with a watch knows what time it is
A man with two is never sure
Mark Twain
![Page 2: 1 La qualita dei dati nei sistemi informativi C. Batini - Aipa A man with a watch knows what time it is A man with two is never sure Mark Twain](https://reader035.vdocuments.mx/reader035/viewer/2022070312/5542eb4a497959361e8b5f7a/html5/thumbnails/2.jpg)
2
Indice della presentazione
• Motivazioni per la qualita’ dei dati
• La qualita’ dei dati nei diversi tipi di sistemi informativi
• Le dimensioni della qualita’ dei dati
• Le metodologie per la misurazione e il miglioramento della qualita’ dei dati in sistemi informativi tradizionali
• Cenni alle metodologie per misurazione & miglioramento in sistemi informativi cooperativi
![Page 3: 1 La qualita dei dati nei sistemi informativi C. Batini - Aipa A man with a watch knows what time it is A man with two is never sure Mark Twain](https://reader035.vdocuments.mx/reader035/viewer/2022070312/5542eb4a497959361e8b5f7a/html5/thumbnails/3.jpg)
3
Motivazioni per la qualita’ dei dati
![Page 4: 1 La qualita dei dati nei sistemi informativi C. Batini - Aipa A man with a watch knows what time it is A man with two is never sure Mark Twain](https://reader035.vdocuments.mx/reader035/viewer/2022070312/5542eb4a497959361e8b5f7a/html5/thumbnails/4.jpg)
4
Perche’ la qualita’ dei dati e’ importante
• La scarsa qualita’ dei dati e’ pervasiva, soprattutto in un approccio a rete
• Influenza il successo e l’ immagine della organizzazione
• Eleva i costi
• Influenza i processi decisionali
• Impedisce il re-engineering
• Rende difficile una strategia a lungo termine
![Page 5: 1 La qualita dei dati nei sistemi informativi C. Batini - Aipa A man with a watch knows what time it is A man with two is never sure Mark Twain](https://reader035.vdocuments.mx/reader035/viewer/2022070312/5542eb4a497959361e8b5f7a/html5/thumbnails/5.jpg)
5
La qualità dei dati nei diversi tipi di sistemi informativi
![Page 6: 1 La qualita dei dati nei sistemi informativi C. Batini - Aipa A man with a watch knows what time it is A man with two is never sure Mark Twain](https://reader035.vdocuments.mx/reader035/viewer/2022070312/5542eb4a497959361e8b5f7a/html5/thumbnails/6.jpg)
6
Diversi tipi di sistemi informativi
• Sistemi informativi monoorganizzazione– Centralizzati classici– Distribuiti
• Sistemi informativi cooperativi
• Sistemi informativi direzionali di tipo data wharehouse
![Page 7: 1 La qualita dei dati nei sistemi informativi C. Batini - Aipa A man with a watch knows what time it is A man with two is never sure Mark Twain](https://reader035.vdocuments.mx/reader035/viewer/2022070312/5542eb4a497959361e8b5f7a/html5/thumbnails/7.jpg)
Rete unitaria e sistema informativo unitario della PA: situazione di partenza
Amministrazione 2
Processi
ApplicazioniDati
Amministrazione 1
Processi
ApplicazioniDati
![Page 8: 1 La qualita dei dati nei sistemi informativi C. Batini - Aipa A man with a watch knows what time it is A man with two is never sure Mark Twain](https://reader035.vdocuments.mx/reader035/viewer/2022070312/5542eb4a497959361e8b5f7a/html5/thumbnails/8.jpg)
Sistema “AmmCentrale to AmmCentrale”
Amministrazione 1
Processi
Applicazioni
interne
Datiesposti
Dati
Servizi di interoperabilità
Servizi di trasporto
Dati e servizi esposti
Amministrazione 2
Processi
Applicazioni
interne
Datiesposti
Dati
Dati e serviziesposti
![Page 9: 1 La qualita dei dati nei sistemi informativi C. Batini - Aipa A man with a watch knows what time it is A man with two is never sure Mark Twain](https://reader035.vdocuments.mx/reader035/viewer/2022070312/5542eb4a497959361e8b5f7a/html5/thumbnails/9.jpg)
Sistema “AmmCentrale to AmmLocale”
Amministrazione 1
Processi
Applicazioni
interne
Datiesposti
Dati
Servizi di interoperabilità
Servizi di trasporto
Dati e servizi esposti
Amministrazione 2
Processi
Applicazioni
interne
Datiesposti
Dati
Dati e serviziesposti
Amministrazione 1
Processi
Applicazioni
interne
Datiesposti
Dati
Servizi di interoperabilità
Servizi di trasporto
Dati e servizi esposti
Amministrazione 2
Processi
Applicazioni
interne
Datiesposti
Dati
Dati e serviziesposti
Servizi di interoperabilità
Servizi di trasporto
![Page 10: 1 La qualita dei dati nei sistemi informativi C. Batini - Aipa A man with a watch knows what time it is A man with two is never sure Mark Twain](https://reader035.vdocuments.mx/reader035/viewer/2022070312/5542eb4a497959361e8b5f7a/html5/thumbnails/10.jpg)
Sistema “Amministrazione to Cittadino”Amministrazione 1
Processi
Applicazioni
interne
Datiesposti
Dati
Servizi di interoperabilità
Servizi di trasporto
Dati e servizi esposti
Amministrazione 2
Processi
Applicazioni
interne
Datiesposti
Dati
Dati e serviziesposti
Amministrazione 1
Processi
Applicazioni
interne
Datiesposti
Dati
Servizi di interoperabilità
Servizi di trasporto
Dati e servizi esposti
Amministrazione 2
Processi
Applicazioni
interne
Datiesposti
Dati
Dati e serviziesposti
Servizi di interoperabilità
Servizi di trasporto
Internet e altri canali
![Page 11: 1 La qualita dei dati nei sistemi informativi C. Batini - Aipa A man with a watch knows what time it is A man with two is never sure Mark Twain](https://reader035.vdocuments.mx/reader035/viewer/2022070312/5542eb4a497959361e8b5f7a/html5/thumbnails/11.jpg)
11
Nei data wharehouse
• Integrazione di schemi logici
• Integrazione dei dati
• Individuazione e risoluzione delle incoerenze
• Pulizia dei dati
![Page 12: 1 La qualita dei dati nei sistemi informativi C. Batini - Aipa A man with a watch knows what time it is A man with two is never sure Mark Twain](https://reader035.vdocuments.mx/reader035/viewer/2022070312/5542eb4a497959361e8b5f7a/html5/thumbnails/12.jpg)
12
Le dimensioni della qualita’dei dati
![Page 13: 1 La qualita dei dati nei sistemi informativi C. Batini - Aipa A man with a watch knows what time it is A man with two is never sure Mark Twain](https://reader035.vdocuments.mx/reader035/viewer/2022070312/5542eb4a497959361e8b5f7a/html5/thumbnails/13.jpg)
13
• Il livello dello schema logico– Es archivio dipendenti, archivio stipendi, ecc.
• Il livello dei valori e del formato dei dati– Es per i valori
• Archivio dipendenti
• Mario Rossi, nato a Brescia il 21-12-1977
– Es per il formato • Campo Cognome
• PICTURE X(12)
In una qualunque base di dati o archivio possiamo distinguere ..
![Page 14: 1 La qualita dei dati nei sistemi informativi C. Batini - Aipa A man with a watch knows what time it is A man with two is never sure Mark Twain](https://reader035.vdocuments.mx/reader035/viewer/2022070312/5542eb4a497959361e8b5f7a/html5/thumbnails/14.jpg)
14
Lo schema logicoComune
Particella
Bene
Fabbricato Terreno
Soggetto fisicoo giuridico
Catastogeometrico
Catastofabbricati
Catastoterreni
![Page 15: 1 La qualita dei dati nei sistemi informativi C. Batini - Aipa A man with a watch knows what time it is A man with two is never sure Mark Twain](https://reader035.vdocuments.mx/reader035/viewer/2022070312/5542eb4a497959361e8b5f7a/html5/thumbnails/15.jpg)
15
I valori
![Page 16: 1 La qualita dei dati nei sistemi informativi C. Batini - Aipa A man with a watch knows what time it is A man with two is never sure Mark Twain](https://reader035.vdocuments.mx/reader035/viewer/2022070312/5542eb4a497959361e8b5f7a/html5/thumbnails/16.jpg)
16
Il formato
![Page 17: 1 La qualita dei dati nei sistemi informativi C. Batini - Aipa A man with a watch knows what time it is A man with two is never sure Mark Twain](https://reader035.vdocuments.mx/reader035/viewer/2022070312/5542eb4a497959361e8b5f7a/html5/thumbnails/17.jpg)
17
Schema logico dei dati
![Page 18: 1 La qualita dei dati nei sistemi informativi C. Batini - Aipa A man with a watch knows what time it is A man with two is never sure Mark Twain](https://reader035.vdocuments.mx/reader035/viewer/2022070312/5542eb4a497959361e8b5f7a/html5/thumbnails/18.jpg)
18
Le dimensioni dello schema logico
• Contenuto• Copertura, cioe’ grado in cui lo schema logico
comprende un adeguato numero di archivi e campi da incontrare le necessita’ delle applicazioni
• Livello di dettaglio• Composizione, cioe’ la struttura interna dello schema• Consistenza• Economicita’• Flessibilita’ al cambiamento
![Page 19: 1 La qualita dei dati nei sistemi informativi C. Batini - Aipa A man with a watch knows what time it is A man with two is never sure Mark Twain](https://reader035.vdocuments.mx/reader035/viewer/2022070312/5542eb4a497959361e8b5f7a/html5/thumbnails/19.jpg)
19
Dettaglio delle proprietà
Contenuto
Rilevanza
Ottenibilità
Chiarezza della definizione
Copertura
Completezza
Essenzialità
Livello di dettaglio
Granularità degli attributi
Precisione dei domini
Composizione
Naturalezza
Identificabilità
Omogeneità
Ridondanza minima necessaria
Consistenza
Consistenza semantica
Consistenza strutturale
Reazione al cambiamento
Robustezza
Flessibilità
![Page 20: 1 La qualita dei dati nei sistemi informativi C. Batini - Aipa A man with a watch knows what time it is A man with two is never sure Mark Twain](https://reader035.vdocuments.mx/reader035/viewer/2022070312/5542eb4a497959361e8b5f7a/html5/thumbnails/20.jpg)
20
Esempi di alcune proprietà
• Granularità degli attributi– Es. Il concetto di “indirizzo” può essere rappresentato in alcune
applicazioni semplicemente da “Stato”, in altre da “via”+”numero civico”+ “Città”+” Stato”
• Precisione dei domini– Es. Un dominio dell’attributo “altezza” di una persona che la esprime in
cm, risulta più preciso di un dominio che prevede i valori ALTA, MEDIA, BASSA
• Naturalezza– Es. Un attributo composto <Sesso,Stato Matrimoniale> è poco naturale
perché esprime due fatti naturalmente scorrelati
![Page 21: 1 La qualita dei dati nei sistemi informativi C. Batini - Aipa A man with a watch knows what time it is A man with two is never sure Mark Twain](https://reader035.vdocuments.mx/reader035/viewer/2022070312/5542eb4a497959361e8b5f7a/html5/thumbnails/21.jpg)
21
Esempi di alcune proprietà (continua)
• Consistenza strutturale– Es. Tutte le date devono avere un formato comune,
anche se rappresentano attributi di archivi diversi
• Ottenibilità– Es. I dati di una società commerciale non sono
disponibili nell’anno corrente, per non facilitare la concorrenza (ma sono ottenibili solo quelli di anni precedenti)
![Page 22: 1 La qualita dei dati nei sistemi informativi C. Batini - Aipa A man with a watch knows what time it is A man with two is never sure Mark Twain](https://reader035.vdocuments.mx/reader035/viewer/2022070312/5542eb4a497959361e8b5f7a/html5/thumbnails/22.jpg)
22
Copertura
• Completezza - Ogni archivio e campo necessario agli utenti e’ incluso nello schema logico
• Essenzialita’ - nessun archivio e campo non indispoensabile agli utenti e’ incluso nello schema logico
![Page 23: 1 La qualita dei dati nei sistemi informativi C. Batini - Aipa A man with a watch knows what time it is A man with two is never sure Mark Twain](https://reader035.vdocuments.mx/reader035/viewer/2022070312/5542eb4a497959361e8b5f7a/html5/thumbnails/23.jpg)
23
Ma tradizionalmente anche ..
• Normalita’: – Prima forma normale– Seconda forma normale – Terza forma normale– Quarta forma normale – Boyce Codd Normal Form– Quinta forma normale– Domain Key Normal Form
![Page 24: 1 La qualita dei dati nei sistemi informativi C. Batini - Aipa A man with a watch knows what time it is A man with two is never sure Mark Twain](https://reader035.vdocuments.mx/reader035/viewer/2022070312/5542eb4a497959361e8b5f7a/html5/thumbnails/24.jpg)
24
Le dimensioni non sono ortogonali
• Le dimensioni (o caratteristiche) non sono indipendenti tra di loro:– correlazioni positive : migliorare una caratteristica migliora anche
l’altra– correlazioni negative: migliorare una peggiora l’altra
• Esempi:– Gode di correlazione positiva la terna
• comprensività, • granularità degli attributi e • precisione del dominio
– Gode di correlazione negativa la coppia • Economicita’• Completezza
![Page 25: 1 La qualita dei dati nei sistemi informativi C. Batini - Aipa A man with a watch knows what time it is A man with two is never sure Mark Twain](https://reader035.vdocuments.mx/reader035/viewer/2022070312/5542eb4a497959361e8b5f7a/html5/thumbnails/25.jpg)
25
Dimensioni dei valori e del formato
![Page 26: 1 La qualita dei dati nei sistemi informativi C. Batini - Aipa A man with a watch knows what time it is A man with two is never sure Mark Twain](https://reader035.vdocuments.mx/reader035/viewer/2022070312/5542eb4a497959361e8b5f7a/html5/thumbnails/26.jpg)
26
Valori dei dati• Accuratezza, vicinanza del dato ad un valore nel dominio di
definizione considerato corretto– importante, difficile da misurare (cfr realta’, storici)
• Correttezza, accuratezza al grado massimo• Completezza, l’ estensione con cui i valori sono presenti nella
base di dati. – Importante, difficile da misurare – null values
• Tempestivita’, adeguatezza dell’ aggiornamento – Importante, forse la maggior causa di processi scorretti– Esempio PA
• Dichiarazioni dei redditi (fino all’ anno scorso) 3 anni di ritardo• Informazioni sugli impiegati 2 anni di ritardo
• Consistenza di differenti valori.– Quando tra dati consistenti vi e’ rapporto funzionale, porta a ridondanza
![Page 27: 1 La qualita dei dati nei sistemi informativi C. Batini - Aipa A man with a watch knows what time it is A man with two is never sure Mark Twain](https://reader035.vdocuments.mx/reader035/viewer/2022070312/5542eb4a497959361e8b5f7a/html5/thumbnails/27.jpg)
27
Formato
• Appropriatezza, rispetto alle esigenze dell’ utente– dipende dal mezzo usato (es. Codici a barre, grafi)
• Interpretabilita’, aiuta l’ utente a interpretare i valori correttamente – Es. (1,2,3,4) vs (scarso, insufficiente, sufficiente, buono)
• Portabilita’, o Universalita’ tra diverse tipologie di utenti– es le icone agli aeroporti
• Precisione, capacita’ di discriminare tra diversi valori– critica con le icone
• Flessibilita’, rispetto ai requisiti utente• Capacita’ di rappresentare valori nulli• Uso efficiente della memoria Es. (0,1) vs ( , )
![Page 28: 1 La qualita dei dati nei sistemi informativi C. Batini - Aipa A man with a watch knows what time it is A man with two is never sure Mark Twain](https://reader035.vdocuments.mx/reader035/viewer/2022070312/5542eb4a497959361e8b5f7a/html5/thumbnails/28.jpg)
28
Come procedere alla misura della qualita’ dei dati
• 1. Individuazione delle caratteristiche (dimensioni) e sottocaratteristiche (proprieta’) prioritarie
• 2. Individuazione dei criteri (proprieta’ misurabili)• 3. Scelta della procedura di misurazione • 4. Processo di misurazione • 5. Aggiunta delle valutazioni non quantitative• 6. Valutazione complessiva
![Page 29: 1 La qualita dei dati nei sistemi informativi C. Batini - Aipa A man with a watch knows what time it is A man with two is never sure Mark Twain](https://reader035.vdocuments.mx/reader035/viewer/2022070312/5542eb4a497959361e8b5f7a/html5/thumbnails/29.jpg)
29
Esempio del passo 1: linee strategiche dell’ Aipa 1998-2000
“Nel campo specifico della qualita’ dei dati, da intendersi principalmente come correttezza, tempestivita’ di aggiornamento, completezza e coerenza, occorre intervenire …….”
![Page 30: 1 La qualita dei dati nei sistemi informativi C. Batini - Aipa A man with a watch knows what time it is A man with two is never sure Mark Twain](https://reader035.vdocuments.mx/reader035/viewer/2022070312/5542eb4a497959361e8b5f7a/html5/thumbnails/30.jpg)
30
Proprieta’ richieste dalle metriche–misurabilita’ quanto possibile con strumenti automatici
–affidabilità (essere non affette da errori casuali in maniera eccessiva),
–ripetibilità (misure rilevate sul medesimo componente in differenti momenti nelle stesse condizioni di rilevazione devono dare lo stesso risultato),
– riproducibilità (differenti valutatori debbono poter ottenere uguali risultati in uguali condizioni di valutazione),
–disponibilità ad essere utilizzata,
–efficacia (in relazione al costo di suo impiego),
–correttezza (imparzialità e precisione),
–obiettività (in grado di dare risultati non influenzabili dal valutatore o da altri fattori esterni),
–significatività (dare indicazioni significative sul comportamento del componente valutato rispetto al requisito in esame);
![Page 31: 1 La qualita dei dati nei sistemi informativi C. Batini - Aipa A man with a watch knows what time it is A man with two is never sure Mark Twain](https://reader035.vdocuments.mx/reader035/viewer/2022070312/5542eb4a497959361e8b5f7a/html5/thumbnails/31.jpg)
31
Le metodologie per la misurazione e il miglioramento della qualita’ dei dati in sistemi
informativi tradizionali
![Page 32: 1 La qualita dei dati nei sistemi informativi C. Batini - Aipa A man with a watch knows what time it is A man with two is never sure Mark Twain](https://reader035.vdocuments.mx/reader035/viewer/2022070312/5542eb4a497959361e8b5f7a/html5/thumbnails/32.jpg)
32
Metodi
• Ispezione e correzione– Comparazione dati con le controparti reali
– Database bashing
– Utilizzo di business rules
• Controllo e Miglioramento
del Processo
• Reingegnerizzazione
del Processo
Approccio basato sui Processi
![Page 33: 1 La qualita dei dati nei sistemi informativi C. Batini - Aipa A man with a watch knows what time it is A man with two is never sure Mark Twain](https://reader035.vdocuments.mx/reader035/viewer/2022070312/5542eb4a497959361e8b5f7a/html5/thumbnails/33.jpg)
33
Ispezione e correzione: tre approcci • 1. Confronto dei dati con la realta’ che rappresentano
• costoso, a campione, molto preciso, una tantum per orientare l’ intervento
• 2. Confronto dei dati tra due o piu’ archivi– + Facilmente applicabile, costo medio
– - Il matching non garantisce, se un dato e’ manifestamente errato forza a considerare l’ altro corretto, non garantisce per il futuro, “abitua male”, cioe’ falso senso di sicurezza (es. fatture vs fatture attese)
• 3. Confronto dei dati con vincoli o business rules– un campo, piu’ campi, probabilistico
• + spesso efficace, poco costoso
• - non garantisce per il futuro, riguarda solo la conformita’ alle regole, non la accuratezza, “abitua male”
• particolarmente adatti a dati permanenti
![Page 34: 1 La qualita dei dati nei sistemi informativi C. Batini - Aipa A man with a watch knows what time it is A man with two is never sure Mark Twain](https://reader035.vdocuments.mx/reader035/viewer/2022070312/5542eb4a497959361e8b5f7a/html5/thumbnails/34.jpg)
34
Miglioramento basato sui processi
Realizzare gli interventi di miglioramento
Identificare il process owner (Data Steward)
Descrivere il processo
Stabilire un sistema di misura
Definire un sistema di monitoraggio e controllo (deidati e/ del processo)
Identificare gli obiettivi di miglioramento
Identificare il processo
![Page 35: 1 La qualita dei dati nei sistemi informativi C. Batini - Aipa A man with a watch knows what time it is A man with two is never sure Mark Twain](https://reader035.vdocuments.mx/reader035/viewer/2022070312/5542eb4a497959361e8b5f7a/html5/thumbnails/35.jpg)
35
Stabilire un sistema di misura
• Passo 1 Cosa misurare: processi, campi, metriche
• Passo 2 Definire il campionamento
• Passo 3 Tracking
• Passo 4 Identificazione degli errori e del tempo di ritardo
![Page 36: 1 La qualita dei dati nei sistemi informativi C. Batini - Aipa A man with a watch knows what time it is A man with two is never sure Mark Twain](https://reader035.vdocuments.mx/reader035/viewer/2022070312/5542eb4a497959361e8b5f7a/html5/thumbnails/36.jpg)
36
Il processo suddiviso in 5 sottoprocessi che alimentano 2 basi di dati DB1 e DB2
P1 P2 P3 P4
P5
DB1
DB2
![Page 37: 1 La qualita dei dati nei sistemi informativi C. Batini - Aipa A man with a watch knows what time it is A man with two is never sure Mark Twain](https://reader035.vdocuments.mx/reader035/viewer/2022070312/5542eb4a497959361e8b5f7a/html5/thumbnails/37.jpg)
37
Esempio: accuratezza per un campo a
della base dati DB1
P5 DB2
P1 P2 P3 P4 DB11% 2% 17% 0.5%
![Page 38: 1 La qualita dei dati nei sistemi informativi C. Batini - Aipa A man with a watch knows what time it is A man with two is never sure Mark Twain](https://reader035.vdocuments.mx/reader035/viewer/2022070312/5542eb4a497959361e8b5f7a/html5/thumbnails/38.jpg)
38
Esempio: consistenza tra due DB per un campo b
P3 P4
P5
DB1
DB2
11% 0%
0%
.5%
11% 11.5%
![Page 39: 1 La qualita dei dati nei sistemi informativi C. Batini - Aipa A man with a watch knows what time it is A man with two is never sure Mark Twain](https://reader035.vdocuments.mx/reader035/viewer/2022070312/5542eb4a497959361e8b5f7a/html5/thumbnails/39.jpg)
39
Miglioramento Costo TotaleMetodo
BreveTermine
LungoTermine
BreveTermine
LungoTermine
Quando
Laissez faire Basso Basso Alto Alto Dati non importanti
Comparazionemondo reale, una
volta
Alto Basso Alto Alto Per stimare lacorrente DQ
Comparazionemondo reale,
periodico
Alto Alto Alto Molto Alto Mai
Databasebashing, una volta
Medio Basso Medio Alto Su dati che cambianolentamente (stabili),quando un secondo
databaseindipendente è
disponibile
Databasebashing, periodico
Medio Medio Medio Molto Alto Mai
Clean-up conedits, una volta
Medio Basso Medio Alto Su dati che cambianolentamente (stabili)
Clean-up conedits, periodico
Medio Medio Medio Alto Mai
Controllo eMiglioramento del
Processo
Medio Alto Medio Basso Su tutti i dati chevengono manipolati
frequentemente
Ingegnerizazionedel Processo
Medio Alto Medio Molto Basso Quando si progettauna information chain
![Page 40: 1 La qualita dei dati nei sistemi informativi C. Batini - Aipa A man with a watch knows what time it is A man with two is never sure Mark Twain](https://reader035.vdocuments.mx/reader035/viewer/2022070312/5542eb4a497959361e8b5f7a/html5/thumbnails/40.jpg)
40
Cenni alle metodologie per misurazione & miglioramento in sistemi informativi cooperativi
![Page 41: 1 La qualita dei dati nei sistemi informativi C. Batini - Aipa A man with a watch knows what time it is A man with two is never sure Mark Twain](https://reader035.vdocuments.mx/reader035/viewer/2022070312/5542eb4a497959361e8b5f7a/html5/thumbnails/41.jpg)
41
Qualità dei Dati più complessa
• Sistemi eterogenei implicano con elevata probabilità schemi logici differenti
• La necessità di scambiarsi dati può determinare l’insorgere di problemi nello scambio (es.data entry dei dati acquisiti da un’altra organizzazione)
• Maggiore latenza del sistema cooperativo (es. la duplicazione di un dato su più organizzazioni comporta valori variabili della “tempestività” del dato)
![Page 42: 1 La qualita dei dati nei sistemi informativi C. Batini - Aipa A man with a watch knows what time it is A man with two is never sure Mark Twain](https://reader035.vdocuments.mx/reader035/viewer/2022070312/5542eb4a497959361e8b5f7a/html5/thumbnails/42.jpg)
42
Misurazione
• Possibilità di mutuare i risultati ottenuti per la QD delle sorgenti del World Wide Web (WWW)
• Sono stati realizzati sistemi che fanno un assessment della QD delle sorgenti mediante l’utilizzo di metadati per la qualità dei dati
![Page 43: 1 La qualita dei dati nei sistemi informativi C. Batini - Aipa A man with a watch knows what time it is A man with two is never sure Mark Twain](https://reader035.vdocuments.mx/reader035/viewer/2022070312/5542eb4a497959361e8b5f7a/html5/thumbnails/43.jpg)
43
Metadati per la qualità dei dati• Esempi di metadati da associare ai dati esposti dalle
singole organizzazioni cooperanti sono:– data dell’ultimo aggiornamento;– codifica del Data Steward del dato;– codifica della sorgente che ha effettuato l’ultimo
aggiornamento, etc.
• La valutazione dei metadati fornisce un livello di soglia di alcune dimensioni:– Tempestività (data dell’ultimo aggiornamento)– Affidabilità (se la sorgente che ha effettuato l’ultimo
aggiornamento è il Data Steward è massima)– …
![Page 44: 1 La qualita dei dati nei sistemi informativi C. Batini - Aipa A man with a watch knows what time it is A man with two is never sure Mark Twain](https://reader035.vdocuments.mx/reader035/viewer/2022070312/5542eb4a497959361e8b5f7a/html5/thumbnails/44.jpg)
44
Miglioramento
• Le tecnologie attuali abilitano un miglioramento della qualità dei dati quando sistemi diversi necessitano di cooperare: reingegnerizzaione IT-driven– Due esempi: XML e Publish and Subscribe
![Page 45: 1 La qualita dei dati nei sistemi informativi C. Batini - Aipa A man with a watch knows what time it is A man with two is never sure Mark Twain](https://reader035.vdocuments.mx/reader035/viewer/2022070312/5542eb4a497959361e8b5f7a/html5/thumbnails/45.jpg)
45
XML come driver del re-engineering DQ-oriented
• XML: tecnologia per lo scambio dei dati fra le organizzazioni cooperanti
• Per ogni macro-processo accordo tra le organizzazioni partecipanti sullo schema logico delle informazioni di scambio (Es. DTD XML)
![Page 46: 1 La qualita dei dati nei sistemi informativi C. Batini - Aipa A man with a watch knows what time it is A man with two is never sure Mark Twain](https://reader035.vdocuments.mx/reader035/viewer/2022070312/5542eb4a497959361e8b5f7a/html5/thumbnails/46.jpg)
46
Le caratteristiche che migliorano: i valori
+ Accuratezza: si automatizza la fase di data entry, e quindi minor numero di errori
= Completezza+ Tempestivita’ + Consistenza : la consistenza semantica
aumenta in virtù dell’ accordo tra le organizzazioni
![Page 47: 1 La qualita dei dati nei sistemi informativi C. Batini - Aipa A man with a watch knows what time it is A man with two is never sure Mark Twain](https://reader035.vdocuments.mx/reader035/viewer/2022070312/5542eb4a497959361e8b5f7a/html5/thumbnails/47.jpg)
47
Le caratteristiche che migliorano: il formato
= Appropriatezza
+ Interpretabilità
+ Portabilità
- Precisione
+ Flessibilità
= Capacità di rappresentare valori nulli
- Efficienza nell’impiego dei mezzi di registrazione
![Page 48: 1 La qualita dei dati nei sistemi informativi C. Batini - Aipa A man with a watch knows what time it is A man with two is never sure Mark Twain](https://reader035.vdocuments.mx/reader035/viewer/2022070312/5542eb4a497959361e8b5f7a/html5/thumbnails/48.jpg)
48
Publish&Subscribe come driver del re-
engineering DQ-oriented • Meccanismo di notifica basato su eventi • Il ruolo dei Data Steward
– Esempio PA: il Data Steward delle informazioni anagrafiche (Es. l’indirizzo di nascita) è il Comune di nascita, e quindi idealmente una seconda amministrazione dovrebbe aggiornare i propri archivi solo in seguito all’emissione di un evento da parte del data steward.
![Page 49: 1 La qualita dei dati nei sistemi informativi C. Batini - Aipa A man with a watch knows what time it is A man with two is never sure Mark Twain](https://reader035.vdocuments.mx/reader035/viewer/2022070312/5542eb4a497959361e8b5f7a/html5/thumbnails/49.jpg)
49
Una possibile architettura di P&S
DATA STEWARD
![Page 50: 1 La qualita dei dati nei sistemi informativi C. Batini - Aipa A man with a watch knows what time it is A man with two is never sure Mark Twain](https://reader035.vdocuments.mx/reader035/viewer/2022070312/5542eb4a497959361e8b5f7a/html5/thumbnails/50.jpg)
50
Le caratteristiche che migliorano
• Tempestività: l’architettura del P&S consente un miglioramento in termini di velocità con cui i dati sono aggiornati
• Ma anche: – Accuratezza (assegnazione di responsabilità
definita sul dato al Data Steward…)– Consistenza etc.
![Page 51: 1 La qualita dei dati nei sistemi informativi C. Batini - Aipa A man with a watch knows what time it is A man with two is never sure Mark Twain](https://reader035.vdocuments.mx/reader035/viewer/2022070312/5542eb4a497959361e8b5f7a/html5/thumbnails/51.jpg)
51
Riferimenti
• REDMAN Thomas C. Redman - Data Quality for the information Age - 1996 Artech House
• BALLOU D. Ballou, G. Tayi - Enhancing Data quality in Data Warehouse Environments, Comm ACM January 1999, 42,1.
• MIHAILA G.,RASHID L.,VIDAL M.: “Querying quality of data metadata”. In Proceedings of the 6th International Conference on Extending Database Technology (EDBT), Valencia, Spain , 1998.
• MIHAILA G.: Publishing, Locating, and Querying Networked Information Sources. PhD thesis, University of Toronto, 2000.
• GALHARDAS H.,FLORESCU D. et alii: An Extensible Framework for Data Cleaning. In Proceedings of the 16th International Conference on Data Engineering (2000)