1 uas carlos lópez vázquez gestión de calidad de datos carlos lópez carlos.lopez@ieee.org...
Post on 22-Jan-2016
218 Views
Preview:
TRANSCRIPT
1
UA
S C
arlo
s L
ópez
Váz
quez
Gestión de Calidad de Datos
Carlos Lópezcarlos.lopez@ieee.org
Universitario Autónomo del Sur - 2005Universitario Autónomo del Sur - 2005
Estrategias para Mejorar
Viene de:
Introducción
Continúa con:
Política de Calidad de Datos
2
UA
S C
arlo
s L
ópez
Váz
quez
Tópicos a considerar
Introducción Algunas definiciones Estrategias Qué datos mejorar Caso de una única BD Caso del DW
3
UA
S C
arlo
s L
ópez
Váz
quez
Una tarea siempre titánica...
Volumen de datos tamaño empresa Tendencia es a manejar más datos
» DW» BDOO » Herramientas de última generación» Intranet/Internet
Se requieren planes...
4
UA
S C
arlo
s L
ópez
Váz
quez
==
=D
efin
e có
mo
==
=>
pro
ced
er e
n e
se c
aso
<==Solicita recursos==
<=Info
rma s
obre
problem
as ob
serv
ados
==Definen qué datos serán mejorados=>
Plan de Calidad de Datos (PCD)
Infraestructura administrativa
Administración del PCD
Planes operacionales
Objetivos claros para el negocio
Administración del PCD
Infraestructura administrativa
Planes operacionales
Objetivos claros para el negocio
5
UA
S C
arlo
s L
ópez
Váz
quez
Algunas definiciones...
Calidad Precisión ¿Correctitud? ¿Exactitud?
Quality Precision Accuracy
El idioma español tiene limitaciones en este aspecto...
6
UA
S C
arlo
s L
ópez
Váz
quez
Una definición operativa...
Def.: “...Calidad(A) > Calidad(B) si...”– intrínsecamente subjetiva– asociada a las necesidades– dos clientes podrían disentir– eso si el cliente “sabe lo que quiere”...
7
UA
S C
arlo
s L
ópez
Váz
quez
Ejemplo de las dificultades...
MINMAX: Cal(A)=5.0;Cal(B)=0.5 A<B
StdDev: Cal(A)=2.04;Cal(B)=0.0 A<B
RMSE: Cal(A)=5.0;Cal(B)=1.22 A<B
8
UA
S C
arlo
s L
ópez
Váz
quez
Una definición operativa (2) ...
– dos clientes podrían disentir
Hay cosas que todos quieren o esperan:
relevancia correctitud
poder “ver” acceso simple
seguridad privacidad
9
UA
S C
arlo
s L
ópez
Váz
quez
Son dimensiones diferentes...
En Calidad de Datos se distinguen cuatro: Modelo de Datos (ej. relevancia) Valores mismos (ej. correctitud) Presentación (ej. poder “ver”) Tecnológicos (ej. acceso simple)
El curso trata sobre la segunda dimensión
10
UA
S C
arlo
s L
ópez
Váz
quez
Para los valores mismos...
...también se distinguen cuatro dimensiones: Correctitud Vigencia Completitud Consistencia
11
UA
S C
arlo
s L
ópez
Váz
quez
Correctitud (1)
<E,A,V1>
<E,A,V2>
<E,A,V3>
...
<E,A,V2>
<E,A,V>
Ej. <EMPLEADO,AÑO_NACIMIENTO,VALOR>
E=“1745”,E.AÑO_NACIMIENTO=”1960”
12
UA
S C
arlo
s L
ópez
Váz
quez
Correctitud (2)
Quizá lo mejor que pueda lograrse es...
<E,A,[VMAX,VMIN]>
Ej. < FECHA,TEMPERATURA_AMBIENTE, VALOR>
FECHA=“18071825.120000”,FECHA.TEMP=”19.60”
Un caso con dos problemas:
•No existe “verdadero”
•No existió nunca
13
UA
S C
arlo
s L
ópez
Váz
quez
Correctitud (3)
Las combinaciones formalmente posibles no necesariamente son válidas
Ej. EMPLEADO=“9999”
EMPLEADO.NOMBRE=“Jorge Batlle Ibáñez”
EMPLEADO.AÑO_NACIMIENTO=“1925”
EMPLEADO.CARGO=“Desconocido”
¡ Simplemente no es empleado!
14
UA
S C
arlo
s L
ópez
Váz
quez
Correctitud (4)
<E,A,”Juguetería/Bazar”>
<E,A,”JUGUETERIA/BAZAR”>
<E,A,”Jugueteria/Bazar”>
...
<E,A,”Jugueteria / Bazar”>
¡Hay varios valores “correctos”!
15
UA
S C
arlo
s L
ópez
Váz
quez
Correctitud (5)
En resumen:
• No siempre existe un “verdadero valor”
• Aún existiendo, puede ser inaccesible
• Métricas específicas al problema
• Métricas problemáticas
16
UA
S C
arlo
s L
ópez
Váz
quez
Para los valores mismos...
...también se distinguen cuatro dimensiones: Correctitud Vigencia Completitud Consistencia
17
UA
S C
arlo
s L
ópez
Váz
quez
Vigencia (1)
ESTALLOVIENDO.NOW=TRUE
LUN MAR MIE JUE
Es algo que depende del tiempo...
18
UA
S C
arlo
s L
ópez
Váz
quez
Vigencia (2)
Datos permanentes– Fecha de nacimiento– Tipo de sangre– Lugar de nacimiento País de nacimiento!
Datos dinámicos|– Cambian ocasionalmente
» Nombre y/o apellido (ej.: USA)
» Dirección
– Cambian regularmente» Salario|
19
UA
S C
arlo
s L
ópez
Váz
quez
Para los valores mismos...
...también se distinguen cuatro dimensiones: Correctitud Vigencia Completitud Consistencia
20
UA
S C
arlo
s L
ópez
Váz
quez
Cuatro posibilidades– El empleado no tiene teléfono ==>OK– El empleado tiene teléfono, pero se ignora el
número==>INC– El empleado tiene un número que no figura en
la guía ==>OK– Se ignora si el empleado tiene teléfono ==>OK
Completitud (1)
EMPLEADO.HOMEPHONE=“Null”
Veamos un poco más de detalle
21
UA
S C
arlo
s L
ópez
Váz
quez
Completitud (2)
El “Null” debería tener colores...» Valor desconocido de un atributo aplicable (el
registro es incompleto)
» Indicador de atributo no aplicable (el registro es completo)
» Atributo de aplicabilidad desconocida
» Valor especial de un atributo (el registro es completo)
Difícil de implementar...
22
UA
S C
arlo
s L
ópez
Váz
quez
Completitud (3)
Dos problemas:Completitud de registros en la base– Completitud de la base
Ej.: Lista de Empleados Activos Ej.: Diccionario de neologismos
23
UA
S C
arlo
s L
ópez
Váz
quez
Para los valores mismos...
...también se distinguen cuatro dimensiones: Correctitud Vigencia Completitud Consistencia
24
UA
S C
arlo
s L
ópez
Váz
quez
Consistencia (1)
Dos o más cosas no son incompatibles Dos o más datos pueden ser correctos a la vez Un par de casos típicos
– Redundancia– Consistencia interna
25
UA
S C
arlo
s L
ópez
Váz
quez
Consistencia (2)
Redundancia– Varias copias de lo mismo– Actualización independiente– Mantenimiento separado
Empleado.Dirección=“Aconcagua 1234”
Empleado.Dirección=“Rancagua 1234”
Empleado.Dirección=“Aconcagua 2134”
26
UA
S C
arlo
s L
ópez
Váz
quez
Consistencia (3)
Consistencia interna– Existen reglas a cumplir
» explícitas
» implícitas
Empleado.Dirección=“Aconcagua 1234”
Empleado.CP=“11600”
27
UA
S C
arlo
s L
ópez
Váz
quez
Tópicos a considerar
Introducción Algunas definiciones Estrategias Qué datos mejorar Caso de una única BD Caso del DW
28
UA
S C
arlo
s L
ópez
Váz
quez
Tres niveles, tres generaciones
Detección + corrección
Diseño de procesos
Mejora de procesos
29
UA
S C
arlo
s L
ópez
Váz
quez
Detección + corrección
Tácticas corrientes:– Laissez fair – Comparar:
» datos vs. realidad
» con otra base
» con reglas del negocio
30
UA
S C
arlo
s L
ópez
Váz
quez
Comparar datos con realidad...
Viable para pocos datos Caro y lento Útil para evaluar niveles de calidad
mediante muestreo Inviable para datos muy dinámicos
31
UA
S C
arlo
s L
ópez
Váz
quez
Comparar datos con otra base...
Trabajo de laboratorio (la realidad no entra) Hipótesis implícitas
» Existe una base, independiente, y redundante
» No tiene demasiados errores
La comparación puede no ser simple Es un método seductor...
32
UA
S C
arlo
s L
ópez
Váz
quez
...con reglas del negocio... (1)
Se expresan como Data Edits... Un único campo:
– “el valor debe ser uno de {0,1,2...9}” Múltiples campos:
– “Ciudad y País deben coordinarse” Relaciones probabilísticas:
– “Hijos=4 y Edad=15 es improbable” Si fallan, se revisan los casos anómalos
33
UA
S C
arlo
s L
ópez
Váz
quez
...con reglas del negocio... (2)
A Favor: Revelan muchas inconsistencias No requiere una segunda base
En contra: Difíciles de hallar/explicitar Requieren “expertos” Pueden cambiar con el tiempo Se aplican una vez, o son permanentes
34
UA
S C
arlo
s L
ópez
Váz
quez
...con reglas del negocio... (3)
Ej.: Caso del Censo (López, JISS 1997)
Escaneado+interpretación automática Sólo datos categóricos Digitar dos veces, o sólo lo erróneo
Reglas derivadas de los datos ==>¡No hay experto!
Resultado de la simulación:
35
UA
S C
arlo
s L
ópez
Váz
quez
0 2 4 6 8 10 12 14 16 18 200
10
20
30
40
50
60
70
80
90
100Overall results vs. effort level
3% of the surveys initially contaminatedwith 2 errors each; Marginal 0.10%
% of controlled data
% o
f err
ors
foun
d
Bes
t po
ssib
le o
pera
tion
line
Expected duplicate performance locus
...con reglas del negocio... (4)
36
UA
S C
arlo
s L
ópez
Váz
quez
Tres niveles, tres generaciones
Detección + corrección
Mejora de procesos
Diseño de procesos
37
UA
S C
arlo
s L
ópez
Váz
quez
Mejora de procesos
¿Y la prevención? Ej.: 1000 datos/día, 20 campos, 2% errores
==>¡400 errores/día!
38
UA
S C
arlo
s L
ópez
Váz
quez
Un ejemplo...
VENTAS
ÓRDENES
DESPACHO
FACTURACIÓN
39
UA
S C
arlo
s L
ópez
Váz
quez
Prevención...
Uso extenso de reglas del negocio Quizá pequeños cambios
» Ej.: habilitar/inhibir edición
Corrección temprana Seguimiento Más barato que corrección Única alternativa si “llueven datos”
40
UA
S C
arlo
s L
ópez
Váz
quez
Tres niveles, tres generaciones
Detección + corrección
Mejora de procesos
Diseño de procesos
41
UA
S C
arlo
s L
ópez
Váz
quez
Diseño del proceso
“a prueba de errores” Exitosa en manufactura
Ideas: Eliminar re-digitación Incorporar reglas Reasignar propiedades
No hay muchos ejemplos con datos
42
UA
S C
arlo
s L
ópez
Váz
quez
Tópicos a considerar
Introducción Algunas definiciones Estrategias Qué datos mejorar Caso de una única BD Caso del DW
43
UA
S C
arlo
s L
ópez
Váz
quez
¿Qué datos mejorar... primero?
Tan importante como la estrategia Hay que lograr éxitos al principio Buscar consensos Considerar varios criterios:
– estrategia global de la empresa
– relevancia para problemas ya conocidos
– distancia ser<==>deber ser
– impacto económico
44
UA
S C
arlo
s L
ópez
Váz
quez
Tópicos a considerar
Introducción Algunas definiciones Estrategias Qué datos mejorar Caso de una única BD Caso del DW
45
UA
S C
arlo
s L
ópez
Váz
quez
Una única base
1) Definir estrategiaEstrategiaProblemas conocidosNivel de errorImpacto ($)
Datos prioritarios
Cambios lentos
Cambios rápidos
Caso intermedio
46
UA
S C
arlo
s L
ópez
Váz
quez
Hay casos mezclados...
BD de Clientes: Cliente.FechaNacimiento
Cliente.Domicilio
Cliente.Saldo
¿Razones?– acotar el trabajo de limpieza– asegurar un retorno
47
UA
S C
arlo
s L
ópez
Váz
quez
Tópicos a considerar
Introducción Algunas definiciones Estrategias Qué datos mejorar Caso de una única BD Caso del DW
48
UA
S C
arlo
s L
ópez
Váz
quez
Muchas bases...
A) Bases que no se solapan
49
UA
S C
arlo
s L
ópez
Váz
quez
Muchas bases...
B) Bases cliente-servidor
50
UA
S C
arlo
s L
ópez
Váz
quez
Muchas bases...
C) Bases solapadas pero independientes
51
UA
S C
arlo
s L
ópez
Váz
quez
Más de una base...
52
UA
S C
arlo
s L
ópez
Váz
quez
Vale la pena mencionar...
Problemas con datos, no con SGBD... Duplicación por razones técnicas
– Backup– Redundancia quizá requerida
==> ¡Usar Master-Slave! DW explícitamente crea redundancia DW recibe datos de varias fuentes
53
UA
S C
arlo
s L
ópez
Váz
quez
El caso del DW
Identificar los datos requeridos Identificar la(s) fuente(s) Estimar niveles de error y caracterizar
velocidad de cambios
Tres pasos:
54
UA
S C
arlo
s L
ópez
Váz
quez
Resumen
Plan operacional:– Detección+corrección– Manejo de procesos– Diseño de procesos
Pueden convivir Datos críticos Controlar redundancia
55
UA
S C
arlo
s L
ópez
Váz
quez
Gestión de Calidad de Datos
Carlos Lópezcarlos.lopez@ieee.org
Universitario Autónomo del Sur - 2005Universitario Autónomo del Sur - 2005
Estrategias para Mejorar
Viene de:
Introducción
Continúa con:
Política de Calidad de Datos
top related