limpieza de datos y selecci n de atributos
Post on 29-Sep-2015
8 Views
Preview:
DESCRIPTION
TRANSCRIPT
-
Limpieza de los datos
Richard WeberFrancisco Cisternas
(frcister@ing.uchile.cl)Departamento de Ingeniera
IndustrialUniversidad de Chile
-
Limpieza de datos
Tipos de Datos perdidos (Taxonoma Clsica) [Little and Rubin, 1987]:Missing Completely at Random (MCAR):Los valores perdidos no se relacionan con las
variables en la base de datosMissing at Random (MAR):Los valores perdidos se relacionan con los valores
de las otras variables dentro de la base de datos.Not Missing at Random or Nonignorable
(NMAR):Los valores perdidos dependen del valor de la
variable.
-
Valores Perdidos: la Historia
La teora y prctica con valores perdidos:Antes de los 70s y los 70s: Procedimientos
particulares para cada caso, no existe teora. Ej. eliminacin de casos (case deletion), single imputation (modelos ad-hoc).Los 80s: Algoritmos basados en
estimaciones de mxima verosimilitud, algoritmo EM.Los 90s: Multiple Imputation, Cadenas de
Markov (Markov Chain), Monte Carlo, Mtodos Bayesianos.
-
Tcnicas Populares de Imputation
1. Eliminacin de datos: Eliminacin de Casos (listwise or casewise
deletion) Eliminacin de pares (o tuplas) de casos
(pairwise data delection)
Donde encontrarlo: La mayora de paquetes estadsticos, SAS, SPSS, etc.
Cuando Ocuparlo MCAR
-
Tcnicas Populares de Imputation
2. Sustitucin por la media (mediana y moda):1
2
a
ayyy ,,, 21 K
na yy ,,1 K+
Observados
=
=a
iiobs ya
y1
1Reemplazar con
Perdidosn
Antes Despus
Corrompe la distribucin marginal de Y
-
Tcnicas Populares de Imputation
2. Sustitucin por la media:Antes Despus
Corrompe la distribucin marginal de Y Las correlaciones y covarianzas con otras
variables (incluyendo en target)
-
Tcnicas Populares de Imputation
3. Simple Hot Deck:
Reemplaza los valores perdidos con un valor aleatorio obtenido de la distribucin de probabilidades de la variable.
Preserva la distribucin marginal de la variable.
Distorsiona las correlaciones y covarianzas.
Es factible de usar slo para anlisis univariado.
-
Tcnicas Populares de Imputation
4. Mtodos de Regresin: Reemplazar los valores
perdidos con un valor obtenido a travs de un modelo de regresin
yx1
ayyy ,,, 21 K
na yy ,,1 K+
2 Observados
a
Perdidosn
y
xProblema: Esto aumenta las correlaciones
-
Tcnicas Populares de Imputation
4. Mtodos de Regresin:
Mejor idea: Reemplazar los valores perdidos con un valor obtenido a travs de un modelo de regresin ms los residuos de ste
y
x
Se requiere un modelo Se asume que los datos perdidos no dependen
de los valores de y Es difcil de ocupar cuando se tiene que todos los
campos presentan valores perdidos.
-
Tcnicas Populares de Imputation
5. Mtodos de rboles de Decisin: Reemplazar los valores
perdidos con un valor obtenido a travs de un modelo de rboles de Decisin
yxr1
ayyy ,,, 21 K
na yy ,,1 K+
2 Observados
a
Perdidosn
Se requiere un modelo Se asume que los datos perdidos no dependen
de los valores de y Problemas con datos multivariados y categricos
con ms de dos valores.
-
Tcnicas Populares de Imputation
5. El Mtodo EM: Propsito del Mtodo: Encontrar la distribucin
subyacente de los datos de muestreo. Idea General: Si se tienen datos suficientes en un atributo, se pueden lograr
estimaciones de mxima verosimilitud Si se tiene algo de conocimiento del problema entonces se
pueden ajustar los parmetros para obtener valores de los datos perdidos ciertos.
-
Tcnicas Populares de Imputation
5. El Mtodo EM: Como Funciona (sin frmulas):
1. Darle valores a los parmetros del modelo.2. Repetir este paso hasta alcanzar el resultado
deseado:a. Paso Expectation (E): Completar los datos dndole
valores a los valores perdidos (dando por conocido el valor de los parmetros.
b. Paso Maximitation (M): Calcular los mejores parmetros basados en los datos completos.
Ejemplo, utilizar la distribucin normal. Tipos de resolucin: Suave Fuerte
-
Tcnicas Populares de Imputation
6. Multiple Imputation: Est basado en tcnicas de simulacin
(no estadstica necesariamente) Cmo funciona?: Reemplazar cada una de los valores perdidos
con m>1 valores simulados. Se analizan cada uno de los m subconjuntos
de la misma forma. Combinar los resultados obtenidos.
Por qu usarla? Es altamente eficiente con pocos datos y
pocas muestras vlidas.
-
Tcnicas Populares de Imputation
6. Multiple Imputation:
Donde se le pone talento, en la combinacin de resultados.
Existen muchas formas de combinarlos.
-
Pro y Contra
A favor:Nos olvidamos del problema de los valores
perdidos.No descartamos informacin.
En contra:La tcnicas Imputation alteran los resultados
de los modelos.El esfuerzo por encontrar una buena tcnica
de imputation puede no siempre valer la pena.
-
Software
Nombre Software
Mtodo Supuestos Cometarios
AMELIA Multiple Imputation
Datos perdidos son aleatorios (MAR)
Fcil de usar, difcil de aplicar
SAS Base (e.g., PROC STANDARD)
Mean substitution
Data are missing completely at random (MCAR)
Es fcil de usar si te acostumbras a la interfaz
SPSS Base Mean substitution
Data are missing completely at random (MCAR)
Es fcil de usar pero si los datos perdidos superan el 5% los resultados son malos
Otros Software, AMOS, MX, NORM, SOLAS.
-
Seleccin de atributos
Richard WeberFrancisco Cisternas
(frcister@ing.uchile.cl)Departamento de Ingeniera
IndustrialUniversidad de Chile
-
PROCESO DE KDD KNOWLEDGE DISCOVERY IN DATABASES
KDD es el proceso no-trivial de identificar patrones previamente desconocidos, vlidos, nuevos, potencialmente tiles y comprensibles dentro de los datos
-
Seleccin de atributos
Por qu es importante una buena seleccin de atributos? Reduccin de complejidad del clasificadorMs eficiente: tenemos que recolectar menos
atributos. Ms efectiva: identificar atributos irrelevantes,
redundantes y con ruido
-
Clasificacin de tcnicas para la seleccin de atributos
Filter
Wrapper
Embedded methods
-
Filter
Correlacin entre atributos y variable dependiente
Relacin entre atributo y variable dependiente Test chi-cuadrado para atributos categricos ANOVA (Analysis of Variance) para atributos
numricos
-
Test Chi-cuadrado
Goodness of FitIndependence of two variables Hypotheses concerning proportions
-
Test Chi-cuadrado: Independencia de dos variables
Tenemos 2 variables categricas Hiptesis: estas variables son
independienteIndependencia significa: Conocimiento de
una de las dos variables no afecta la probabilidad de tomar ciertos valores de la otra variable
-
Test Chi-cuadrado: Tabla de contingencia
Tabla de contingencia: matriz con r filas y k columnas, donde
r=nmero de valores de variable 1 k=nmero de valores de variable 2
-
Test Chi-cuadrado: Tabla de contingencia
Ejemplo: Variable 1=Edad, variable 2=sexoGrado de libertad (degree of freedom): df=(r-1)(k-1)
Idea: Comparar frecuencia esperada con frecuencia observada
Hiptesis nula: variables son independientes
SexoEdad masculino femenino Total
< 30 60 50 110
>= 30 80 10 90
Total 140 60 200
r=2
k=2
-
Test Chi-cuadrado: Test
Frecuencia esperada de una celda fe:
fe = (fr*fk)/ncon: fr = frecuencia total en fila rfk = frecuencia total en columna k Ejemplo: r=k=1; fr=110; fk=140; n=200fe = (110*140)/200=77
SexoEdad masculino femenino Total
< 30 60 50 110
>= 30 80 10 90
Total 140 60 200
-
Test Chi-cuadrado: Frecuencia esperada
Frecuencia esperada vs. observada para todas las celdas:
SexoEdad masculino femenino Total
< 30 60 50 110
>= 30 80 10 90
Total 140 60 20020060140Total
902763>= 30
1103377< 30
Totalfemenino masculino EdadSexo
-
Test Chi-cuadrado
H0: Edad y sexo son independiente H1: Edad y sexo son dependiente (hay una relacin entre edad
y sexo) df = 1 = (r-1)*(k-1)
Valor crtico de chi-cuadrado (df=1, =0,01)=6,63 (ver tabla)
Chi-cuadrado =
=27,8 > 6,63 => hay que rechazar H0=>edad y sexo son dependiente
27633377)2710()6380()3350()7760()( 22222 +++=fe eo ff
-
Wrapper: Clamping
Clamping: Utiliza la herramienta de seleccin para examinar que atributos son ms relevantes para representar la variable objetivo.
Ranking de atributos.Mtodo independiente de la herramienta de
clasificacin.Algunas variantes podran mejorar los
resultados (principal problema, Miopa)
-
Embedded methods: Decision Trees
Mtodos embebidos: Existen tcnicas para el anlisis de datos que involucran en su procesamiento la seleccin de atributosEl ejemplo principal: rboles de decisin (ID3,
C4.5, CART )
Limpieza de datosValores Perdidos: la HistoriaTcnicas Populares de ImputationTcnicas Populares de ImputationTcnicas Populares de ImputationTcnicas Populares de ImputationTcnicas Populares de ImputationTcnicas Populares de ImputationTcnicas Populares de ImputationTcnicas Populares de ImputationTcnicas Populares de ImputationTcnicas Populares de ImputationTcnicas Populares de ImputationPro y ContraSoftwarePROCESO DE KDD KNOWLEDGE DISCOVERY IN DATABASESSeleccin de atributosClasificacin de tcnicas para la seleccin de atributosFilterTest Chi-cuadradoTest Chi-cuadrado: Independencia de dos variablesTest Chi-cuadrado: Tabla de contingenciaTest Chi-cuadrado: Tabla de contingenciaTest Chi-cuadrado: TestTest Chi-cuadrado: Frecuencia esperadaTest Chi-cuadradoWrapper: ClampingEmbedded methods: Decision Trees
top related