minería de datos arturo olvera lópezaolvera/md-v17/d-md-ii-ver2017.pdf · 2017. 6. 6. ·...
TRANSCRIPT
By A. OlveraBy A. Olvera
111
Benemérita Universidad Autónoma de Puebla
Facultad de Ciencias de la Computación
Minería de Datos
Arturo Olvera Ló[email protected]
By A. Olvera
2121
Pre-Procesamiento
By A. Olvera
2222
Pre-Procesamiento
� Necesidad de pre-procesamiento
By A. Olvera
Tipos de Atributos
By A. Olvera
Tipos de atributos
Datos
-Numéricos -Nominales
-Binarios
-n-arios
-Ordinales
By A. Olvera
2525
Data Summarization
By A. Olvera
2626
Data Summarization
� Es útil tener conocimiento global de los datos
– Métricas de dispersión
– Métricas tendencia central
� Con base en estas técnicas se puede tener un
panorama general de las características de
los datos
By A. Olvera
2727
Tendencia central
� Media aritmética
� Media ponderada
� Media recortada??
By A. Olvera
2828
Mediana
� Comúnmente cuando los datos son
asimétricos
� Mediana, métrica holística
– Interpolada:
� Moda
� Midrange (Promedio�mayor y menor)
By A. Olvera
2929
Tendencia central
By A. Olvera
3030
Métricas de dispersión
� Rangos, cuantiles, IQR, Desv. Estándar
� kth-percentil
� Cuartil
� IQR-> Dispersión
– Detección de outliers
� Five-number summary:
<Min,Q1,Median,Q3,Max>
By A. Olvera
3131
Boxplots
Q3
Mediana
Q1
Maxc
Min
5-Number Summary
By A. Olvera
3232
Varianza:
σ suele emplearse como métrica de dispersión
– Sólo si se ha seleccionado la media
– Qué ocurre con σ=0????
• Por qué??
Desviación estándar:
By A. Olvera
3333
Gráficas/Visualización
By A. Olvera
3434
Gráficas/Visualización
� De manera gráfica, se resume la información:
� Histogramas
� Quantile plot
By A. Olvera
3535
Gráficas/Visualización
� Quantile-Quantile plot
By A. Olvera
3636
Gráficas/Visualización
� Scatter plot
By A. Olvera
3737
Gráficas/Visualización
� Scatter plot
By A. Olvera
3838
Scatter 3D
By A. Olvera
3939
Chernoff faces
By A. Olvera
4040
Tag Cloud
By A. Olvera
Limpieza de datos
By A. Olvera
4242
Limpieza de datos
� Valores faltantes
– Al menos 6 soluciones a este fenómeno
� Datos con ruido
– Técnicas de Suavizado
By A. Olvera
4343
Limpieza de datos
� Suavizado� Binning
By A. Olvera
4444
Limpieza de datos
� Suavizado�Regresión
-funciones locales
� Suavizado�Clustering
By A. Olvera
Integración de datos
By A. Olvera
4646
Integración de datos
� Recolección de datos -> Redundancia
� Análisis de correlación
– Coeficiente de correlación:
By A. Olvera
4747
Data Integration
� Análisis de correlación
– Chi-cuadrada
By A. Olvera
Ejemplo
By A. Olvera
Chi squared
By A. Olvera
5050
Transformación de Datos
Incluye :
�Suavizado
�Agregación
�Generalización
�Normalización
�Construcción de atributos
By A. Olvera
5151
Normalización
� Min-max
� Z-score
� Decimal scaling
By A. Olvera
Tarea
Considere los siguientes datos:
300,123,356,89,150,600,450,970, 1078, 1998
a) Normalizar los datos mediante min-max con min=5 y max=10
b) Normalizar los datos mediante z-score
c) Normalizar los datos mediante decimal scaling
By A. Olvera
5353
Data reduction
By A. Olvera
5454
Data reduction
-Data cube aggregation
-Attribute/Instance subset selection
-Dimensionality reduction
-Numerosity reduction
-Discretization and concept
hierarchy generation
By A. Olvera
5555
Attribute Subset Selection
Métodos óptimos, subóptimos, locales
By A. Olvera
5656
Instance Selection
By A. Olvera
5757
Dimensionality reduction
� Wavelet
By A. Olvera
5858
Dimensionality reduction
� PCA
By A. Olvera
5959
Numerosity reduction
� Regression and Log-Linear models
� Histogramas:
� Al menos 4 reglas de división para histogramas
– Igual ancho
– Igual Frecuencia
– V-óptimo
– Maxdiff
By A. Olvera
6060
Numerosity reduction
� Clustering
� Sampling
� Discretization
By A. Olvera
6161
Sampling
� With/
WithoutReplacement
� Cluster Sample
� Stratiffied
By A. Olvera
6262
Data discretization
� Numérico -> No numérico
� Concept Hierarchy
By A. Olvera
6363
Discretization methods
---BinningBinning�������� un solo valorun solo valor
--HistogramHistogram analysisanalysis �������� IntervalosIntervalos
--EntropyEntropy
--ChiMergeChiMerge
By A. Olvera
6464
Entropy based discretization
MIN
By A. Olvera
6565
Interval Merging by χχχχ2 Analysis
� Análogo al caso discreto
� Valores pequeños de χ2 indican distribuciones
similares
� Umbral pequeño: 0.1, 0.01