minería de datos arturo olvera lópezaolvera/md-v17/d-md-ii-ver2017.pdf · 2017. 6. 6. ·...

46
By A. Olvera By A. Olvera 1 Benemérita Universidad Autónoma de Puebla Facultad de Ciencias de la Computación Minería de Datos Arturo Olvera López [email protected]

Upload: others

Post on 24-Aug-2020

2 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Minería de Datos Arturo Olvera Lópezaolvera/MD-V17/D-MD-II-Ver2017.pdf · 2017. 6. 6. · Transformación de Datos Incluye: Suavizado Agregación Generalización Normalización

By A. OlveraBy A. Olvera

111

Benemérita Universidad Autónoma de Puebla

Facultad de Ciencias de la Computación

Minería de Datos

Arturo Olvera Ló[email protected]

Page 2: Minería de Datos Arturo Olvera Lópezaolvera/MD-V17/D-MD-II-Ver2017.pdf · 2017. 6. 6. · Transformación de Datos Incluye: Suavizado Agregación Generalización Normalización

By A. Olvera

2121

Pre-Procesamiento

Page 3: Minería de Datos Arturo Olvera Lópezaolvera/MD-V17/D-MD-II-Ver2017.pdf · 2017. 6. 6. · Transformación de Datos Incluye: Suavizado Agregación Generalización Normalización

By A. Olvera

2222

Pre-Procesamiento

� Necesidad de pre-procesamiento

Page 4: Minería de Datos Arturo Olvera Lópezaolvera/MD-V17/D-MD-II-Ver2017.pdf · 2017. 6. 6. · Transformación de Datos Incluye: Suavizado Agregación Generalización Normalización

By A. Olvera

Tipos de Atributos

Page 5: Minería de Datos Arturo Olvera Lópezaolvera/MD-V17/D-MD-II-Ver2017.pdf · 2017. 6. 6. · Transformación de Datos Incluye: Suavizado Agregación Generalización Normalización

By A. Olvera

Tipos de atributos

Datos

-Numéricos -Nominales

-Binarios

-n-arios

-Ordinales

Page 6: Minería de Datos Arturo Olvera Lópezaolvera/MD-V17/D-MD-II-Ver2017.pdf · 2017. 6. 6. · Transformación de Datos Incluye: Suavizado Agregación Generalización Normalización

By A. Olvera

2525

Data Summarization

Page 7: Minería de Datos Arturo Olvera Lópezaolvera/MD-V17/D-MD-II-Ver2017.pdf · 2017. 6. 6. · Transformación de Datos Incluye: Suavizado Agregación Generalización Normalización

By A. Olvera

2626

Data Summarization

� Es útil tener conocimiento global de los datos

– Métricas de dispersión

– Métricas tendencia central

� Con base en estas técnicas se puede tener un

panorama general de las características de

los datos

Page 8: Minería de Datos Arturo Olvera Lópezaolvera/MD-V17/D-MD-II-Ver2017.pdf · 2017. 6. 6. · Transformación de Datos Incluye: Suavizado Agregación Generalización Normalización

By A. Olvera

2727

Tendencia central

� Media aritmética

� Media ponderada

� Media recortada??

Page 9: Minería de Datos Arturo Olvera Lópezaolvera/MD-V17/D-MD-II-Ver2017.pdf · 2017. 6. 6. · Transformación de Datos Incluye: Suavizado Agregación Generalización Normalización

By A. Olvera

2828

Mediana

� Comúnmente cuando los datos son

asimétricos

� Mediana, métrica holística

– Interpolada:

� Moda

� Midrange (Promedio�mayor y menor)

Page 10: Minería de Datos Arturo Olvera Lópezaolvera/MD-V17/D-MD-II-Ver2017.pdf · 2017. 6. 6. · Transformación de Datos Incluye: Suavizado Agregación Generalización Normalización

By A. Olvera

2929

Tendencia central

Page 11: Minería de Datos Arturo Olvera Lópezaolvera/MD-V17/D-MD-II-Ver2017.pdf · 2017. 6. 6. · Transformación de Datos Incluye: Suavizado Agregación Generalización Normalización

By A. Olvera

3030

Métricas de dispersión

� Rangos, cuantiles, IQR, Desv. Estándar

� kth-percentil

� Cuartil

� IQR-> Dispersión

– Detección de outliers

� Five-number summary:

<Min,Q1,Median,Q3,Max>

Page 12: Minería de Datos Arturo Olvera Lópezaolvera/MD-V17/D-MD-II-Ver2017.pdf · 2017. 6. 6. · Transformación de Datos Incluye: Suavizado Agregación Generalización Normalización

By A. Olvera

3131

Boxplots

Q3

Mediana

Q1

Maxc

Min

5-Number Summary

Page 13: Minería de Datos Arturo Olvera Lópezaolvera/MD-V17/D-MD-II-Ver2017.pdf · 2017. 6. 6. · Transformación de Datos Incluye: Suavizado Agregación Generalización Normalización

By A. Olvera

3232

Varianza:

σ suele emplearse como métrica de dispersión

– Sólo si se ha seleccionado la media

– Qué ocurre con σ=0????

• Por qué??

Desviación estándar:

Page 14: Minería de Datos Arturo Olvera Lópezaolvera/MD-V17/D-MD-II-Ver2017.pdf · 2017. 6. 6. · Transformación de Datos Incluye: Suavizado Agregación Generalización Normalización

By A. Olvera

3333

Gráficas/Visualización

Page 15: Minería de Datos Arturo Olvera Lópezaolvera/MD-V17/D-MD-II-Ver2017.pdf · 2017. 6. 6. · Transformación de Datos Incluye: Suavizado Agregación Generalización Normalización

By A. Olvera

3434

Gráficas/Visualización

� De manera gráfica, se resume la información:

� Histogramas

� Quantile plot

Page 16: Minería de Datos Arturo Olvera Lópezaolvera/MD-V17/D-MD-II-Ver2017.pdf · 2017. 6. 6. · Transformación de Datos Incluye: Suavizado Agregación Generalización Normalización

By A. Olvera

3535

Gráficas/Visualización

� Quantile-Quantile plot

Page 17: Minería de Datos Arturo Olvera Lópezaolvera/MD-V17/D-MD-II-Ver2017.pdf · 2017. 6. 6. · Transformación de Datos Incluye: Suavizado Agregación Generalización Normalización

By A. Olvera

3636

Gráficas/Visualización

� Scatter plot

Page 18: Minería de Datos Arturo Olvera Lópezaolvera/MD-V17/D-MD-II-Ver2017.pdf · 2017. 6. 6. · Transformación de Datos Incluye: Suavizado Agregación Generalización Normalización

By A. Olvera

3737

Gráficas/Visualización

� Scatter plot

Page 19: Minería de Datos Arturo Olvera Lópezaolvera/MD-V17/D-MD-II-Ver2017.pdf · 2017. 6. 6. · Transformación de Datos Incluye: Suavizado Agregación Generalización Normalización

By A. Olvera

3838

Scatter 3D

Page 20: Minería de Datos Arturo Olvera Lópezaolvera/MD-V17/D-MD-II-Ver2017.pdf · 2017. 6. 6. · Transformación de Datos Incluye: Suavizado Agregación Generalización Normalización

By A. Olvera

3939

Chernoff faces

Page 21: Minería de Datos Arturo Olvera Lópezaolvera/MD-V17/D-MD-II-Ver2017.pdf · 2017. 6. 6. · Transformación de Datos Incluye: Suavizado Agregación Generalización Normalización

By A. Olvera

4040

Tag Cloud

Page 22: Minería de Datos Arturo Olvera Lópezaolvera/MD-V17/D-MD-II-Ver2017.pdf · 2017. 6. 6. · Transformación de Datos Incluye: Suavizado Agregación Generalización Normalización

By A. Olvera

Limpieza de datos

Page 23: Minería de Datos Arturo Olvera Lópezaolvera/MD-V17/D-MD-II-Ver2017.pdf · 2017. 6. 6. · Transformación de Datos Incluye: Suavizado Agregación Generalización Normalización

By A. Olvera

4242

Limpieza de datos

� Valores faltantes

– Al menos 6 soluciones a este fenómeno

� Datos con ruido

– Técnicas de Suavizado

Page 24: Minería de Datos Arturo Olvera Lópezaolvera/MD-V17/D-MD-II-Ver2017.pdf · 2017. 6. 6. · Transformación de Datos Incluye: Suavizado Agregación Generalización Normalización

By A. Olvera

4343

Limpieza de datos

� Suavizado� Binning

Page 25: Minería de Datos Arturo Olvera Lópezaolvera/MD-V17/D-MD-II-Ver2017.pdf · 2017. 6. 6. · Transformación de Datos Incluye: Suavizado Agregación Generalización Normalización

By A. Olvera

4444

Limpieza de datos

� Suavizado�Regresión

-funciones locales

� Suavizado�Clustering

Page 26: Minería de Datos Arturo Olvera Lópezaolvera/MD-V17/D-MD-II-Ver2017.pdf · 2017. 6. 6. · Transformación de Datos Incluye: Suavizado Agregación Generalización Normalización

By A. Olvera

Integración de datos

Page 27: Minería de Datos Arturo Olvera Lópezaolvera/MD-V17/D-MD-II-Ver2017.pdf · 2017. 6. 6. · Transformación de Datos Incluye: Suavizado Agregación Generalización Normalización

By A. Olvera

4646

Integración de datos

� Recolección de datos -> Redundancia

� Análisis de correlación

– Coeficiente de correlación:

Page 28: Minería de Datos Arturo Olvera Lópezaolvera/MD-V17/D-MD-II-Ver2017.pdf · 2017. 6. 6. · Transformación de Datos Incluye: Suavizado Agregación Generalización Normalización

By A. Olvera

4747

Data Integration

� Análisis de correlación

– Chi-cuadrada

Page 29: Minería de Datos Arturo Olvera Lópezaolvera/MD-V17/D-MD-II-Ver2017.pdf · 2017. 6. 6. · Transformación de Datos Incluye: Suavizado Agregación Generalización Normalización

By A. Olvera

Ejemplo

Page 30: Minería de Datos Arturo Olvera Lópezaolvera/MD-V17/D-MD-II-Ver2017.pdf · 2017. 6. 6. · Transformación de Datos Incluye: Suavizado Agregación Generalización Normalización

By A. Olvera

Chi squared

Page 31: Minería de Datos Arturo Olvera Lópezaolvera/MD-V17/D-MD-II-Ver2017.pdf · 2017. 6. 6. · Transformación de Datos Incluye: Suavizado Agregación Generalización Normalización

By A. Olvera

5050

Transformación de Datos

Incluye :

�Suavizado

�Agregación

�Generalización

�Normalización

�Construcción de atributos

Page 32: Minería de Datos Arturo Olvera Lópezaolvera/MD-V17/D-MD-II-Ver2017.pdf · 2017. 6. 6. · Transformación de Datos Incluye: Suavizado Agregación Generalización Normalización

By A. Olvera

5151

Normalización

� Min-max

� Z-score

� Decimal scaling

Page 33: Minería de Datos Arturo Olvera Lópezaolvera/MD-V17/D-MD-II-Ver2017.pdf · 2017. 6. 6. · Transformación de Datos Incluye: Suavizado Agregación Generalización Normalización

By A. Olvera

Tarea

Considere los siguientes datos:

300,123,356,89,150,600,450,970, 1078, 1998

a) Normalizar los datos mediante min-max con min=5 y max=10

b) Normalizar los datos mediante z-score

c) Normalizar los datos mediante decimal scaling

Page 34: Minería de Datos Arturo Olvera Lópezaolvera/MD-V17/D-MD-II-Ver2017.pdf · 2017. 6. 6. · Transformación de Datos Incluye: Suavizado Agregación Generalización Normalización

By A. Olvera

5353

Data reduction

Page 35: Minería de Datos Arturo Olvera Lópezaolvera/MD-V17/D-MD-II-Ver2017.pdf · 2017. 6. 6. · Transformación de Datos Incluye: Suavizado Agregación Generalización Normalización

By A. Olvera

5454

Data reduction

-Data cube aggregation

-Attribute/Instance subset selection

-Dimensionality reduction

-Numerosity reduction

-Discretization and concept

hierarchy generation

Page 36: Minería de Datos Arturo Olvera Lópezaolvera/MD-V17/D-MD-II-Ver2017.pdf · 2017. 6. 6. · Transformación de Datos Incluye: Suavizado Agregación Generalización Normalización

By A. Olvera

5555

Attribute Subset Selection

Métodos óptimos, subóptimos, locales

Page 37: Minería de Datos Arturo Olvera Lópezaolvera/MD-V17/D-MD-II-Ver2017.pdf · 2017. 6. 6. · Transformación de Datos Incluye: Suavizado Agregación Generalización Normalización

By A. Olvera

5656

Instance Selection

Page 38: Minería de Datos Arturo Olvera Lópezaolvera/MD-V17/D-MD-II-Ver2017.pdf · 2017. 6. 6. · Transformación de Datos Incluye: Suavizado Agregación Generalización Normalización

By A. Olvera

5757

Dimensionality reduction

� Wavelet

Page 39: Minería de Datos Arturo Olvera Lópezaolvera/MD-V17/D-MD-II-Ver2017.pdf · 2017. 6. 6. · Transformación de Datos Incluye: Suavizado Agregación Generalización Normalización

By A. Olvera

5858

Dimensionality reduction

� PCA

Page 40: Minería de Datos Arturo Olvera Lópezaolvera/MD-V17/D-MD-II-Ver2017.pdf · 2017. 6. 6. · Transformación de Datos Incluye: Suavizado Agregación Generalización Normalización

By A. Olvera

5959

Numerosity reduction

� Regression and Log-Linear models

� Histogramas:

� Al menos 4 reglas de división para histogramas

– Igual ancho

– Igual Frecuencia

– V-óptimo

– Maxdiff

Page 41: Minería de Datos Arturo Olvera Lópezaolvera/MD-V17/D-MD-II-Ver2017.pdf · 2017. 6. 6. · Transformación de Datos Incluye: Suavizado Agregación Generalización Normalización

By A. Olvera

6060

Numerosity reduction

� Clustering

� Sampling

� Discretization

Page 42: Minería de Datos Arturo Olvera Lópezaolvera/MD-V17/D-MD-II-Ver2017.pdf · 2017. 6. 6. · Transformación de Datos Incluye: Suavizado Agregación Generalización Normalización

By A. Olvera

6161

Sampling

� With/

WithoutReplacement

� Cluster Sample

� Stratiffied

Page 43: Minería de Datos Arturo Olvera Lópezaolvera/MD-V17/D-MD-II-Ver2017.pdf · 2017. 6. 6. · Transformación de Datos Incluye: Suavizado Agregación Generalización Normalización

By A. Olvera

6262

Data discretization

� Numérico -> No numérico

� Concept Hierarchy

Page 44: Minería de Datos Arturo Olvera Lópezaolvera/MD-V17/D-MD-II-Ver2017.pdf · 2017. 6. 6. · Transformación de Datos Incluye: Suavizado Agregación Generalización Normalización

By A. Olvera

6363

Discretization methods

---BinningBinning�������� un solo valorun solo valor

--HistogramHistogram analysisanalysis �������� IntervalosIntervalos

--EntropyEntropy

--ChiMergeChiMerge

Page 45: Minería de Datos Arturo Olvera Lópezaolvera/MD-V17/D-MD-II-Ver2017.pdf · 2017. 6. 6. · Transformación de Datos Incluye: Suavizado Agregación Generalización Normalización

By A. Olvera

6464

Entropy based discretization

MIN

Page 46: Minería de Datos Arturo Olvera Lópezaolvera/MD-V17/D-MD-II-Ver2017.pdf · 2017. 6. 6. · Transformación de Datos Incluye: Suavizado Agregación Generalización Normalización

By A. Olvera

6565

Interval Merging by χχχχ2 Analysis

� Análogo al caso discreto

� Valores pequeños de χ2 indican distribuciones

similares

� Umbral pequeño: 0.1, 0.01