curso de estadística no-paramétrica - sesión 3:...

9
Curso de Estadística no-paramétrica Sesión 3: Regresión no paramétrica y Contrastes de Aleatoriedad y bondad de ajuste Facundo Muñoz Grup d’Estadística espacial i Temporal Departament d’Estadística en Epidemiologia i Medi Ambient i Investigació Operativa Universitat de València Junio 2013 Regresión no paramétrica Contraste de aleatoriedad Bondad de ajuste Ejemplo Mortalidad infantil vs. PIB mortalidadInfantil-PIB.csv 1 ●● ●● 0 50 100 150 0 10000 20000 30000 40000 PIB per cápita (US$) Mortalidad infantil (x 1000) Relación entre las tasas de mortalidad infantil (por mil nacidos vivos) y el PIB per cápita (en dólares) para 193 países del mundo. Las variables están claramente asociadas, pero la relación es no lineal. La línea de regresión no paramétrica fue producida por el método de regresión polinomial local lowess. Uno de los métodos no paramétricos más comunes. 1 John Fox and Sanford Weisberg (2011). An R Companion to Applied Regression, Second Edition. Thousand Oaks CA: Sage. URL: http://socserv.socsci.mcmaster.ca/jfox/Books/Companion 2 / 18

Upload: trinhkiet

Post on 02-Oct-2018

228 views

Category:

Documents


1 download

TRANSCRIPT

Page 1: Curso de Estadística no-paramétrica - Sesión 3: …inscripciones.adeit-uv.es/econgres/finanzas_2012-13/Tema3-ho.pdf · CursodeEstadísticano-paramétrica Sesión3:RegresiónnoparamétricayContrastesdeAleatoriedad

Curso de Estadística no-paramétricaSesión 3: Regresión no paramétrica y Contrastes de Aleatoriedad

y bondad de ajuste

Facundo Muñoz

Grup d’Estadística espacial i Temporal Departament d’Estadísticaen Epidemiologia i Medi Ambient i Investigació Operativa

Universitat de València

Junio 2013Regresión no paramétrica Contraste de aleatoriedad Bondad de ajuste

EjemploMortalidad infantil vs. PIB

mortalidadInfantil-PIB.csv1

● ●●

● ●

●●

● ●● ●●

● ●

●● ●

●●

●●

●●

● ●

●●

●●

●● ●

●●

●●

●●

● ●

●●

● ●

●●

0

50

100

150

0 10000 20000 30000 40000PIB per cápita (US$)

Mor

talid

ad in

fant

il (x

100

0)

Relación entre las tasas demortalidad infantil (por mil nacidosvivos) y el PIB per cápita (endólares) para 193 países del mundo.

Las variables están claramente asociadas, pero la relación es no lineal.La línea de regresión no paramétrica fue producida por el método deregresión polinomial local lowess. Uno de los métodos noparamétricos más comunes.

1John Fox and Sanford Weisberg (2011). An R Companion to AppliedRegression, Second Edition. Thousand Oaks CA: Sage. URL:http://socserv.socsci.mcmaster.ca/jfox/Books/Companion 2 / 18

Page 2: Curso de Estadística no-paramétrica - Sesión 3: …inscripciones.adeit-uv.es/econgres/finanzas_2012-13/Tema3-ho.pdf · CursodeEstadísticano-paramétrica Sesión3:RegresiónnoparamétricayContrastesdeAleatoriedad

Regresión no paramétrica Contraste de aleatoriedad Bondad de ajuste

Regresión paramétrica vs. no paramétrica

Métodos de regresiónObjetivo: estimar el valor central (media, mediana) de una variablerespuesta y (cuantitativa) como una función de una o más (co)variablespredictivas (también cuantitativas).

Hipótesis de la regresión lineal (paramétrica)Asociación lineal: E (y |x) = µ(x) = α+ βxNormalidad: y |x ∼ N

(µ(x), σ2(x)

)Homocedasticidad: σ2(x) = σ2

IndependenciaLa regresión no paramétrica sustituye la hipótesis de linealidad por la desuavidad en la función de regresión

3 / 18

Regresión no paramétrica Contraste de aleatoriedad Bondad de ajuste

Transformación de variables

Hipótesis de linealidadCuando la hipótesis de linealidad falla, a veces es posible trabajar de formaparamétrica con una transformación de las variables.

Esto suele ser preferible a una regresión no paramétrica

● ●●

● ●

●●

● ●● ●●

●●

●● ●

●●

● ●

●●

● ●

●●

●●

●● ●

●●

●●

●●

● ●

●●

● ●

●●

0

50

100

150

100 1000 10000log−PIB per cápita (US$)

log−

Mor

talid

ad in

fant

il (x

100

0)

Interpretabilidad de loscoeficientes. Pendiente−0,5: por cada puntoporcentual de incremento enel PIB per cápita se observauna reducción de un 0,5% enla mortalidad infantil(elasticidad).

Simplicidad del modelo

4 / 18

Page 3: Curso de Estadística no-paramétrica - Sesión 3: …inscripciones.adeit-uv.es/econgres/finanzas_2012-13/Tema3-ho.pdf · CursodeEstadísticano-paramétrica Sesión3:RegresiónnoparamétricayContrastesdeAleatoriedad

Regresión no paramétrica Contraste de aleatoriedad Bondad de ajuste

Métodos de regresión no paramétrica

Medias móviles: calcular la media de y en una ventana alrededor decada valor de xMedias móviles ponderadas (suavización kernel): ponderar los datosen función de la distanciaRegresión polinomial local: ajustar un polinomio por mínimoscuadrados a los puntos en una ventana local, ponderados por ladistancia

5 / 18

Regresión no paramétrica Contraste de aleatoriedad Bondad de ajuste

Parámetros de ajuste

Función kernelForma de la función de ponderaciónFunciones comunes: uniforme, triangular, gaussiana, tricúbica, etc.Difieren en la rapidez con que decae el peso relativo con la distancia

6 / 18

Page 4: Curso de Estadística no-paramétrica - Sesión 3: …inscripciones.adeit-uv.es/econgres/finanzas_2012-13/Tema3-ho.pdf · CursodeEstadísticano-paramétrica Sesión3:RegresiónnoparamétricayContrastesdeAleatoriedad

Regresión no paramétrica Contraste de aleatoriedad Bondad de ajuste

Parámetros de ajuste

Ancho de bandaRegula a cuántos vecinos afecta la función KernelNormalmente es variable, y se regula para que en cada punto laponderación se realice sobre una cierta proporción de lasobservacionesA mayor ancho de banda, más suave es la curva de regresión

7 / 18

Regresión no paramétrica Contraste de aleatoriedad Bondad de ajuste

Inferencia

En una regresión paramétrica, los objetos de estimación son loscoeficientes de regresión. Rutinariamente se calculan intervalos deconfianza o se contrasta la hipótesis de que sean diferentes de cero.En regresión no paramétrica no hay coeficientes de regresión. Elobjeto central de estimación es la función de regresión.En cambio, se pueden construir bandas de confianza sobre la mediade y para cada valor de x , a partir de las hipótesis de independencia,homocedasticidad y normalidad.

● ●●

● ●

●●

●●

● ●● ●●

● ●

●●

●● ●

●●

●●

●●

●●

● ●

●●

●●

●●

●● ●

●●

●●

●●

● ●

●●

● ●

●●

0

50

100

150

0 10000 20000 30000 40000PIB per cápita (US$)

Mor

talid

ad in

fant

il (x

100

0)

8 / 18

Page 5: Curso de Estadística no-paramétrica - Sesión 3: …inscripciones.adeit-uv.es/econgres/finanzas_2012-13/Tema3-ho.pdf · CursodeEstadísticano-paramétrica Sesión3:RegresiónnoparamétricayContrastesdeAleatoriedad

Regresión no paramétrica Contraste de aleatoriedad Bondad de ajuste

Métodos de regresión no paramétricaImplementación

SPSSPuede añadirse manualmente una curva de regresión (lowess)Pero no parece haber forma de recoger los valores predichos en unanueva variable, ni de utilizar la curva como efecto estimado en unmodelo más complejo, ni de hacer inferenciaEstá disponible sólo como un elemento descriptivo para valorarvisualmente la relación entre dos variables

EjercicioAjustar una curva no paramétrica a los datos demortalidadInfantil-PIB.csv

Explorar las diferencias en el ajuste con diferentes anchos de banda yfunciones kernelAjustar un modelo lineal con las variables transformadas (log)

9 / 18

Regresión no paramétrica Contraste de aleatoriedad Bondad de ajuste

Métodos de regresión no paramétricaMás cosas

En regresión múltiple (i.e., más de una variable predictiva) aparecennuevos problemas (e.g., correlación entre predictores, interacciones,etc.)Una estrategia popular son los Modelos de Regresión Aditivos en losque se especifica la media de la variable respuesta como la suma defunciones suaves de los regresores

E (y |x1, . . . , xk) = α+ f1(x1) + · · ·+ fk(xk)

Cuando la variable respuesta no es Normal, se generaliza todo loanterior a Modelos de Regresión (Aditivos) Generalizados.También aparecen el problema de selección de variables ycomparación de modelosTodo esto se escapa del alcance de este curso, y del software utilizado.

10 / 18

Page 6: Curso de Estadística no-paramétrica - Sesión 3: …inscripciones.adeit-uv.es/econgres/finanzas_2012-13/Tema3-ho.pdf · CursodeEstadísticano-paramétrica Sesión3:RegresiónnoparamétricayContrastesdeAleatoriedad

Regresión no paramétrica Contraste de aleatoriedad Bondad de ajuste

Aleatoriedad o independencia

EjemploQueremos saber si la evolución de cierto valor es aleatoria o sigue algúnpatrón (tendencia, ciclo) que nos permita predecir las ganancias opérdidas.

Esta pregunta la podemos responder con un contraste de aleatoriedadEquivale a preguntarse si las observaciones son independientes entre síMuchos métodos no paramétricos asumen la independencia comohipótesis de trabajo.

11 / 18

Regresión no paramétrica Contraste de aleatoriedad Bondad de ajuste

Test de aleatoriedad por Rachas

Contraste de Wald–WolfowitzTransformar los datos en una secuencia de dos símbolos, de acuerdo a suvalor, y contar el número de rachas de la muestra. Un número de rachasdemasiado alto o demasiado bajo será evidencia de una muestra noaleatoria.

++++++−−−−−− R = 2 rachas (correlación positiva)+−+−+−+−+−+− R = 12 rachas (correlación negativa)+++−−++++−−− R = 4 rachas (posiblem. independientes)

Ejemplo: variable continuaCodificar los datos como + si el valor está por encima de cierto valor,o como − si está por debajo.Si la muestra es aleatoria, se puede calcular el número aproximado deRachas que deberían observarseSe puede establecer cualquier punto de corte

12 / 18

Page 7: Curso de Estadística no-paramétrica - Sesión 3: …inscripciones.adeit-uv.es/econgres/finanzas_2012-13/Tema3-ho.pdf · CursodeEstadísticano-paramétrica Sesión3:RegresiónnoparamétricayContrastesdeAleatoriedad

Regresión no paramétrica Contraste de aleatoriedad Bondad de ajuste

Test de aleatoriedad por RachasImplementación

SPSSLa variable debe ser Cuantitativa, o Nominal, con una codificaciónnuméricaSi es necesario, Transformar:Recodificación automática

Analizar:Pruebas no paramétricas:Rachas...

EjercicioRecodificar automáticamente la variable progenie enprogenie-cebada.csv

Comprobar si la muestra puede considerarse aleatoria utilizandodiversos puntos de corte

13 / 18

Regresión no paramétrica Contraste de aleatoriedad Bondad de ajuste

Variables categóricas

Variables categóricas (o cualitativas, o factores)Aquellas que pueden tomar un número finito de valores

Ejemplos y clasificaciónNominales Grupo sanguíneo {A, B, AB, O}

Dicotómicas o binarias Sexo {H, M}; Factor RH {+, -}Ordinales Concentración {Baja, Media, Alta}; Grupo de edad {0-25,26-40, 40-60, 60+}

SPSSEs importante definir correctamente el tipo de variable en SPSS yaque los métodos disponibles dependen de elloVista de variables:Medida

14 / 18

Page 8: Curso de Estadística no-paramétrica - Sesión 3: …inscripciones.adeit-uv.es/econgres/finanzas_2012-13/Tema3-ho.pdf · CursodeEstadísticano-paramétrica Sesión3:RegresiónnoparamétricayContrastesdeAleatoriedad

Regresión no paramétrica Contraste de aleatoriedad Bondad de ajuste

EjemploCaracterísticas de una progenie

Ejemplo 1.- En un estudio sobre el cruce de variedades de cebada, seobservaron dos características: presentar 2 filas de granos (a) o no (A,dominante), y tener color verde (B, dominante) o ser planta clorótica (b).La combinación de estas características nos da cuatro posibilidades: verdessin dos filas de granos, verdes con dos filas, cloróticas sin dos filas ycloróticas con dos filas. Se recogieron datos de cruces entreheterozigóticos (AaBb), resultando:

Verde sin 2 filas 1178Verde con 2 filas 291

Clorótica sin 2 filas 273Clorótica con 2 filas 156

Total 1898

¿Se cumple la segregación normal dihíbrida con dominación completa(AaBb x AaBb –> 9 A-B- ; 3 A-bb ; 3 aaB- ; 1 aabb)?

15 / 18

Regresión no paramétrica Contraste de aleatoriedad Bondad de ajuste

AbstracciónBondad de ajuste de una población

Tenemos una población (la progenie de los cruces heterozigóticos)Una única variable respuesta: combinación del cruce (categórica con 4categorías).Objetivo: comprobar si se cumplen las proporciones (9/16, 3/16,3/16, 1/16).

16 / 18

Page 9: Curso de Estadística no-paramétrica - Sesión 3: …inscripciones.adeit-uv.es/econgres/finanzas_2012-13/Tema3-ho.pdf · CursodeEstadísticano-paramétrica Sesión3:RegresiónnoparamétricayContrastesdeAleatoriedad

Regresión no paramétrica Contraste de aleatoriedad Bondad de ajuste

Test de bondad de ajuste

Consideremos una variable categórica con k categorías y una muestraaleatoria de N observaciones de esa variable. Las observaciones seclasifican según las k categorías y se representan en una tabla defrecuencias absolutas (O1, . . . ,Ok).Nuestro objetivo es contrastar si la proporción poblacional de cadacategoría (π1, . . . , πk) cumple unas proporciones prefijadas(p1, . . . , pk). H0: π1 = p1, . . . , πk = pk

Si la hipótesis H0 fuera cierta, las frecuencias esperadas seríanEi = Nπi .Para comparar las frecuencias observadas con las frecuenciasesperadas podemos utilizar el estadístico de contraste:

χ2s =

∑i

(Oi − Ei)2

Ei∼ χ2(k − 1)

17 / 18

Regresión no paramétrica Contraste de aleatoriedad Bondad de ajuste

Test de bondad de ajusteImplementación

SPSSLa variable debe ser Nominal, con una codificación numéricaSi no es así, utilizar Transformar:Recodificación automática

Analizar:Pruebas no paramétricas:Chi-cuadrado...

EjercicioComprobar las proporciones teóricas del banco de datosprogenie-cebada.csv

18 / 18