clase 12 correlación

26
METODOLOGÍA CUANTITATIVA: CLASE 12 ANÁLISIS ESTADÍSTICO BIVARIADO/MULTIVARIADO: Magíster en Sociología Universidad Alberto Hurtado Gabriela Azócar de la Cruz Juan Ignacio Venegas Ayudante: Martín Icaza

Upload: angelapax

Post on 29-Nov-2015

35 views

Category:

Documents


2 download

TRANSCRIPT

Page 1: Clase 12 Correlación

METODOLOGÍA CUANTITATIVA: CLASE 12ANÁLISIS ESTADÍSTICO BIVARIADO/MULTIVARIADO:

Magíster en Sociología Universidad Alberto Hurtado

Gabriela Azócar de la CruzJuan Ignacio VenegasAyudante: Martín Icaza

Page 2: Clase 12 Correlación

El Análisis EstadísticoEl Análisis Estadístico

Técnica utilizada para analizar información cuantitativa, la cuál se puede dividir en tres grandes áreas:

• Estadística Univariada

• Estadística Bivariada

• Estadística Multivariada

Page 3: Clase 12 Correlación

El Análisis EstadísticoEl Análisis Estadístico

Estadística Bivariada:

• Técnica utilizada para analizar fenómenos en relación a

las relaciones entre dos variables. Ej: Entender la relación

entre los años de estudio y el ingreso del padre.

• Se pueden distinguir 3 formas centrales de analiális

bivariado:

o Medidas de asociación (Chi cuadrado)

o Medidas de correlación (R de Pearsons)

o Pruebas de diferencia (pruebas t, ANOVA).

Page 4: Clase 12 Correlación

Clase de Hoy: Clase de Hoy:

Pruebas de diferencias en la estadística bivariada

• R de Pearson

• Regresión Lineal

Page 5: Clase 12 Correlación

R de Pearson R de Pearson

• Verifica asociación entre dos variables numéricas.

• La idea central en la correlación es la covarianza, la variación conjunta entre dos variables.

• Lo que se observa es si existe relación lineal entre ambas variables

• La correlación es simétrica y no establece causalidad.

• El coeficiente indica intensidad y dirección de la relación. Su fuerza va de -1 a 1.

• Intensidad: el 0 significa ausencia de relación. el 1 es la relación perfecta.

• Rangos:

o 1.00 = relación perfecta

o 0.90 = relación muy fuerte

o 0.75 = relación fuerte

o 0,50 = relación media

o 0,1 0= relación débil

Page 6: Clase 12 Correlación

R de Pearson R de Pearson

• Dirección. Tiene sentido positivo y negativo.

• Correlación positiva: la relación es directa (aumenta A, aumenta B; disminuye A, disminuye B).

• Correlación negativa: la relación es inversa (aumenta A, disminuye B; disminuye A, aumenta B).

• Al elevar el R de Pearson al cuadrado se obtiene el ‘coeficiente de determinación’ que indica la proporción de varianza común entre las dos variables

• R = 0,7

• R2 = 0,49 = 49% de varianza común

Page 7: Clase 12 Correlación

R de Pearson R de Pearson

Prueba Estadística:

• H0 : No existe una correlación entre ambas variables (x e y) en la población.

• H1 : Existe una correlación entre ambas variables (x e y) en la población.

• Lo anterior se decide a través del análisis del valor p asociado al valor del R de Pearson obtenido.

• A menor valor p, mayor evidencia en contra de la hipótesis nula.

• p<0.05: rechazamos la hipótesis nula y concluimos que ambas variables están correlacionadas en la población al 95% de confianza.

• P>0.05: fallamos en rechazar la hipótesis nula y concluimos que ambas variables no están correlacionadas en la población al 95% de confianza.

Page 8: Clase 12 Correlación

R de Pearson R de Pearson Ejemplo:

• ¿Existen una asociación entre edad y posición política en una escala política donde 1 es muy de izquierda y 10 muy de derecha?

• H0 : No hay asociación entre edad y posición política.

• H1 : Hay asociación entre edad y posición política.

• R de Pearson: 0.54

• Valor p : 0.03

• Decisión: Rechazar la hipótesis nula de no correlación entre edad y posición política (p<0.05)

• Podemos decir entonces que en la población hay una asociación entre edad y posición política en el sentido de que mientras más viejo uno sea es más esperable que uno tenga posiciones más de derecha.

Page 9: Clase 12 Correlación

La Regresión LinealLa Regresión Lineal• Es el método de análisis estadístico multivariado usado cuando el

problema del investigador tiene una variable numérica dependiente que intenta ser explicada por una o más variables independientes.

• Si tenemos una sola variable independiente para explicar la variable dependiente hablamos de regresión lineal simple.

• Cuando tenemos dos o más variables independientes hablamos de regresión lineal múltiple.

• Un objetivo central de la regresión lineal es predecir los cambios en la variable dependiente en respuesta a cambios en las variables independientes.

• Las variables independientes a estudiar en relación a la variable dependiente de tipo continua pueden ser tanto continuas, ordinales como nominales (Ej: Edad, GSE, Sexo).

• La regresión lineal es siempre útil si uno esta interesado en predecir la magnitud de la variable dependiente. Ej: Predicción de puntaje PSU a partir de saber NSE y educación de la madre.

9

Page 10: Clase 12 Correlación

Condiciones de AplicaciónCondiciones de AplicaciónVariables:

•La variable dependiente debe ser numérica.

•2 o más variables independientes y una variable dependiente.

•Cada variable independiente debe aportar con información original, a la explicación de la variable dependiente (Evitar a multicolinealidad).

•Variables independientes correlacionadas con variable dependiente.

Supuestos:

•Parámetros constantes, es decir no hay variaciones relevantes en el comportamiento de los sujetos en el tiempo.

•Homocedasticidad: la dispersión del error de la variable dependiente .

Tamaño Muestral:

•A mayor cantidad de variables independientes incluidas en el modelo, mayor debe ser el tamaño muestral.

•La potencia de la predicción aumenta en función del tamaño muestral.

10

Page 11: Clase 12 Correlación

La Regresión Lineal SimpleLa Regresión Lineal Simple

• Se usa cuando queremos analizar una variable dependiente continua en base a sólo una variable independiente.

• El modelo de regresión lineal simple especifica que:

Yi = α + βXi + εi

Variable dependient

e

Constante Variable Independient

e

ErrorPendiente

11

Page 12: Clase 12 Correlación

Ejemplo Regresión Lineal Simple: : Ejemplo Regresión Lineal Simple: : la educación depende del ingreso del la educación depende del ingreso del

padrepadre

Ingreso del padre (X)

Edu

caci

ón (

Y)

o

Ingreso (X)Educación

(Y)2 3

5 1

4 1

2 1

5 4

… …

• La variable independiente Ingreso del padre (X) explica la variable dependiente años de escolaridad (Y).

• El modelo de regresión lineal identifica una recta de regresión que se ajuste mejor a los puntos observados para luego predecir valores de Y en función de valores de X.

12

Page 13: Clase 12 Correlación

Ejemplo Regresión Lineal Simple: Ejemplo Regresión Lineal Simple: la educación depende del ingreso del la educación depende del ingreso del

padrepadre

• De acuerdo a este modelo, los años de escolaridad de una persona pueden ser predichos mediante la formula: Escolaridad = 5 + 0.1 Ingreso del padre.

• Por ejemplo, el modelo predice que una persona cuyo padre tiene un ingreso de 100 pesos debería tener 15 años de escolaridad (5 + 0.1 x 100 = 15).

• El coeficiente β de 0.1 puede ser interpretado en el sentido de que un aumento de 1 peso de ingreso predice el aumento de 0.1 años de escolaridad.

• El coeficiente α puede interpretarse señalando que la escolaridad esperada para alguien con un ingreso de 0 pesos es de 5 años.

Yi = α + β Xi Escolaridad = 5 + 0.1 x Ingreso del padre

13

Page 14: Clase 12 Correlación

La Regresión Lineal MúltipleLa Regresión Lineal Múltiple

• Se utiliza cuando queremos analizar una variable dependiente continua en base a dos o más variables independientes.

• El modelo de regresión lineal múltiple especifica que:

Yi = α + β1X1 + βnXn + εi

Variable dependient

e

Constante V ar. Independiente 1

ErrorPendiente V1.

14

Pendiente V n.

Var. Independiente

n.

Page 15: Clase 12 Correlación

La Regresión Lineal MúltipleLa Regresión Lineal Múltiple

• El modelo de regresión múltiple analiza las relaciones entre una variable dependiente y una variable independiente “controlando o manteniendo constantes” las otras variables independientes.

• La relación entre una variable dependiente y una variable independiente se predice de una manera más clara cuando se controla por una tercera variable que podría estar afectando la asociación entre estas dos variables.

• Una tercera variable intercede la asociación de las otras dos variables cuando está asociada con ambas variables.

15

Page 16: Clase 12 Correlación

Ejemplo sobre control de variablesEjemplo sobre control de variables

• En una regresión lineal simple podríamos encontrar una asociación entre el consumo de coca-cola y tener accidentes de tránsito. Sin embargo, si realizamos una regresión múltiple donde las variables independientes son tanto el consumo de coca-cola como el consumo de alcohol, podremos ver que la asociación inicial entre el consumo de coca-cola y tener accidentes de tránsito desaparece al controlar por la variable consumo de alcohol.

• La relación entre el consumo de coca-cola y tener accidentes de tránsito es espuria debido a que esta asociación sólo se explicaba porque el consumo de coca cola se encuentra asociado al consumo de alcohol.

16

Page 17: Clase 12 Correlación

La Regresión Lineal MúltipleLa Regresión Lineal Múltiple

• Al igual que en el caso de la regresión lineal simple, para el caso de la regresión lineal múltiple se genera un modelo donde se identifica una recta de regresión que se ajuste mejor a los puntos observados para predecir valores de Y en función de valores de todas las variables independientes.

17

Page 18: Clase 12 Correlación

Ejemplo Regresión Lineal MúltipleEjemplo Regresión Lineal Múltiple

18

• Por ejemplo, el modelo predice que una persona que estudió 25 horas y que trabajó 30 horas, debería obtener un puntaje PSU de 505 (300 + (25*9 ) - (10*2)).

• El coeficiente β1 de 9 puede ser interpretado como que, controlado por el número horas de trabajo, por cada hora extra que una persona estudie, se predice que se aumenta en 9 puntos el puntaje PSU.

Y= α + β1*X1 + β2*X2

Puntaje PSU = α + β1*horas de estudio + β2*horas de trabajo remunerado

Si , por ejemplo , obtenemos un modelo donde los parámetros son α = 300, β1 = 9 y β2 = -2,

tenemos que Y= 300 + 9*X1 - 2*X2 , es decir,

Puntaje PSU: 300 + 9 * horas de estudio – 2 * horas de trabajo remunerado

Page 19: Clase 12 Correlación

Ejemplo Regresión Lineal MúltipleEjemplo Regresión Lineal Múltiple

19

• El coeficiente β2 de -2 puede ser interpretado como que, controlado por el número horas de estudio, por cada hora extra que una persona trabaje, se predice que su puntaje PSU disminuye en 2 puntos.

• El coeficiente α de 300, puede interpretarse como el puntaje PSU esperado para alguien que no estudió ni trabajó ninguna hora.

Y= α + β1*X1 + β2*X2

Puntaje PSU = α + β1*horas de estudio + β2*horas de trabajo remunerado

Si por ejemplo , obtenemos un modelo donde los parámetros son α = 300, β1 = 9 y β2 = -2

tenemos que Y= 300 + 9*X1 - 2*X2 , es decir,

Puntaje PSU: 300 + 9 * horas de estudio – 2 * horas de trabajo remunerado

Page 20: Clase 12 Correlación

Ejemplo de Estadística Inferencial con Ejemplo de Estadística Inferencial con regresión lineal regresión lineal

20

Puntaje PSU = α + β1*horas de estudio + β2*horas de trabajo remunerado

Parámetros: α = 300, β1 = 9 y β2 = -2

Variable Pendiente (β)

Valor p

Hrs de estudio

9 0.03

Hrs de trabajo

-2 0.7

• Cada variable independiente tiene un valor de su pendiente (β), el cuál tiene asociado un valor p que permite evaluar la presencian de la asociación de cada variable con la variable dependiente en la población.

Page 21: Clase 12 Correlación

Ejemplo de Estadística Inferencial con Ejemplo de Estadística Inferencial con regresión lineal regresión lineal

21

Puntaje PSU = α + β1*horas de estudio + β2*horas de trabajo remunerado

Parámetros: α = 300, β1 = 9 y β2 = -2

Variable Pendiente (β)

Valor p

Hrs de estudio

9 0.03

Hrs de trabajo

-2 0.7

• El valor p del coeficiente β de la variable Hrs de estudio es menor a 0.05, lo cual significa que, controlado por las hrs de trabajo, la asociación entre las horas de estudio y el puntaje PSU es significativa al 95% de confianza.

• El valor p del coeficiente β de la variable Hrs de trabajo es mayor a 0.05, lo cual significa que, controlado por las hrs de trabajo, la asociación entre las horas de estudio y el puntaje PSU no es estadísticamente significativa.

Page 22: Clase 12 Correlación

Evaluación de los modelosEvaluación de los modelos

22

• Coeficiente de determinación r2: proporción de la varianza de la variable dependiente explicada por el conjunto de variables independientes.

• Anova entre varianza explicada por el modelo y la varianza residual (no explicada por el modelo): se espera que la primera sea mayor que la segunda y que esto se de a un nivel de significación inferior a 0.05.

Page 23: Clase 12 Correlación

Evaluación de las condiciones de aplicación Evaluación de las condiciones de aplicación del modelo mediante al análisis de los del modelo mediante al análisis de los

residuos residuos

23

• El análisis gráfico de los residuos permite determinar si se están cumpliendo con las condiciones de aplicación del modelo.

• La normalidad se verifica a partir de un histograma de los residuos y el trazado de la curva normal. También se puede analizar el gráfico de probabilidad normal, donde se compara la diagonal teórica con la trazada por los valores residuales.

Page 24: Clase 12 Correlación

Evaluación de las condiciones de aplicación Evaluación de las condiciones de aplicación del modelo mediante al análisis de los del modelo mediante al análisis de los

residuos residuos

24

• La homocedasticidad se verifica en un grafico de distribución de los residuos según la variable pronosticada. Se debe observar una distribución aleatoria cercana a 0 y una concentración homogénea de los datos.

Valores pronosticados estandarizados

Valo

res r

esid

uale

s

esta

nd

ari

zad

os

0

0

Page 25: Clase 12 Correlación

Ejercicios:Ejercicios:Ejercicio ¿Existe una asociación entre opinión sobre la situación económica del país, edad, sexo y años de escolaridad?

• Variable Dependiente: De 1 a 5, donde 1 es Muy Mala y 5 es Muy Buena, ¿Cómo calificaría Ud. la actual situación económica del país?

• Variables Independientes: Sexo (Hombre, Mujer), Edad en años, años de escolaridad.

Page 26: Clase 12 Correlación

Ejercicios:Ejercicios:Ejercicio ¿Existe una asociación entre opinión sobre la situación económica del país, edad, sexo y años de escolaridad?