naziracalleja.weebly.com · web view3.2 evaluar la necesidad de usar modelos de regresión no...

11
REGRESIÓN MÚLTIPLE OBTENER ANALIZAR A. Descriptivos Medias, desv. est., varianza, mínimo- máximo, n, asimetría, curtosis B. Correlacione s Variable dependiente – Variables independientes Entre variables independientes C. Regresión. Elegir modelo 1ª Tabla de resumen de modelo Vs excluidas por correlaciones altas con VIs incluidas (inclusión redundante) Por etapa: Porcentaje de varianza explicada total ajustada (Ra 2 ) y por cada VI Error (varianza no explica) 2ª Tabla de ANOVA Suma de cuadrados (SC) de regresión y residual Gl, F y p 3ª Tabla de coeficientes a y betas Ecuación de regresión para predicción específica. Intervalos de confianza Betas estandarizadas Significancia de los coeficientes Correlaciones: orden cero, parcial y semiparcial Colinealidad: Tolerancia [1 – (r ÷ VIs)] y FVI (Factor de Inflación de Varianza): recíprocos [(T) (FIV) = 1]. Más cercano a uno, menos colinealidad Tabla de variables excluidas Beta dentro; significancia de t, correlación parcial, tolerancia 1

Upload: others

Post on 01-Mar-2020

3 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: naziracalleja.weebly.com · Web view3.2 Evaluar la necesidad de usar modelos de regresión no lineal. Supuesto 4. Independencia 4.1 Evaluar si en los datos existe auto-correlación

REGRESIÓN MÚLTIPLE

OBTENER ANALIZARA. Descriptivos Medias, desv. est., varianza, mínimo-máximo, n, asimetría,

curtosisB. Correlaciones Variable dependiente – Variables independientes

Entre variables independientesC. Regresión. Elegir modelo

1ª Tabla de resumen de modelo Vs excluidas por correlaciones altas con VIs incluidas

(inclusión redundante)Por etapa: Porcentaje de varianza explicada total ajustada (Ra2) y por

cada VI Error (varianza no explica)2ª Tabla de ANOVA Suma de cuadrados (SC) de regresión y residual Gl, F y p3ª Tabla de coeficientes a y betas Ecuación de regresión para predicción específica. Intervalos

de confianza Betas estandarizadas Significancia de los coeficientes Correlaciones: orden cero, parcial y semiparcial Colinealidad: Tolerancia [1 – (r ÷ VIs)] y FVI (Factor de

Inflación de Varianza): recíprocos [(T) (FIV) = 1]. Más cercano a uno, menos colinealidad

Tabla de variables excluidas Beta dentro; significancia de t, correlación parcial, tolerancia

D. Validación del modelo

Cumplimiento de supuestos:1. Normalidad:

a) Verificar la presencia de outilersb) Verificar la influencia de los outliers

2. Homoscedasticidad3. Linealidad4. Independencia

Análisis de cuestiones problemáticas:1. Causalidad

1

Page 2: naziracalleja.weebly.com · Web view3.2 Evaluar la necesidad de usar modelos de regresión no lineal. Supuesto 4. Independencia 4.1 Evaluar si en los datos existe auto-correlación

2. Tamaño de la muestra3. Colinealidad4. Error de medición

2

Page 3: naziracalleja.weebly.com · Web view3.2 Evaluar la necesidad de usar modelos de regresión no lineal. Supuesto 4. Independencia 4.1 Evaluar si en los datos existe auto-correlación

Supuestos

1. Normalidad

1. Verificar la presencia/ausencia de puntajes extremos (outliers)

1.1 Obtener y guardar los siguientes puntajes:

Valores predichos Residuales no estandarizados (RESID) Residuales estandarizados (Z-RESID) Residuales studentizados (S-RESID) Residuales eliminados (deleted) (D-RESID) Residuales studentizados eliminados (SD-RESID)

1.2 Obtener el histograma de residuales (No estandarizados o estandarizados). Detectar outliers.

1.3 Obtener el dispersigrama de valores predichos (eje de las X) y de residuales (eje de las y). Detectar outliers.

1.4 Analizar los residuales estandarizados (Z-RESID). Detectar outliers.

1.5 Analizar los Residuales studentizados (S-RESID). Detectar outliers.1.6 Comparar Residuales no estandarizados (RESID) con Residuales eliminados (deleted) (D-RESID). Si se trata de un outlier, éstos serán diferentes.

3

AnalizarRegresión

LinealGuardar

Residuos

Page 4: naziracalleja.weebly.com · Web view3.2 Evaluar la necesidad de usar modelos de regresión no lineal. Supuesto 4. Independencia 4.1 Evaluar si en los datos existe auto-correlación

1.7 Comparar Residuales studentizados (S-RESID) con Residuales studentizados eliminados (SD-RESID). Si se trata de un outlier, éstos serán diferentes.

2. Verificar la influencia de los outliers

2.1 Obtener y guardar los estadísticos de distancia

Apalancamiento (Leverage) (Valores de influencia) Distancia de Mahalanobis Distancia de Cook (D de Cook)

2.2 Comparar los valores calculados para el outlier con los del resto de los casos. Usar los valores máximos como referencia. Si el valor para el caso está cerca del máximo, se trata de un caso que influye.

2.3 Obtener y guardar los estadísticos de influencia

Diferencias de betas (Df-Beta) y Diferencias de betas estandarizados (Df-Beta estandarizadas)

Diferencias de ajuste (Df Ajuste) y Diferencias de ajuste estandarizado (Df Ajuste tipificado)

4

AnalizarRegresión

LinealesGuardar

Distancias

AnalizarRegresión

LinealGuardar

Estadísticos de influencia

Page 5: naziracalleja.weebly.com · Web view3.2 Evaluar la necesidad de usar modelos de regresión no lineal. Supuesto 4. Independencia 4.1 Evaluar si en los datos existe auto-correlación

2.4 Comparar los valores de las diferencias de beta para cada VI cuando el caso es incluido / excluido ( Df-Beta y Df-Beta estandarizado) con el valor de corte. Si el puntaje del caso es mayor que éste, se trata de un caso que influye.

2.5 Comparar los valores de las diferencias de ajuste del modelo cuando el caso es incluido / excluido ( Df-Ajuste y Df-Ajuste estandarizado) con el valor de corte. Si el puntaje del caso es mayor que éste, se trata de un caso que influye.

Supuesto 2. Homoscedasticidad

2.1 Obtener el dispersigrama de valores predichos (eje de las X) y de residuales (eje de las y). Analizar el patrón de varianzas (la variabilidad en cada nivel de los valores predichos y determinar si existe homo o heteroscedastidad.

2.2 Evaluar la posibilidad de interacción entre las VIs.

Supuesto 3. Linealidad

3.1 Obtener el dispersigrama de valores predichos (eje de las X) y de residuales (eje de las y). Determinar si existe linealidad (si el valor promedio de los residuales en cada valor de la VD es igual a cero).

3.2 Evaluar la necesidad de usar modelos de regresión no lineal.

Supuesto 4. Independencia

4.1 Evaluar si en los datos existe auto-correlación o no-independencia por el uso en el estudio de diseños de series de tiempo o muestreo por conglomerados o clusters.

4.2 Considerar el uso de análisis jerárquicos o multinivel.

5

Page 6: naziracalleja.weebly.com · Web view3.2 Evaluar la necesidad de usar modelos de regresión no lineal. Supuesto 4. Independencia 4.1 Evaluar si en los datos existe auto-correlación

Cuestiones problemáticas

1. Causalidad

¿En qué medida se puede afirmar que los predictores causan la variable dependiente?

Verificar el cumplimiento de los siguientes criterios:

1. Asociación entre las variables

2. Dirección de la influencia

3. Aislamiento de las variables extrañas

Señalar el aporte de la teoría para la explicación causal del fenómeno.

2. Tamaño de la muestra

¿El tamaño de la muestra es adecuado para el análisis?

Determinar el cálculo que explica la adecuación de la muestra:

Reglas de oro Análisis de poder y tamaño del efecto y número de VIs

3. Colinealidad

¿Las variables en la ecuación se encuentran relacionadas entre sí? ¿Cada una de las VIs aportan información diferente a la que aportan las ya incluidas?

Obtener el índice de tolerancia y el de FVI.

6

Page 7: naziracalleja.weebly.com · Web view3.2 Evaluar la necesidad de usar modelos de regresión no lineal. Supuesto 4. Independencia 4.1 Evaluar si en los datos existe auto-correlación

Tolerancia: Valor que representa el porcentaje de la variable nueva que no es explicado (varianza no explicada o coeficiente de determinación) por la(s) variable(s) que ya está(n) en la ecuación.

Tolerancia =1 – R2

Factor de Inflación de Varianza (FVI): FVI y Tolerancia son recíprocos.

(T) (FIV) = 1

Verificar que las variables tengan coeficientes de tolerancia próximos a 1 (eso hará que los FVI sean también cercanos a 1). Por el contrario, el que una variable tenga tolerancia baja implica que tiene mucha relación con las otras variables incluidas en la ecuación.

4. Error de medición

¿Cuál es la influencia del error de medición en el tamaño de R2?

Hacer el cálculo de r verdadera de cada una de las VIs con la VD con base en los índices de confiabilidad de los instrumentos de medición utilizados.

Estimación de las rv (corrección por atenuación):

rxvyv¿xoy o√ Rxx  Ryy

7

Page 8: naziracalleja.weebly.com · Web view3.2 Evaluar la necesidad de usar modelos de regresión no lineal. Supuesto 4. Independencia 4.1 Evaluar si en los datos existe auto-correlación

Índices de correlación

Correlación de orden cero:Coeficiente de correlación de Pearson entre cada variable predictora y la variable criterio.

Coeficiente de correlación semiparcial elevado al cuadrado:Se interpreta como el incremento absoluto de R2 debido a esa variable predictora, es decir, cuál es el incremento de R2 debido a la adición de esa variable en la ecuación de regresión que contiene el resto de las variables predictoras.

8