introducción al análisis factorial confirmatorio lectura básica: cap. 13 del texto ampliación:...
TRANSCRIPT
Introducción alAnálisis factorial confirmatorioLectura básica:Cap. 13 del texto
Ampliación:Brown, T. A. (2006). Confirmatory Factor Analysis for Applied Research. New York: The Guilford Press.
Programas: LISREL, AMOS, EQS, Mplus
2
1.) AFE versus AFC2.) Aplicaciones
3
Ítems del EPQ-R (neuroticismo)Z1. ¿Su estado de ánimo sufre altibajos con frecuencia?
Z2. ¿Se siente a veces desdichado sin motivo?
Z3. ¿A menudo se siente solo?
Z4. ¿Es usted una persona sufridora?
Z5. ¿Se inquieta por cosas terribles que podrían suceder?
Z6. ¿Se siente intranquilo por su salud?
z1 z2 z3 z4 z5 z6
Z1 1 .529 .352 .294 .210 .146
Z2 1 .420 .259 .216 .086
Z3 1 .307 .240 .132
Z4 1 .276 .218
Z5 1 .271
Z6 1
4
MUCHAS SOLUCIONES
POSIBLES
F1 F2 z1 z2 z3 z4 z5 z6
Z1 ? ?
r*\r
Z1 .529 .352 .294 .210 .146
Z2 ? ? Z2 .526 .420 .259 .216 .086
Z3 ? ? Z3 .364 .419 .307 .240 .132
Z4 ? ? Z4 .277 .275 .271 .276 .218
Z5 ? ? Z5 .230 .205 .241 .288 .271
Z6 ? ? Z6 .133 .084 .161 .231 .251
Residual
Z1
Z2 .003
Z3 -.012 .001
Z4 .017 -.016 .036
Z5 -.021 .011 -.001 -.012
Z6 .014 .002 -.029 -.013 .021
Minimizar diferencias entre la matriz de Minimizar diferencias entre la matriz de correlaciones observada y la reproducidacorrelaciones observada y la reproducida
1 factor?
2 factores?
3 factores?
5
Matriz de correlaciones entre los factores
1.000 .473
.473 1.000
Factor1
2
1 2
Método de extracción: Máxima verosimilitud. Metodo de rotación: Normalización Oblimin con Kaiser.
Análisis Factorial ExploratorioAnálisis Factorial ExploratorioMatriz de configuración.a
.628 .064
.866 -.121
.453 .185
.189 .424
.073 .505
-.078 .509
z1 (altibajos)
z2 (desdichado)
z3 (solo)
z3 (sufridora)
z5 (cosas terribles)
z6 (salud)
1 2
Factor
Método de extracción: Máxima verosimilitud. Metodo de rotación: Normalización Oblimin con Kaiser.
La rotación ha convergido en 5 iteraciones.a. ¿Su estado de ánimo sufre altibajos con frecuencia?
¿Se siente a veces desdichado sin motivo?
¿A menudo se siente solo?
¿Es usted una persona sufridora?
¿Se inquieta por cosas terribles que podrían suceder?
¿Se siente intranquilo por su salud?
z1 = .628 * F1 + .064 * F2 + E1
z2 = .866 * F1 - .121 * F2 + E2
z3 = .453 *F1 + .185 * F2 + E3
z4 = .189 * F1 + .424 * F2 + E4
z5 = .073 * F1 + .505 * F2 + E5
z6 = .078 * F1 + .509 * F2 + E6
)min( 1
22
1
21
1
22
21
JJJ
J
jj
J
jj
J
jjj
6
z3
F1
z1 E1
E3
z2 E2
z4 E4
z5 E5
z6 E6
F2
Modelo exploratorioModelo exploratorio
Cuantos factores?
Criterio para la Rotación?
DATOS MODELO
REPRESENTACIÓN:
7
z3
F1
z1 E1
E3
z2 E2
z4 E4
z5 E5
z6 E6
F2
Modelo confirmatorioModelo confirmatorio
MODELODATOS
Factor 1
Factor 2
Z1 0.694 0
Z2 0.736 0
Z3 0.565 0
Z4 0 0.590
Z5 0 0.520
Z6 0 0.383rF1F2=0.631
8
z3
F1
z1 E1
E3
z2 E2
z4 E4
z5 E5
z6 E6
F2
Modelo exploratorio:Modelo exploratorio:
Modelo inicialModelo inicial
DATOSMODELO
Factor 1
Factor 2
Z1 0 0
Z2 X 0
Z3 X X
Z4 X X
Z5 X X
Z6 X XrF1F2= 0
9
AFE versus AFC
Similitudes
- Técnica de reducción de dimensionalidad: Se buscan (pocos) factores comunes que expliquen la matriz de var-cov, S.
- Muchos procedimientos (p.e., de estimación) son comunes a AFE y AFC.
Diferencias
- No explora la relación entre variables o constructos, sino que las contrasta:- Se supone un número concreto de factores comunes y qué variables
empíricas (indicadores) los miden.- Se supone la existencia o no de relación entre los factores.
- Se pueden establecer correlaciones entre los términos de error.- No es necesario un método de rotación.
10
Ventajas del modelo confirmatorio (I)
Permite evaluar el ajuste estadístico de nuestros modelos teóricos… fijando:
• Número de factores• Ítems que saturan en cada factor• Especificando errores de medida
correlacionados
11
Ventajas del modelo confirmatorio (II)
x3
F1
x1 E1
E3
x2 E2
x4 E4
x5 E5
x6 E6
F2
- Contraste de hipótesis de invarianza de parámetros a través de
sexo, país, nivel educativo,… (tests ó ítems –DIF-)
- Análisis de las estructuras de medias
x3
F1
x1 E1
E3
x2 E2
x4 E4
x5 E5
x6 E6
F2
=
Grupo 1 Grupo 2
12
Modelo confirmatorioModelo confirmatorio
Modelos complejos: Análisis factorial de 2º orden, modelos con
errores correlacionados
Ventajas del modelo confirmatorio (III)
13-Obtención de la correlación entre constructos (similar a la corrección por atenuación). Validación de constructo, mostrando la validez convergente de los
indicadores que se espera que estén asociados, y la discriminante (no correlación de los que se espera que no correlacionen).
Ventajas del modelo confirmatorio (Iv)
14
-Tratamiento de los efectos de método: por ejemplo,
los ítems directos e inversos en los cuestionarios. En
AFE salen como factores espúreos, no sustantivos.
Ventajas del modelo confirmatorio (V)
15
- Evaluación psicométrica de tests:
- Enfoque alternativo a TRI… análisis factorial para datos categóricos
- Modelo logístico de 2 parámetros
- Modelo de respuesta graduada.
- modelos multidimensionales de TRI…
- Nuevas medidas de fiabilidad…
Ventajas del modelo confirmatorio (VI)
Representación de los modelos
17
Se representan mediante “diagramas causales” o “path diagrams”:
Tipos de variables:
OBSERVABLES:
LATENTES: Muy importante el concepto de factor latente!
F1
x2
x1
x3
x1
Representación de modelos
18
Tipos de relaciones (siempre lineales):
FLECHAS BIDIRECCIONALES:
Covarianzas o correlaciones
FLECHAS UNIDIRECCIONALES:
Pesos no estandarizados
o pesos estandarizados x1
F1
x1
x2
E1
E2
19
EXOGENAS: Variables que el modelo NO intenta explicar (ninguna flecha las apunta)
ENDOGENAS: Variables que en el modelo se intentan explicar. Toda variable endogena tiene un error.
F1x1
x2
x3
e1
e2
e3
20
Objetivo cuando se genera un modelo confirmatorio:
• Generar un modelo que sea compatible con la matriz de varianzas-covarianzas entre todas las variables.
• Las varianzas y covarianzas son función de los parámetros del modelo.
21
Ingredientes del modelo
Para especificar el modelo, hay que fijar:
1) Número de factores comunes.2) Relaciones entre las xs y los factores comunes.3) Si existe o no covariación entre los factores comunes
(y entre cuales).4) Si existe o no covariación entre los factores únicos (y
entre cuales).
Ecuaciones del modelo
23
Análisis
Factorial
(1 factor)
Matriz de varianzas-covarianzas reproducida
24131
22111
22242
2
22211
2
143
21
414
111
...
...
Fxx
Fxx
eFx
eFx
41414
31313
21212
11111
eFx
eFx
eFx
eFx
x1
x2
e1
x3
e2
e3
F1
λ11
λ21
λ31
1
1
1
e12
e22
e32
x4e4
e42
1
λ41
F12
Modelo:Ecuaciones:
x1 x2 x3 x4
x1 100
x2 16 100
x3 24 24 100
x4 28 28 42 100
24
Análisis
Factorial
(1 factor)
21
2211
1121
2211
111121
21
211
11111111112
1
111
1
2
2
))((
eF
FeeF
x
N
eF
N
e
N
F
N
eFeF
N
xx
11111 eFx
x1
x2
e1
x3
e2
e3
F1
λ11
λ21
λ31
1
1
1
e12
e22
e32
x4e4
e42
1
λ41
F12
21
2211
2
11 eFx Path analysis (Análisis de Senderos)
26
Análisis
Factorial
(1 factor)
22111
21112
2111
11212111212
12111
2121111121
1
1112211
21
))((
F
FeFeeeF
xx
N
eF
N
eF
N
ee
N
F
N
eFeF
N
xx
21212
11111
eFx
eFx
x1
x2
e1
x3
e2
e3
F1
λ11
λ21
λ31
1
1
1
e12
e22
e32
x4e4
e42
1
λ41
F12
22111 121 Fxx
Path analysis (Análisis de Senderos)
Identificación del modelo
Ecuaciones… e incognitasx+u=1y+v=1x*y=0.24-----x+u=1y+v=1z+w=1x*y=0.25z*y=0.24z*x=0.24-----x+u=1y+v=1z+w=1t+r=1x*y=0.25z*y=0.24z*x=0.24t*x=0t*y=0t*z=0
Infinitas soluciones
Identificación…
Ajuste….
30
¿es estimable el modelo?
• Datos o ecuaciones disponibles (p(p+1)/2)Elementos de la matriz de varianzas-covarianzas
• Parámetros a estimar (t):
- 10 ecuaciones- 9 parámetros
2222241312111 43211
,,,,,,,, eeeeF Parámetros del modelo: t
- Pesos libres entre las variables exógenas y las endogenas
- Varianzas/covarianzas entre las variables exógenas No son parámetros del modelo:
-Varianzas y Covarianzas de las variables endógenas
434232
4131214321
,,
,,,,,,, 2222
xxxxxx
xxxxxxxxxx
31
Métrica del factor latente…
24131
22111
22241
2
22211
2
143
121
414
111
...
...
Fxx
Fxx
eFx
eFx
1*
1 4FF
2*
*41
*31
2*
*21
*11
22*
2*41
2
222*11
2
143
121
414
1*
11
...
...
Fxx
Fxx
eFx
eFx
4
4
1*1
222
1*
jj
FF
32
Métrica del factor latente…
41312111
2
,,,
11
F
)(),(),(),(
1
11
41*41
11
31*31
11
21*21
211
2
*11
*
F
)(),(),(),(
1
21
41*41
21
31*31
21
11*11
221
2
*21
*
F
7,6,4,4 41312111
33
Análisis
Factorial
(1 factor)
Matriz de varianzas-covarianzas reproducida
41414
31313
21212
11111
eFx
eFx
eFx
eFx
x1 x2 x3 x4
x1 100
x2 16 100
x3 24 24 100
x4 28 28 42 100
x1
x2
e1
x3
e2
e3
F1
λ11
λ21
λ31
1
1
1
e12
e22
e32
x4e4
e42
1
λ41
F12
Modelo:
Restricciones:
- Fijar un peso factorial a 1- Fijar la varianza del factor a 1
34
¿es estimable el modelo?
• Datos o ecuaciones disponibles (p(p+1)/2)Elementos de la matriz de varianzas-covarianzas: 10
• Parámetros a estimar (t): 8
• Grados de libertad: 2Gl=(p(p+1)/2)-t
< 0: Modelo no identificado, hay más incógnitas que ecuaciones0: Modelo saturado o exactamente identificado. Solución única. Reproduce
exactamente la matriz de varianzas-covarianzas>0: Modelo sobreidentificado. Si hay más ecuaciones que incógnitas no hay
una solución exacta. Buscaremos aquella solución que haga lo más parecidas posibles la matriz de varianzas-covarianzas observada y la reproducida.
2222241312111 43211
,,,,,,,,1 eeeeF
SINTAXIS MPLUS
(MATRIZ DE VARIANZAS-COVARIANZAS)
x1
x2
e1
x3
e2
e3
F1
1
1
.1.5
1
1
1
84
84
64
x4e4
511
1.75
75.1
5.1
1
1
16
41
31
21
11
21
F
51
64
84
84
24
23
22
21
e
e
e
e
Parámetros obtenidos (sin estandarizar):
16
MODEL RESULTS
Estimates S.E. Est./S.E. Std(**) StdYX(*)
F BY X1 1.000 0.000 0.000 4.000 0.400 X2 1.000 0.417 2.398 4.000 0.400 X3 1.500 0.536 2.799 6.000 0.600 X4 1.750 0.640 2.734 7.000 0.700
Variances F 16.000 9.707 1.648 1.000 1.000
Residual Variances X1 84.000 13.285 6.323 84.006 0.840 X2 84.000 13.285 6.323 83.999 0.840 X3 64.000 14.206 4.505 63.995 0.640 X4 51.000 16.272 3.135 51.010 0.510
RESULTADOS MPLUS
- Coeficientes de la ecuación de regresión (cambios de x en función de cambios en F). Por ejemplo, 4 puntos de cambio en F (una DT) llevan a 4 puntos de cambio en X1.
- Varianza de los errores de pronóstico. La varianza de X1 es 100 (en la población general). Sin embargo, para gente igualada en F la varianza de X1 es 84.
Significación estadística
2e
38
Matriz de varianzas-covarianzas reproducida
x1 x2 x3 x4
x1 100
x2 16 100
x3 24 24 100
x4 28 28 42 100
x1 x2 x3 x4
x1 100
x2 16 100
x3 24 24 100
x4 28 28 42 100OBSERVADA REPRODUCIDA SEGÚN LOS
PARÁMETROS DEL MODELO
RESIDUOS (observada – estimada)
x1 x2 x3 x4
x1 0
x2 0 0
x3 0 0 0
x4 0 0 0 0
22111
22211
2
21
11
Fxx
eFx
75.1
5.1
1
1
16
41
31
21
11
2
F
51
64
84
84
24
23
22
21
e
e
e
e
MODEL RESULTS
Estimates S.E. Est./S.E. Std(**) StdYX(*)
F BY X1 1.000 0.000 0.000 4.000 0.400 X2 1.000 0.417 2.398 4.000 0.400 X3 1.500 0.536 2.799 6.000 0.600 X4 1.750 0.640 2.734 7.000 0.700
Variances F 16.000 9.707 1.648 1.000 1.000
Residual Variances X1 84.000 13.285 6.323 84.000 0.840 X2 84.000 13.285 6.323 84.000 0.840 X3 64.000 14.206 4.505 64.000 0.640 X4 51.000 16.272 3.135 51.000 0.510
RESULTADOS MPLUS:
- Coeficientes de la ecuación de regresión estandarizados
- Varianza de los errores de pronóstico (unicidades)
Correlaciones
(si las variables exógenas son
independientes)
unicidades
x
FF
***
2e
2
22*
22**
x
eeee
40
x1
z2
e1
x3
e2
e3
F1
.4
.4
.6
1
1
1
.84
.84
.64
z4e4
.511
.7
75.1
5.1
1
1
16
41
31
21
11
2
F
51
64
84
84
24
23
22
21
e
e
e
e
7.104
75.1
6.104
5.1
4.104
1
4.104
1
1
*41
*31
*21
*11
2
F
Parámetros obtenidos (sin estandarizar):
Parámetros obtenidos (estandarizados):
51.010051
64.010064
84.010084
84.010084
2
2
2
2
*4
*3
*2
*1
e
e
e
e
1
Para obtener el parámetro estandarizado se multiplica por la
desviación típica de la variable exógena y se divide por la
desviación típica de la variable endogena
Matriz de correlaciones reproducida
OBSERVADAREPRODUCIDA SEGÚN LOS PARÁMETROS DEL MODELO
RESIDUOS
x1 x2 x3 x4
x1 0
x2 0 0
x3 0 0 0
x4 0 0 0 0
zx1 zx2 zx3 zx4
zx1 1
zx2 .16 1
zx3 .24 .24 1
zx4 .28 .28 .42 1
zx1 zx2 zx3 zx4
zx1 1
zx2 .16 1
zx3 .24 .24 1
zx4 .28 .28 .42 1
)1(
)1(1*21
*11
2*
2*11
2
2121
11
xxxx
ex
7.
6.
4.
4.
*41
*31
*21
*11
51.0
64.0
84.0
84.0
2
2
2
2
*4
*3
*2
*1
e
e
e
e
xy
FX
rB
11
*11
42
Modelo no identificado
ξ1
x1
x2
e1
e2
Con dos indicadores, 3 datos: las dos varianzas y la covarianza.
En el ejemplo habría que estimar: 1 lambda (la otra se fija una a 1, para fijar la escala), la varianza del factor común, las varianzas de los 2 factores únicos (la covarianza entre ellos se ha fijado a cero) (4 parámetros). Luego gl = -1.
p
q
0.24=p*q
10-9=1
10-8=2
p
q
p
q
r
s
Puede ocurrir que los grados de libertad no sean negativos y, sin embargo, que el modelo no tenga solución:
- Falta de Falta de
identificación identificación
parcial empírica
10-8=2 10-9=1
p
q
p
q
z
45
Modelo en ecuaciones (2 factores)
52525
42424
32321313
21212
11111
ex
ex
ex
ex
ex
x1
x2
x3
x4
x5
e1
e2
e3
e4
e5
ξ1
ξ2
λ11
λ21
λ32
λ42
λ52
1
1
1
1
1
λ31
55
44
33
22
11
2221
1211
52
42
3231
21
11
0000
0000
0000
0000
0000
0
0
0
0
2554535251
4524434241
3534233231
2524232221
1514131221
Pesos factoriales
Varianzas-Covarianzas entre
factores latentes
Varianzas-Covarianzas entre errores
Varianzas-Covarianzas teóricas
5554535251
4544434241
3534333231
2524232221
1514131212
5522252224252223252212152211152
2252424422242223242212142211142
223252213152223242213142331232312223211
231213221113121213211113111
1252211242211232212211221111121
1252111242111232111121111111211
2554535251
4524434241
3534233231
2524232221
1514131221
2
48
x1
x2
x3
x4
x5
e1
e2
e3
e4
e5
ξ1
ξ2
21115251
49
x1
x2
x3
x4
x5
e1
e2
e3
e4
e5
ξ1
ξ2
22325212315253
50
x1
x2
x3
x4
x5
e1
e2
e3
e4
e5
ξ1
ξ2
332131322223211
231
23 2
51
Identificación del modelo15 ecuaciones: (5*6)/2
12 parámetros: 6 lambdas (λ), 1 covarianza entre factores comunes (Φij), 2 varianzas de los factores comunes (Φii), 5 varianzas de los factores únicos (θii) [Para fijar la escala, se fijan a 1 bien las dos varianzas de los factores comunes o bien una lambda de cada factor común]
Luego, tendríamos 15 – 12 = 3 grados de libertad.
x1
x2
x3
x4
x5
e1
e2
e3
e4
e5
ξ1
ξ2
λ11
λ21
λ32
λ42
λ52
1
1
1
1
1
λ31
Covariances/Correlations/Residual Correlations X1 X2 X3 X4 X5 ________ ________ ________ ________ ________ X1 100.000 X2 36.000 100.000 X3 38.000 40.000 100.000 X4 13.000 25.000 46.000 100.000 X5 13.000 10.000 48.000 53.000 100.000
MODEL RESULTS
Estimates S.E. Est./S.E. Std StdYX
F1 BY X1 5.854 1.223 4.787 5.854 0.588 X2 6.089 1.240 4.912 6.089 0.612 X3 4.850 1.222 3.970 4.850 0.487
F2 BY X3 4.764 1.128 4.222 4.764 0.479 X4 7.004 1.069 6.552 7.004 0.704 X5 7.492 1.079 6.943 7.492 0.753
F2 WITH F1 0.340 0.157 2.168 0.340 0.340
Variances F1 1.000 0.000 0.000 1.000 1.000 F2 1.000 0.000 0.000 1.000 1.000
Residual Variances X1 64.733 13.288 4.872 64.733 0.654 X2 61.932 13.611 4.550 61.932 0.626 X3 37.086 10.160 3.650 37.086 0.375 X4 49.953 11.311 4.416 49.953 0.505 X5 42.870 11.788 3.637 42.870 0.433
Cuando los predictores están correlacionados los pesos estandarizados no son correlaciones de Pearson… son correlaciones semi-parciales
rF1F2
1
11
F1
F2
X3E
x3
F2’
2,32
21
213132
3'
2 1 FF
FFxFxF
xF r
rrr
rx3F1
132 Cambios en X3, en función de la
parte de F2 que no tiene que ver con F1. Manteniendo F1, constante: cuál es el efecto de F2 en X3
2
211 FFr
1
Estimación de parámetros
57
Estimación de parámetrosEstimadores de los elementos de Σ; es decir, de Λ,
Θ y Φ, que hagan que Σ se acerque los más posible a S.
Se llama función de ajuste (o discrepancia) a F(S, )
Procedimientos de estimación:-Mínimos cuadrados no ponderados (ULS)-Mínimos cuadrados generalizados (GLS)-Máxima verosimilitud (ML)-Mínimos cuadrados ponderados (WLS)
-.001
-.001
-.002
-.244
.218
…
ˆSd
p*(p+1)/2 elementos distintos de la matriz de varianzas-covarianzas residuales
Residuals for Covariances/Correlations/Residual Correlations X1 X2 X3 X4 X5 ________ ________ ________ ________ ______ X1 -0.001 X2 -0.001 -0.002 X3 -0.244 0.218 -0.002 X4 -1.056 10.266 0.637 -0.003 X5 -2.027 -5.594 -0.516 -0.001 -0.001
¿Cómo ponderarlos?
Estimación de parámetros
Función de discrepancia: Se busca minimizar el tamaño de los residuos.
1) Valor mínimo = 0 (Ajuste perfecto)
2) Cuanto mayores son los residuos mayor es F (independientemente de la dirección de los residuos)
3) Ser cauto al utilizarlo, sensible a la escala de las variables. No asume distribución de las variables. No proporciona errores típicos.
i
iULS dSF 2)ˆ,(
ULS: Mínimos Cuadrados no Ponderados
El tamaño de las discrepancias depende de las unidades de
medida de las variables
60
1222*
1
222
222
1*1
*1
*1
1*1
1*1
dkSd
k
SkS
kxx
xx
xx
xx
Matriz de varianzas-covarianzas asintótica
s11 S12 s22
10 6 90
9 3 87
11 4 84
12 5 72
… … …
s11 s12 s22
10*k2 6*k 90
9*k2 3*k 87
11*k2 4*k 84
12*k2 5*k 72
… … …
62
s11 s12 s22
s11 S2S11
s12 SS11,S11 S2S12
s22 SS11,S22 SS12,S22 S2S22
63
Ponderación de las discrepancias
i j
jiij ddwSF )()ˆ,(
:ijwULS: s i = j , w=1, de lo contrario w=0GLS: w depende de las varianzas y covarianzas de las variables (S), más peso a la discrepancia cuanto menor las varianzas (covarianzas) de las variables implicadas. No cambia de iteración a iteración.ML: w depende de las varianzas y covarianzas de las variables , más peso a la discrepancia cuanto menor las varianzas (covarianzas) de las variables implicadas. Cambia de iteración a iteración.WLS: w tiene en cuenta la falta de normalidad de las variables, pero requiere estimar la matriz W de k*(k+1)/2 elementos, donde k=p*(p+1)/2
Se relaciona inversamente con la varianza muestral del producto de discrepancias i y j
-.001
-.001
-.002
-.244
.218
…
d
64
ML: Máxima VerosimilitudAsumiendo una distribución multivariada normal para las variables (en diferenciales) la función de verosimilitud sólo depende de la matriz de varianzas-covarianzas:
Si la distribución es multivariada normal. La matriz de varianzas-covarianzas sigue una distribución conocida (de Wishart). Por lo tanto, se maximiza la siguiente función:
pStrSSFML 11 ˆˆln)ˆ,(
)ˆ)(1(5.0ln)2(5.0ˆln)1(5.0)ln())ˆ|(( 1 StrNSpNNkSPLn
Maximizar lo anterior es equivalente a minimizar la siguiente función de discrepancia:
0)ˆ,(
ˆ
SF
S
ML
Ventaja: Proporciona medidas estadísticas de ajuste del modelo y de errores típicos de estimación
Máxima verosimilitud (ML): • Qué parámetros hacen más probables los datos observados • Se asume que las variables se distribuyen normalmente.
Mínimos cuadrados generalizados (GLS):• Se asume que las variables se distribuyen normalmente.
Mínimos cuadrados ponderados (WLS).• No asume normalidad de las variables…• …pero requiere muestras muy grandes.
Métodos robustos: Nuevos métodos (DWLS/WLSMV/MLMV)
Teóricamente…
66
ML diferirá de GLS y WLS:
Si el modelo es incorrecto.
WLS diferirá de ML y GLS :
Si los datos no se distribuyen normalmente.
67
RecomendacionesSe cumplen supuestos: ML, pues ofrece errores típicos (y
contrastes estadísticos), aunque:- Problemas de convergencia (muestras pequeñas/nº
indicadores por factor pequeño)- más casos Heywood (p.e., unicidades negativas)- resultados más distorsionados si el modelo se especifica
mal o si no se cumplen los supuestos,
ULS puede ser incorrecto si las diferencias de varianzas en las variables son arbitrarias
Comprobación del ajuste
0
2
4
6
8
10
12
0 1 2 3 4 5 6 7 8 9 10
y
Lineal (y)
Polinómica (y)
Ajuste de los modelos
2 CRITERIOS DE AJUSTE BIEN DIFERENCIADOS:
• Modelos que hagan los residuos pequeños en nuestra muestra
• Modelos parsimoniosos (¿se repetirían los resultados en otra muestra?)
71
Indicadores de ajuste
Índices de ajuste absoluto:sextensioney2
Medidas basadas en los residuos: Standardized Root Mean Squared Residuals (SRMR)
Índices de ajuste comparativo: Normed Fit Index (NFI) Non-Normed Fit Index (NNFI o TLI) Comparative Fit Index (CFI)
Medidas en errores de aproximación: Root Mean Square Error of Aproximation (RMSEA)
Medidas basadas en la información: Akaike Information Criterion (AIC) Bayes Information Criterion (BIC)
Estadístico chi-cuadrado
FN )1(2 La p asociada indica la probabilidad de obtener una función de discrepancia
tan grande como la obtenida en la muestra si nuestro modelo fuera correcto en la población.
Hipótesis nula: La función de discrepancia es cero en la poblaciónHipótesis alternativa: La función de discrepancia no es cero en la poblaciónProblemas:1. La hipótesis nula nunca es cierta. 2. Depende del tamaño de la muestra.
CHI/DF: Regla informal. El valor esperado de CHI es DF. Si la ratio es 1 entonces el modelo se ajusta. Suelen considerarse aceptables si son menores de 5 (preferiblemente menores que 3 ó 2).
Problema: sensible al tamaño muestral
x1
x2
x3
x4
x5
e1
e2
e3
e4
e5
ξ1
ξ2
λ11
λ21
λ32
λ42
λ52
1
1
1
1
1
λ31
Residuals for Covariances/Correlations/Residual Correlations X1 X2 X3 X4 X5 ________ ________ ________ ________ ______ X1 -0.001 X2 -0.001 -0.002 X3 -0.244 0.218 -0.002 X4 -1.056 10.266 0.637 -0.003 X5 -2.027 -5.594 -0.516 -0.001 -0.001
TESTS OF MODEL FIT
Chi-Square Test of Model Fit
Value 3.465
Degrees of Freedom 3
P-Value 0.3254Chi-Square Test of Model Fit for the Baseline Model
Value 110.211
Degrees of Freedom 10
P-Value 0.0000
Modelo de independencia de variables
Nuestro modelo
MODELO DE INDEPENDENCIA: MODELO EN EL QUE SE ESTIMAN COMO PARÁMETROS LAS VARIANZAS Y SE FIJAN EL RESTO DE PARÁMETROS (COVARIANZAS) A 0.
x5
x4
x3
x1
x2
e1
e2
e3
e4
e5
76
Medidas de bondad de ajuste
Índices de ajuste comparativo
2
2
2
22
1b
m
b
mb
b
mb
F
FFNFI
Regla: ≥ 0.95. Rango: 0 – 1.
b
b
m
m
b
b
b
mb
gl
glglFFF
NNFI 2
22
0,,max
0,max1 22
2
mmbb
mm
glgl
glCFI
Chi-Square Test of Model Fit
Value 3.465
Degrees of Freedom 3
P-Value 0.3254
Chi-Square Test of Model Fit for the Baseline Model
Value 110.211
Degrees of Freedom 10
P-Value 0.0000
CFI/TLI
CFI 0.995
TLI 0.985
RMR:
- El promedio de los residuos. Poco informativo si no se analiza la matriz de correlaciones.
SRMR:
- promedio de los residuos calculados sobre la matriz de correlaciones, debe ser menor que .06.
.
2/)1(*1 1
2
pp
d
SRMR
p
i
i
jij
SRMR (Standardized Root Mean Square Residual)
Value 0.031
Afecta al tamaño de los residuos:
Σ(modelo real) Σ (nuestro modelo)
S (observada)
FP: Error de Aproximación en la población
(disminuye al aumentar el número de parámetros)
(no depende del tamaño de la muestra)
S (nuestro modelo)
VA
RIA
CIO
N M
UE
ST
RA
L
VARIACION DEBIDA AL MODELO
F: Función de discrepancia
(mayor que el error de aproximación)
Err
or d
e es
timac
ión
(dep
ende
del
tam
año
de la
mue
stra
)
81
Medidas de bondad de ajusteMedidas basadas en errores de aproximaciónRMSEA (root mean square error of aproximation)
Hemos visto que (N-1)F ~χ2 con parámetro gl. si el modelo propuesto en H0 es correcto. En ese caso, en sucesivas muestras, tendremos diferentes valores de (N-1)F cuya distribución es χ2 con parámetro gl. Error de estimación.
En realidad, (N-1)F ~χ2 es no centrada con parámetros gl y parámetro de no centralidad (N-1)F0, (cuando el modelo no es correcto. Error de aproximación.
RMSEA
(Raiz del Error Cuadrático de Aproximación)
- mayor que 0. Preferiblemente por debajo de 0.05 (recomendable por debajo de 0.08, nunca por encima de 0.10)
- Indica el error de aproximación medio por cada grado de libertad.
- No depende del tamaño de la muestra
- Penaliza por la complejidad del modelo.
m
mm
m
p
gl
Ngl
gl
FRMSEA
0,
1max
2
Ejemplo (continua)
RMSEA (Root Mean Square Error Of Approximation)
Estimate 0.039
90 Percent C.I. 0.000 0.178
Probability RMSEA <= .05 0.433
84
Medidas de bondad de ajusteMedidas basadas en la información
Akaike Information criterion: AIC = 2k - 2ln(L)
Medidas basadas en la información
Bayes Information criterion: BIC = kln(N) - 2ln(L)
k = número de parámetros libresL = función de verosimilitud H0
N= tamaño muestra
Regla: cuanto menor, mas apropiado el modelo. Medida indicada para la comparación de modelos no anidados.
Loglikelihood
H0 Value -1804.876
H1 Value -1803.144
Information Criteria
Number of Free Parameters 12
Akaike (AIC) 3633.752
Bayesian (BIC) 3665.014
86
The Journal of Educational Research, 2006, 99, 6, 323-337
87
Recomendaciones
Para decidir el ajuste hay que fijarse en
- Los indicadores de ajuste vistos.
- Si los coeficientes estimados son significativos.
- La comunalidad de cada indicador.
Reespecificación de los modelosÍndices de modificación:
• Cambio 2 si añadieramos el nuevo parámetro al modelo. Si es mayor que 3.84 eso indica que el cambio sería significativo al 5%.
• Preferiblemente no utilizar o solo utilizar si las muestras son muy grandes (capitalización del azar).