doctorado salamanca
TRANSCRIPT
Eduardo Gª Cueto
I don’t think so
¿Qué medimos?
– Inteligencia
– Rendimiento
– Personalidad
– Intereses
– Actitudes
– Objetos (Thurstone)
¿A qué nivel medimos?
• Nominal
• Ordinal
• Intervalo
• Razón
–Tests Proyectivos
– Tests Psicométricos
¿Qué utilizamos para medir
la conducta humana?
Tests proyectivos:
• Exploran el conjunto de la personalidad de
una manera global
• Se fundan en la noción de proyección
• Utilizan materiales vagos y poco
estructurados
• Dan lugar a una variedad cuasi-infinita de
respuestas interpretables
La tarea del paciente consiste, no tanto en
describir la lámina, como en contar una
historia en relación con la figura que la
lámina le presenta.
Test de frustración de Rosenzweig
Test de Szondi
Tests psicométricos• La Real Academia Española de la Lengua
define a los tests como exámenes o pruebaspsicológicas para el estudio de alguna función.
• Si se acude a la etimología del término lapalabra test proviene del latín: testis quesignifica testigo y cuyo semantema estápresente en palabras como testimonio, testículo,etc.
• La enciclopedia más consultada del mundo(Wikipedia) dice:
• La Psicometría es la disciplina que se encarga de la medición enpsicología. Medir es asignar un valor numérico a las características de laspersonas, es usada esta función pues es más fácil trabajar y comparar losatributos intra e interpersonales con números y/o datos objetivos. Así, nose usa para medir personas en sí mismas, sino sus diferentes aspectospsicológicos, tales como conocimiento, habilidades, capacidades, opersonalidad.
• La medida de estos aspectos es difícil, y gran parte de la investigación ytécnicas acumuladas en esta disciplina están diseñadas para definirlos demanera fiable antes de cuantificarlos. Los críticos argumentan que talesdefiniciones y cuantificaciones son imposibles y que las mediciones amenudo son tergiversadas.
• Los contenidos de la psicometría se articulan, fundamentalmente, en dosgrandes bloques: teoría de los test, que hace referencia a la construcción,validación y aplicación de los test y escalamiento, que incluye los métodospara la elaboración de escalas psicofísicas y psicológicas.
• A su vez, la teoría de los test se divide en dos ramas: la teoría clásica delos tests y la más reciente teoría de respuesta a los ítems.
• Los conceptos clave de la teoría clásica de los tests son: fiabilidad yvalidez. “Fiabilidad" es medir algo de forma consistente, es decir, que laaplicación de un instrumento dé medidas estables; mientras que "validez"es medir lo que realmente se mide el atributo que el test pretende medir.
• Ambas propiedades, fiabilidad y validez, admiten un tratamientomatemático.
Wikipedia
Tests psicométricos:• Se pueden definir los tests psicométricos como
instrumentos de medida
• Se basan en modelos matemáticos
• Intentan estimar el nivel de habilidad de las personas
en rasgos diferenciados, sus aptitudes, actitudes y su
personalidad.
• Las respuestas dadas a estos tests se valoran y
evalúan cuantitativamente
• La puntuación final obtenida puede interpretarse
basándose en modelos formalizados
• Intentan dar una medida objetiva de múltiples
aspectos de la conducta humana.
Tipo de ítems– Respuesta abierta
– Verdadero falso
– Si - No
– Elección múltiple
– Elección forzada (Ipsativos)
– Tipo “Likert”
– Preguntas de respuesta breve
– Preguntas a desarrollar
– Tareas para realizar
– Preguntas de emparejamiento
– Clasificaciones
– Comparaciones
Respuesta abierta
• ¿Cuál es la capital de Brasil?
• 23 x 2=
• ¿Quién escribió “El sueño de una noche
de verano”?
Verdadero - falso
• 20-(12+9)+1=0 V F
• La media es un estadístico de tendencia central V F
• Me gusta el futbol V F
• Las Capitulaciones de Santa Fe fueron en
a)1.491
b)1.492
c)1.493
Elección múltiple
Si-No• Tengo teléfono móvil SI NO
• En las próximas elecciones votaré al P.P. SI NO
• La fórmula del agua es H2O SI NO
Elección forzadaElija una de las dos opciones, la que mejor
describa su forma de ser:
• Soy una persona
A) Perezosa
B) Desordenada
Tipo Likert• Falto a clase
1) Nunca
2) A veces
3) Normalmente
4) Casi siempre
5) Siempre
Preguntas a desarrollar• Describa la influencia de la superstición en
la literatura española del siglo XIX
Preguntas de respuesta breve
• Defina los siguientes accidentes
geográficos:
– Isla
– Cabo
– Golfo
– Río
– Lago
– Cordillera
Tareas para realizar• Construir un rompecabezas
• Interpretar una pieza de piano
• Ver el número de pulsaciones por minuto
para escribir un texto en un procesador de
textos.
Preguntas de emparejamiento
• Empareja cada persona con su oficio o
profesión:Salvador Dalí Cine
Pablo Picasso Medicina
Antonio Gaudí Psicología
Mario Vargas Llosa Matemáticas
Santiago Ramón y Cajal Física
José Luís Pinillos Arquitectura
Santiago Calatrava Literatura
Eduardo Noriega Pintura
Clasificaciones• Ordene las siguientes actividades según
su preferencia:Leer: __________
Hacer deporte:_________
Escuchar música:_________
Ver televisión:______________
Comparaciones• De cada par subraye la actividad que más
le guste:
– Hacer deporte – Leer
– Ver televisión – Escuchar música
– Leer – Ver televisión
– Escuchar música – Hacer deporte
– Leer – Escuchar música
– Hacer deporte – Ver televisión
12 pasos para la construcción de un test
1. Plan general
• ¿Qué quiero medir?
• ¿Para qué voy a usar los resultados?
• ¿Cómo se interpretarán los resultados?
• ¿Qué formato va a tener el test?
• ¿Cuál va a ser la modalidad de aplicación?
• ¿Qué características tiene la población diana?
• ¿Quién va a elaborar los ítems?
• ¿Quién va a revisar los ítems?
12 pasos para la construcción de un test
2. Definición del contenido
• Definición operativa del constructo
• Definición del universo de ítems
• Definición de las características del grupo
de expertos que van a valorar la validez de
contenido del test
• Método de valoración de la validez de
contenido
12 pasos para la construcción de un test
3. Especificaciones sobre el test (El blueprinting)
• Tipo de formato del test
• Número total de ítems
• Modelo teórico en el que se basa
• Tipo de estímulos que puede contener el test
(visuales, auditivos, etc.)
• Normas de puntuación de los ítems
• Si la interpretación va a ser referida a la norma o al
criterio
• Tiempo de aplicación
12 pasos para la construcción de un test
4. Desarrollo de los ítems
• Asegurar en el constructor de ítems:
La habilidad y los conocimientos psicométricos
de quienes vayan a desarrollar los ítems.
El conocimiento del constructo medido.
Conocimiento sobre el universo de ítems del
constructo
12 pasos para la construcción de un test
5. Diseño del test
• Ensamblaje de los ítems tiene tal
importancia que se ha demostrado la
relación entre esto y la validez y/o la
fiabilidad del test.
12 pasos para la construcción de un test
6. “Producción” del test
• Téngase en cuenta que:
Erratas
Forma de presentación
Control de calidad
Facilidad de lectura
Inciden directamente sobre la validez de la prueba
12 pasos para la construcción de un test
7. Administración del test
• Establecer normas claras de administración.
• Seguir un protocolo establecido
• Unificar las instrucciones en todas las
aplicaciones
12 pasos para la construcción de un test
8. Puntuaciones del test
• Exactitud de las plantillas
• Adecuación de la puntuación final del test
• Equivalencia entre puntuaciones
observadas y baremos
• Confirmación empírica de la posibilidad de
equiparación de puntuaciones, si esta se
lleva a cabo
12 pasos para la construcción de un test
9. Puntos de corte
• Cuando los tests exigen tener un punto de
corte o se va a establecer niveles o grados
entre quienes los responden, con
consecuencias importantes para su futuro
es imprescindible probar la validez de los
puntos de cortes para los distintos niveles.
12 pasos para la construcción de un test
10. Informes de los resultados
• Cualquier error que aparezca en los
informes sobre los resultados de una
aplicación de un tests, aunque sea un error
tipográfico puede servir para degradar todo
el proceso del programa de medida llevado
a cabo. Ese informe siempre será un arma
contra los tests, su validez y la toma de
decisiones seguida de su aplicación
12 pasos para la construcción de un test
11. El “banco de ítems”
• Tras la elaboración de los ítems y su
aplicación, conviene tener un “almacen”
donde se guarden con todas sus
características. Los mejores siempre cabe la
posibilidad de que pueden ser reutilizados.
Señalar la confidencialidad de los bancos de
ítems es inútil por su obviedad
12 pasos para la construcción de un test
12. Informe técnico
• Cualquier test ha de ser acompañado de un
exhaustivo informe técnico en donde se de
cuenta de:
Objetivo de la prueba
Definición del constructo
Todos los parámetros psicométricos del test
Una buena idea puede ser utilizar estos doce
pasos como “guión” del informe técnico
Entre las características que pueden ayudar a seleccionar los
mejores ítems para mejorar las propiedades psicométricas del
test, así como para ayudar a conseguir mejor sus objetivos de
evaluación se pueden señalar los siguientes:
-Impacto
-DIF
-Dificultad
-Discriminación
-Homogeneidad
-Distractores
-Azar
-Fiabilidad
-Validez
Principales índices de los ítems
Impacto• Se dice que un ítem tiene impacto cuando
personas de grupos diferentes tienen
probabilidades distintas de acertar el ítem
D.I.F• Un ítem funciona diferencialmente
(presenta DIF) cuando personas de
diferentes grupos tienen distintas
probabilidades de acertar el item en
función del grupo de pertenencia:
• Y = b0 + b1TOTAL + b2SEXO + b3TOTAlxSEXO
)(1
3210 ototalxgrupBgrupoBtotalBBp
pLn
i
i
Dificultad de los ítems
Un ítem será fácil o difícil en función del número de personas que lo acierten
o lo fallen. Los ítems fáciles serán acertados por más personas que los ítems
difíciles. También resulta elemental que, saber simplemente el número de
personas que acierten o fallen un ítem sería inútil por sí mismo. Es decir, si se
dice que un ítem es acertado por 300 personas y otro por 500 no se puede, de
esa información, deducir cuál de los dos ítems es más fácil o más difícil. La
dificultad va a depender, no sólo del número de personas que acierten (o
fallen) el ítem, sino también del número de personas que intenten
responderlo. Cualquiera podría deducir que si ambos ítems fueron aplicados a
muestras con características similares, el primero fue respondido por 600
personas y el segundo por 1.000, ambos ítems son igual de fáciles o difíciles,
ya que la proporción de personas que lo responden adecuadamente es la
misma.
El índice de dificultad del ítem
El índice de dificultad de un ítem es un indicador de la dificultad del mismo.
En este sentido, la dificultad del ítem vendría dada por la proporción de
personas que aciertan el ítem entre todas las que intentan responderlo.
IDA
N
A: Número de personas que aciertan el ítem
N: Número de personas que intentaron resolver o responder al ítem
F: Número de personas que fallan el ítem
k: Número de alternativas del ítem
N
k
FA
ID 1
El índice de dificultad, como indicador de lo difícil que puede ser
acertar o fallar un ítem, sólo tiene sentido calcularlo en los tests donde
existan respuestas correctas o incorrectas, no en los tests de
personalidad o escalas de actitudes.
En este tipo de cuestionarios, la dificultad sólo podría interpretarse
como la probabilidad de dar una respuesta determinada (afirmativa,
negativa, de mayor o menor acuerdo o desacuerdo con la afirmación
del ítem) en función del grado o de la posición relativa de la persona
en el rasgo o actitud que se esté midiendo. Es decir, cuanto más
introvertida sea una persona, más probable es que responda
afirmativamente al ítem:
Me sonrojo si un desconocido me pegunta la hora por la calle
De igual modo, sería muy difícil, que alguien con una fuerte
actitud en contra de cualquier extranjero se mostrara totalmente de
acuerdo con el contenido del siguiente ítem:
Me gustaría que mi hija se casara con un extranjero.
Discriminación de los ítems Una de las finalidades fundamentales de un test es la
de poder discriminar entre todas las personas que lo
responden y ordenarlas, o escalarlas, en función del
atributo que mida el test, la capacidad que puedan, o
no, tener los ítems para discriminar resulta de una
enorme importancia. Efectivamente, cada uno de los
ítems o los elementos que compongan el test deben
de contribuir de forma adecuada a diferenciar entre
aquellas personas que han obtenido en éste una
elevada puntuación y aquellas cuya puntuación ha
sido más baja o peor (según el caso).
Discriminación de los ítems
Un buen ítem, tiene que ser acertado por una
proporción mayor de los individuos que
obtengan mejor puntuación, o puntuación más
elevada en el test, que aquellos con
puntuaciones bajas. Dicho con otras palabras, si
el ítem es “bueno” tenderá a ser acertado por
quienes obtengan buena puntuación en el test y
será fallado (o tenderá a ser fallado) por quienes
obtengan puntuaciones bajas
Índice de discriminaciónSegún este índice, la capacidad de un ítem para discriminar
viene dada por la diferencia entre la proporción de acertantes
entre las mejores y las peores puntuaciones en el test. La muestra
total se divide en dos grupos, siendo el 27% superior y el 27%
inferior lo que configuraran los dos grupos extremos. A esta
forma de estimar el poder de discriminación de un ítem se la
denomina D (discriminación) y su formulación es la siguiente:D p p
Donde:
p+ : Proporción de acertantes al ítem del grupo superior y
p- : Proporción de acertantes del grupo inferior.
Siendo -1 ≤ D ≤ +1.
D p p
Índice de discriminación basado en grupos extremosPor ejemplo, un grupo de 400 personas responden a un test. De las 108 con
mejores puntuaciones en el test (27% superior) 81 aciertan cierto ítem. De las 108
con peores puntuaciones en el test (27% inferior) sólo lo aciertan 27, por
consiguiente:
p 81
1080 75, p
27
1080 25,
Para ayudar a la interpretación de esta forma de estimación de la
discriminación de los ítems, Ebel (1965) propone la siguiente tabla:
Valores Interpretación
≥ 0,40 El ítem discrimina muy bien
Entre 0,30 y 0,39 El ítem discrimina bien
Entre 0,20 y 0,29 El ítem discrimina poco
Entre 0,10 y 0,19 Ítem límite. Se debe mejorar
< 0,10 El ítem carece de utilidad para discriminar
D = 0,75 – 0,25 = 0,50
Índice de discriminación
Es necesario tener en cuenta que para calcular la puntuación total
en el test, el ítem que se está analizando debe ser eliminado. Es
decir, es necesario calcular tantas puntuaciones “totales” como
ítems tenga el test, ya que el ítem analizado no debe de contribuir
a la puntuación total de los individuos en el test, antes de
determinar las personas que forman parte de los grupos extremos.
Índice de homogeneidadNos indica lo homogéneo que es cada ítem en relación a los otros
ítems del test, es decir, en que modo contribuye a medir lo mismo que
mide el test total. Su estima mediante la correlación item-test
Esta correlación se denomina índice de homogeneidad, ya que señala
hasta qué punto el ítem es homogéneo con el test y tiende a medir la
misma variable que el test.
Índice de homogeneidad
Conviene señalar y dejar muy claro que el índice de homogeneidad viene
expresado por la correlación entre dos variables: la puntuación en un
ítem y la puntuación en un test. Se da por supuesto que el ítem analizado,
a la hora de calcular la correlación, es eliminado del test, bien sea
descontándolo antes de calcular la puntuación total, o mediante un
método estadístico apropiado que corrija de forma adecuada los efectos
que sobre el valor de la correlación tiene el hecho de incluir la
puntuación del ítem dentro de la puntuación total del test. Si al calcular la
correlación ítem-test no se descontasen del test las puntuaciones
correspondientes al ítem, se estaría inflando de forma espuria el valor de
la correlación
Índice de homogeneidad
El tipo de correlación que se utilice para el cálculo del índice de
homogeneidad va a depender de las características que tengan las
variables entre las que va a hallarse la correlación, es decir, a las
características de medida que tengan el ítem y el test. En principio el
coeficiente de correlación producto-momento de Pearson permite
calcular este índice. Claro que el cálculo del coeficiente de correlación de
Pearson requiere escalas continuas y distribuciones normales bivariadas.
Recuérdese que el valor máximo empírico del coeficiente de correlación
de Pearson depende de la distribución conjunta de las variables que se
quieran correlacionar.
Índice de homogeneidadLa siguiente tabla puede aclarar qué tipo de
correlación puede ser el más adecuado en cada caso. La
primera columna muestra el nivel de medida del ítem y
la primera fila, el del test. Así si el ítem está
dicotomizado y el test es una variable continua se
utilizaría la correlación biserial.
Ítem Test
Nivel de
medida
Dicotómica Dicotomizada Continua
Dicotómico Correlación Φ Correlación Φ Correlación biserial-
puntual
Dicotomizado Correlación
tetracórica
Correlación biserial
Continuo Correlación de Pearson
Corrección de la correlaciónComo ya se había indicado, si no se ha eliminado el ítem para el
cálculo de la correlación de la puntuación en el test, con la
puntuación en el ítem, debe aplicarse la siguiente fórmula de
corrección para la obtención del índice de discriminación:
I Dr s s
s s r s s
ix x i
x i ix x i
. .
2 2 2
Siendo:
rix: La correlación del ítem con el test.
sx: La desviación típica del test.
si: La desviación típica del ítem.
Análisis de los distractores
Se denominan distractores a las distintas
alternativas falsas o posibilidades de respuesta
incorrectas que tiene un ítem. Todas ellas deberían
resultar igualmente atractivas para las personas
evaluadas que desconocieren la respuesta correcta.
Para comprobarlo, una prueba de independencia
puede ayudar a tomar decisiones sobre la
equiprobabilidad de las alternativas incorrectas
propuestas para cualquier ítem
El índice de fiabilidad de los ítems Este índice se utiliza para estimar la fiabilidad con la que cada ítem mide
la característica o la variable que mide el test total. Es decir, da
información sobre la contribución que el ítem hace para medir lo que el
test total mida
El índice de fiabilidad (IF) del ítem es función del índice de
discriminación y la desviación típica del ítem, es decir:
IF S IDi i
Siendo:
Si: La desviación típica de las puntuaciones en el ítem i
IDi: El índice de discriminación del ítem i. Es decir, la
correlación ítem-test corregida, eliminada la influencia del ítem en la
puntuación total del test.
Índice de validez
Se entiende por índice de validez del ítem al coeficiente de
correlación entre las puntuaciones en el ítem y las
puntuaciones obtenidas en el criterio. Es decir, la correlación
ítem-criterio.
Formalmente podría expresarse: I.V. = rjy
Siendo:
rjy la correlación entre las puntuaciones en el
ítem y las puntuaciones en el criterio externo.
Supuestos básicos de la T.C.T.
V = E(X)
ve 0
e ej k
0
Modelo: X = V + e
Definición de tests paralelos
• Dos tests, j y k, se denominan
paralelos si la varianza de los
errores es la misma en ambos
y cada sujeto obtiene en ellos
la misma puntuación
verdadera
Fiabilidad• En general, se dice que una
medida es fiable cuando está
libre de error.
• Un test es fiable cuando es
constante en su medida
• Un test es fiable si tiene
consistencia interna.
Coeficiente de fiabilidad
• La fiabilidad de un test se expresa
mediante su coeficiente de fiabilidad:
XX
v
x
'
2
2
Coeficiente de fiabilidad 2 2 2
x v e
XX
v
x
x e
x
e
x'
2
2
2 2
2
2
21
Puesto que
No obstante ninguna de las dos fórmulas vale para el calculo del
coeficiente de fiabilidad ya que ni la varianza de los errores ni la de las
puntuaciones verdaderas se puede calcular empíricamente
Índice de fiabilidad• Se denomina índice de fiabilidad de un test a
la correlación entre sus puntuacionesempíricas y sus puntuaciones verdaderas.Matemáticamente es la raíz cuadrada delcoeficiente de fiabilidad:
xv
v
x
Métodos clásicos para la estimación
empírica del coeficiente de fiabilidad
• Test-retest
– Coeficiente de estabilidad
• Formas paralelas
– Coeficiente de equivalencia
• Dos mitades
– Consistencia interna
Estimación de las puntuaciones verdaderas
• Ecuaciones de regresión
– Puntuaciones directas
– Puntuaciones diferenciales:
– Puntuaciones típicas:
V X X Xxx
' ( )
v xxx'
z zv xx x' .
El coeficiente α• El coeficiente α de Conbrach es, sin duda, el método
más conocido y más utilizado para el estudio de la consistencia interna del test como estimación de su fiabilidad.
• Su valor se estima a partir de la siguiente ecuación:
2
1
2
11 x
n
j
j
n
n
Fórmulas basadas en el análisis factorial
• Coeficiente θ de Carmines
– En 1979 Carmines y Zeller propusieron el coeficiente θ
como una aproximación al coeficiente α.
1
11
1
n
n
Donde λ1 es el primer autovalor de la matriz de
datos sometida a análisis factorial
Fórmulas basadas en el análisis factorial
• Coeficiente Ω de Heise y Bohrnstedt
n
jiji
ji
n
i
ihn
1,
1
2
1
Donde h2 es la comunalidad estimada de los ítems del test y
ρ es la correlación entre los ítems del test
Fórmulas basadas en el análisis factorial
• Se puede demostrar que:
α≤θ≤Ω≤ρxx
Fiabilidad de una batería de tests
• Para el cálculo de la fiabilidad de una batería
de tests Yela (1987) propone la siguiente
fórmula:
2
1
'
2
1
2
1x
n
j
jjj
n
j
j
nR
Definición
• Un test, como cualquier otro
instrumento de medida, es
válido si sirve para medir
adecuadamente aquello para
lo que fue pensado como tal
instrumento de medida
Clasificación de la validez
Contenido Criterio Constructo
Aparente CurricularMuestral Predictiva RetrospectivaConcurrenteMultirrasgo-
multimétodoFactorial
Convergente
Divergente
Sesgos
Método
Validez de contenido
• Indica el grado en que los ítems del test
representan una muestra adecuada de las
conductas o capacidades relevantes para
lo que se pretende medir. Requiere un
análisis racional del contenido de los
ítems, no suele expresarse
cuantitativamente, y tiene varias facetas
Validez de contenido• la validez aparente refleja el grado en que
el test parece medir lo que pretende.
• la validez muestral se refiere a la
relevancia de los contenidos del test.
• La validez curricular se refiere a los
contenidos curriculares de un programa
de formación reflejados en el test.
Validez relativa a un criterio• Indica el grado en que las puntuaciones del test tienen
utilidad para predecir otras variables que actúan como criterio.
• Se cuantifica a través del coeficiente de validez, rXY, que es la correlación de Pearson entre el test (X) y el criterio (Y). Según el momento temporal a que se aplique, la validez relativa a un criterio se denomina:– validez concurrente, cuando el criterio representa una variable
que se mide a la vez que se aplica el test;
– validez predictiva, cuando el criterio representa una variable que se medirá en el futuro;
– validez retrospectiva, cuando el criterio representa una variable cuyo valor se conoce con (mucha) anterioridad a la aplicación del test.
Validez de constructo• Indica en qué grado un test mide qué
variable psicológica (constructo).
• Requiere un marco teórico que
especifique qué relaciones guardan unos
constructos con otros y que permita
establecer hipótesis acerca de cómo
deben ser las relaciones con otros
constructos
Matrices multirrasgo-
multimétodo• Validez Convergente
– un test tiene validez convergente cuando presenta correlaciones altas con otros tests que miden el mismo constructo con distinto método
• Validez Divergente o discriminante– un test tiene validez divergente o discriminante
cuando presenta correlaciones bajas con tests que miden otros constructos con el mismo método
• Sesgo debido al método– Se da si las correlaciones entre tests que miden
distintos rasgos con distintos métodos son más bajas que las de los tests que miden distintos rasgos con el mismo método
TEST ENTREVISTA JUECES
Satisfacción Implic. Motiv Satisf. Impl. Mot. Satis. Impl. Mot
1.Test
A. Satisfacción (.95)
B. Implicación .31 (.90)
C. Motivación .28 .20 (.92)
2. Entrevista
A. Satisfacción .86 .10 .57 (.95)
B. Implicación .10 .90 .13 .11 (.92)
C. Motivación .11 .09 .86 .10 .11 (.89)
3. Jueces
A. Satisfacción .73 .10 .06 .87 .05 .06 (.95)
B. Implicación .10 .80 .12 .09 .88 .10 .15 (.93
C. Motivación .09 .08 .80 .12 .17 .85 .07 .02 (.90)
Validez Factorial• Un test tiene validez factorial cuando el
tratamiento de las puntuaciones mediante
análisis factorial revela las dimensiones
relevantes del constructo.
Validez y predicción
• Cálculo empírico del coeficiente de
validez
– El coeficiente de validez del test se define,
según ya se ha dicho, como el coeficiente de
correlación entre el test y un criterio externo
al mismo.
– En general se puede suponer que el test será
una variable continua y «normal», es decir,
que seguirá una distribución gaussiana.
Sin embargo, el criterio, en muchas ocasiones puede ser una
variable discreta. No es raro que si se pide a un grupo de
entrenadores en un programa determinado que evalúen a sus
alumnos estos dicotomicen la evaluación dividiendo al grupo
en dos categorías: rendimiento satisfactorio versus
rendimiento insatisfactorio. Lo mismo puede ocurrir con los
jefes que han de evaluar en rendimiento laboral a sus
subordinados, etc. La medida subyacente a esta evaluación
es en realidad una variable continua, ya que el rendimiento en
un programa de entrenamiento o en una empresa no podrá
definirse como «blanco» o «negro», como sí rendimiento, o
no rendimiento, sino que se rendirá más o menos en un
continuo real de rendimiento y será el evaluador el que
dicotomiza la variable para dar una «calificación» de
rendimiento aceptable o no aceptable.
El coeficiente de correlación adecuado cuando
nos encontramos con una variable continua y
normal (test o instrumento de pronóstico) y una
variable subyacente continua y normal; pero
dicotomizada, es el coeficiente de correlación
biserial, cuya formulación matemática es la
siguiente:
Si el criterio es una variable realmente
dicotómica y el test se sigue considerando
como una variable continua y normal, el
coeficiente de correlación adecuado entre
ambos tipos de variables es la correlación
biserial puntual, y su expresión matemática
es la siguiente:
Si test y criterio se pueden considerar variables
normales, el coeficiente de correlación
adecuado para el cálculo de la validez es el
coeficiente de correlación momento-producto
de Pearson y su expresión matemática puede
escribirse de la siguiente forma:
Relación fiabilidad-validez
x y
x y
x x y y
x x y y
1 1
2 2
1 1 1 1
2 2 2 2
Fórmula general
Relación fiabilidad-validez• Mejora de la fiabilidad del test
x y
x y
x x y y
x x y y
1 1
2 2
1 1 1 1
2 2 2 2
Relación fiabilidad-validez• Mejora de la fiabilidad del criterio
x y
x y
x x y y
x x y y
1 1
2 2
1 1 1 1
2 2 2 2
Relación fiabilidad-validez
Relación fiabilidad-validez
Límite del coeficiente de validez
• Para un test concreto
• Límite máximo para cualquier test
Coeficiente de validez y longitud del test
• Una forma de mejorar el coeficiente de
validez del test es aumentando su
longitud, puesto que aumentar la longitud
del test es una forma de mejorar su
fiabilidad y tal y como se ha visto, una
forma de mejorar la validez es,
precisamente, mejorando la fiabilidad
Coeficiente de validez y longitud del test
• Expresión matemática de la relación
coeficiente de validez-longitud:
xxxx
xy
xy
n
R
1
Siendo: Rxy el coeficiente de validez del test una vez aumentada su longitud
ρxy el coeficiente de validez del test primitivo
ρ xx el coeficiente de fiabilidad del test primitivo
n el número de veces que se aumenta la longitud del test
Coeficiente de validez y longitud del test
• Despejando n de la anterior fórmula puede
estimarse el número de veces que habría que
aumentar la longitud del test para conseguir un
determinado coeficiente de validez:
xxxyxy
xyxx
R
Rn
22
2)1(
Coeficiente de validez y homogeneidad de la muestra
• Como es sabido el coeficiente decorrelación de Pearson no esindependiente de la homogeneidad de lamuestra en la que se estime.
• El coeficiente de validez de un test, aligual que ocurría con el de fiabilidad,también depende, obviamente, de lahomogeneidad de la muestra en la que seestime.
Coeficiente de validez y homogeneidad de la muestra
• A partir de dos supuestos:
– 1. El error típico de estimación esindependiente de la homogeneidad de lamuestra
– 2. La pendiente de la recta de regresión esindependiente de la homogeneidad de lamuestra
• Se puede deducir la siguiente ecuaciónque pone en relación validez-homogeneidad
Coeficiente de validez y homogeneidad de la muestra
2222 )1( xxyxyx
xyx
xy
S
SR
Otros indicativos de la validez
• El coeficiente de validez de un test da
información de hasta qué punto pueden
estimarse las puntuaciones en un criterio,
conocidas las puntuaciones en el test.
Esto puede verse con claridad a partir de:
– El coeficiente de determinación = d
– El coeficiente de alienación = k
– El coeficiente de valor predictivo = e
El coeficiente de determinación
• El coeficiente de determinación d es el cuadrado
del coeficiente de validez del test. Ya que
• Formalmente se define:
dy
y
xy 2
2
'2
Es la proporción de varianza pronosticada que hay en
la varianza total del criterio, o dicho de otra forma, es
la varianza del criterio que es pronosticable a partir del
test
2
.
2
'
2
xyyy
El coeficiente de alienación
• El coeficiente de alienación k indica la proporción
de error que se comete utilizando la recta de
regresión para hacer predicciones.
• Viene expresado por la proporción de error típico
de estimación que hay en la desviación típica de
las puntuaciones en el criterio.
2.1 xy
y
xyk
El coeficiente de valor predictivo
• El coeficiente de valor predictivo, “e”
indica la seguridad en los pronósticos
cuando se utiliza la regresión para
llevarlos a cabo.
• e = 1 – k
• Es el complemento con respecto a 1 del
coeficiente de alienación
Estimación del criterio a partir de un test
• Si la relación existente entre dosvariables, X e Y es una relación lineal,esta relación puede ser expresada bajo laforma de un modelo lineal
• Y = β0 + β1Xi• Siendo β0 y β1 dos valores constantes, X la variable
explicativa, variable control, test, variable endógena,variable independiente o regresor, mientras Y recibe losnombres de variable explicada, respuesta, variableexógena, variable dependiente o criterio
Estimación del criterio a partir de un test
• Ecuaciones de regresión
xxyy
x
y
xy
x
y
xy
zz
Típicas
xy
lesDiferencia
YXXY
Directas
ˆ
ˆ
)(ˆ
Validez y selecciónModelos de selección
- Compensatorio.
- Conjuntivo.
- Disyuntivo.
Validez y selecciónModelo compensatorio
Lleva a cabo una combinación aditiva de las
distintas puntuaciones de los sujetos, dejando a
éstos ordenados según su puntuación globalModelo conjuntivo
Se seleccionan aquellos sujetos que superan en
todos y cada uno de los predictores un cierto
nivel de competencia prefijado
Modelo disyuntivo
Se seleccionan aquellos que superan cierto nivel de
competencia en al menos un predictor, es decir, o
se supera uno o se supera otro, al menos uno
Validez y selecciónA la hora de evaluar la eficacia de una selección no sólo se ha de tener en cuenta
la validez de los predictores, sino que han de contemplarse, además, aspectos
como la razón de seleccíón, la razón de eficacia y la razón de idoneidad.
Se denomina razón de selección a la proporción de personas
seleccionadas del total de aspirantes
La razón de eficacia es la proporción de seleccionados que
efectivamente tíenen éxíto posterior en el criterio.
La razón de idoneidad la proporción de aspirantes
cualificados para tener éxito en el criterio
Taylor y Russell (1939) elaboraron unas tablas, que para un valor
estimado de la razón de idoneidad, y conocida la validez y la razón de
selección, permiten estimar cuál sería la razón de eficacia o probabilidad
de que un sujeto seleccionado bajo esas circunstancias tenga éxito.
Validez y selección
Puntuaciones
normativas del
test
Cocientes Intelectuales Clásicos
El Cociente Intelectual da información sobre la inteligencia de los
sujetos en función de la adecuación entre su edad mental y su edad
cronológica.
Es el tipo de escala utilizada en los primeros Tests de Inteligencia, como el
Binet-Simon, etc. Su cálculo es muy sencillo, basta con conocer la
puntuación esperada para la realización de ciertas tareas de un grupo
normativo de sujetos de una edad determinada. Cualquier sujeto, que para
las mismas pruebas, llegue a alcanzar dicha puntuación, tiene como edad
mental la edad del grupo normativo. La edad cronológica es la edad del
sujeto.
CIEdad Mental
Edad Crono ica
_
_ log100
Cocientes Intelectuales ClásicosVentajas
1. Son de uso universal. La práctica totalidad de la población puede tener una
idea muy aproximada sobre su interpretación.
2. Son fáciles de calcular, no conllevan procedimientos de cálculo
complicados.
Inconvenientes
1. El desarrollo mental, y por lo tanto la edad mental de los individuos, no es
el mismo a lo largo de toda la existencia. No se sigue la misma pauta en el
desarrollo, por ejemplo de los O a los 2 años que de los 16 a los 18. Un retraso
en las primeras edades no significa lo mismo que un retraso en edades más
avanzadas, por eso la interpretación del CI depende de la edad cronológica.
2. No tienen ningún tipo de aplicación en edades adultas cuando ya el
desarrollo mental se ha llevado a cabo de forma prácticamente total.
Escalas centilesLas escalas centiles o percentiles son escalas de tipo ordinal. Un percentil se
interpreta como el porcentaje de sujetos que quedan por debajo de él en el grupo
normativo. Es decir un sujeto con un percentil de 48 deja por debajo de sí al 48 %
de los sujetos de su grupo normativo
Matemáticamente se define como:
siendo:
fai: Frecuencia acumulada por debajo de la
puntuación de interés.
fi: Frecuencia de sujetos con la misma
puntuación que aquella para la que se busca el percentil.
n: Número de sujetos de la muestra.
Escalas centilesLa puntuación en un test se dará redondeada al entero más próximo. No es
tanto lo que las ciencias sociales pueden afinar en el proceso de la medida
como para que se justifique el poder decir que la puntuación centil de un
individuo en extraversión sea de 44,748. Resulta al menos extraño cuando no
petulante.
VentajasAl igual que las anteriores son muy fáciles de calcular y de una interpretación
muy sencilla.
Inconvenientes
1. Son menos estables (y, por lo tanto, menos «fiables») en la parte central de las
distribuciones que en los extremos de las mísmas.
2. No permiten comparaciones interindividuales ni siquiera dentro del mismo test
ya que las distancias no son similares a lo largo de toda la distribución.
3. Para este tipo de escalas no es adecuado el cálculo de ningún tipo de
estadístico para establecer comparaciones entre individuos o entre grupos, tales
como la media, etcétera.
Escalas típicasLas escalas típicas son transformaciones lineales de las
puntuaciones primitivas con media cero y desviación típica 1.
Su definición matemática es:
Ventajas
1. Son fáciles de calcular.
2. Son transformaciones lineales de las puntuaciones primitivas con lo que no se
modifica en absoluto la forma de la distribución de origen.
3. Su unidad de medida es constante con lo que permiten cualquier tipo de
comparación intragrupo entre las puntuaciones de los sujetos.
Inconvenientes
1. El hecho de tener el cero como punto medio origina puntuaciones negativas y
no deja de «sonar» un poco extraño el decirle a alguien que su puntuación en
inteligencia es de - 1.
2. Aunque, en principio, sus límites son ± ∞en general, en la práctica, en un rango
de 6 puntos están comprendidas todas las puntuaciones de una distribución, esto
origina puntuaciones decimales.
Escalas típicas derivadasEl mayor inconveniente de tipo práctico para el uso de las típicas radica en los
signos negativos y números decimales. Para evitarlo, las puntuaciones típicas se
transforman a su vez en otras escalas que evitan estos dos inconvenientes,
denominadas típicas derivadas (D).
Las típicas derivadas se obtienen a partir de las típicas primitivas mediante la
transformación:
Donde:
XD: Media para la nueva escala.
SD: Desviación típica elegida para la
nueva escala.
Zx: Puntuación típica primitiva.
Escalas típicas derivadas
La media y la desviación típica elegidas son
arbitrarias y sólo obedecen a exigencias prácticas.
Son muy populares, por ejemplo, las llamadas
puntuaciones T de McCall, que ubican la media en
50 y la desviación típica en 10, denominándose
así, al parecer, en honor a Terman y Thorndike.
Muchos tests al uso utilizan este tipo de
puntuaciones derivadas; por ejemplo, el MMPI en
50 y 10, siguiendo a McCall.
Escalas típicas normalizadasLas puntuaciones típicas normalizadas son las puntuaciones
típicas que le corresponderían a las puntuaciones originarias de los
sujetos si su distribución fuera normal.
Implican una transformación «no lineal» de la distribución empírica
de las puntuaciones obtenidas por el grupo normativo en el test, a
menos, que estas tuvieran una distribución totalmente normal, lo
cual no suele ocurrir en la práctica, «nunca».
El hecho de tener que transformar de una forma no lineal la
distribución de las puntuaciones empíricas hace que se modifique la
forma de ésta y puede llegarse a falsear totalmente los resultados
obtenidos en el test por los sujetos llegando a ordenarlos de una
forma totalmente artificial en lo que respecta a las distancias
geométricas entre ellos. Por esta razón «nunca» deben
normalizarse distribuciones sin justificar previamente (mediante una
prueba de bondad de ajuste) que su desviación de la distribución
normal no es estadísticamente significativa.
Escalas típicas normalizadasVentajas:
Presentan todas las características que ya se mencionaron
en el caso de las puntuaciones típicas; pero además:
1. Conocida la puntuación típica normalizada basta con
mirar la tabla de la distribución normal para conocer el
percentil.
2. Permite todo tipo de comparaciones de puntuaciones tanto
entre intragrupo como entre distintos grupos de sujetos y con
distintos tests.
Inconvenientes
Estos son los mismos que los ya mencionados en el caso
anterior. Para evitar tanto las puntuaciones negativas como
los decimales, este tipo de escalas pueden transformarse.
Escalas típicas normalizadas y derivadas
EneatiposLos eneatipos o estaninos son puntuaciones típicas
normalizadas y transformadas con media 5 y desviación típica 2.
Su expresión matemática es la siguiente:
Es decir a un sujeto con una puntuación típica
normalizada de 0,58 le corresponde un eneatipo de 6,16.
Como los eneatipos deben expresarse siempre en
puntuaciones enteras, su eneatipo será de 6 puntos. La
escala de eneatipos es una escala de 9 puntos. Sus límites
están entre 1 y 9.
Escalas típicas normalizadas y derivadas
Cocientes Intelectuales TípicosLos «Cocientes Intelectuales Típicos» son escalas típicas
normalizadas y transformadas con media 100 y desviación
típica 15 ó 16. Su expresión matemática es:
C.I.T. = 15Zn + 100
Su límite inferior es 0 y no tiene límite superior. Las
puntuaciones se dan siempre redondeadas al entero más
próximo.
Escalas
THUSRTONE
Ley del Juicio Comparativo
Thurstone fue el primero en mostrar que losmétodos de escalamiento psicofísico se podíanadaptar para la medición de actitudes. Por ejemplo,mostró que era posible ubicar un conjunto de delitosen un continuo psicológico de “gravedad percibida”,pidiéndole a un grupo de jueces que examinarantodas las parejas posibles entre los delitos de unalista (e. g., asesinato y robo; asesinato y violación,etc.). Thurstone también desarrolló procedimientosestadísticos que permitían examinar si los valoresescalares de los estímulos estaban en una escala deintervalos
Ley del Juicio Comparativo
• La Ley de Thurstone es un sistema de
ecuaciones que permite estimar los
valores escalares de un conjunto de
estímulos, a partir de los juicios
comparativos realizados sobre todas las
parejas posibles de estímulos
Ley del Juicio Comparativo
Cada test o escala formado
siguiendo el modelo de Thurstone
va a tener ítems
Así pues, con los 4 estímulos
siguientes se puede formar una
escala de 6 ítems
2
)1( nn
Ley del Juicio Comparativo
Ley del Juicio ComparativoMétodo Comparaciones Binarias ( n=100.)
aula cafet gim biblio teatro
aula - 20 30 35 10
cafet 80 - 30 40 20
gim 70 70 - 45 15
biblio 65 60 55 - 25
teatro 90 80 85 75 -
∑ 305 230 200 195 70
Cada entrada de la matriz indica el número de veces que el
objeto de la columna es preferido sobre el objeto de la fila.
Ley del Juicio ComparativoMatriz de frecuencias ordenadas.
teatrobiblio gim cafet aula
teatro- 75 85 80 90
biblio 25 - 55 60 65
gim 15 45 - 70 70
cafet 20 40 30 - 80
aula 10 35 30 20 -
∑ 70 195 200 230 305
Ley del Juicio Comparativo
Matriz de proporciones.
teatro biblio gim cafet aula
teatro .50 .75 .85 .80 .90
biblio .25 .50 .55 .60 .65
gim .15 .45 .50 .70 .70
cafet .20 .40 .30 .50 .80
aula .10 .35 .30 .20 .50
Ley del Juicio Comparativo
Matriz de puntuaciones típicas (Z).
1 2 3 4 5
teatro biblio gim cafet aula
teatro .00 .67 1.03 .84 1.28
biblio -.67 .00 .13 .25 .38
gim -1.03 -.13 .00 .52 .52
cafet -.84 -.25 -.52 .00 .84
aula -1.28 -.38 -.52 - .84 .00
Ley del Juicio Comparativo
Matriz de puntuaciones típicas (z).
1 2 3 4 5
teatro biblio gim cafet aula
teatro .00 .67 1.04 .84 1.28
biblio -.67 .00 .13 .25 .39
gim -1.04 -.13 .00 .52 .52
cafet -.84 -.25 -.52 .00 .84
aula -1.28 -.39 -.52 - .84 .0
__________________________________________
Media -.766 -.018 .026 .154 .604
+.766 = 0 .748 .792 .920 1.370
Método Comparaciones Binarias ( n=100.)
Una representación gráfica de los valores de cada objeto a lo largo del
continuo puede realizarse de la siguiente manera:
teatro biblio
gim cafet aula
0 1 .746 .792
.920 1.370 .5
Ley del Juicio Comparativo
Objetivos• Proporcionar mediciones
invariantes respecto al instrumento de medida utilizado
• Disponer de instrumentos cuyas propiedades no dependan de los objetos medidos
Diferencias TCT-TRI
TCT TRI
Modelo Lineal No lineal
Supuestos Débiles Fuertes
Invarianza Med. No Sí
Inv.Prop.Psic. No Sí
Escala 0-n -∞ a +∞
Énfasis Test Ítem
Rel. Ítem-Test No especificada CCIs
Ítems ID, IDiscrimin. a, b, c
Error de medida Global FI
Muestra N≥200 N≥500
Comprobación de los modelos
1. Definición rigurosa de la variable
2. Elaboración de los ítems
3. Aplicación de los ítems a una muestra
4. Depurar los ítems de acuerdo a la TCT
5. Comprobar la unidimensionalidad
6. Elegir un modelo de TRI
7. Estimar los parámetros
8. Ajuste del modelo
El rasgo latente• La variable que se desea medir es lo que,
habitualmente, se conoce como el rasgo
latente; pero que se podría denominar,
Inteligencia, Neuroticismo o Personalidad
Autoritaria. Este rasgo latente no es
observable de forma directa; pero puede
estudiarse a través de las respuestas a los
ítems de un test.
La C.C.I.• La probabilidad de cada una de las
respuestas dadas a cualquier ítem esfunción del rasgo latente y de lascaracterísticas del ítem. Estascaracterísticas vienen definidas por losparámetros del ítem. La C. C. I. es lafunción que expresa la relación entrelos valores de la variable que mide elítem y la probabilidad de que dichoítem sea acertado.
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1.0
-3 -2 -1 0 1 2 3
b
Scale Score
PR
OB
(C
orrect)
Metric Type
Normal
Item Response Function and Item Information
Subtest 1: TEST0001; Item 8: 0008
a = 4.03; b = 0.03; c = 0.00;
0
1
2
3
4
5
6
7
8
9
10
11
12
In
fo
rm
atio
n...
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1.0
-3 -2 -1 0 1 2 3
b
Scale Score
PR
OB
(C
orrect)
Metric Type
Normal
Item Response Function and Item Information
Subtest 1: TEST0001; Item 14: 0014
a = 3.46; b = 0.92; c = 0.00;
0
1
2
3
4
5
6
7
8
9
10
11
12
In
fo
rm
atio
n...
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1.0
-3 -2 -1 0 1 2 3
b
Scale Score
PR
OB
(C
orrect)
Metric Type
Normal
Item Response Function and Item Information
Subtest 1: TEST0001; Item 4: 0004
a = 3.19; b = -0.96; c = 0.00;
0
1
2
3
4
5
6
7
8
9
10
11
12
In
fo
rm
atio
n...
• Parámetro a => Discriminación
– Su valor es proporcional a la pendiente de la recta tangente a la CCI en el punto de máxima pendiente.
• Parámetro b => Dificultad
– Valor de θ correspondiente al punto de máxima pendiente de la CCI
• Parámetro c => Azar
– Valor asintótico de la CCI cuando θ →∞
C. C. I.
Modelos de la ojiva normalModelos de 1, 2, 3 y 4 parámetros
P e d
P e d
P c c e d
P c c e d
i
z
z
b
i
z
z
b
i i i
z
z
b
i i i i
z
z
b
i
i
i
i
( ) ( )
( ) ( )
( ) ( ) ( )
( ) ( ) ( )
( / )
( / )
( / )
( / )
1
2
2
1
2
2
1
2
2
1
2
2
2
2
2
2
1
Modelos logísticose=2‟718281828
Pe
Pe
P c ce
P c ce
i D b
i Da b
i i i Da b
i i i i Da b
i
i
i
i
( )
( )
( ) ( )
( ) ( )
( )
( )
( )
( )
1
1
1
1
11
1
1
1
Supuestos del modelo• Unidimensionalidad
– Hattie(1985)=>87 criterios diferentes para la comprobación de la unidimensionalidad.
– El análisis factorial es la técnica más utilizada:• Varianza explicada por el primer factor
• Cociente entre la varianza explicada por el primer factor y la explicada por el segundo
• Gráfico de sedimentación
• Raíz cudrada de la media de los residuales
• Índices de ajuste de distribuciones desconocidas (≥0‟95)
• Χ2
– Los modelos son bastantes robustos a la violación del supuesto de la unidimensionalidad
Supuestos del modelo• Independencia local
P U P Un ii
n
( | ) ( | ) 1
Ajuste al modelo• Técnica basada en χ2
– Nj: Número de sujetos dentro de cada categoría
– P(θj): Valor de la CCI dado por la fórmula del modelo con los parámetros estimados, para la categoría j
– K: Número de categorías en las que se divide θ
– Pe(θj): Proporción de sujetos que, de hecho (empíricamente) superan el ítem para una categoría determinada j
– El estadístico sigue una distribución de χ2 con (k-p) grados de libertad, siendo k el número de categorías en las que se dividió θ y pel número de parámetros del modelo utilizado.
Qn P P
P P
j j e j
j jj
k
[ ( ) ( )]
( )[ ( )]
2
1 1
Invarianza de los parámetros
• Técnicas gráficas y ver el ajuste a una
recta del diagrama de dispersión
• Cálculo del coeficiente de correlación de
Pearson.
– El parámetro c no se ve afectado por el
cambio de la métrica en las estimaciones.
Ejemplo
• Para la creación de un banco de ítems se aplican diez
ítems como ítems de anclaje a dos muestras diferentes.
La tabla muestra el valor del parámetro b de los 10
ítems de anclaje en los dos grupos.
ρxy=1
Ítem Grupo 1 Grupo 2
1 -1,45 -2,66
2 0,5 -0,23
3 1,2 0,65
4 0,25 -0,54
5 0,75 0,09
6 -0,3 -1,23
7 1 0,4
8 -0,5 -1,48
9 -1 -2,1
10 1,25 0,71
Transformaciones admisibles de θ
• P(θ) resulta invariante a cualquier
transformación de θ, si:
•θ„=M(θ)+k
•b„=M(b)+k
•a„=a/M
•c„=c
B. I. L. O. GÍtem Intentos Aciertos I. Dificultad Pearson Biserial
1 89,0 78,0 ,876 ,392 ,632
2 89,0 75,0 ,843 ,558 ,845
3 89,0 69,0 ,775 ,594 ,828
4 89,0 67,0 ,753 ,685 ,935
5 89,0 61,0 ,685 ,705 ,922
6 89,0 59,0 ,663 ,763 ,987
7 89,0 49,0 ,551 ,98 ,99
8 89,0 46,0 ,517 ,865 .97
9 89,0 46,0 ,517 ,865 ,87
10 89,0 42,0 ,472 ,864 ,656
11 89,0 38,0 ,427 ,855 ,987
12 89,0 34,0 ,382 ,837 ,765
13 89,0 30,0 ,337 ,811 ,567
14 89,0 26,0 ,292 ,775 ,989
15 89,0 22,0 ,247 ,729 ,996
16 89,0 18,0 ,202 ,672 ,957
17 89,0 14,0 ,157 ,600 ,909
18 89,0 10,0 ,112 ,511 ,845
19 89,0 6,0 ,067 ,392 ,752
20 89,0 2,0 ,022 ,201 ,548
B. I. L. O. GÍtem a b c
1 0.967 -1.976 0.000
0.192* 0.337* 0.000*
2 2.110 -1.466 0.000
1.883* 0.195* 0.000*
3 1.426 -1.157 0.000
0.245* 0.215* 0.000*
4 3.186 -0.962 0.000
2.735* 0.303* 0.000*
5 1.691 -0.693 0.000
0.331* 0.194* 0.000*
6 2.279 -0.569 0.000
2.019* 0.151* 0.000*
7 1.984 -0.134 0.000
0.361* 0.141* 0.000*
8 4.027 0.032 0.000
2.687* 0.498* 0.000*
9 4.027 0.032 0.000
2.687* 0.498* 0.000*
10 2.820 0.207 0.000
3.187* 0.282* 0.000*
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1.0
-3 -2 -1 0 1 2 3
b
Scale Score
PR
OB
(C
orr
ect)
Metric Type
Normal
Item Response Function and Item Inform ation
Subtest 1: TEST0001; Item 1: 0001
a = 0 .97; b = -1 .98; c = 0 .00;
0
1
2
3
4
5
6
7
8
9
10
11
12
Info
rmatio
n...
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1.0
-3 -2 -1 0 1 2 3
b
Scale Score
PR
OB
(C
orr
ect)
Metric Type
Normal
Item Response Function and Item Inform ation
Subtest 1: TEST0001; Item 8: 0008
a = 4 .03; b = 0 .03; c = 0 .00;
0
1
2
3
4
5
6
7
8
9
10
11
12
Info
rmatio
n...
C.C.T.
02468
10121416182022242628303234363840
-3 -2 -1 0 1 2 3
Scale Score
Info
rmati
on
Metric Type
Normal
Test Inform ation and Measurem ent Error
Subtest 1: TEST0001
0
1
2
Sta
ndard
Erro
r ...