15. cohen y swerdlik 2001 cap 5

15
&.&Q , ,, i n a ciiii\.c>ri;rií.i.~;n cotidinnri, coi~finbiiidnrl cs sinónimo de sepridad o consistencia, como en la i!-;isrs "c.1 trcn e:; tan coiitiable q ~ e puedes sincroiiizar tu reloj con 61" o "el amigo confi,ibl- qiic ~ien~!>re esth cuando lo necesi!asl'. En el lenguaje de la psicornetríii, canfiabiiidad sc refiere, en lln sentido aiiiplio, al atributo de cofisistmcia en la medi- ción. Y niicritr~is en Ir7 conversación cotidiana confiabilidad siempre denota algo que :.:S valrii-,ido cn torriw positiva, confiabilidad en cl sentido psicornétrico tan sólo deno- ta alt;:> q~t: c'> c:cinsistente, no iiecesarini-nente consistentemente bueno o malo, sino ta~i sólo coiisislente. 13s importaiite para nosotros como administradores de pruebas yconsumidores de información :;r)bre ellas saber qué tari cor.fizbles sor, zsí como otros prxedimien;os de tiicciici6:-i. 1'c:ro h9ronfiabilidad rara vez es una cuestik de todo onada; hay diferen- tes tipos grados de confiabilidad. Un cueficierttedc cunfinbilidnd es un índice de confian- za . Expre~aiidc, de riianera más técnica, es una proporción que indica la razón entre la varianza de la puntuación verdadera en una prueba y la varianza total. En este capítulo, exp1ornreir:os dilere:~tes clases de coeficierites de confiabilidad, incluyendo aquellos para i~icciir !a ciinfiabilidad de prueba y ?osprueba, laconfiabilidad de formas alterna- !:vas, la cc;i~:Cial~ilidacl de división por mitades y la confiabilidad e n w evaluadores. Se riliord;lr;i c!c: ni.c::ira cx!.~osici611 de 1<7 teoría clAsica de la pniebn en el capílulo 1 qile se s~;p(:ne que una puntuación en 1iIia prueba de capacidad refleja tanto la pun- tuación \:cri?c,ciera dc quien responde la prueba en la capacidad que se está midiendo como también el crror.' En su sentido más amplio, "crror" se refiere al componente de * Con p!-o$isit:~~ :!c i!:::.'r: 5 6 n , .;e usa can frciuenciia la capacidac! coiiio un rasgo que se cst6 midiendo. sin cmborgo, a menos que :;e declare de otra menera, los p ~ n ~ p i o s a los que nos referimos con respecto a lds pruebas de c~r,acid~J :ani'oién son cixtos con respecto a otros tipc~;de pruebas, como las pruebas de r:ersoiialidsci. i'or t;intc. de acuerdo con el rnodeio de puntuación verdadera, también es cierto que la niag- riitud de la prssenciñ de un cierto rasgc psicológico (como la extroversión) medido con una prueba di? extroversi6n .;c d:?bí.r;í A l! la cantidad ''~,.erdad~ra" de extroversión y 2) otros factores.

Upload: said

Post on 28-Nov-2015

1.500 views

Category:

Documents


3 download

TRANSCRIPT

&.&Q , ,, i n a ciiii\.c>ri;rií.i.~;n cotidinnri, coi~finbiiidnrl cs sinónimo d e s e p r i d a d o consistencia, como

en la i!-;isrs "c.1 trcn e:; tan coiitiable q ~ e puedes sincroiiizar tu reloj con 61" o "el amigo confi,ibl- qiic ~ ien~!>re esth cuando lo necesi!asl'. En el lenguaje de la psicornetríii, canfiabiiidad sc refiere, en lln sentido aiiiplio, al atributo d e cofisistmcia en la medi- ción. Y niicritr~is en Ir7 conversación cotidiana confiabilidad siempre denota algo que :.:S valrii-,ido cn torriw positiva, confiabilidad en cl sentido psicornétrico tan sólo deno- ta alt;:> q ~ t : c'> c:cinsistente, n o iiecesarini-nente consistentemente bueno o malo, sino t a ~ i sólo coiisislente.

13s importaiite para nosotros como administradores de pruebas yconsumidores de información :;r)bre ellas saber qué tari cor.fizbles sor, zsí como otros prxedimien;os de tiicciici6:-i. 1'c:ro h9ronfiabilidad rara vez es una c u e s t i k de todo onada; hay diferen- tes tipos grados de confiabilidad. Un cueficierttedc cunfinbilidnd es un índice de confian- za . Expre~aiidc, de riianera más técnica, es una proporción que indica la razón entre la varianza d e la puntuación verdadera en una prueba y la varianza total. En este capítulo, exp1ornreir:os dilere:~tes clases de coeficierites de confiabilidad, incluyendo aquellos para i~icciir !a ciinfiabilidad de prueba y ?osprueba, laconfiabilidad de formas alterna- !:vas, la cc;i~:Cial~ilidacl de división por mitades y la confiabilidad e n w evaluadores.

Se riliord;lr;i c!c: ni.c::ira cx!.~osici611 d e 1<7 teoría clAsica de la pniebn en el capílulo 1 qile se s~;p(:ne que una puntuación en 1iIia prueba de capacidad refleja tanto la pun- tuación \:cri?c,ciera dc quien responde la prueba en la capacidad que se está midiendo como también el crror.' En su sentido más amplio, "crror" se refiere al componente de

* Con p!-o$isit:~~ :!c i!:::.'r: 56n, .;e usa can frciuenciia la capacidac! coiiio un rasgo que se cst6 midiendo. sin cmborgo, a menos que :;e declare de otra menera, los p ~ n ~ p i o s a los que nos referimos con respecto a lds pruebas de c ~ r , a c i d ~ J :ani'oién son cixtos con respecto a otros tipc~; de pruebas, como las pruebas de r:ersoiialidsci. i'or t;intc. d e acuerdo con el rnodeio de puntuación verdadera, también es cierto que la niag- riitud d e la prssenciñ de un cierto rasgc psicológico (como la extroversión) medido con una prueba di? extroversi6n .;c d:?bí.r;í A l! la cantidad ''~,.erdad~ra" de extroversión y 2) otros factores.

ZhapKiel
Text Box
Cohen, R. y Swerdlik, M. (2001). Pruebas y Evaluación Psicológica. Introducción a las pruebas y a la Medición. (4ta Edición). México: McGraw Hill.

ciiad de quien responde la pkeba . Si usamos X para representar una puntuación -observada, Tpara iepresentar ima pytuac ión verciadera y E para representar el error, entonces el hecho de que una pw.tuaci6n observada sea igual a la piuituación verda- dera más el error puede expresarse como sigue:

X = T + E

IJna estadística Útil para describir fuentes de variabilidad e,i la5 pi~rituaci~~iies cic una prueba es lavarianza (u2), la desviacióii estándar al cuacirado Fqta estadística es Útil debido a que puede dcscorn~c7ncrse en sris compon~ i i t e~ 1 .i \.,jri,?:i. a d e 1,s diíe- rencias verdaderas es varianza verdadern y la variariza de fuentes aleatoi las irrelevan- tes es z)arianza de error. Si a' representa la varianza total, u,?, reprcsent3 la varianza verdadera y a: representa la varianza de error, entonces la relación de las varianzas puede expresarse como

En esta ecuación, la varianzs totai en una distribución observzda dc punt:iacioncs de prueba (a2) es igual a la suma de la variznza verdadera más la variariza de error a:. El término confiabilidad se refiere a la proporción de la varianza total atribii;da a la varianza verdadera. Entre mayor es la proporción de la varianza total atribuida a la variinza verdadera, la prueba es más confiable. Debido a que se supone que las difc- rencias verdaderas son estables, se presume que producen puntucliiories consistentes en. aplicaciones repetidas de la misma prueba al igual que eri forn-[as equivalentes de las pruebas. Debido a que la varian-za de errw puede incrementar o disnihiiir una puntuación de prueba en cantidades variables, se vería afectada la consistencia de la puntuación, y por tanto la confiabilidad. Nótese que una fuente sistemática de error 110

afectaría la consistencia de la puntuación. Si un instrumento de medición, como una báscula, consistentemente pesar3 2.5 kilogramos menos a todos los que se pararan sobre ella, entonces el peso relativo de las personas permanecería sin cambios (aunque los pesos en sí variarían en forma consistente del peso verdadero por 2.5 kilogramos). Una escala que pesa 2.5 kilogramos de menos a todos los que se pesan es anciloga a una constante que se resta (o se suma) de cada puntuación de prueba. Una fuente de error sistemática no cambia.la variabilidad de la distribución ni afecta la confiabilidad.

Fuentes de varianzrz de error

1,as fuentes de varianza de error incluyen la construcción, administració:i, calificación e interpretación de la prueba.

Construcción de pruebas Una hen:e de varianza durante la coiistrucción de pruebas es el muestreo de reactivos o m u e s t r a de co~: ta i ido , un término que se refiere a la varia- ción entre reactivos dentro de una prueba, al igual que a la variación entre reactivos entre pruebas. Considérense dos o más pruebas diseñadas para medir una habilidad, atributo de personalidad o cuerpo de conocimiento específicos. Es zegurn que se en- cuentren diferencias en la forma en que están redactados los rea~ti*,~ns y diferencias en el contenido exacto del que se i ~ a sacado la muestra. Es probable qve t o d ~ s hayamos entrado a un escenario en donde se aplicará un3 p e b a de rendirniento, pensando "Ojalá hagan esta pregunta" o "Espero que no hagan esta pregunta". Con suerte, sólo las preguntas que deseamos que nos hagan aparecerán en el exarnen. En taies situa-

Capítulo 5: Co:if¡;!bi!:dad 155

ciones, algunos de quienes responden la prueba logran puntuaciones superiores en la pweba de las que habrían obtenido en otra prueba que pretendiera medir lo mismo, tan sólo debido al contenido específico incluido en la muestra de la primera prueba, la forma en que se redactaron los reactivos y así en forma sucesiva. El grado en que !a puntuación de quien responde la prueba es afectada sólo por el contenido presenta- do en la prueba al igual que por la forma en que se hizo el muestreo del contenido (es decir, la fonna en que se construyó ei reactivo) es uná f ente de varianza del error.

Desde la perspectiva de un autor de p ruehs , un desafío en la elabornción dc uiin prueba es maximizar la proporción de la varianza total que es varimza verdadera y minimizar la proporción de la varianza total que es varianza del error. Muchos de los elaboradores de pruebas cuyos perfiles aparecen cn este libro reportaron lidiar con éste y otros problemas r~lacionados durante el proceso de construcción de la prueba. Aeste respecto, Thomas Brown, elaborador de las Escalas para Trastorilos por Déficit de la Atención de Brown (Brown A ttention Defici t Disorder Scales), es típico. Brown cree que la mayoría de ias personas exhiben shtomas del txastorno por dbficit de la a tenci~n de vezen cuando. Un reto para él al elaborar su prueba fue crear reactivos y una metodolo- gía de medición que identificara en forma efectiva a personas que estuvieran afectadas de manera significativa por los síntomas del trastorno por déficit de la atención (véase la 1?1sta?lfánea de u n elaborador de pruebas, en las siguientes páginas).

Administración de pruebas Las fuentes de varianza de error que ocurren durante la aplicación de la prueba pueden influir en la atención o motivación de quien responde la prueba; por tanto, sus reacciones ante estas inlluencias son la fuente de una clase de varianza del error. Ejemplos de influencias adversas que operan durante la aplicación de una prueba inciuyen factores relacionados con el ambiente de la prueba: la tempe- mtura del s a l h , el nivel de iluminación y la cantidad de ventilación y ruido, por ejemplo. Una mosca puede fomentar una atracción tenaz hacia la cara de un examina- do. Una bola de goma de mascar en el asiento de la silla sólo delata sil presencia cuarido qiiier, responde la prueba se sienta encima de ella; la lista continúa. Otras variabies relacionadas con el ambiente incluyen el instrumerito usado para introducir las respuestas (como un lápiz con la punta rota o una pluma sin tinta) y la superficie de escritura (la cual puede estar llena de corazones grabados, el legado de estudiantes de años anteriores que se sintieron obligados a expresar su devoción eterna a alguien a quien es probable que ahora hayan olvidado).

Otras fuentes potenciales de varianza de error durante la aplicac~ón de la prueba incluyen variables de quien responde la prueba como el grado de incomodidad física, la cantidac! de descanso que tuvo la noche anterior, el grado dz ansiedad por 1,i ~~rue'oa, la extensi6n de problemas emocionales apremiantes o el efecto de fárrnacos. U113 persona que responde una prueba puede, por cualquier razón, cometer un error al contestar u,ia respuesta. Por ejeinplo, el examinando puede rellenar un círculo "5" cuando quería rellenar el círculo "d". Un examinando podría ver una pregunta de prueba como "¿Cuál no sería un factor que impide que las mediciones sean replicables eri for- ma exacta?" y leer por equivocación ' ~Ci iá l es un factor que impide que las mediciones sean rcplicables en forma exacta?" Una pregunta omitida por descuido en una larga lista de preguntas de opción múltiple del tipo para rellenar círculos podría dar colmo resultac!~ que las respuestas subsecuentes ep la prueba estén fuera de secuencia; por tar.to, por ejemplo, quien responde la prueba podna iesponder el decimoctavo reacti-;o pero re!!ena: el círculo del decimoséptimo, esto debido a que el duodécimo reactivo fue omit~do de manera inadvertida. Las experiencias de aprendizaje formales, las expe- riencias casuales de la vida, terapia, enfermedades jr otros acoiitecimientos parecidos

156 Parte 2: La ciericia de la medicic)ri psicolbgica -

- - -

- Thomas E. Brown, PhD.

Prueba elaborada: Escala: para el Trastorno por Déficit de la Atencib i

de Brown

11 mi sbposición fu: que !a mayor parte de los síntomas riel

trastorno por deficit de la atención (TOA) es experirneniz:!? por casi todos de vez en cuando. Se presupme +e Icz personas que tienen TOA son aquellzs que experinentan un deterioro significativo y ~ers istentc por los síntmnas d ~ l TOA. Por tanto. si esta nreva escala de estimaci6:i hah:Ía de ser útil. iiecesitarí6 ser capaz de diferenciar entre .personas qtie reportan cn de:erioro significdtivc por e s : s síntomas del TDA y otras que no repcrtan dicho de!erio:c."

Extractado del Test Deuelqm Profile publicado en Cohen (1999) y en Internet en U'I:>IU n~a~f i r l dpu l i con i /pvc l i t r s l i~ ;~

que puzden haber ocarrido en el periodo entre aplicxignes de ionnas pirále!as de una p r ~ e b a también serán fuentes de varianza de error relacionadas con el examinado.

Las variables relacionadas con e1 examinador que son fuentes potenciales de varianza de error incluyen la presencia o ausencia de un examinador, su apariencia física y comportamiento del examinador y el profesionalismo con que tome la siti:a- ción de prueba el examinador. Algunos examinadores en algunas situaciones de prueba pueden apartarse a sabiendas o sin querer del procedimiento prescritc para una prue- ba particular. En un examen oral, algunos examinadores podrían proporcionar sin querer claves planteando preguntas que enfatizan diversas palabras, o transmitir in- formación de manera inadvertida sobre la corrección de una respuesta por medio de asentimientos de cabeza, movimientos oculares u otros gestos no verbaies.

Cal i f icac ión e interpretación d e pruebas El advenimiento de la calificación computarizada y una creciente dependencia de reactivos objetivos calificables por computadora casi han eliminado la varianza de error causada por diferencias de los evaluadores en mu- chas pruebas. Sin embargo, no todas las pruebas pueden calificarse con círculos relle- nados con lápices del número 2. Las pruebas de inteligencia administradas en forxna individual, algunas pruebas de personalidad, pruebas de ci-2atividad. diversas medi- das conductuales y otras innumerables pruebas todavía requieren calificarse en forma manual por personal capacitado. Los manuales para las pruebas de inteligencia indivi- duales tienden a ser muy explícitos sobre los criterios de calificación para que la inteli- gencia medida de los examinandos no varíe como una función de quien está aplicando 13 prueba y calificando. En algunas pruebas de personalidad, se les pide a,los exminandos que suministren respuestas abiertas aestímulos como dibujos, ?alatras, c rac io~es y manchas de tiiita, y es el examinador quien hiego debe calificar (o quizá sea más apropiado decir evaluar) las respuestas. En una prueba de creatividad, podría dársele a los examinandos la tarea de crear tantas cosas como puedan con un conjunto

Capítulo 5: Confiabilidad 157

de bloques. Pzra una medida ccndcctual de habilidades sociales en un paciente inter- no del servicio psiquiátrico, a los calii'icadores o evaluadores' podría'pedírseles que estimaran a los pacientes con respecto a la variable de "relación social". Dicha medida

. conductual podría requerir que el evaluador marcara "sí" o "no" reactivos como "El paciente dice 'Buenos días' al menos a dos integrantes del personal".

Puede apreciar que t a n pronto como una medida psicológica usa cualquier cosa qut iir, 5car reíxtivos de tipo objetivo que se pueden someter a una calificación l. ori~ptitar!:~,ida colifiable, el calificador o ei sistema de calificaciór! se vuelve una h ~ n t e cic- \.a:-ia:iza de error. Si la subjetividad está implicada en la calificación, el calificador (o e\-aliindor) puede ser una fuente de varianza de error. ~ r i efecto, a pesar del esta- blecimiento muy riguroso de criterios de calificación en muchas de las pruebas de inteligencia más conocidas, 21 examinador y los calificadores en ocasiones se enfren- tarán con situaciones donde la respuesta de, un examinando cae en un área gris. El elemento de la subjetividad en la calificación puede estar presente en un grado mu- cho mayor en la aplicación de ciertas pruebas de de tipo no objetivo y ciertas pruebas académicas (como los qxámenes de ensayo) e incluso en la observa- ción conductual. Considérese el caso de dos observadores a los que se les encarga la tarea de evaiuar a un paciente psiquiátrico en .la variable de "relación social". En un reactivo que tan sólo pregun'ia si dos miembros del personal fueron saludados en la rnañana, un evaluador podría juzgar que el contacto ocular del paciente y el hecho de, que masculle algo a dos miembros del personal calificwi como una respuesta "sí", mientras que otro podría diferir y proponer que es apropiada una respuesta "ao" zl rezctivo. Tales problemas sabre el acuerdo en la calificaciór. pueden abordarse por medio d(- una capxitación rigurosa diseñada para hacer que la consistencia, o confia- bilidad, de \.arios calificadores sea lo más perfecta posible.

Otras fuentes de'error Ciertos tipos de situaciones de evaluación se prestan a varieda- des par:iculares de error sistem5tico-y no sistemá.tico. Por ejemplo, cansidérese la eva- luacióli del grado de acuerdo entre par2jas respecto z la calidad y cantidad de abuso físico y psicológico en su relación. Como observarori Moffitt el al. (19971, "Debido a que el abusa de la pareja por lo general ocurre en privado, sólo hay dos personas que 'en realidad' saben lo que sucede detrás de sus puertas cerradas: los dos miembros de la pareja" (p. 47). Las fuentes potenciales de error no sistemático en una situación cie evaiuación así incluyen olvido, dejar de notar el comportamiento abusivo y enten- der x ~ l las instrucciones respecto al reporte. Varios estudios (O'Leary y Arias, 1988; Kggs et u[. , 1989; Straus, 1979) han sugerido que también hay factores que pueden contribuir a un e::ror sistemático en la forma de reportar gradualmente la perpetración de abuso. Las mujeres, por ejemplo, pueden reportar menos abuso debido a temor, vergüenza o factores de conveniencia social y reportar más abuso si están buscando ayuda. Los hombres pueden reportar menos abuso debido a vergüenza y factores de conveniencia social y reportar más abuso si están intentando justificar el reporte.

Del mismo rnodo que puede ser que nunca se conozca la cantidad de abuso que sufre usa persona a manos de su pareja, así puede ser que nunca se conozca la canti- dad de varianza d.e la prueba verdadera con relación al error. Una supuesta puntua- ción ~rerdadera, i.omo lo planteó Stanley (1971, p. 361), "no es el hecho definitivo en el !ibro del áqgel dcl registro". Además, la utiiidad de los métodos actuales para estimar la varianza verdadera en contraposición con la varianza de error es una cuestión que s t debate en forma aczlorada (véase, por ejemplo, Collins, 1996; Humphreys, 1996; Lk'illiamc y Zin~i-ricrman, 1996a, 1996b). Veamos con más detalle estas estimaciones y e! p:c.rem ;7irt;a (iei-ivarlas.

158 Parte 2: La ciencia de 13 nedicibn psicolbgica -

- - - - - -- . ~~ - - . . . - -

Estimaciones dv confiabilidad de prueba y posprueba

Una regla hecha con el acero de la mejor calidad puede ser un instrumento de medición miiy tonfiable; cada vez que se mide algo que tiene exactamente 12 centímetros de lar- go, por ejemplo, la regla indicará que lo que se está midiendo tiene --xactamente 12 cm- tírnetros de largo. También p e d e decirse que la confiabilidad de este instrun,.mto de medicidn es estable en el tiempo; ya sea que se midan los 12 centímetros hoy, maiana o el próximo año, la regla aún va a medir i 2 centímetros como 12 centímetros. Por el coii- Erario, una regla construida de niasillapodría ser un instrumento de medición pococon- fiable. Un minuto podría medir algún patrón que se sabe que tiene 12 centímetros de largo como 12 centímetros, al minuto siguiente podría medirlo corno 14 centímetros y una semana después como 18 centímetros. T l ~ a forma de estimar la confiabilidad de un instrumento de medición es usando el mismo instrumento para medir lo mismo en dos pirntos en el tiempo. En el lenguaje psicométrico, este enfoque de la valoración de la confiabilidad se llama "método de prueba y pospryeba" y el resultado de dicha valora- ción es una estimación de la "con fiabilidad de prueba y posprueba".

La confiabilidad de prueba y posprueba es arta estimación de la confiabilidad obteni- da al correlacionar pares de puntuaciones de las mismas personas en dos aplicaciones diferentes.de la misma prueba. La medida de prueba y posprueba es apropiada cuan- do se valora la confiabilidad de una prueba que pretende medir algo que es relativa- mente estable a lo largo del tiempo, como un rasgo de personalidad. Si se supone que la característica que se está midiendo fluctúa ccn el tiempo, Ccndría p o c ~ senfido eva- luar la confiabilidad de una prueba usando el método de prueba y posprueba; se encontrarían correlaciones imignificantes entre las puntuaciones obtenidas en las dos aplicaciones de la prueba. Estas correlaciones insignificantes se deberían a cambios reales en cualquier cosa que sea lo que se está midiendo en lugar de deberse a factores inherentes en el instrumento de medición.

Conforme pasa el tiempo, las personas cambian; pueden, por ejemplo, aprender cosas nuevas, olvidar algunas cosas y adquirir habilidades nuevas. Por lo general, aunque hay excepciones, conforme se incremerita el intervalo de tiempo entre las apli- caciones de las mismas pruebas, disminuye la correlación entre las puntuaciones obte- nidas en cada prueba. El paso del tiempo puede ser una fuente de varianza de error. Entre mayor tiempo pase, es más probable qce el coeficiente de confiabilidad será menor. Cuando el intervalo entre las pruebas es mayor que seis meses, a menudo se hace referencia a la estimación de la confiabilidad de piueba y posprueba como "coefi- ciente de estabilidad". Una estimación de la confiabilidad prueba y posprueba de una prueba de matemáticas podría ser baja si quienes respondieron la prueba tomaron un curso de matemáticas antes de que se aplicara la segunda prueba. Una estimación de la confiabilidad prueba y posprueba de un perfil de personalidad podría ser baja si quien responde la prueba sufrió algún trauma emocional o recibió orientacióri durante el periodo intermedio. Puede encontrarse una estimación baja de la confiabilidad pruebá y posprueba aun cuando el intervalo entre pruebas es relativamente breve; esto si las pruebas ocurren durante un tiempo de grandes cambios del desarrollo con respecto a las variables que está diseñada para evaluar. Una evaluación de un coeficiente de con- fiabilidad pnieba y posprueba debe abarcar, por consiguiente, niás al15 de la significa- ción del coeficiente obtenido; debe extenderse a un%-.c6nsicieración de los posibles factores que intervienen entre las aplicaclone de la prueba si hemos de llegar n ion- clusiones apropiadas sobre la confiabilidad del instrumento de medición.

Capítulo 5 : Confiab~lidad 159

Una estimación de la confiabilidad prueba y posprueba puede ser más apropiada para calibra1 la confiabilidad de pruebas que emplean como medidas de resultados el trempo de reacción o juicios perceptivos (como discriminaciones de brillantez, sonori- dad o gusto). Siti embargo, incluso al medir variables como éstas y aurt cuando el periodo entre las dos aplicaciones de la prueba sea relativamente pequeño, nótese que pueden intervenir diversos factores (como experiencia, práctica, memoria, fatiga y motivación) jr ~.cmfundir una niedida de codiabilidad ~ b k n i d a . ~

Estimaciones dc co~zfinbilidad dc fonrius altenzas o eqr¿ivalentes

Si alguna vez ha presentado un examen de composición en el que las preguntas para la composiciónno eran iguales que en la prueba presentada en un inicio, ha experimenta- do formas diferentes de una prueba. Y si se ha ~reguntado si las dos formas de la prueba en realidad eran equivalentes, ha cuestion2cio la confiabilidad de/ori?iac alternas de la prueba. El grado de la relación entre varias formas de una prueba puede evaluarse por medio de u:\ coeficiente de confiabilidad de/ornms alternas o equiuale~ztes, el cual a me- nudo se denomina coeficiente de equivalencia. . .

Formasaltemas y formas equivalentes son términos que en ocasiones se usan en forma indiscriminada, aunque hay una diferencia técnica entre ellos. Existen formas equivalen- tes de una prueba cuando para cada forma de la prueba son iguales las medias y las varianzas de las puntuaciones de prueba observadas. En teoría, las medias de las pun- tliacioriec obtenidas er, fomas eguivalentes sc cxrelacionan de manera igual tori 1~ puntuación verdadera. De manera más práctica, las puntuacioiies obtenidas en prue- bas equivalentes se correlacionan de modo igual con otras medidas. Lasformns alterrias ian solo son versiones diferentes de una prueba que se han construidc con el fin de ser equivalentes. Aunque no cumplen con los requisitos para la designación legítima de "equivalentes", las formas alternas de una prueba están disefiadas generahnente para ser equivalentes con respecto a variables como contenido y nivcl de difitu!tad.

Las estimaciones de la confiabilidad de formas altcrnas y equivalentes son simi- lares a una estimacih de la confiabilidad y repetición de la prueba en dos formas: 1) se requieren dos aplicaciones de la prueba con el mismo grupo y 2) las puntuaciones de prueba pueden ser afectadas por factores como la motivaci.ón, la fatiga o eventos que intervienen como la práctica, el aprendizaje o la terapia. Sin embargo, una fuente adicional de varianza de error, el muestre0 de reactivos, está inherentc en el cálculo de un coeficiente de confiabilidad de formas alternas o equivalentes; quienes responden las pruebas pueden salir mejor o peor en una forma específica de la prueba, no como una función de su capacidad verdadera, sino tan sólo debido a los reactivos particula- res que se seleccionaron para ser incluidos.' Otra desventaja potencial de una forma de prueba a1':erna es de naturaleza financiera; comúnmente consume,mucho tiempo y es muy costoso elaborar formas de prueba alternas o equivaleiites; ;tan sólo piense en todo lo que podría implicar hacer que las mismas personas acuden a repetidas aplicaciones de una prueba experimental! Una ventaja primordial de usar una forma

? Aunque podemos referimos a un número como una declaraci6n sumaria de la confiabilidad d e herra- mien ta d e medici6n individuales, cualquiera d e estos índices d e confiabi!idad s61o pueden interpretarse de manera significativa en el contexto del proceso d e rri%dición, las circunstancias únicas que rodean al uso d e la regla, la prueba o algún otro instrumento d e medición en una aplicación o situación particular. ' De acuerdo con el modelo d e puntuacidn verdadero clásico, e1 efecto d e taies factores en las puntuaciones de prueba se supone que es en efecto un error d e medición. Hay modelos alternativos en los que el efecto d e dichos iactorci.i en puriti?acionrs d e prueba fluctuantes no sería considerado error (Atkinson, 1981).

160 !'arte 3: Laciencia d e la mediciún psicológica --

- - .- - - - - - -

- . . , el contenido de una fonna de piueba aplicada con anterioridad.

Se supone que ciertos rasgos son relativamente estables en las personas a lo largo del tiempo, y esperaríamos que las pruebas que miden esos rasgos, s ea i iormas alter- .

nas, formas equivalentes o de algún otro tipo, reflejen esa estabilidad. Como ejemplo, esperarknos que hubiera, y de ñecho hay, un grado razonable de estabilidad en las puntuaciones en las pruebas de inteligencia. A la inversa, podrían-,os esperar que hu- biera relativamente poca estabilidad en las puntuaciones \)btenida; en una medida del estado de ansiedad jansiedad sentida en el momento); podría e\perarse queel nivel de ansiedad expr-rirnentádo por alguien q u e responde la prue!)a variara hora tras hora, por "O decii día tras día, semana tras semana o mes tras mes.

Fuede obtenerse una estimación de la confiabilidad de und prueba sin elaborar una forma alterna de la prueba y si-i tener que administrar la prueba dos veces a las mismas personas. Dicha evaluación implica el escrutinio de los reactivos individuales que forman la prueba y su relación entre sí. Debido a que este tipo de estimación de la confiabilidad no se obtiene por medio de la comparación de datos de una forma alter- na rii a través de un procedimiento de prueba y posprleba sino, más bien, por medio de un examen de los reactivos de la prueba, se conoce como estimación de confiabili- dad d e "consistencia interna" o como una estimación de "consistencia entre reaciivos". Nuestra atención cambiará ahora a estos tipos de estimaciones de confiabilidad, co- mcmzando por la estimación de "división por mitades".

Estimaciones de confiabilidad de división por mitades

Uria estimación de cmfiabiiidad de diuisih por mitades se obtiene cnrrelacionando dos .

pares de puntuaciones obtenidas de mitades equivalentes de una sola prueba aplica- da una sola vez. Es una medida de confiabilidad útil cuando es poco pr6ctico o indfs- seable evaluar la confiabilidad con dos pruebas o hacer dos aplicaciones de una prueba (debido a factores como tiempo o costo). El cálculo de un coeficiente de confiabilidad de división por mitades por lo general implica tres pasos:

Paso 1. Dividir la prueba en mitades equivalentes.

Paso 2. Calcular una r de Pearson entre las puntuaciones en las dos mitades de la prueba.

Paso 3. Ajustar la confiabilidad de la mitad de la prueba usando l i firmula de Spearman-Brown.

Puede ser que haya escuchado el refrán cpe dice que "hay más de una forma de pelar a un gato". Ur. corolario a este fragmento de sabiduría podría ser que hay algu- nas formas en las que nunca debería pelar a un gato. Un fragmento de sabiduría aná- logo cuando S& trata de calcular los coeficientes de confiabilidad de división por mitades es: hay más de una forma, de'dividir una prueba, o hay algunas formas en las que nunca debería dividirse una p r u e b a . ' ~ ~ se recomienda tan sólo dividir la prueba 2 lz mitad, debido a que es probable que este procedimiento elevaría o disminuiría en forma falsa el coeficiente de confiabilidad (debido a factores como cantidades diferen- tes de ansiedad por la prueba, y diferencias en la dificultad de los reactivos como una función de su colocación en la pruebaj. Una forma aceptable de dividir una prueba es asignar a! dzar los reactivos a una u otra mitad deda prueba. Una sebunda forma aceptable es asignar los reactivos con números nones a una mitad de la prueba y los reactivos con números pares a la otra mitad (produciendo una e~tiiir~ación a la que

Capitulo 5: Confiabilidad 161

:aanbi&w se hace referencia como "confiabilidad mitad pares-mitad riones").' Una ter- cera forma es dividir la prueba por contenido de modo que cada mitad de la prueba cci,,,ciiga reactivos equivalentes con respecto al contenido y dificultad. En geiieral, un objbtivo primarir) al dividir una prueba en mitades con el propósito de obtener una estimación de la confiabilidad de división por mitades es crear lo que podría denomi- narse "miniformas paralelas", con cada mitad siendo igual a la otra, o 19 már siniiiar h ~ m ~ a r n e r i t t . posible, CII aspc'ctos de formatc,, estilísticos, c.ctadísticos y )Iros 'icpec- tor, rclacion,i~lo4.

E1 paso 2 cn cl proiedimiento implica el cáiculo de una r dc l 'c~rson, iu cii<~l 1.1;-

quiere poca explicación en este punto. Sin embargo, el tercer pzso requiere el uso de la fórmula de Spearman-Brown.

La fórmula de Spearinan-Brown La fórxula de Speannan-Brown le permite a quien elabora la prueba o al administrador estimar la confiabiiidad de consistencia interna a partir de una correlación de dos mitades de una prueba; es una aplicación específica de una fórmula más general para estimar la confiabiiidad de una prueba que se ha alargado o acortado en cualquier cantidad de reactivos. Debido a que la confiabilidad de una prueba es afectada por su longitud, es necesaria una fórmula para estimar la confiabilidad de una prueba que se ha acortado o alargado. La fórmula general de Cpcarmar-i-Drown (Y,,) es

donde r,, es igual a la confiabilidad ajustada por la fórmula de Spearman-Brown, t 'Y

cs igual a la r de iearson en la prueba con la longitud original y n es igual al número de seactivos en la versión revisóda dividido entre el número de reactivos en la versión original.

Al determinar la confiabilidad de una mitad de F a prueba, un elaborador de pruebas p e d e usar luego la fórmula de Spearman-Brown para estimar la confiabili- dad de una prueba entera. Debido a que la prueba entera es del doble de largo que 12 mitad de una prueba, n se vuelve 2 en la fórmcila de Spearman-Brown para el ajuste de la confiabilidad de división por mitades. El símbolo Y, significa la r de Pearson de las puntuaciones en las dos mitades de la prueba:

Por lo general es cierto, aunque no siempre, que la confiabilidad se incrementa conforme aumenta la longitud de una prueba, a condición de que los reactivos adicio- nales sean equivalentes con respecto al contenido y rango de dificultad de los reactivos originales. Las estimaciones de confiabilidad basadas en la consideración de la prue- ba entera tenderán por consiguiente a ser mayores que aquellas basadas en la mitad de una prueba. El cuadro 5.1 muestra correlaciones de la mitad de una prueba junto con estimaciones de confiabilidad ajustadas para la pkeba entera. Puede verse que todas las correlaciones ajustadas son mayores que las correlaciones sin ajustar; esto se

4 1 1 una precaución aquí: con respecto ;i un grupo de reaa:vos en una p r ~ e b a d e rendimiento que abordan un solo probiema, por lo general es deseable asignar el g r ~ p o entero d e reactivos a una mitad d e la prueba. De otra manera, si parte del grupo estuviera en una mitad y la otra parte en la otra mitad, la semejanza de la mitad de las puntuaciones sería inflada en forma falsa; un solo error d e comprensión, por ejemplo, podría afectar a reactivos en ambas mitades de la prueba.

162 Parte 2: La ciencia d e la medición psicológica

Coeficientes de confiabilidad mitad de l a prueba Estimación de la - mitad pares-rnitad nones antes y Grado (rsin ajuster) prueba entera (r,,) . .

después del ajuste de Spearman- Brown" K .71a .a36

1 ,807 a93 2 ,777 875

-~ . , 1 a i A puntu.icidnes cri una p r i ' c h de ca~~acrLldii rnciica;

cietc Y que las t.sli~iiacioiie~ Lic Spear~rian-Urown ';e basan tn r.ii!a prucbLi que es e¡ doble de larga que la mitad de la prueba original. Para los datos de IPS ;iluiru-ios de jardín de niños, por ejemplo, una confiabilidad d e la mitad de ana pr~ieba de ,718 puede estimarse que es equivalente a una confiabilidad de la prueba entera de ,536.

Si los elaboradores o administradores d e pniebas desean acc~rtar cria prueba, la fórmula de Spearman-Brown puede ser usada para estimar el efecto del acortamiento en la confiabilidad d e la prueba. La reducción e1-i el taniaño de la prueba con el propó sito de reducir el tiempo de aplicación de la prueba es una práctica con-iúi-i en situacio- nes donde el administrador de la prueba puede tener sólo un tiempo limitado con quien responde la prueba o en situaciones donde el aburrinientcj Q la fatiga podrían producir respuestas de significación cuestionable. 1

1 También podría usarse un;i fórmula de S~earn-ian-Brown para Seterminar el nú- 1 mero de reactivos necesario para alcanzar un nivel deseado de confiabilidad. Al agre- gar reactivos para incrementar la confiabilidad de la prueba hasta un nivel deseado, la regla es que los reactivos ngevos deben ser equivzlentes en contenido y dificiiltad de modo que la prueba más larga todavía mida lo que medía la prueba original. Si ia confiabilidad de la prueba original es relativamente baja, puede ser poco práctico in- crementar el número d e reactivos para alcanzar un nivel de confiabilidad' aceptable.

1 Otra alternativa sería abandonar este instrumento relativamente poco c~nfiable y lo-

bién podría elevarse de alguna manera; por ejempio, creando reactivos nuevos, aclarando las instrucciones de la prueba o simplificando las reglas (le caii!icación.

Las estimaciones de confiabiiidad de consistei-icia ¿?tema, como las obtenidas usan- d o la fórmula de Spearman-Brown, son inapropiadas para medir la confiabilidad de pruebas heterogéneas y pruebas de velocidad. El impacto de las características dg la prueba en la confiabilidad se comenta con mayor detalle más adelante en este capítulo.

1 calizar, o elaborar, una alternativa adecuada. La confiabilidad di1 instrumento &m-

1 Otros métodos de estirnnciórl de la c o m i s t m c i n interrin

1

Además de la fórmula de Spearman-Brown, otros métodos que se usan en forma arn- plia para estimar laconfiabilidad de consistencia intem2 incluyen fóimulas desarrolia- das por Kuder y Richardson (1937) y Cronhach (1951). Co,lsisferrcin elifre rracfivos es u.n término que se refiere al grado de correlación entre todos los reactivos en una escala. Una medida de consistencia entre reactivos se calcula a partir de una sola apiicación de una forma única d e una prueba. Un índice de consistencia entre reactivcs es i í t i l , a su vez, para evaluar la howiogeneidad de la prueba. Se dice que las pruebas son "l-iornogé- rieas" si contienen reactivos que miden un solo rasgo. Como un adjetivo usado para describir reactivos de prueba, homogeneidad (derivada-.de las palabras gricgas Iiomos, que significa "misma", y genous, que significa "clase") es el grado en que una pnieba mide un solo factor; o.sea, el grado en quelos reactivos e n una escala son unifactorhles.

Capitulo 5: Contiabilidad 163 .-

-

En contraste con la homogeneidad de la prueba, la heterogeneidad describe el grado en que una prueba mide factores diferentes. Una prueba no homogérieb o heterogénea se compone de reactivos que miden más de un rasgo. Podría esperarse que una prueba que sólo evalúa el conocimiento de las habilidades de reparación de televisores de color tuviera un contenido más homogéneo que u i a prueba de reparaciones electróni- cas. La primera pmeba sólo evalúa un área y la última evalúa varias, como el conoci- miento no sólo de televisores sino también a c radios, vidcograbadoras, repioductores de discos compactos, eic. Entre más homogéneli es una p r i i t h , ~ u c d c espetarre que tenga más consiste:icia entre reactivos. Debido a que la prueba abarcaría una muestra de un área de corit2nido relativamente reducida, tendría más consistencia entre reactivos. Una kzeisona que es hábil en la reparación de televisores de color podría estar algo familiarizado con la reparación de otros aparatos dectrónicos como radios y sisien-.as estereof5niio.s pero puede saber poco sobre videograbadoras o reproductores de discos ccimpactos. Por tanto, habría menos consistencia entre reactivos en esta prueba de capactdad de reparación general que en una prueba diseñada para evaluar sólo el conocimiento y habilidades para la reparación de televisores de color.

La homogeneidad de la prueba es deseable debido a que permite una interpreta- ción relativamente sencilla de la puntuación de la prueba. Es probable que aquellos que obtienen la misma puntuación en una prueba homogénea tengan capacidades parecidas en el área examinada. Aquellos que obtienen la misma puntuación en una prueba más heterogénea pueden tener capacidades bastante diferentes. Pero aunque es deseable una prueba homogénea debido a que se presta con facilidad a una inter- pietációii clüra, a menudo es uria herramienta hsrrficiente para medir variables psico- lógicas multifacéticas como inteligencia o personalidad. Una forma de evitar esta fuente potencial de dificultad ha sido aplicar una serie de pruebas homogéneas, cada una diseñada para medir algún componente de una variable heter~ggnea.~ Además de algunas de las influencias aleatorias que pueden afectar a las medidas de confiabili- dad, la varianza de error en una medida de consistencia entre reactivos proviene de dos fuentec 1) 21 muestre0 de reactivos y 2) la heterobeneidad del área de contenido. Entre más heterogénea sea el área de contenido de la que se extrae la muestra, será menor la consistencia entre reactivos.

Las fórmulas de Kuder-Richardson La insatisfacción con los métodos de división por mitades existentes para estimar la confiabilidad llevó a G. Frederic Kuder y M.W. Richardson (1937; Richardson y Kuder, 1939) a desarrollar sus propias medidas para estimar la confiabilidad. La más conocida de las muchas fórmulas en las que colabo- raron es su/¿írnliria Kiider-Ricllardson 20 o KR-20 (llamada así debido a que fue la vigé- sima fórmula desarrollada en una serie). En el caso en que los reactivos de la prueba son muy homogéneos, las estimaciones de confiabilidad KR-20 y de divi- sión por mitades serán similares. Sin embargo, la KR-20 es la estadística de elección para determinar la consistencia entre reactivos de reactivos dicotómicos, sobrc todo aquellos reactivos que pueden ser calificados como correctos o equivocados (como los reactivos de opción múltiple). Si los reactivos de prueba son más heterogéneos, la KQ- 20 producirií estiinciciones de confiabilidad infericres que e! método de división por mitades. El cuadro 5.2 resume los reactivos en una prueba heterogénea de muestra.

-- . . Como veremo5 en otra parte de este libro, las decisiones importantes rara vez se toman s6Io con base en

una pnicba Lo? psicdlogos con frecuencia se basan en una baterla de pruebas, una coleccidn selecta d e pnie- bas y proc~dimientos d e evaluaci6n en el proceso de valoraci6n. Una batena de pruebas puede componer- se o no de pniebas homogéneas.

164 I'a:tc 2: La ciencia d e la medición psicol6gica

?7e76 ,~~fO"5"52~Vnmnm~pi . - - - - Areas de contenido en las que se realizó un Número de reactivo Área de contenido - muestre0 piira obtener 18 reactivos de la 1

* Prueba Hipotética de R'eparaciones 2 Electrónicas (PHRE)

Televisibn de color T ~ l ~ v i s i b n de color Televisibn b l a n ~ o y ncgro Televisión blanco y negro Radio Radio Vl. i?0~fdb3d01 J

V i d r o ~ ; r a b ~ d r ~ ~ n CC---:.m,fa Cornpdtddcra Reproductor de d i x o s compactos Reproductor de discos compactos Receptor estereofónico Receptor estereofEnico Cdmara de video CAmara de video Reproductor ovo Reproductor OVD

Asumiendo que el nivel de dificultad de todos los reactivos en la prueba cs más o menos igual, ¿esperaría que una estimcicióii de confiabilidad de división por mitades (mitad parcs-mitad nones) fuera bastante alta o baja? ¿Cómo sería la estimación de confiabilidad KR-20 en comparación con la estima'ción de confiabilidad mitad pares- mitad nones? ¿Sería mayor o menor?

Podríamos suponer que debido a que las áreas de contenido de las que se tornó una muestra para los 18 reactivos de esta "Prueba Hipotética de Reparaciones Elec- trónicas" están ordenadas en una manera en la que los reactivos impzres y pares abar- can la misma área de contenido, es probable que la estimación de la confiabilidad mitad pares-mitad nones sea bastante alta. Con respecto a la suposición razonable respecto a la estimación de confiabilidad KR-20, debido a la gran heterogeneidad de las áreas de contenido cuando se consideran en conjunto, podría ser razonable prede- cir que la estimación de confiabilidad KR-20 sería menor que la mitad pares-mitad nones. ¿Cómo puede calcularse la KR-20? Puede usarse la siguiente fórmula:

donde r,, representa la fórmula 20 de Kuder-Richardson del coeficiente de confiabi- lidad, k es el número de reactivos de la prueba, u* es la varianza del total de las pun- tuaciones de la prueba, p es la proporción de quienes respondieron la prueba que aprobaron el reactivo, q es la proporción de personas que fallaron en el reactivo y C pq es la suma de los productos pq de todos los reactivos. Para este ejemplo particular, k es igual a 18. Basados en los datos del cuadro 5.3, puede calcularse que C pq es 3.975. La varianza del total de las puntuaciones de la prueba es 5.26. Por tanto, r,, = .259.

Puede obtenerse una aproximación de la KR-20 usando la fórmula vigésimo pri- mera en la serie desarrollada por Kuder y Richardsoq una fórmula conocida, como podrá adivinar, como KR-21. La KR-21 puede ser usada si hay razón para creer que todos los reactivos de la prueba tienen aproximadamente el mismo grado de di'ficul-

Capitulo 5: Confiabilidad 165

Cuadro 5.3 Número de personas Desempeño en la PHRE por reactivo para 20 que lo respondieron eri

p e m n a s que respondieron la prueba Número de reactivo iorma correcta -- 1 14 2 12 3 9 4 1 Y l . - t 6 7 6 8 9 9 1 o

1 o 1 o 1 1 8 12 6 13 15 14 9 15 12 16 12 17 14

18 7

tad; una suposición, deberíamos agregar, que rara vez se justifica. La fórrnula KR-21 tiende a ser anticuada en u i ~ á época de calculadcras y ccmptitadoras, debido á que se usaba como una aproximación de la KR-20 que requería menos cáIculos. Otra fórmula usada alguna vez en la medición de la confiabilidad de la consistencia inte.na y ahora en su maycr parte anticuada era un estadígrafo conocido como la fórmula de Rulon (Rulon, 1939).

Aunque se han propuesto numerosas modificaciones de las fórmulas de Kuder- Ricnardson a lo largo de ios años (por ejemplo, Cliff, 1984; Horst, 1953), quizá la única variante de la fórmula KR-20 que ha recibido la mayor aceptación hasta la fecha es un estadígrafo llamado "coeficiente alfa", en ocasiones denominado "coeficiente a-20" (siendo a la letra griega ayu y el 20 refiriéndose a KR-20).

Coeficiente alfa Desarrollado por Cronbach (1951) y ampliado en lo subsecuente por otros (como Kaiser y Michael, 1975; Novick y Lewis, 1967), el cogficirnte al/n puede considerarse como la media de todas las correlaciones de división por mitades posi- bles, las buenas jurito con las malas, corregida por la fórmula de Syearmui-Brown. Como hemos señalado antes, la KR-20 se usa en forma apropiada en pruebas con reactivos dicotómicos. El coeficiente alfa también puede ser usado en pruebas ccn reactivos dicotómic~s. Además, el coeficiente alfa es ap~opiado para ser usado en pruc- bas que contienen reactivos que no son dicotómicos: reactivos que pueden calificarse en forma mdividual a lo largo de un rango de valores. Los ejemplos de estas pruebas incluyen las encuestas de opinión y de actitud, donde se presenta un rango de alter- nativas posibles, las pruebas de ensayo y las pruebas de respuesta corta, donde pumie darse crédito parcial. La fórmula para el coeficiente alfa es

donde ra es el coeficiente alfa, k es el número de reactivos,~ f es la varianza de uE reactivo, C of es la suma de las varianzas de cada reactivo y a es la varianza del total

166 - Parte 2. La ciencia de la medición psicológica .- - -

-

- Lizarían en forma manual los &lculoc bastante laboriosos, y podría presumirse en - - fcrma razonable que el número de personas que preferirían la forma antigua dismi- nuiría c o ~ o r m e aumentara el número de reactivos en la p~ueba . En la actualidad, quizá debido a la fácil disponibilidad de computadoras (desde coinputadoras centra- les haita portátiles), el coeiiciente aifa es la estadística preierida para obtener una estimación d e la confialili¿?d de la consistencia interna (Keith y Reynolds, 1990).

h fed idas de confiabilidad entre evaluadores

En situaciones en las que estamos sierido evaiuados, por lo general nos gustaría creer que sin importar quién esté haciendo la evaluación, ser íamx evaluados en la misma

Por ejemplo, si el profesor de este curso fuera a evaluar su conociniiento de la materia por medio de una prueba de ensayo, a usted ie gustaría pensar que la califica- ción que reciba en la prueba de ensayo sería la misma si fuera calificada por su profe- scjr o por cualquier otro profesor que imparra este curso. Si presenta un examen práctico par=. obtener su licencia de manejo, a usted le gustaría pensar que aprobar o reprabar la prueba sólo es cuestión de su desempeño detrás del volante y na una función de quién está sentado en el asiento del pasajero. Por desgracia, en algiirios tipos de prue- bas bajo a h a s condiciones, la puntuación puede ser más una funcón del evaluador que de alguna otra cosa. Esto se demostró desde 1912 cuando unos iiivestigadores presentaion una composición de inglés de un alumno a una convención de maestros, v fue calificada por vol~mtarios, con calificacicnes que variaron desde un m í n h o de 500/0 hasta un máximode 98% (Starch y Elliott, 1912).

Denomiriada en fonna diversa como "confiabilidad del evaluador", "confiabili- dad del juez", "confiabilidad del observador" y "con fiabilidad entre evaluadores", la co$zabil idad zntre maluadores es el grado de acuerdo o consistencia que existe entre dos o más evaluadores (o jueces o calificadores). Pueden publicarse referencias a los niveles de confiabilidad entre evaluadores para una prueba particular (ya sea en el manual de la prueba o en alguna otra parte), y si el coeficiente de confiabilidad es muy alto, el futuro administrador de la prueba sabe que las puntuaciones puedcri derivarse en forma consistente y sistemática por varios evaluadores con suficiente capacitación. Un elaborador de pruebas responsable que es incapaz de crear una prueba que pueda ser calificada con un grado razonable d e consistencia por evaluadores ca- pacitados regresará al pizarrón para descubrir la razón para este problema. Si, por ejemplo, el problema es una falta de claridad en los criterios de calificación, entonces el remedio podría ser redactar de nuevo la sección de criterios de calificación del ma- nual para incluir reglas de calificación redactadas con claridad. Una revisión de la literatura sobre la capacitación de evaluadores para mejorar su desempeiín en las es- timaciones sugiere que las conferencias para evaluadores sobre las reglas de califim - ción no son tan efectivas para promover la consistencia entre ellos como proporcionark'; la oportunidad de participar en d i sc~s ior~es de grupo junto con ejercicios de práctica e información sobre su precisión (Smith, 1986).

Wecimos "por lo general" debido a que existen excepcioiits. Por tanto, por ejemplo, si acude a una en[:.- vistr de trabajo y el patrón o entrevistador es un padre o algún otro- pariente amoroso, podría esperar ?e manera razonable que ld naturaleza de la valoración que recibiRa no sería La misma que si el evaluada: fuma alguna otra persona. Por otra parte, si el-patrón o entrevistador es alguien con quien ha tenido un mal rato, puede ser tiempo de. revisar de nuevo los anuncios de empleo.

Capitulo 5: Corifiabilidad 167

q Quizd la forma mds simple de determinar 'el grado d e consistencia que existe en- .S * .. tre evaluadores en la caiificación de una prv.eba es calcular un coeficiente de correla- .:,

ción, un roeficiente de corifiabilidad entre evaluadores. Suponiendo, por ejemplo, que :t

. se aplicj una prueba de 30 reactivos de tiempo de reacción a un sujeto y fue calificada por dos evaluadores, la confiabilidad entre éstos sería igual al valor del coeficiente de correlación de Spearmm-Brown corregido obte:ido con respecto a 3 0 pares de pun- tuacions. Si se ciricontrara que el coeficiente de ronfiabiiidad es, digamos, .90, esto significaría que cl9C% de la vananza en las puntuaciones asignadas por los evahadores -.

sc dcriita cie diferencias reales eri el !iempo de reacción del sujeto, mientras que el 10% podría atribuirse a factores distinhs al tiempo de reacción del sujeto (es decir, error). En muchos casos, :,e us-an más de dos evaluadores en t.stos'estudios de confiabiiidad. En tales casos, se correlacionarían las puntuaciones obtenidas por los dos evaluadores, usár.,lo la r ¿e Pearson o la rho de Spearman, dependiendo de la escala de medición de la untu tu ación de la prueba.

La esladística kappa La estadística kappa fue diseñada en un principio para ser usa- da en el caso en (11 que los evaluadores hacen estimaciones usando escalas nominales de medición (Cohcn, 1963). La estadística kappa fue modificada después por Fliess (1971) para ser usada con múltiples evaluadores. Por lo general se ha recibido bastas- te bien la estadística kappa como una medida de confiabilidad entre evaluadores (Hartmann, 1977), aunque hay casos especiales en las que puede ser apropiado usar la kappa en una forma modificada (Conger, 1985) o usar otra medida, como la Ir' de Yule (Spi tznagel :*r iieiz-r. í985).

Uso e inteqretaci6n de un coeficiente de canfiabilidad ,/ Hemos visto que con respecto a la prueba en sí, básicamente hay tres enfoques para la estimación de la confiabilidad: 1) prueba y posprueba, 2) formas alternas o equivalen- tes y 3) consistencia interne o entre reactivos. El método o métodos empleados depen- derá de diversos factores, siendo primordial entre ellos el prop6sito de obtener w a medida de confiabilidad y la forma en que se usará la medida.

Figura 5.7

\ Error debido a la consttucci6n de la

\ / Error de \del '

Fuentes de varianza cn una prueba hipotética

rianza verdadera

irianza de error

. - . 168 Parte 2: La - ci^.ncia d e la rr.edici6n psicológica