calidad puntuaciones test

7/25/2019 Calidad Puntuaciones Test

1/30

DIRECTRICESPARAELCONTROLDECALIDADDELASPUNTUACIONESDELOSTESTS, SUANLISISYLOS

INFORMESSOBRELASPUNTUACIONES

Traducidopor: AnaHernndezC opyright: International TestC ommission(ITC ) 2013

Notadelatraductora: Sehanactualizadoalgunasreferenciaseincluidoreferenciasalastraduccionesespaolasdelosdocumentosmencionadosenalgunosapartados.


2/30

ADOPCIN FORMAL

El Consejo de la Comisin Internacional de Tests adopt formalmente las directrices en su reunin de julio de2012 en Amsterdam, Holanda.

PUBLICACIN ONLINE

Este documento original fue publicado ocialmente online despus de la Reunin General de la ITCcelebrada en Julio de 2012 en Amsterdam, y desde entonces se puede obtener a travs de la pgina web dela ITC:hp://www.intestcom.org.

La traduccin al espaol puede obtenerse a travs de la pgina web del COP: hp://www.cop.es

PUBLICACIN EN PAPEL

Este documento, en ingls, ha sido publicado en la revista Internaonal Journal of Tesng (2014, volumen14, pp: 195-217)

Por favor, cite este documento as:

Internaonal Test Commission (2013). Internaonal Guidelines on Quality Control in Scoring, Test Analysis,and Reporng of Test Scores. [www.intestcom.org].
http://www.intestcom.org/http://www.cop.es/http://www.cop.es/http://www.intestcom.org/


3/30

C omisin Internac iona l de Tests 2013

3

AGRADECIMIENTOS

Estas directrices han sido preparadas para el consejo de la ITC por Avi Allalouf. El autor agradece a MariseBorn su valiosa ayuda en la ejecucin de este proyecto, as como a las disntas personas que han revisadoversiones previas del documento por sus valiosas sugerencias a la hora de desarrollar la versin nal:

Alvaro Arce-Ferrer, Pearson Vue, USA

James Ausn, Ohio State University, USA

Jo-Anne Baird, Oxford University, UK

Giulia Balboni, University of Valle dAosta, ITALY

Helen Baron, Independent Consultant, UK

Dave Bartram, SHL, UK

Marise Born, Erasmus University Roerdam, NETHERLANDS

James Butcher, University of Minnesota, USA

Janet Carlson, Buros Center for Tesng, USA

Iain Coyne, University of Nongham, UK

Kurt Geisinger, University of Nebraska-Lincoln, USA

Ron Hambleton, University of Massachuses, USA

John Hae, University of Auckland, NEW ZEALAND

Fred Leong, Michigan State University, USA

Jason Lamprinou, European University, CYPRUS

Tom Oakland, University of Florida, USA

Fred Oswald, Rice University, USA

Christopher Rush, Wireless Generaon, Inc., USA

El autor tambin est en deuda con sus colegas del NITE (Naonal Instute for Tesng and Evaluaon),especialmente al departamento de Puntuacin y Equiparacin, donde se han desarrollado muchos de losprocedimientos de control de calidad en los que se centran las directrices


4/30


4

RESUMEN

El propsito de las directrices sobre control de calidad (CC) de los tests es aumentar la eciencia, precisin yveracidad del proceso de asignacin de las puntuaciones obtenidas en los tests, su anlisis y la elaboracinde los informes correspondientes. Estas directrices pueden ser usadas por s solas o como una extensin de

partes concretas de las directrices internacionales de la ITC sobre el uso de los tests (2000) (ver traduccinal espaol en hp://www.cop.es/index.php?page=directrices-internacionales ).

Las directrices CC se centran especialmente en los procesos de evaluacin a gran escala, cuando se creanmlples formas de un test para ser usadas en fechas determinadas. Sin embargo tambin pueden resultarles en otros pos de evaluaciones mediante tests (e.g. evaluaciones individuales para orientacin decarrera o desarrollo personal), cuando se usan disntos procedimientos de evaluacin (e.g., tests deeleccin mlple, evaluaciones de desempeo, entrevistas estructuradas y no estructuradas, evaluacionesde acvidades grupales) y para prccamente cualquier situacin de evaluacin (e.g. con nes educavos,en centros de evaluacin en contextos organizacionales, etc.). Mientras que algunas de las directrices

CC son especcas y estn relacionadas con ciertos tests estandarizados de administracin individual ocolecva, algunos aspectos de las directrices enen una aplicacin mucho ms amplia (e.g., en evaluacionesclnicas, educavas y organizacionales). Son muchas las profesiones necesitan hacer evaluaciones -con nesmdicos y de rehabilitacin, forenses, necesidades especiales, relacionadas con el empleo, etc-, y en estoscontextos las directrices CC pueden resultar tambin muy les. Adems, las directrices son pernentespara cualquier forma de administracin de tests, desde lpiz y papel hasta las cada vez ms frecuentesadministraciones informazadas, tanto a travs de internet como sin conexin on-line.
http://www.cop.es/index.php?page=directrices-internacionaleshttp://www.cop.es/index.php?page=directrices-internacionales


5/30


5

CONTENIDOS

AGRADECIMIENTOS...................................................................................................................................3

RESUMEN......................................................................................................................................................4

INTRODUCCIN

Objevos y nalidad .................................................................................................................................6

Desnatarios de las directrices..................................................................................................................6

Factores contextuales e internacionales ......................................................................................... 7

Errores que hacen necesarias las directrices ............................................................................................8

Denicin de control de calidad.......................................................................................................8

Ejemplos de otras profesiones ........................................................................................................9

Estructura de las directrices .................................................................................................................................... 9

Notas nales ............................................................................................................................... 9

DIRECTRICES

Alcance de las directrices de control de calidad........................................................................................10

Parte 1: Principios generales................................................................................................................. 10

Parte 2: Las directrices, paso a paso.........................................................................................................16

REFERENCIAS................................................................................................................................................... 29


6/30


6

INTRODUCCIN

Objevos y nalidad

La estandarizacin y la precisin son aspectos esenciales en el proceso de evaluacin mediante tests, desdela construccin del test y su administracin, pasando por la obtencin de las puntuaciones y el anlisis deltest, hasta la interpretacin de dichas puntuaciones y la elaboracin de los informes correspondientes. Laspersonas implicadas en cualquier fase del proceso enen la responsabilidad de mantener unos estndaresde calidad profesional que permitan juscar el uso de los tests ante las posibles partes interesadas,incluyendo organizaciones, colegios de psiclogos, instutos y universidades, agencias de gobierno yendades legales. En este sendo, los usuarios de tests deben ser conscientes de los errores que puedenocurrir en cualquier fase del proceso, y actuar segn las directrices establecidas, con el n de ancipar,prevenir y abordar dichos errores.

Aplicar una planlla de respuestas errnea, converr incorrectamente las puntuaciones directas en

puntuaciones picas, equivocarse al obtener o registrar una puntuacin, enviar accidentalmente un informeal cliente equivocado, o interpretar incorrectamente las puntuaciones, constuyen ejemplos de erroresque no deberan ocurrir. Aunque errar es de humanos, dichos errores deben minimizarse a travs de losprocedimientos de control de calidad adecuados. En este sendo los profesionales deben conocer dichosprocedimientos, ya que son esenciales para el uso correcto y preciso de los tests. Por ello creemos que estedocumento contribuir a la mejora connua de la calidad de los tests y su uso, reas en que la ITC haceesfuerzos por avanzar.

Las directrices de control de calidad (CC) que se presentan ms adelante enen como objevo incrementarla eciencia, precisin y correccin del proceso de puntuacin de los tests, su anlisis y la elaboracin de los

informes derivados (proceso PAI). Tienen una doble funcin: pueden usarse por s solas, como directricesespeccas de control de calidad; pero tambin pueden usarse como una extensin de partes concretas delas directrices internacionales de la ITC para el Uso de los tests (2000) (ver traduccin al espaol en hp://www.cop.es/index.php?page=directrices-internacionales ). Se recomienda que el lector est familiarizadocon las directrices de la ITC y con los estndares de la AERA, APA y NCME (1999, 2014), adems de otrosestndares nacionales e internacionales relevantes.

Desnatarios de las directrices

Las directrices CC se centran en las situaciones de evaluacin a gran escala, cuando el test constuye principalmente

una medida de rendimiento, desempeo o habilidad (por contraposicin a preferencias u otras medidas deautoinforme). As pues son especialmente aplicables a situaciones de evaluacin educava a gran escala, o enevaluaciones relacionadas con el empleo. Sin embargo, muchas de las consideraciones realizadas aqu, podranaplicarse tambin a evaluaciones mediante tests que se realicen a menor escala, o mediante otros pos de pruebas.
http://www.cop.es/index.php?page=directrices-internacionaleshttp://www.cop.es/index.php?page=directrices-internacionaleshttp://www.cop.es/index.php?page=directrices-internacionaleshttp://www.cop.es/index.php?page=directrices-internacionales


7/30


7

Las directrices CC estn dirigidas a las personas responsables de las siguientes cuesones:

Diseo y construccin de tests

Administracin de tests

Obtencin de puntuaciones

Anlisis de tems y de las propiedades del test (incluyendo baremacin y equiparacin de puntuaciones)

Mantenimiento de la seguridad del test

Interpretacin de las puntuaciones obtenidas mediante el test

Elaboracin de informes y suministro de feedback

Formacin y supervisin de los usuarios de tests

Diseo de sistemas informcos y programas para el manejo de los datos obtenidos mediante tests.

As como

Responsables polcos (incluyendo legisladores)

Editoriales de tests

Ampliar el conocimiento sobre el control de calidad resulta esencial para cualquier profesional implicado enel proceso de evaluacin. Aunque las directrices CC estn principalmente dirigidas a la prcca profesionalde los usuarios de tests, tambin incorporan una serie de buenas prccas que son relevantes cuando lostests se usan en invesgacin, tanto de laboratorio como de campo.

Factores contextuales e internacionales

Las directrices CC estn dirigidas a una audiencia internacional de profesionales usuarios de tests. Lasdirectrices pueden ayudar a dichos profesionales a desarrollar estndares de calidad locales. Cuando seinterpretan las directrices CC a nivel local, o cuando se considera su ulidad prcca en una situacin concreta,

es necesario tener en cuenta factores contextuales, como las leyes y estndares nacionales, las regulacioneslocales existentes, o los contratos especcos entre clientes y vendedores de tests. Por ejemplo, en algunospases hay leyes que protegen la condencialidad de los datos personales de las personas evaluadas.


8/30


8

Errores que hacen necesarias las directrices

Los errores que ocurren en el proceso PAI pueden tener serias implicaciones en cualquier mbito de medicinpsicolgico, educavo, ocupacional y actudinal. Por ejemplo, si se comete un elevado nmero de errores alpuntuar un test, el signicado de dicha puntuacin as como su abilidad pueden verse seriamente afectados la

abilidad disminuir, as como la validez predicva. En algunos casos el error podra suponer que una personacon una conducta patolgica sea incorrectamente idencada como una persona con una conducta normal.En otros casos los errores podran impedir que un candidato cualicado accediera a un determinado puesto detrabajo, o podran conllevar una incorrecta asignacin de estudiantes en determinados cursos acadmicos Loserrores tambin podran resultar en una intervencin educava inadecuada, que conllevara asignar a alguiena un programa educavo inapropiado, o en conceder licencias profesionales o cercaciones acadmicasa personas que carecen de los conocimientos y habilidades requeridos. Los errores pueden consisr en unexcesivo retraso a la hora de informar de los resultados de evaluacin, lo que, a su vez, podra causar gravesproblemas para quienes, por dicho retraso, no pudieran inscribirse en una determinada instucin educava.En resumen, los errores pueden conllevar importantes consecuencias perjudiciales para las personas.

Los errores pueden tambin contribuir a una prdida de conanza en los tests educavos y psicolgicos, yreducir la credibilidad si los errores se hacen pblicos. Los errores pueden, en algunos casos, conllevar accioneslegales contra las agencias evaluadoras, las instuciones educavas, los profesionales usuarios de tests y lospsicmetras, e incluso contra las empresas que buscan contratar empleados cualicados. Los profesionalesque implementan un proceso de evaluacin mediante tests (como psiclogos, psicmetras, orientadores,etc.) estn sujetos a la presin potencial de cuatro fuentes: las organizaciones, las personas evaluadas, laseditoriales de tests y los medios de comunicacin. Todas ellas esperan que los tests se desarrollen de formarpida y econmica, y que puedan ser usados tan pronto como sea posible. Para mantener los estndaresde calidad, resulta imperavo resisr a la presin ejercida por quienes desean que el proceso se acelere,omiendo algunas de las fases de dicho proceso. Por ejemplo, podra haber una presin extrema cuando unaorganizacin est obligada, por contrato, a puntuar, analizar e informar de los resultados del test en un periodode empo breve. Tambin hay una alta probabilidad de cometer errores en procesos que suelen alargarse enel empo como son la construccin de un test, su puntuacin (especialmente cuando requiere muchas reglasde puntuacin), su anlisis y la elaboracin del informe de resultados, que suponen pasos secuenciales dondecada paso depende del anterior. El uso de los estndares de calidad ayudar a prevenir estos errores. Paraello se debe hacer un seguimiento regular de los estndares de calidad y actualizarlos cuando sea necesario.

Denicin de control de calidad

En este documento, el control de calidad se dene como un proceso formal sistemco diseado paragaranzar el mantenimiento de los estndares de calidad en las fases de puntuacin de los tests, su anlisisy el informe de resultados y, consecuentemente, para garanzar que los errores se minimizan y aumenta laconanza en las mediciones realizadas mediante tests.


9/30


9

Ejemplos de otras profesiones

Los procedimientos de control de calidad se aplican en muchas otras profesiones como la ingeniera, laaviacin, el desarrollo de soware y la medicina. Por ejemplo, en medicina, algunos de los errores que ocurrenen los hospitales son consecuencia del almacenamiento inadecuado de las medicinas, de la complejidad de

las intervenciones mdicas, de la tecnologa novedosa empleada, de la comunicacin inadecuada, de unmal trabajo en equipo y de la ausencia de unas normas de seguridad claras. Este ejemplo ene su analogaen la evaluacin mediante tests, donde el foco es el test, y donde errores potenciales similares amenazan elproceso de administracin y evaluacin.

Estructura de las directrices de control de calidad

Las directrices CC se dividen en dos partes principales:

1) Principios generales cuesones generales a considerar y sobre las que se debe llegar a un acuerdo an -

tes de obtener las puntuaciones, analizar el test y realizar el informe.

2) Directrices de trabajo detalladas, paso a paso

Se concluye con las referencias empleadas

Notas nales

Adems de las recomendaciones ofrecidas en este documento, es conveniente presentar algunas directricesgenerales y sugerencias. Cada vez que se presenta una nueva prueba o procedimiento de evaluacin, se

debera desarrollar una simulacin realista del proceso seguido, paso a paso (ver Texas Educaon Agencyet al., 2004). De esta forma los nuevos procedimientos podran ponerse en prcca y evaluarse. Cadasimulacin ofrecera informacin que servira de input para posibles revisiones de los procedimientos decontrol de calidad. Adems el proceso de obtencin de puntuaciones, anlisis del test y elaboracin deinformes consta de fases secuenciales, y cada fase requiere la complecin sasfactoria de la fase previa. Porlo tanto, se recomienda elaborar una lista de vericacin checklist- basada en las directrices CC, de formaque resulte imposible pasar a una fase determinada sin que las fases previas hayan sido completadas conxito. Los sistemas de gesn informcos podran ser la herramienta ideal para estandarizar, modicary controlar los procedimientos CC de forma fcil, transparente y efecva. Sin embargo, a pesar de que lasventajas de estos sistemas informcos, es necesario contar con una persona competente y con formacin

invesgadora para desarrollar los procedimientos de control de calidad, adaptarlos y evaluarlos.


10/30


10

DIRECTRICES

Alcance de las directrices de control de calidad

Las directrices CC se centran especialmente en los procesos de evaluacin a gran escala, cuando se creanmlples formas de un test para ser usadas en fechas determinadas. Sin embargo tambin pueden resultarles en otros pos de evaluaciones mediante tests (e.g. evaluaciones individuales para orientacin decarrera o desarrollo personal), cuando se usan disntos procedimientos de evaluacin (e.g., tests deeleccin mlple, evaluaciones de desempeo, entrevistas estructuradas y no estructuradas, evaluacionesde acvidades grupales) y para prccamente cualquier situacin de evaluacin (e.g. con nes educavos,en centros de evaluacin en contextos organizacionales, etc.). Mientras que algunas de las directrices CC sonespeccas y estn relacionadas con ciertos tests estandarizados de administracin individual o colecva,algunos aspectos de las directrices enen una aplicacin mucho ms amplia (e.g., en evaluaciones clnicas,educavas y organizacionales). Son muchas las profesiones necesitan hacer evaluaciones -con nes mdicosy de rehabilitacin, forenses, necesidades especiales, relacionadas con el empleo, etc-, y en estos contextos

las directrices CC pueden resultar tambin muy les.

Adems, las directrices son pernentes para cualquier forma de administracin de tests, desde lpiz y papelhasta las cada vez ms frecuentes administraciones informazadas, tanto a travs de internet como sinconexin on-line. La construccin del test, la seleccin del test y su administracin no son objeto deatencin de las directrices. Sin embargo, la ulidad o el xito de la aplicacin de las directrices CC para laobtencin de puntuaciones, anlisis del test y la realizacin de informes es conngente a que el propio testsea adecuado y a que las puntuaciones obtenidas sean ables y predicvas de resultados bien denidos.La asignacin de recursos para la realizacin de controles de calidad supone una inversin para aseguraruna prcca responsable, una adecuada rendicin de cuentas y el mantenimiento de la equidad aspectos

importantes en cualquier cdigo co.

Parte 1: Principios generales

1.1. Vericacin de los estndares de control de calidad existentes

1.1.1 Determinar si existen normas de control de calidad de tests en la organizacin o pas. Si fueranecesario, formular procedimientos de control de calidad especcos para un test antes de suadministracin. Revisar, actualizar y modicar las normas cuando se realicen cambios en el proceso ytambin peridicamente, como un chequeo runario.

1.1.2.Asegurar que existen procedimientos de control de calidad adecuados antes de la administracindel test.


11/30


11

1.1.3. Cuando se trate de un nuevo test, considerar la realizacin de una prueba o una simulacinpiloto de todo el proceso PAI. Cuando no se haya realizado una prueba piloto, tratar la primeraadministracin como un ensayo y estar preparado para implementar mejoras antes de las siguientesadministraciones del test.

1.1.4. Crear estndares especcos para cada test en caso de que no existan.

1.1.5. Crear estndares especcos para los tests nuevos que se construyan.

1.2. Cuesones preliminares y acuerdos entre las personas implicadas

Antes de administrar el test, deben establecerse acuerdos sobre los principios bsicos del proceso entre losdisntos profesionales responsables de la evaluacin, incluyendo los responsables de la construccin deltest, su administracin, su puntuacin, la equiparacin de puntuaciones, su interpretacin, la validacin yla elaboracin de informes. De hecho, aunque tengan diferentes responsabilidades y roles, el trabajo detodos los profesionales implicados vendedores, clientes, socios y colaboradores- debe estar coordinado.La comunicacin adecuada entre las personas que juegan disntos roles debera mejorar la calidad y el usode los tests.

1.2.1. Idencar todas las partes implicadas en el proceso de evaluacin y establecer acuerdos sobrequien es responsable de cada una de las fases del proceso.

1.2.2.Determinar y manifestar el propsito o propsitos de la prueba (e.g. seleccin, medicin dedesempeo, invesgacin)

1.2.3. Establecer acuerdos sobre el cronograma a seguir en el proceso PAI

1.2.4. Establecer cules son los medios de comunicacin ms adecuados entre las disntas personas oequipos (cuando haya ms de un equipo implicado en la realizacin de la evaluacin); por ejemplo, elmejor modo de transferir informacin de un equipo a otro; por ejemplo, de transmir descripcionesdetalladas sobre la estructura del test, la planlla de correccin, etc., del equipo que ha desarrolladoel test al equipo que se ocupa de su anlisis.

1.2.5. Establecer cules son los medios ms adecuados de comunicacin con el cliente.

1.2.6. Decidir qu mtodos se emplearn para transferir los datos recogidos a las personas responsables

del proceso PAI, por ejemplo, en los tests de lpiz y papel, los datos obtenidos mediante lector pcoo escner, y en los tests informazados, los datos obtenidos electrnicamente.

1.2.7.Denir los pesos o ponderaciones que se emplearn para los subtests (en caso de que se usen)y juscar su eleccin. Es necesario adems estar preparado por si fuera necesario modicar las


12/30


12

ponderaciones tras recibir los datos, teniendo en cuenta las juscaciones tericas existentes y lanalidad del test.

1.2.8.Establecer acuerdos sobre las instrucciones de puntuacin del test, es decir, sobre la puntuacinque se asignar a cada tem respondido correctamente, y decidir cmo se tratarn las respuestas

incorrectas. Es necesario adems estar preparado para modicar las instrucciones, si fuera necesario,tras recibir los datos.

1.2.9. Elegir la escala de puntuacin y determinar el rango de puntuaciones en la escala.

1.2.10. Decidir el tratamiento que se dar a los datos faltantes (missing) (e.g. tems que han sidopasados por alto por las personas que responden la prueba, o que errneamente han saltado unalnea al marcar las respuesta, o casos donde un evaluador ha pasado por alto a un parcipante o lo haevaluado de una manera no estandarizada, sin posibilidad de reper la evaluacin).

1.2.11. Cuando las puntuaciones obtenidas mediante versiones diferentes del test deban ponerseen la misma escala, denir y describir el modelo de equiparacin de las puntuaciones, el diseo, lostamaos muestrales necesarios, y los mtodos de equiparacin empleados.

1.2.12. Denir y describir el modelo seguido para elaborar las normas, as como el diseo y tamaosmuestrales empleados.

1.2.13. Establecer acuerdos sobre el grado de detalle con el que se informar a las personas evaluadasy a las instuciones implicadas sobre las puntuaciones obtenidas, y qu informacin adicional seaportar sobre la distribucin de las puntuaciones.

1.2.14. Determinar qu individuos, organismos o instuciones recibirn los resultados de las pruebas,asegurando el cumplimiento de las leyes de proteccin de datos.

1.2.15. Determinar si los informes pueden o deben proporcionar otra informacin personal o no (e.g.si el contenido del test fue modicado, cuntos tems fueron respondidos, qu adaptaciones fueronrealizadas en caso de discapacidad)

1.2.16. Establecer acuerdos sobre la documentacin necesaria para cubrir la totalidad del proceso

1.2. 17. Establecer acuerdos sobre los esfuerzos de replicacin que se realizarn cuando se trate de

procesos crcos como la conversin de puntuaciones directas a escalas transformadas.


13/30


13

1.3. Recursos

1.3.1. Conrmar que se dispone de los recursos adecuados (de costes, empo y personal) parapoder obtener las puntuaciones de forma adecuada y eciente, para analizar el test e informar de losresultados

1.3.2. Comprobar la disponibilidad de recursos adicionales en caso de que falle alguno de los disponibles;por ejemplo, si el especialista que se ocupa de la equiparacin de puntuaciones no pudiera realizarla,prever quien la llevara a cabo; o si el escner lector de las hojas de respuesta no funciona, teneracceso a un escner alternavo.

1.3.3. Estar al tanto de los problemas de calendario que pudieran darse si fuera necesario ulizarlos recursos adicionales mencionados. Planicar la posible necesidad de cubrir bajas inesperadas depersonal relevante para la evaluacin.

1.3.4. Asignar tareas a los miembros adecuados del equipo: Quin se ocupar de puntuar el test,analizarlo e informar de las puntuaciones? Quin se encargar de supervisar el proceso completo? Losprofesionales encargados de la evaluacin deben asegurar, por ejemplo, que los individuos implicadosen cada fase del proceso enen las competencias necesarias para realizar el trabajo; tambin debenestablecer los requisitos para cada fase y denir el nivel de automazacin del proceso.

1.3.5. Establecer los recursos temporales necesarios: elaborar un cronograma para cada fase delproceso PAI. El plazo para concluir el proceso de evaluacin e informar de los resultados debe serrealista.

1.3.6. Determinar la necesidad de soware, ordenadores y conexiones a red: soware comercial y

soware desarrollado especcamente para el cliente, ordenadores personales y portles, servidores,espacio de disco, banda ancha, etc.

1.3.7. Determinar los espacios de trabajo necesarios: se cuenta con un rea de trabajo suficientementeamplia (con suficientes salas, mesas, sillas, etc), para todo el personal y participantes en las pruebas?

1.3.8. Determinar los pasos necesarios para mantener la seguridad de los datos electrnicos

1.3.9. Asegurar la disponibilidad del material que sea necesario (e.g. planllas de correccin,calculadoras).


14/30


14

1.4. Demandas y expectavas de las partes interesadas

Quienes hacen uso de las puntuaciones de las pruebas personas evaluadas, padres/tutores, profesores/asesores- y quienes dirigen la evaluacin (una agencia, si es el caso) enen necesidades y expectavasconcretas sobre los procesos de puntuacin y equiparacin y sobre el empo necesario para elaborar los

informes. Estas necesidades y expectavas deben ser razonables y comunicarse entre las partes (a esterespecto ver las directrices internacionales de la ITC para el uso de los tests, 2000, Apndice B Directricespara el establecimiento de acuerdos entre las partes implicadas en el proceso de evaluacin) (ver traduccinal espaol en hp://www.cop.es/index.php?page=directrices-internacionales ).

1.4.1. Cuando sea apropiado, formular un acuerdo entre las partes implicadas partes interesadas,vendedores, parcipantes en las pruebas, clientes y otros teniendo en cuenta la opinin de losprofesionales responsables de obtener las puntuaciones, realizar la equiparacin y elaborar losinformes. Se ha de tener en cuenta que, en ocasiones, ser necesario realizar cambios en el contrato.

1.4.2. Establecer acuerdos sobre quines son los responsables lmos de la evaluacin y enen laautoridad para decidir sobre cmo proceder ante los problemas que surjan y cmo resolverlos.

Por ejemplo, cuando en una pregunta de respuesta mlple no haya una respuesta correcta, cuando

un entrevistador sea muy arrogante, o cuando las personas que parcipan en las pruebas no puedan

concentrarse por el ruido ambiental. Tambin cuando una cuesn se haya construido pensando

que slo una de las respuestas es correcta pero uno de los examinados demuestra que una o varias

alternavas adicionales son asimismo correctas.

1.4.3. Decidir por ancipado sobre el proceso a seguir cuando se detecte un error despus de que laspuntuaciones se hayan dado a conocer

1.4.4. Dar a los parcipantes la oportunidad de cuesonar la adecuacin de las respuestas correctasas como sus puntuaciones, y darles la oportunidad de plantear cuesones sobre la evaluacin yasegurarles que dichas cuesones sern tenidas en consideracin.

1.4.5. Disponer de documentacin que jusque la puntuacin de cada tem del test.

1.5. Personal y ambiente de trabajo

Asegurar que las personas responsables de puntuar el test, analizarlo, equiparar las puntuaciones y elaborar

los informes son profesionales que enen las habilidades y conocimientos requeridos en el proceso PAI.Es decir, asegurar que todo el personal implicado ene las competencias requeridas para desempearadecuadamente el trabajo. Cuando haya un grupo de personas involucradas en el proceso de evaluacines importante que trabajen bien juntas. Por ello, cuando se contrate nuevos empleados, es importanteconsiderar la capacidad del nuevo equipo para trabajar juntos sasfactoriamente.
http://www.cop.es/index.php?page=directrices-internacionaleshttp://www.cop.es/index.php?page=directrices-internacionales


15/30


15

1.5.1. Evitar ejercer presiones poco razonables sobre los individuos para que aceleren su trabajo.

1.5.2. Evitar horarios de trabajo excesivamente largos

1.5.3. Fomentar una forma de trabajo meculosa, que preste atencin a los detalles (especialmente

por lo que se reere a la prevencin de errores), pero que, al mismo empo, sea relajada. Un ambientede trabajo relajado en el que, a la vez, se ene un propsito claro, es el ms efectivo para cumplirestndares elevados.

1.5.4. Apoyar al personal proporcionando oportunidades de desarrollo profesional y formacin, eincluso oportunidades de crecimiento personal y entrenamiento en habilidades sociales. Por ejemplo,dar la oportunidad de parcipar en un sistema de evaluacin basado en los datos de un ao anterior,como preparacin al procesamiento de los datos que se obtendrn en la situacin de evaluacin actual

1.6. Supervisin independiente de los procedimientos de control de calidad

Asignar uno o ms profesionales (dependiendo del tamao y de la complejidad del proyecto) a la supervisindel seguimiento del proceso CC, y asegurar que todas las cuesones y problemas que surjan, as como loserrores, sern registrados. Los supervisores del procedimiento CC deberan operar de forma independientea las personas encargadas de puntuar las pruebas, analizarlas y elaborar los informes. La supervisin deberallevarse a cabo en colaboracin con las disntas partes interesadas, con el objevo de auditar procesosespeccos; por ejemplo supervisar la abilidad inter-jueces y comprobar posibles errores en la introduccinde datos. Las asociaciones profesionales podran adoptar un rol acvo en este proceso de supervisin.

1.7. Documentacin e informe de errores

1.7.1.Todas las partes implicadas en el proceso de evaluacin deberan seguir los procedimientos acordadosrespecto a la documentacin de las acvidades y de los errores o cuesones que pudieran surgir.

1.7.2. Establecer acuerdos sobre qu miembros del personal son responsables de cada fase del proceso.

1.7.3. Documentar todas las acvidades. Usar hojas de control estandarizadas para mostrar que todoslos procesos han sido comprobados

1.7.4. Documentar con detalle todos los fallos y errores (independientemente de que se conozca o nola causa), comenzando con la naturaleza del fallo, quin lo ha detectado y cundo, cules han sido y

son sus implicaciones y qu pasos se han seguido/seguirn para abordarlos. Documentar tambin loscasos en que se hayan detectado fallos antes de que estos hayan tenido consecuencias.

1.7.5.Informar adecuadamente y con prontud a otros profesionales sobre los fallos observados, porejemplo en reuniones dedicadas a la prevencin de errores


16/30


16

1.7.6. Documentar la forma de prevenir fallos o errores en el futuro.

Parte 2: Las directrices detalladas, paso a paso

Las directrices sugieren una serie de pasos a seguir a la hora de asignar las puntuaciones de los tests,

analizarlos y elaborar los correspondientes informes. En procesos de evaluacin a gran escala, cada fasedebera seguirse minuciosamente. Se debera realizar un estudio piloto sobre los procedimientos depuntuacin antes de trabajar con los datos reales, para as agilizar el proceso de obtencin de resultadosposteriormente. Cuando miles de personas vayan a ser evaluadas, estas directrices deberan seguirseexplcitamente. Cuando slo decenas de personas vayan a ser evaluadas, los principios de las directricesdeberan implementarse tambin, pero algunas fases se podran omir o simplicar. La razn radica en quealgunos de los procedimientos requieren importantes recursos y estn basados en modelos que requierenmuestras grandes. Estos procedimientos, por tanto, deberan adaptarse para aplicarlos a muestras menores

2.1. Planicacin y diseo del informe

Antes de implementar los disntos pasos, debera establecerse un acuerdo sobre el informe, que es elproducto nal del proceso. Deberan tomarse decisiones sobre de qu informar, con cunto detalle, aquin, cundo, etc. No es suciente con informar a la instucin o a la persona evaluada de la puntuacinen el test mediante un nmero o una escala derivada (estaninos, etc.). Es muy importante interpretar lapuntuacin adecuadamente. De hecho, en las fases de construccin, puntuacin y anlisis del test, no sedebera perder de vista el producto nal: la interpretacin de las puntuaciones. En este sendo, el objevoprincipal o primer paso tcito del proceso de desarrollo de un test, es asegurar que la puntuacin otorgadasea comprendida. Por ello, las disntas cuesones relacionadas con la interpretacin de las puntuacionesdeberan ser consideradas de antemano. Se deberan establecer acuerdos entre todas las partes implicadas

sobre las puntuaciones a presentar, no slo la puntuacin total sino tambin las puntuaciones parciales:Debera darse informacin al respecto? Se ulizarn esas puntuaciones parciales?

2.2. Antecedentes y datos biogrcos

Los antecedentes y los datos biogrcos de las personas evaluadas pueden resultar muy les para lograralgunos de los objevos del proceso de control de calidad: Vericar la idendad de la persona evaluada,comprender resultados inesperados y establecer grupos de anclaje cuando sea necesario hacer equipararlas puntuaciones del test. Se recomienda seguir los siguientes pasos:

2.2.1. Si el contexto legal lo permite, recoger datos sobre los antecedentes y biograa (edad, gnero,

grupo tnico, educacin, puntuaciones obtenidas en otras pruebas, etc), previamente, durante, o trashaber administrado las pruebas, solicitando esta informacin a la persona evaluada o a la instucincorrespondiente. Slo deben solicitarse los datos que sean relevantes, respetando la privacidad de laspersonas tanto como sea posible.


17/30


17

2.2.2. Si es posible, comprobar los datos biogrcos de las personas evaluadas peridica ysistemcamente; cuando las personas son evaluadas varias veces, se debe prestar atencin a posiblesinconsistencias de informacin.

2.2.3. Realizar estudios para determinar si se da la correlacin esperada entre la informacin contextual

y las puntuaciones de la prueba, y buscar posibles inconsistencias entre los patrones de respuestaobservados y otros datos o informaciones conjuntos de datos previos, resultados de invesgacin,etc. Por ejemplo, podra ser que los adultos hayan obtenido mejores resultados que los jvenes en undeterminado test. Si los estudios sobre el tema sugirieran que los jvenes deberan obtener mejoresresultados en dicho test, el proceso de puntuacin debera reexaminarse para determinar si ha habidoalgn fallo.

2.3. Puntuaciones

2.3.1. Obtencin y almacenamiento de las respuestas de las personas evaluadas

Todas las hojas de respuesta de las personas evaluadas debern guardarse en el lugar apropiadoy, cuando sea adecuado, almacenarse electrnicamente, normalmente asignando un nmero deidencacin a cada persona. Estos materiales impresos y electrnicos- se almacenarn por unperiodo mnimo y mximo de empo establecido siguiendo los estndares de la prcca profesionaly los requisitos legales existentes. Esto es aplicable tanto a las hojas de respuesta idencablesindividualmente, como a los registros electrnicos de las respuestas o de las puntuaciones, y a lainformacin derivada de dichas puntuaciones.

2.3.1.1. Si existen hojas en papel, deben guardarse por el empo establecido segn las leyes delpas, estado o provincia en cuesn, si dichas leyes existen

2.3.1.2. Por lo que se reere a las versiones electrnicas, se deben ulizar tanto sistemas desuministro de energa ininterrumpidos como bateras auxiliares para los ordenadores, as comocualquier otro medio que reduzca la probabilidad de prdidas accidentales de datos.

2.3.1.3. Cuando se usen escneres estos deben comprobarse y calibrarse regularmente

2.3.1.4. Se debe comprobar manualmente y de forma runaria los outputs del escner

2.3.1.5. Comprobar que la base de datos de las personas evaluadas manenen un sistema riguroso

de idencacin. Por ejemplo, comprobar si hay casos donde se haya asignado un mismo cdigo deidencacin a disntas personas

2.3.1.6. Todos los datos deben estar protegidos y almacenados de forma segura. Siempre que seaposible se debe proteger la informacin personal, separando dicha informacin (e.g. nombres)


18/30


18

de las puntuaciones. Por ejemplo, manteniendo cheros separados: uno con datos biogrcos yotro con las puntuaciones obtenidas, pudiendo emparejar ambos cheros a parr de un cdigode idencacin. Todas estas acciones deberan cumplir las leyes existentes sobre privacidad yalmacenamiento de datos.

2.3.1.7 Realizar controles que garancen la correccin de los algoritmos usados para obtener laspuntuaciones, as como el uso adecuado de las tablas de conversin y baremos.

2.3.2. Obtencin de puntuaciones

Tras procesar las respuestas de la prueba y almacenarlas de forma segura en una base de datos, lasrespuestas de las personas evaluadas son habitualmente transformadas en puntuaciones directas. Enla Teora Clsica de los Tests (TCT), por ejemplo, cuando hay respuestas correctas e incorrectas, laspuntuaciones directas picamente se corresponden al nmero de respuestas correctas obtenidas.En ocasiones se aplica una correccin por posibles aciertos al azar, y en ocasiones se da un peso msalto a unos tems que a otros. En la Teora de la Respuesta a los tems (TRI) la puntuacin directa secorresponde con la habilidad latente tambin conocida como theta o puntuacin en el rasgo.Las puntuaciones pueden verse afectadas por muchos pos de errores, como podra ser la aplicacin deuna planlla de correccin incorrecta. A veces los errores dan lugar a puntuaciones extremadamentebajas. Los procedimientos de control de calidad que se mencionan a connuacin pueden contribuira detectar estos errores.

2.3.2.1. Comprobar si la estructura de los datos se ajusta al formato especicado en el registro dedatos (e.g. orden de los tems en el chero)

2.3.2.2. Aplicar las reglas acordadas para eliminar casos invlidos, recodicar informacin faltante y

manejar casos duplicados

2.3.2.3. Comparar los datos obtenidos en la muestra con el rango de valores que cabra esperar,y comparar los estadscos descripvos obtenidos con los ofrecidos en los baremos del manualdel test (si existen). Cabe esperar ciertas diferencias en los estadscos muestrales debido al errormuestral, pero las diferencias de gran magnitud deberan examinarse y revisarse.

2.3.2.4. Revisar las puntuaciones extremas (altas y bajas), tanto individuales como de gruposespeccos, y tanto para tests de lpiz y papel como para tests informazados. Las puntuacionesextremas podran ser indicio de tres posibles problemas: un error al calcular la puntuacin obtenida

en la prueba, una accin deshonesta e.g. copiar-, o un fallo al obtener los datos.

2.3.2.5. Revisar los datos de las personas evaluadas cuando las diferencias entre las puntuacionesde sub-tests correlacionados sean ms grandes de lo esperado. Para ello, debe establecerse deantemano qu diferencias se consideran crcas.


19/30


19

2.3.2.6. Analizar los tems y examinar los estadscos correspondientes. A menos que se realice esteanlisis, los errores en la planlla de correccin para un tem concreto sern diciles de detectar (lostems corregidos errneamente suelen mostrar una dicultad elevada y discriminacin negava, ypodran tener una correlacin negava con un criterio relevante).

2.3.2.7. Comprobar las tasas de no respuesta para cada tem. Podra darse el caso de que algntem no hubiese sido corregido para algunos parcipantes al omirse por error.

2.3.2.8. Prestar especial atencin a los grupos que hayan podido responder a la prueba en diferentescondiciones, y realizar comprobaciones adicionales sobre estos datos. Por ejemplo, personas quefueron evaluadas en una fecha diferente, con una versin del test diferente o que usaron un mtodode respuesta disnto.

2.3.2.9. Revisar los estadscos bsicos obtenidos para ciertos grupos de parcipantes, por ejemplosegn el aula de examen, el administrador de la prueba, o los ordenadores que emplean unamisma conexin a internet. Por ejemplo, podra darse el caso de que un test especco hubiera sidoerrneamente asignado a un aula de examen determinada.

2.3.2.10. Si hay sucientes recursos, se debera dar una muestra aleatoria de hojas de respuesta a unequipo diferente del asignado inicialmente para analizarla y puntuarla. Posteriormente se podrncomparar los resultados de ambos equipos.

2.3.3.Pruebas abiertas de calicacin del desempeo, muestras de trabajo, juegos de rol, entrevistas,etc.

Mientras que la asignacin de puntuaciones en los tests de eleccin mlple es objeva y altamente

precisa (basada en una planlla de correccin denida), la asignacin de puntuaciones de los temsde respuesta abierta (calicacin del desempeo, cuesonarios de respuesta abierta, muestras detrabajo, juegos de rol, etc) ene normalmente un componente subjevo. Este sistema de puntuacinende a ser consecuentemente menos able que el de respuesta mlple porque requiere de los

juicios de los evaluadores. Sin embargo, hay disntos medios que pueden resultar les a la hora dereducir la subjevidad de los juicios y as aumentar la abilidad y la precisin de las puntuacionesasignadas.

2.3.3.1. Cuando el desempeo es evaluado mediante pruebas abiertas, muestras de trabajo, juegosde rol o entrevistas, hay que asegurar que se cuenta con evaluadores formados para ello, que

enen los conocimientos y la experiencia requeridos, y que cuentan con la cercacin, formacino tulacin apropiadas

2.3.3.2. Las instrucciones para calicar las respuestas abiertas deben ser claras y estar adecuadamenteestructuradas. Realizar un pre-test ayudar a construir dichas instrucciones.


20/30


20

2.3.3.3. Usar ejemplos de respuestas que ejempliquen disntos rangos de calicaciones para lasdisntas acvidades. Usar una muestra de respuestas para formar a los evaluadores en la asignacinde puntuaciones.

2.3.3.4. Exigir que los evaluadores parcipen en sesiones de formacin antes de comenzar el proceso

de evaluacin. Esta formacin ayudar a que los evaluadores se familiaricen con las instruccionesde calicacin y a que pracquen con el sistema de puntuacin antes de evaluar a los verdaderosparcipantes.

2.3.3.5. Antes de comenzar las evaluaciones, comprobar que, mediante la formacin, los evaluadoreshan adquirido las competencias requeridas.

2.3.3.6. Intentar emplear al menos dos evaluadores para cada evaluacin individual, dependiendode los costes y recursos disponibles.

2.3.3.7. Cuando slo se pueda emplear un evaluador (por cuesones econmicas o de otro po)usar dos evaluadores para una muestra de parcipantes (por ejemplo 10% de los casos) con el nde esmar la abilidad de las pruebas, dependiendo de la importancia de las consecuencias delresultado del test, su longitud y otros factores.

2.3.3.8. Si se emplea un sistema informco para calicar los tems de respuesta abierta, asegurarque las puntuaciones son supervisadas por un evaluador experto. Juscar el uso del sistema depuntuacin informco a parr de los estudios realizados, antes de comenzar a aplicarlo.

2.3.3.9. Asegurar que los evaluadores trabajan de forma independiente

2.3.3.10. Aplicar procedimientos estadscos para evaluar la abilidad del proceso de puntuacin(calculando medidas de acuerdo inter-jueces y diferencias en las calicaciones intra y entreevaluadores, ajustando la posibilidad de que se den acuerdos por azar)

2.3.3.11. Supervisar peridicamente y en empo real la calidad de las puntuaciones para, si fueranecesario, proporcionar feedback a los evaluadores.

2.3.3.12. Si un evaluador no cumple las expectavas (sus puntuaciones son poco ables o no sonsucientemente parecidas a las de otros evaluadores) informarle de ello y realizar acvidades deformacin adicionales. Si el problema no se resolviera, reemplazar al evaluador por otro.

2.3.3.13. Desarrollar polcas que permitan responder ante grandes discrepancias entre evaluadores.Si las diferencias son pequeas, las puntuaciones podran ser promediadas o sumadas para evitarproblemas de redondeo. Cuando las discrepancias sean grandes, un evaluador experimentadopodra mediar para resolverlas.


21/30


21

2.4. Anlisis del test

2.4.1. Analizar los tems, normalmente en evaluaciones a gran escala mediante tems de respuestamlple y de respuesta abierta

El anlisis de tems proporciona estadscos bsicos que permiten tomar decisiones sobre lascaracterscas de los tems y su funcionamiento a la hora de obtener la puntuacin total. Serecomienda que se realice un anlisis de tems en cada ocasin y para cada forma del test, a no serque el nmero de parcipantes sea reducido. El anlisis de tems consiste en obtener la dicultaddel tem (o su aquiescencia, en tems de personalidad) y discriminacin. Bajo la TRI los parmetrosde los tems pueden ser esmados dependiendo del modelo ms adecuado. Adems, el anlisis detems se acompaa de estadscos globales para el test (abilidad y/o error pico de medida, media,desviacin pica, funcin de informacin del test, distribucin de las respuestas de los parcipantes,etc.). Se debera seguir los siguientes procedimientos siempre y cuando el nmero de parcipantessea superior a un nmero mnimo, dependiendo del modelo usado:

2.4.1.1. Usar programas conables para el anlisis de tems y asegurar que dichos programascuentan con una documentacin tcnica adecuada.

2.4.1.2. Si hay razones para pensar que el programa de anlisis de tems no resulta adecuado o sise est ulizando un programa nuevo, realizar los anlisis con dos programas diferentes y compararlos resultados.

2.4.1.3. Realizar el anlisis de tems tras administrar el test o tras acumular datos sobre un testque se administra peridicamente (por ejemplo entre los 3 y los 5 aos de su administracin).Considerar realizar los anlisis sobre datos parciales (antes de que el total de datos est disponible),

para poder detectar errores rpidamente

2.4.1.4. Revisar los resultados del anlisis de tems antes de extraer conclusiones sobre las personasevaluadas.

2.4.1.5. El anlisis de tems permir idencar posibles problemas en la planlla de correccin deun test. Por ejemplo, si hay distractores tan populares que en realidad son una respuesta correcta;o correlaciones negavas entre los tems, lo que podra indicar que un tem que debiera haber sidoinverdo no lo ha sido. Si los resultados para un tem parcular no son sasfactorios, la correcciny el contenido del tem deberan revisarse.

2.4.1.6. Reper el anlisis de tems si la planlla de correccin es modicada o si algunos temsson eliminados. Actualizar la documentacin (e.g. tablas de puntuaciones, especicaciones deequiparacin) a lo largo del proceso.


22/30


22

2.4.2. Equiparacin/calibracin de nuevas formas de tests e tems.

En ocasiones, la equiparacin no es importante porque los parcipantes slo compiten con otros quehan sido evaluados en el mismo momento usando la misma versin del test. En otras ocasiones, sinequiparacin de puntuaciones, no se podran comparar los resultados de los parcipantes a los que

se han administrado diferentes formas del test en disntos momentos. Para que las puntuacionesobtenidas con versiones diferentes del test estn en una misma escala, las nuevas formas del test debenequipararse a las anteriores. En caso contrario, podran no ser comparables al presentar caracterscaspsicomtricas diferentes. El resultado de la equiparacin es que las puntuaciones obtenidas mediantelas disntas formas del test enen el mismo signicado. Esta equiparacin puede realizarse antes deadministrar el test y/o despus de su administracin. La equiparacin puede realizarse usando datosa nivel de tem, escala o test. Hay diferentes perspecvas y mtodos de equiparacin de puntuaciones(lineal, equipercenl, y basada en TRI -usando tems comunes de anclaje o individuos de anclaje). Laequiparacin normalmente requiere muestras grandes, dependiendo del mtodo de equiparacin ydel diseo (ver Kolen y Brennan, 2004; Lamprianou, 2007)

2.4.2.1. Si tras la equiparacin se observan resultados diciles de explicar (e.g. puntuaciones inferioresa las esperadas), conrmar que todas las formas del test fueron administradas en las mismascondiciones estandarizadas. Si las condiciones de administracin no estuvieron estandarizadas,intentar esmar el impacto de las diferentes condiciones.

2.4.2.2. Desarrollar runas que aseguren que los procedimientos y diseos de equiparacinespecicados se han realizado correctamente.

2.4.2.3. Explorar el cumplimiento de los supuestos en que se basa el procedimiento de equiparaciny/o determinar si diferentes procedimientos basados en diferentes supuestos ofrecen resultados

similares. Realizar una comprobacin de la estabilidad de los parmetros de los tems comunes trasla equiparacin. Si se usan tems comunes de anclaje para la equiparacin, documentar la lgicaseguida cuando se han eliminado algunos de esos tems comunes y los efectos que esto pudieratener tanto para las puntuaciones como para el establecimiento de los puntos de corte. Documentarla representavidad del contenido y las caracterscas estadscas del conjunto de tems comunes,tras examinar los resultados de los tems. Esta directriz tambin se aplica al diseo de personascomunes como anclaje, pero prestando atencin a las personas evaluadas.

2.4.2.4. Comparar las puntuaciones obtenidas con las que se anciparon en funcin del historialy antecedentes de los las personas evaluadas (ver 3.2.1). Si existen discrepancias comprobar de

nuevo las puntuaciones.

2.4.2.5. Realizar comparaciones con evaluaciones pasadas tanto de las puntuaciones como delas proporciones de aprobados. Cuando las evaluaciones a gran escala se han llevado a caboadecuadamente, las uctuaciones de ao a ao son pequeas. Diferencias demasiado grandes


23/30


23

podran reejar un problema en la equiparacin de las puntuaciones, o un cambio en lascaracterscas de la poblacin, por ejemplo.

2.4.2.6. Cuando haya diferentes personas encargadas de administrar la prueba (muchosadministradores a cargo de un pequeo nmero de parcipantes, en contraste con pocos

administradores a cargo de muchos parcipantes), aplicar herramientas especcas de control decalidad para supervisar la estabilidad de las puntuaciones del test. Algunas de estas herramientasson: grcos de control Shewhart y grcos de control de sumas acumuladas (CUSUM), modelos deseries temporales, modelos de punto de cambio y herramientas como la minera de datos (ver VonDavier, 2011).

2.4.2.7. Si hay puntos de corte para diferenciar a los evaluados en funcin de su nivel (aprobado/suspenso, u otros niveles de rendimiento), comprobar las razones de aprobados y suspensos, o delos disntos niveles establecidos.

2.4.2.8. Asegurar la consistencia de los puntos de corte jados a travs de disntos comits o grupos;usar mtodos adecuadamente juscados y documentar el proceso. Asimismo, documentar loscasos en los que no se haya seguido completamente el proceso estndar prejado.

2.4.2.9. Si se usa un formato de administracin del test disnto al habitual (e.g. administracininformazada en vez de lpiz y papel) es necesario comparar las caracterscas del test con el nuevoformato con las del viejo y, en ocasiones, equiparar ambas formas.

2.4.2.10. Para pruebas que vayan a tener importantes implicaciones sobre las vidas de laspersonas evaluadas, hacer todo lo posible por replicar de forma independiente los resultados de laequiparacin.

2.4.3. Clculo de puntuaciones estandarizadas

En muchas ocasiones, las puntuaciones estandarizadas ayudan a hacer los resultados mscomprensibles. En estos casos el punto de partida para calcular las puntuaciones estandarizadas (e.g.estaninos, deciles) son las puntuaciones directas. Para obtener las escalas transformadas se empleandeterminados parmetros o tablas de conversin, y posteriormente se informa de las puntuacionesestandarizadas o los percenles. Las puntuaciones directas (nmero de respuestas correctas o nmerode respuestas correctas tras corregir los posibles aciertos por azar) o las puntuaciones theta (para testsbasados en la TRI) deben transformarse en la escala especca seleccionada. La conversin se hace

mediante la tabla correspondiente o mediante una determinada funcin (e.g. transformacin lineal)

2.4.3.1. Realizar la conversin de las puntuaciones directas adecuadamente para obtener unadeterminada escala transformada.


24/30


24

2.4.3.2. Comprobar la precisin de la conversin realizada y posibles errores de copiado

2.4.3.3. Comprobar que se ha ulizado la conversin correcta.

2.4.3.4. Vericar que las puntuaciones estandarizadas bajas corresponden a puntuaciones directas

bajas, y que las puntuaciones estandarizadas altas corresponden a puntuaciones directas altas

2.4.3.5. En algunos casos deberan aplicarse procedimientos adicionales tras la realizacin de laconversin (e.g. denir un mnimo y un mximo uniformes para cada una de las puntuacionesreportadas)

2.4.3.6. Comparar las propiedades de nuevas formas del test con las tablas/parmetros de otrasformas del test, con el n de detectar si se dan discrepancias poco esperables

2.4.3.7. Tener en cuenta los cambios que se dan en la escala a lo largo del empo

2.4.3.8. Calcular algunas puntuaciones manualmente y comparar los resultados con los generadospor el ordenador.

2.4.3.9. Comprobar la relacin estadsca entre las puntuaciones directas y las estandarizadasusando grcos de dispersin.

2.4.3.10. Usar dos programas informcos diferentes para obtener las puntuaciones estandarizadasy compararlas.

2.4.3.11. En el manual tcnico del test o mediante documentacin adicional, proporcionar una

descripcin detallada de los procedimientos usados para transformar las puntuaciones directasen estandarizadas. Puesto que la tcnica puede ser diferente para diferentes formas del test, elprocedimiento debera describirse para cada una de las formas

2.4.4. Comprobaciones de la seguridad de los tests

Si se descubre que una puntuacin ha sido obtenida mediante trampas o engaos, esto supone un serioproblema que compromete tanto la seguridad y la integridad del test como el sistema de evaluacin.Desgraciadamente este problema no puede prevenirse completamente, incluso aunque se ponganmedidas para ello. La tentacin de hacer trampa es grande, especialmente cuando los resultados de la

evaluacin conllevan consecuencias importantes. En la connua batalla contra las trampas, se deberacontar con el asesoramiento de abogados para revisar los controles de seguridad y conrmar suaplicabilidad. En pruebas educavas nacionales, el fraude puede darse a nivel individual pero tambina nivel de clase, escuela, distrito o lugar de trabajo. Podra ocurrir en el lugar que se realiza la prueba, atravs de los telfonos mviles, o a travs de internet. En el contexto organizacional, puesto que cada


25/30


25

vez es ms frecuente que los candidatos para un puesto de trabajo realicen las pruebas desde casa (vainternet), el riesgo de suplantacin y manipulacin aumenta. Adicionalmente, al realizar controles deseguridad para la deteccin de posibles fraudes, se podrn detectar problemas en la administracin deltest, o en la recogida y almacenamiento de datos. Se recomienda tomar las siguientes precauciones:

2.4.4.1. Vericar la idendad de todos los examinados en el momento de entrar a la sala. Cuandorealicen la prueba desde casa, usar un carnet idencavo con fotografa para comprobar laidendad o tomar medidas biomtricas como la lectura del iris o de las huellas daclares. Tambinpueden usarse otras tcnicas ms avanzadas para vericar la idendad de quienes parcipan adistancia.

2.4.4.2. Es aconsejable usar mlples formas del test. Cuando slo se use una forma, las personasque pudieran conocerse (e.g. vecinos, compaeros) no debieran sentarse juntas. Se puede, porejemplo, sentar a los parcipantes por orden alfabco.

2.4.4.3. Numerar los asientos y hacer un listado de dnde se sent cada persona para ayudar adetectar si se ha copiado.

2.4.4.4. Cuando resulte apropiado (e.g. si se sospecha de que se ha copiado), emplear ndicesestadscos que ayuden a detectarlo, basados en la similitud de las respuestas de los parcipantesubicados en el mismo aula o lugar de la prueba.

2.4.4.5. Ulizar personal entrenado y able que supervise la prueba y controlar su trabajoregularmente. Asegurar que dichos supervisores no enen ningn conicto de intereses

2.4.4.6. Comprobar la existencia de patrones de respuesta aberrantes o inesperados (e.g. cuando

los tems diciles son respondidos correctamente y los fciles se fallan)

2.4.4.7. Obtener una muestra de la escritura de cada parcipante antes y durante el examen, paraayudar a detectar suplantaciones. Este procedimiento puede obviarse si no hay problemas deidencacin.

2.4.4.8. Cuando haya personas que repitan las pruebas (si estas personas pueden ser idencadas),analizar la diferencia de puntuaciones usando una distribucin estadsca de diferencias razonablesentre la puntuacin obtenida en la lma prueba y las obtenidas en administraciones previas.Diferencias extremas podran indicar que la persona en cuesn ha sido suplantada por otra o que

ha obtenido informacin sobre los tems de la prueba antes de su administracin. Otra posibleexplicacin radicara en los efectos de prcca resultantes de realizar la misma prueba o una pruebasimilar repedamente.

2.4.4.9. Documentar (legalmente, si fuera necesario) el procedimiento a seguir con las personas


26/30


26

sospechosas de hacer trampas en la prueba. Informar a los parcipantes por ancipado de que sehan puesto en marcha procedimientos para combar el fraude.

2.4.4.10. A veces, los profesores podran tener inters en mejorar las puntuaciones obtenidas porsus estudiantes en las pruebas estandarizadas. Por esta razn, los profesores no deberan tener

acceso a las mismas.

2.4.4.11. Usar armarios que puedan cerrarse con llave y servidores seguros para guardar conseguridad los materiales del test y sus resultados. Asegurar que las personas implicadas en elaborarlos tems del test son de conanza y siguen las normas establecidas para mantener su seguridad.Adems la condencialidad de los tems del test debe asegurarse de principio a n, incluyendoel borrador de los tems del test. Los tems enen que transmirse de forma segura entre losvendedores de las pruebas y sus creadores, y todos los archivos deben mantenerse y procesarse entarjetas de memoria o en ordenadores de uso independiente, y no en ordenadores o servidores alos que pudieran tener acceso personas no autorizadas.

2.4.4.12. Los ordenadores que se usen para administrar las pruebas deben tener inhabilitadas lasopciones que permitan guardar o enviar los materiales de la prueba. Se debe evitar el acceso ainternet si este acceso permite el envo de materiales.

2.4.2.13. Para mantener seguros los materiales del test, asegurar que stos no se fotograan(mediante cmara o telfono mvil)

2.4.4.14. Para asegurar el trato equitavo de todos los parcipantes, su anonimato debe garanzarseen todas las fases de la realizacin de la prueba y su puntuacin.

2.5. Elaboracin de informes

2.5.1.Informe sobre las puntuaciones

Las puntuaciones son comunicadas tanto a las personas evaluadas como a los usuarios (clientes).Idealmente, los informes sobre las puntuaciones deberan proporcionarse en un formato imprimible.En ocasiones se usa internet como mtodo estndar para informar de los resultados. En cualquier casola informacin debe proporcionarse de forma que el signicado de las puntaciones quede claro tantopara la persona evaluada como para el cliente.

2.5.5.1. Usar grupos focales, procedimientos de pensar en voz alta, estudios experimentaleso incluso entrevistas individuales para obtener informacin que ayude a generar explicacionescomprensivas y les de las puntuaciones as como guas interpretavas.


27/30


27

2.5.1.2. Asegurar que quienes reciben las puntuaciones enen la ayuda necesaria para interpretarlas,y as poder comprenderlas. Aportar evidencia de que los informes son comprensibles para losdesnatarios.

2.5.1.3. Los informes generados informcamente deben ser apropiados para los desnatarios,

facilitando una interpretacin de las puntuaciones y los datos ms tcnicos

2.5.1.4. Si es necesario, usar repositorios de datos donde los resultados de pruebas transnacionales,nacionales y provinciales puedan subirse al momento.

2.5.1.5. Claricar el nivel al que las puntuaciones pueden interpretarse de forma able (e.g.cuando haya subescalas con baja abilidad). La decisin sobre si se debe presentar informacin delas puntuaciones obtenidas en los subtests debe basarse en la teora que subyace a la prueba, elobjevo de la evaluacin y las propiedades psicomtricas de las puntuaciones de las subescalas.

2.5.1.6. Buscar ayuda de expertos en relaciones pblicas cuando los informes sobre las puntuacionesdeban presentarse a polcos y medios de comunicacin.

2.5.2. Medidas para mantener la seguridad de los informes

2.5.2.1. Tomar precauciones para que los informes individuales no puedan ser falsicados por laspersonas evaluadas

2.5.2.2. Evitar realizar correcciones manuales en los informes instucionales. Si es necesario cambiar

una o ms puntuaciones, usar el soware apropiado o crear de nuevo el informe.

2.5.2.3. Encriptar los cheros electrnicos de los informes para guardar y transferir la informacin.

2.5.2.4. Asegurar que los informes slo se envan a las personas apropiadas. No enviar informes queincluyan ms informacin de la necesaria. Sera ms fcil enviar el informe completo a todos losusuarios de los tests, pero con el n de salvaguardar la condencialidad de los parcipantes, slo seenviarn los resultados relevantes para l o ella.

2.5.2.5. Informar a las instuciones de que slo deben usar el informe enviado directamente a la

instucin, y no una copia del informe enviado a la persona evaluada (que podra haberse falseado).Tambin es recomendable que las instuciones realicen vericaciones runarias de los informesinstucionales.


28/30


28

2.5.3. Documentacin

La documentacin que recoge informacin exhausva del proceso de obtencin de puntuaciones, incluyendoestadsticos descriptivos clave (media, desviacin tpica, mediana, rango de puntuaciones, abilidad, etc.),y la compara con las puntuaciones obtenidas por otros grupos de parcipantes, debe estar preparada y

completada antes, o poco despus, de haber ofrecido los resultados. Una adecuada documentacincontribuir a aumentar la abilidad y precisin del proceso. Hacer pblica parte de esta informacin puedeser un mtodo adicional de control del proceso PAI. Es importante:

2.5.3.1. Documentar el proceso completo, paso a paso (informe interno). Debe incluir documentacinestandarizada sobre el proceso de obtencin de las puntuaciones, incluyendo los estadscosprincipales y las comparaciones entre grupos.

2.5.3.2. Asegurar que las posibles nuevas formas de un test son administradas slo despus dehaber completado la documentacin para una forma anterior.

2.5.3.3. Compilar estadscos descripvos, por ejemplo, por lo que se reere a diferencias de gneroy ao, y permir que el pblico general tenga acceso a estos estadscos. Se debera proporcionaruna breve explicacin sobre la interpretacin de estos estadscos. Los estadscos a nivel agregadoprotegen la anonimidad de los parcipantes individuales.


29/30


29

REFERENCIAS

AERA/APA/NCME. (1999). Standards for educaonal and psychological tesng. Washington, DC: American EducaonalResearch Associaon, American Psychological Associaon, Naonal Council on Measurement in Educaon.

AERA/APA/NCME. (2014). Standards for educaonal and psychological tesng. Washington, DC: American EducaonalResearch Associaon, American Psychological Associaon, Naonal Council on Measurement in Educaon.

Allalouf, A. (2007). Quality Control Procedures in the Scoring, Equang, and Reporng of Test Scores. EducaonalMeasurement: Issues and Pracce,26: 36-43.

Bartram, D., y Hambleton, R.K. (Eds.) (2006) .Computer-Based Tesng and the Internet. West Sussex: John Wiley & Sons.

Cizek, G. J. (1999). Cheang on tests: How to do it, detect it, and prevent it. Mahwah, NJ: Lawrence Erlbaum.

ITC (2001). Internaonal Guidelines on Test Use. Internaonal Journal of Tesng, 1: 95-114.

ITC (2006). Internaonal Guidelines on computer-based and Internet-delivered tesng. Internaonal Journal of Tesng,6: 143-172.

Kolen, M. J., y Brennan, R. L. (2004). Test equang, linking and scaling: Methods and pracces.New York: Springer.

Lamprianou, I. (2007). Comparability methods and public distrust: an internaonal perspecve. En Newton, P., Baird J.,Goldstein, H., Patric, H., y Tymms, P. (Eds.) Techniques for monitoring the comparability of examinaon standards.Qualicaons and Curriculum Authority, London.

Nichols, S. L. y Berliner, D. C. (2005). The inevitable corrupon of indicators and educators through high-stakes tesng,Educaonal Policy Studies Laboratory, College of Educaon, Arizona State University.

Rhoades, K., y Madaus, G. (2003). Errors in standardized tests: A systemic problem. (NBETPP Monograph). Boston, MA:Boston College, Lynch School of Educaon.

Texas Educaon Agency, Pearson Educaonal Measurement, Harcourt Educaonal Measurement & Beta, Inc. (2004)Captulo 9: Quality control procedures. Texas Student Assessment Program. Technical Digest (2003-2004) hp://www.tea.state.tx.us/student.assessment/resources/techdig04/

Toch, T. (2006). Margins of error: The tesng industry in the No Child Le Behind era.Washington: Educaon SectorReport.

Von Davier, A. (2011) Stascal Models for Test Equang, Scaling, and Linking. Springer

Wild, C. L., y Rawasmany, R. (Eds.) (2007). Improving tesng: Applying process tools and techniques to assure quality. Mahwah, NJ: Erlbaum.

Zapf, D. y Reason, J. (1994). Introducon: Human Errors and Error Handling.Applied Psychology: An Internaonal Review,43: 427-432.
http://www.tea.state.tx.us/student.assessment/resources/techdig04/http://www.tea.state.tx.us/student.assessment/resources/techdig04/http://www.tea.state.tx.us/student.assessment/resources/techdig04/http://www.tea.state.tx.us/student.assessment/resources/techdig04/


30/30

calidad puntuaciones test

Documents