guillermo gil escudero juan carlos suÁrez falcÓn (')6755495c-1c7a-4209...esto es, al término...

eAPLICACIÓN Y VALIDACIÓN DE UN PROCEDIMIENTO DE CONSTRUCCIÓNDE PRUEBAS DE RENDIMIENTO DE MATEMÁTICAS, CIENCIAS Y LENGUA

EN LA EDUCACIÓN PRIMARIA

GUILLERMO GIL ESCUDEROJUAN CARLOS SUÁREZ FALCÓN (')

INTRODUCCIÓN

La Ley Orgánica de Ordenación Gene-ral del Sistema Educativo (LOGSE) creó, ensu artículo 62, el Instituto Nacional de Ca-lidad y Evaluación (INCE) encargándole almismo, entre otras, la tarea de llevar acabo la evaluación general del sistemaeducativo en un marco de respeto a la dis-tribución de competencias entre Comuni-dades Autónomas, tal y como apareceregulado en la Constitución Española y enlos Estatutos de Autonomía. Además de lasactividades de innovación e investigacióneducativa, la orientación educativa y profe-sional, la inspección técnica de educacióny la mejora y reorientación de aspectos ta-les como la formación del profesorado, lasprogramaciones docentes y la función di-rectiva, la evaluación nacional del sistemaeducativo en España es también una medi-da que contribuye a la mejora de la calidadde la enseñanza.

Uno de los objetivos del INCE consisteen obtener indicadores del funcionamientodel sistema educativo en su conjunto quepermitan conocer el grado en que el siste-ma educativo español logra alcanzar, en un

(*) Instituto Nacional de Calidad y Evaluación.

Revista de Educación, núm. 312 (1997), pp. 133-144

momento determinado de su desarrollo,los objetivos establecidos por las leyespara la educación. La finalidad básica deeste objetivo es la de proporcionar infor-mación relevante no sólo a las Administra-ciones Educativas, sino también a losmiembros de la comunidad educativa y alos ciudadanos en general. Por otro lado,el INCE debe también analizar qué factoresinfluyen sobre los procesos escolares, enespecial los procesos de enseñanza yaprendizaje, de modo que dichos análisispermitan aplicar medidas que contribuyana mejorar la calidad de la educación.

El INCE, a lo largo del año 1995, llevóa cabo su primer proyecto de evaluación,que consistió en la evaluación de la Educa-ción Primaria. En este proyecto se preten-día analizar los resultados educativosalcanzados al final de esta etapa educativa,esto es, al término de sexto curso de Edu-cación Primaria. Como este nivel, en elmomento de llevar a cabo el proyecto, nose había implantado en la totalidad del Es-tado, se recopiló información sobre los re-sultados obtenidos por el alumnado alfinalizar el sexto curso de Enseñanza Ge-neral Básica (EGB), como un primer paso

133

que sirviera de línea base para poder llevara cabo un estudio comparativo que ha dedesarrollarse cíclicamente en años futuros.

El estudio establece además, un puntode referencia para evaluar, a lo largo deltiempo, los resultados educativos propor-cionados por el conjunto del sistema, asícomo los efectos de los cambios produci-dos por la nueva ordenación educativa ypor las diferentes medidas de gobierno dela educación sobre aspectos tales como eldesarrollo global de los alumnos, el rendi-miento académico, el desarrollo de las ac-titudes, el funcionamiento de los centros,la participación de los miembros de la co-munidad educativa, etc.

En cuanto al rendimiento académico,objeto de este trabajo, se estudió el gra-do de adquisición cíe las enseñanzas mí-nimas al final de la Educación Primariaen las áreas de Lengua Castellana, Mate-máticas, Conocimiento del Medio (Cien-cias Naturales y Ciencias Sociales) yEducación Física.

La construcción de unas pruebas de ren-dimiento válidas y fiables se ha abordadodesde diferentes orientaciones en el ámbitode la investigación y la evaluación educati-vas. Se han tenido en cuenta tanto la tradi-cional Teoría Clásica de los Tests (TCT) queactualmente sigue manteniendo una fuertevigencia, como la Teoría de la Respuesta alÍtem (TRI) que se está considerando, cadavez con más fuerza, como una forma váliday fiable de abordar las tareas de medición delos resultados educativos.

Este trabajo pretende mostrar un pro-cedimiento de construcción de pruebas derendimiento con respuestas cerradas deopción múltiple, destinadas a evaluar elgrado en el que los alumnos alcanzan losobjetivos educativos definidos en el RealDecreto 1006/1991 de 14 de junio por elque se establecen las enseñanzas mínimaspara la Educación Primaria en las áreas cu-rriculares antes mencionadas.

El procedimiento propuesto para laconstrucción de las pruebas se fundamenta

en un método mixto que trata de conjugar,por una parte, la evaluación criterial con lanormativa y, por otra, los métodos de laTCT con los de la TRI. No obstante, la apli-cación de estos métodos tiene ciertas res-tricciones que es necesario mencionar paraentender el procedimiento seguido en laconstrucción de las pruebas. La primerarestricción viene dada por el propio come-tido del INCE, que consiste en comprobaren qué grado los alumnos de sexto cursoalcanzan las enseñanzas mínimas, lo quelleva a tener cuenta, en primer lugar, quela selección de los elementos de evalua-ción no es totalmente libre, sino que estádeterminada en gran medida, por el marcocurricular prescrito en las enseñanzas míni-mas. Por tanto, a la hora de seleccionar losítems no se trata simplemente de seleccio-nar aquellos que funcionan mejor desdeun punto de vista psicométrico, sino quese han de seleccionar también en funciónde las categorías establecidas por dichomarco curricular, es decir, en función delos bloques temáticos y los contenidos aso-ciados a los mismos, de manera que noquede excluido ninguno de los bloques te-máticos que conforman cada una de lasáreas. La segunda restricción viene dadapor el hecho de que al tratarse de la eva-luación de las enseñanzas mínimas, losítems deben corresponderse con los con-tenidos que teóricamente deberían ense-ñarse a todos los alumnos.

Ahora bien, estas restricciones dejaríande considerarse como tales si se las consi-derara como requisitos a tener en cuentaen el aspecto criterial de esta evaluación,teniendo en cuenta que, tal y como señalanHambleton y Rogers (1989), para muchospropósitos educativos, la determinacióndel nivel de habilidad de los examinadoses substancialmente más importante que ladeterminación de la situación del examina-do en relación con un grupo normativo,por lo que en estos casos, el marco de eva-luación referido a una norma es menosapropiado.

134

Sin embargo, como ya se ha mencio-nado, también es cometido del INCE inves-tigar y analizar los factores que influyensobre los resultados educativos, especial-mente aquellos que sean susceptibles demodificación por parte de los agentes educa-tivos (administraciones, profesores, familias,etc.), para que puedan proporcionar unamejora de la calidad educativa. El hecho detener en cuenta estos factores proporciona ala evaluación un carácter normativo.

Esta doble finalidad que deben cum-plir las evaluaciones competencia del INCE,origina la necesidad de hacer compatibleslos dos tipos de evaluación (la criterial y lanormativa) dentro de un mismo estudio.Este doble análisis de una misma realidadpone de manifiesto las dificultades técnicasque surgen a la hora de hacer coexistir dosmetodologías diferentes, tanto en sus orí-genes como en sus procedimientos de de-sarrollo y aplicación. Por ello, ha sidonecesario idear un procedimiento de cons-trucción de pruebas de rendimiento quereduzca al mínimo las posibles incompati-bilidades entre una y otra metodología.

PROCEDIMIENTO

PRUEBA PILOTO

Una vez finalizado el diseño del pro-yecto, la primera fase de trabajo consistióen un análisis exhaustivo de la legislacióneducativa vigente (Constitución, LODE,LOGSE, Real Decreto 1006/1991). A partirde este análisis se pudieron definir unasmatrices conceptuales o especificacionesque serían la base, tanto de cada una de laspruebas de las áreas que iban a ser evalua-das, como de los cuestionarios de opinióncon los que se iba a recabar informaciónde los distintos agentes que forman partedel ámbito educativo. Las matrices de laspruebas de rendimiento de las distintasáreas estaban formadas por los bloques te-máticos con sus correspondientes con-

ceptos, procedimientos y actitudes, a par-tir de los cuales se establecían las subáreasy los elementos de evaluación. Estas matri-ces especificaban tanto el tipo de contenidosque deberían examinarse, como el peso quecada uno de los subapartados debía teneren el conjunto de las pruebas.

Las Tablas I, II y III presentan las ma-trices conceptuales para las áreas de Len-gua Castellana y Literatura, Matemáticas yConocimiento del Medio (Ciencias Natura-les y Ciencias Sociales) indicando el pesorelativo de cada uno de los contenidos yde las capacidades en el conjunto de cadauna de las pruebas. Establecidas estas es-pecificaciones para la construcción de laspruebas, quince profesores especialistasen este nivel educativo y en ejercicio, ase-sorados por los expertos en evaluación delINCE, redactaron aproximadamente 600ítems por materia que se correspondíancon los contenidos determinados por lasmatrices conceptuales del diseño. Poste-riormente, se seleccionaron aproximada-mente 200 ítems por área. Con ellos seformaron las cuatro pruebas que se evalua-ron en el estudio piloto. Cada una de estaspruebas no sólo tenía un número de ítemssimilar, sino que también era similar suconstrucción y el nivel de su dificultad.

Estas pruebas fueron también revisadaspor los expertos designados por las Comuni-dades Autónomas con competencias transferi-das en educación y por el MEC para el restode las comunidades. Las diversas sugerenciasy correcciones que hicieron se incorporaronal proceso de construcción de las pruebas.

El muestreo se llevó a cabo mediante unprocedimiento estratificado y aleatorio, for-mándose los estratos en función: a) del nivelde fracaso escolar del centro (alto, medio ybajo) según la información aportada por lasAdministraciones Educativas; b) de la lenguapropia de la comunidad autónoma y c) de latitularidad del centro (público o privado). Te-niendo en cuenta estos estratos, se selecciona-ron 35 centros en los que se probaron lascuatro pruebas elaboradas para cada área.

135

TABLA IDistribución de los (tenis de las cuatro pniebas del área de Lengua Castellana

del estudio piloto, según los :lents de lectura y escritura y los tipos de textos

LEC-111A

Tipo de textos Total

literarios

Informativos

Verbal y no verbal

Descriptivos, Diálogixs, Monólogos, Narrativos, Poéticos, Teatrales, etc.

Recetas, Instrucciones, Divulgativos, Periodísticos, Cartas, Avisos, etc.

Comics, Viñetas, Anuncios gráficos, Jeroglíficos, Ilustraciones, Planos, etc.

49

42

24

Total 115

ESCRMYRA

Ortografía, Puntuación, Vocabulario, Sinónimos, Ordenación de palabras y frases,Continuación del escrito. Incorrecciones gramaticales, Formación de oraciones, Estilosdirecto e indirecto, etc.

52

TOTAL 167

TABLA IIDistribución de los (tenis de las cuatro pruebas del área de Matemáticas del

estudio piloto, según los contenidos y las capacidades evaluables

CONTENIDOS

CAPACIDADES

Conocimientoconceptual

ProcedimientosEstrategias

Problemas Total

Números y

Operaciones

Números naturales

Valor posicional 4 2 o 6

1>ivIsibilidad 4 4 10 18

Operaciones

Propiedades

4 12 7 23

Potencias

Raíces cuadradas

4 2 3 9

Números quebrados 4 8 , 6 18

Números decimales 4 8 4 16

Otros temas 4 4 2 10

Medida de magnitudes 8 12 12 32

Geometría

Elementosgeométricos del plano

12 6 4 22

Elementosgeométricos delespacio

8 1 1 10

Perímetros, Áreas,Volúmenes

4 1 15 20

Organización de lainformación

Representación y aria-Ibis de datos

Protxtbilidad

4 4 0 8

Total 64 64 64 192

Corxximiento conceptual: Capacidad pan recordar conceptos matemáticos.Procedimientos estrategias: Capacidad para recordar y utilizar procedimientos y estrategias.Problemas: Capacidad para solucionar problemas utilizando el conocimiento matemático.

136

TABLA IIIDistribución de los Ítems de las cuatro pruebas del área de Conocimiento delMedio (Ciencias Naturales y Ciencias Sociales) del estudio piloto, según los

contenidos y las capacidades evaluables

CONTENIDOSCAPACIDADES

Total

Conocimiento Comprensión Aplicación Análisis

El ser humano y la salud 4 8 8 4 24

Paisaje 6 9 9 6 30

Medio físico 4 8 8 4 24

Seres vivos 4 6 6 4 20

Materiales y sus propiedades 4 6 6 4 20

Población y actividades humanas 4 6 6 4 20

Máquinas y aparatos 2 4 4 2 12

Organización social 2 3 3 2 10

Medios de comunicación y transporte 2 3 3 2 10

Cambios y paisajes históricos 6 8 9 7 30

Total 38 61 62 39 200

Conocimiento: Capacidad para recordar concep os.Comprensión: Capacidad para explicar e interpretar información.Aplicación: Capacidad para aplicar los conocimientos a nuevas situaciones y a la solución de problemas.Análisis: Capacidad para analizar y valorar informaciones y datos.

La aplicación de las pruebas la llevó acabo una empresa especializada contrata-da al efecto, supervisada por observadoresdel INCE. Cada tipo de prueba fue contestadapor aproximadamente 400 alumnos desexto de EGB. También a 400 alumnos querespondieron a uno de los modelos de laspruebas se les administró un cuestionariode opinión. Adicionalmente, se probaronen la prueba piloto los cuestionarios deprofesores, de los equipos directivos y delas familias de los alumnos.

PROCEDIMIENTO DE CONSTRUCCIÓN DE

LAS PRUEBAS

Los manuales básicos, tales como losde Bejar (1983), Linn (1989), Mehrens yLehman (1984), Popham (1978, 1980,

1993), Walberg y Haertel (1990), exponenlos diferentes métodos de construcción detests y en especial los Test Referidos a un Cri-terio (TRCs). Hambleton (1980, 1982) y Pop-ham (1978, 1980) han centrado su trabajo enla revisión de los métodos de preparación yvalidación de conjuntos de ítems referidos aun criterio. Navas (1994) hace una revisiónen castellano de algunas aportaciones ydesarrollos de la construcción de los TRCsen la que destaca varias opiniones que se-ñalan la falta de adecuación de los méto-dos de la TCT para la selección de ítems(método aleatorio y método clásico) enlos TRCs. Sin embargo, en esta mismarevisión se señala que la TRI parececonstituir una aproximación que puedecontribuir a una mejora significativa de losprocedimientos de construcción de losTRCs.

137

Desde esta perspectiva, se distinguenfundamentalmente dos métodos: a) el mé-todo óptimo de selección de ítems, que es-tablece una puntuación de corte comocriterio y selecciona los ítems de modo quesu discriminación sea máxima en el puntodel rasgo a evaluar asociado a la puntua-ción de corte y, dentro de éstos, seleccionalos ítems que proporcionan mayor infor-mación en ese punto de la escala; y b) elmétodo óptimo de contenido, que es simi-lar al anterior, pero que, además, estableceuna restricción al test final que consiste enque los contenidos deben satisfacer unaserie de condiciones, ya que han de ajus-tarse a un conjunto predeterminado de losmismos, establecidos por las matrices con-ceptuales que previamente han sido dise-ñadas para cada área que va a ser objetode evaluación. Los trabajos de Hambletony Rogers (1988), de Gruijter y Hambleton(1982) y Hambleton y de Gruijter (1983),ponen de manifiesto las ventajas y la mejoradecuación de estos dos últimos métodossobre los basados exclusivamente en la TCT.

En la selección de ítems que se llevó acabo se tuvieron en cuenta las dos pers-pectivas: La Teoría Clásica de los Tests(TC'T) y la Teoría de la Respuesta al Ítem(TRI) utilizando un modelo de tres pará-metros (ítems de elección múltiple). En pri-mer lugar, se comprobó la uniclimensionalidalde las pruebas tras realizar un análisis factorialpara variables clicotómicas (Bock y Aitkin,1981) mediante el programa TFSTFACT (Wil-son, Wood, Kanclola y Gibbons, 1991) encada una de las cuatro pruebas piloto decada área curricular. En las dieciséispruebas se verificó la existencia de un únicofactor significativo por prueba, lo que permitíaconsiderar a cada una de ellas como unaprueba uniclirnensional.

El primer criterio para la selección deítems procedió de la TRI. Se eliminaron to-dos aquellos ítems cuyas probabilidadesasociadas a x2 fueran inferiores a .10 bajoel modelo logístico de tres parámetros, ob-tenidas con el programa BILOG.3 (Mislevy,

R; y Bock, D., 1990). A continuación se uti-lizaron varios criterios de selección com-plementarios basados en la TCT. Se fijóuna discriminación mínima del ítem (.20),tomando como índice de discriminación lacorrelación biserial puntual (calculada conel programa TESTFACT).

Por otra parte, se analizaron el porcen-taje de respuestas dadas por los alumnos alos distractores y se tuvo en cuenta que di-chas respuestas estuvieran adecuadamentedistribuidas, es decir, que los distractoresactuaran como tales, de modo que si elporcentaje de elección de algunos de losclistractores de un ítem era nulo o desequi-librado y pedagógicamente inexplicable,no se seleccionaba dicho ítem.

Todos los ítems que cumplieron estoscriterios se distribuyeron por grupos enfunción de las matrices conceptuales deldiseño y se eligieron los mejores ítems decada apartado de las matrices, esto es, elmejor o los mejores ítems para cubrir cadaobjetivo mínimo especificado.

Una vez seleccionados los ítems enfunción de su calidad psicométrica y suubicación en las matrices, otro problemaque hubo que resolver para elaborar laspruebas finales de rendimiento, consistió,como ya se mencionó anteriormente, enhacer converger las dos formas diferentesde abordar la construcción de los instru-mentos de evaluación: la criterial y la nor-mativa. Si se consideraba exclusivamenteel nivel óptimo en los resultados de la eva-luación criterial, cabría esperar curvas derendimiento asimétricas negativas y es co-nocido que este tipo de distribuciones vio-la algunos supuestos básicos a la hora derealizar análisis estadísticos posteriores,como es el supuesto de normalidad de ladistribución en las pruebas paramétricasasociadas a la evaluación normativa.

En consecuencia, se diseñó un meca-nismo que, sin distorsionar los resultadosoriginales, respetase la distribución de faci-lidad/dificultad para cada área que fue ob-tenida de la totalidad de los ítems de las

138

cuatro pruebas del estudio piloto ya que,como puede suponerse, los mejores ítemsprocedían de pruebas diferentes. Los por-centajes que marcaban el nivel de dificul-tad de los ítems se clasificaron en cincogrupos, de menor a mayor dificultad, conel fin de que estuvieran representados enla prueba final de la forma más semejanteposible. De este modo, se seleccionaronlos ítems que conformaron las pruebas de-finitivas. El orden en que aparecen losítems es el de su progresiva dificultad (ex-cepto en Lengua Castellana y Literatura,porque distintos grupos de ítems estánasociados a distintos tipos de texto, y porello, lo que se ordenó en esta prueba fue-ron los textos de menor a mayor dificultadmedia de los ítems asociados a los mismos).

ADMINISTRACIÓN DE LAS PRUEBAS FINALES

En mayo de 1995 se aplicaron laspruebas definitivas de Lengua Castellana yLiteratura, Matemáticas y Ciencias Socialesy Ciencias Naturales a 10.870 alumnos desexto curso de la EGB, junto con los cues-tionarios dirigidos a los padres, los equiposdirectivos, y a los propios alumnos. Como enel caso de la prueba piloto, de la administra-ción de las pruebas se encargó una empre-sa especializada cuyo trabajo fue dirigido ysupervisado por técnicos del INCE.

El tamaño cle la muestra se determinóa partir de los criterios establecidos por laInternational Association for the Evalua-tion of Educational Achievement (IEA)(Ross, 1991) de forma que fuese repre-sentativa a nivel del Estado. Si se siguen lastablas del diseño de muestras para mues-treos bietápicos construidas por Ross(1987) y se considera un coeficiente de co-rrelación intraclase (p) igual a .3, con unaratio mínima estimada de 20 alumnos porclase, se comprueba que es necesario, paraque los resultados obtenidos a partir de losalumnos sean representativos del conjunto

del Estado, muestrear un mínimo de 134clases en todo el Territorio Nacional, demanera que los cálculos estadísticos semuevan en un margen de error estimadode + 0.1a para las medias, + 5 por 100 paralos porcentajes y + 0.1 para los coeficientesde correlación.

Las variables que se tuvieron en cuen-ta para realizar la estratificación fueron lacomunidad autónoma, titularidad delcentro —pues parece conveniente cono-cer de forma diferenciada el funciona-miento de los dos tipos de centros:públicos y privados— y el tamaño de losmismos, ya que éste implica diferencias or-ganizativas internas.

El muestreo que se realizó fue propor-cional en lo que se refiere a las categoríasde titularidad y tamaño de los centros,pero no lo fue respecto de los estratos porcomunidades autónomas. Esta no propor-cionalidad por comunidades se hizo con elobjeto de poder establecer comparacionesentre las diferentes comunidades autóno-mas con competencias transferidas en edu-cación (Andalucía, Canarias, Cataluña,Galicia, Navarra, País Vasco y Valencia) yentre éstas y el territorio gestionado provi-sionalmente por el Ministerio de Educación.

Para realizar estas comparaciones sefijó un margen inicial de error estimado de+ 0.2a para las medias y + 10 por 100 paralos porcentajes, lo que implicaba mues-trear un conjunto de 34 centros por comu-nidad autónoma con competenciastransferidas en educación. Los excesivoscostos de aplicación llevaron a tornar ladeterminación de que en el territorio ges-tionado por el MEC se muestrearan 20 cen-tros por comunidad autónoma (Aragón,Asturias, Baleares, Cantabria, Castilla-LaMancha, Castilla-León, Extremadura, LaRioja, Madrid y Murcia) y no los 34 comoen el resto de las comunidades, lo que im-plicaba un conjunto de 200 clases y unosmárgenes de error algo mayores que parael resto de comunidades autónomas. Noobstante, hay que tener en cuenta que las

139

estimaciones realizadas para marcar los már-genes de error son conservadoras y, además,el coeficiente de correlación intraclase es es-perable que sea menor al disminuir el ámbi-to de su estimación del conjunto del Estadoal de las comunidades autónomas, con loque se espera que haya una reducción dela variabilidad entre clases.

La determinación de los centros espe-cíficos que participaron en la evaluación serealizó por muestreo aleatorio, estratifica-do y con probabilidad proporcional al ta-maño. Dentro del centro, la elección de ungrupo-clase concreto del curso, en el casode que hubiera más de uno, se realizó pormuestreo aleatorio.

VALIDACIÓN DEL PROCEDIMIENTODE SELECCIÓN DE íTEMS

Se han utilizado tres criterios para lavalidación del procedimiento de selecciónde ítems. El primer criterio consistió en fi-jar para la prueba final una fiabilidad supe-rior a los índices de fiabilidad obtenidos encada una de las cuatro pruebas que paracada área se hicieron en el estudio piloto.

El segundo criterio se basó en que los índicesde facilidad y discriminación de los ítems novariaran de forma sustancial de una aplica-ción a otra. Por último, el tercer criterioconsistió en que los ítems de la prueba fi-nal se ajustasen, en su gran mayoría, al mo-delo logístico de tres parámetros.

La Tabla IV ofrece los resultados re-lativos al primer criterio sobre los índi-ces de fiabilidad de las cuatro pruebaspiloto y de la prueba final de las diferen-tes materias. Como puede apreciarse, lafiabilidad de la prueba final supera, entodos los casos, tanto la máxima fiabili-dad lograda en cada una de las cuatropruebas del estudio piloto para cadauna de las áreas evaluadas, como supromedio. El mayor incremento en fia-bilidad se alcanzó en la prueba de Len-gua Castellana y Literatura, mientrasque en la prueba de Matemáticas, sólose obtuvo una mínima ganancia en pre-cisión con respecto al estudio piloto.En cualquier caso, el procedimiento deselección de ítems utilizado, permite dis-poner de unas pruebas que tienen unaalta fiabilidad para evaluar el rendimientode los alumnos en las áreas analizadas.

TABLA IVíndices de fiabilidad de las cuatro formas de las pruebas piloto y las pruebas

finales en Matemáticas, lengua y Conocimiento del Medio(Ciencias Naturales y Ciencias Sociales)

Materia

Prueba piloto

Prueba final

Forma A Forma B Forma C Forma D Promedio

Matemáticas 0,822 0,841 0,837 0,843 0,835 0,854

Lengua 0,815 0,770 0,814 0,810 0,802 0,894

Ciencias 0,808 0,767 0,849 0,833 0,814 0,872

140

TABLA VCorrelaciones entre los índices de facilidad y discriminación de los ítems

comunes en la aplicación del estudio piloto y en estudio final por áreas deconocimiento

Materia índices de facilidad índices de discriminación

Matemáticas 0,9456 0,69n 40 p - 0,000 n 40 p - 0,000

Lengua 0,9527 0,61n - 63 p - 0,000 n •n 63 p - 0,000

Ciencias 0,9531 0,72n - 50 p 0,000 n - 50 p - 0,000

Para la verificación del segundo criterio,se analizaron las correlaciones entre las esti-maciones paramétricas de los ítems comunesde las pruebas del estudio piloto y de laprueba final como técnica para comprobarsu grado de variación. Una correlación posi-tiva y alta supone que la variación es mínimay no significativa. En la tabla 5 se presentanlas correlaciones entre los índices de discri-minación y facilidad de los ítems de las dosaplicaciones en las áreas evaluadas. Se ob-serva que existe una relación muy fuerte en-tre los índices de facilidad de los ítems yaque entre ellos hay una correlación de 0,95en cada una de las áreas evaluadas.

En el caso de la discriminación, la re-lación lineal es elevada (media de 0,67)aunque no tan alta como en las estimacio-nes de la facilidad de los ítems. Un análisisglobal de estas relaciones, indica que exis-te una estructura correlacional entre las es-timaciones paramétricas que permanececon independencia del área analizada.

Por último, en lo que concierne alajuste de los ítems a los modelos logísticos,hay que comentar que las tres pruebas fi-nales se ajustan adecuadamente al modelologístico de tres parámetros (nivel de significa-ción a = 0,05), ya que sólo se desajusta unítem en Matemáticas, dos en Lengua Caste-llana y Literatura y tres ítems en la prueba de

Ciencias Sociales y Ciencias Naturales, loque supone que más del 90 por 100 de losítems en cada prueba se ajusta a este mo-delo.

COMENTARIOS FINALES

En el trabajo que aquí se presenta se hapropuesto un procedimiento mixto para laselección de ítems y construcción de prue-bas de rendimiento que intenta combinar,por un lado, la evaluación criterial con lanormativa y, por otro, los métodos de laTeoría Clásica de los Tests (TCT) con los dela. Teoría de la Respuesta al Ítem (TR1).

La utilización de este procedimientopara la construcción de tres pruebas derendimiento en Lengua Castellana y Litera-tura, Matemáticas, y Ciencias Sociales yCiencias Naturales de sexto curso de EGB,ha proporcionado resultados que indicanque las características psicométricas de losítems seleccionados, tales como los índicesde discriminación y facilidad y el ajuste almodelo logístico de tres parámetros, sepreservan en la prueba final, en tanto quela precisión o fiabilidad global de la prue-ba definitiva supera ligeramente la fiabili-dad esperada, si se toma como punto de

141

partida las cuatro formas de las pruebasdel estudio piloto.

En conclusión, los resultados obteni-dos parecen indicar que el procedimientomixto utilizado es un mecanismo válidopara la construcción de pruebas de rendi-miento en las que la selección de ítems nopuede realizarse atendiendo únicamente alfuncionamiento psicométrico de esosítems, sino que dicha selección ha de teneren cuenta, en este caso, las categorías esta-blecidas por el marco curricular para lasmaterias evaluadas.

Por otro lado, como este procedimien-to considera criterios derivados de las dosgrandes aproximaciones teóricas de la psi-cometría, la TCT y la TRI, en él se combi-nan las ventajas de la TCF (generalidad deaplicación, supuestos débiles o pocos restric-tivos, mayor manejabilidad, menor sofistica-ción matemática, etc.) con las de la TRI(invariación de los parámetros de los ítems yde la aptitud, falsabiliciad de los modelos,medidas locales de precisión, etc.)

Con el objetivo de replicar estos resul-tados, está previsto aplicar el procedimien-to mixto antes descrito a otras áreas yniveles educativos. En principio, se espe-ran resultados similares a los encontradosen la construcción de las tres pruebas derendimiento de sexto curso.

Estos estudios proporcionarán una in-dicación del grado de generalización porniveles y áreas curriculares, así como unavalidación global del procedimiento pro-puesto para la construcción de pruebas derendimiento para la evaluación de la ense-ñanza no universitaria.

BIBLIOGRAFÍA

BEJAR, 1. I.: Achievement Testing: RecentAdvances. Beverly Hills, Sage, 1983.

BERK, R. A.: «Criterion Referenced Tests»,en WALBERG, H. J. y HAERTEL, C.D.(eds.), The International Encyclopedia

of Educational Evaluation, Oxford,Pergamon, 1990.

GRUIJTER, D. N. M. de y HAMBLETON, R. K.:«Using item response models in crite-ñon referenced test item selection», enHAMBLETON, R. K. (ed.), Applications ofítem response theory, Vancouver, BC:Educational Research Institute of Bri-tish Columbia, 1983, 20, 4, pp. 355-367. •

HAERTEL, G. D.: «Achievement Tests», enWALBERG, H. J. y HAERTEL, G.D. (eds.),The International Encyclopedia ofEducational Evaluation. Oxford, Per-gamon, 1990.

HAMBLETON, R. K.: «Test score validity andstandard-setting methods», en BERK, R.(ed.), Criterion-Referenced measure-ment: State of the art, Baltimore: JohnsHopkins University Press, 1980.«Advances in criterior-referenced tes-ting technology», en REYNOLDS, C. &GUTICIN, T. (eds.), Handbook of schoolpsychology, New York: John Wiley &Sons, 1982.

HAMBLETON, R. K. y GRUBTER, D. N. M. de:«Applications of item response modelsto criterion-referenced test item selec-tion», journal of Educational Meas-urement, 1983, 20, 4, pp. 355-367.

HAMBLE'TON, R. K. y ROGERS, H. J.: «Sol-ving criterion-referenced measurementproblems with item response models»,International journal of EducationalResearch, 1989, 13, 2, pp. 145-160.

LINN, R. L.: Educational Measurement,New York, Macmillan, 1989.

MEHRENS, W. A. y LEHMAN, 1. j.: Measure-ment and Evaluation in Educationand Psychology, New York, Holt, 1984.

MISLEVY, R. J. y DARREa Boac, R.: Bilog 3.Rent Analysis and Test Scoring with Bi-nar), Logistic Models, Scientific Softwa-re, Inc., Mooresville, 1990.

NAVAS, M. «Teoría Clásica de los Testsversus Teoría de Respuesta al Ítem»,Psicológica 15, 1994, pp. 175-208.

142

Ponum, W. J.: Criterion-referenced meas-urement, Englewood Cliffs, N. J.; Pren-tice Hall, 1978.

- Modern educational measurement,Englewood Cliffs, N. J.; Prentice Hall,1981.

- Educational Evaluation, Boston, Allynand Bacon, 1993.

REAL DECRETO 1006/1991, de 14 de junio,por el que se establecen las enseñan-zas mínimas correspondientes a laEducación Primaria. BOE número 152,de 26 de junio de 1991.

Ross, K. N.: «Sample Design», Internatio-nal Journal of Educational Research,1987, 11, pp. 1-143.

— Sampling Manual for the IRA Inter-national Study of Reading Literacy,International Coordinating Center:IEA International Study of ReadingLiteracy: University of Hamburg,1991.

WILSON, D. T.; WOOD, R.; KANDOIA, P. y GIB-BONS, R.: Testfact. Test sco ring. ítem Sta-tistics, and ítem Factor Analysis,Scientific Software, Inc., Chicago, 1991.

143

guillermo gil escudero juan carlos suÁrez falcÓn (')6755495c-1c7a-4209...esto es, al término...

Documents