0200und3art1aragon2002.pdf

MÓDULO 2202- EL MÉTODO EXPERIMENTAL EN PSICOLOGÍA 1

Para profundizar en este tipo de contenidos consulte la obra: Aragón, B., L., E y Silva, R. A. y, (2002). Fundamentos Teóricos de

L e c t u r a 1

Aragón, B., L., E y Silva, R. A. y, (2002).

“Fundamentos Teóricos de la Evaluación Psicológica.” Editorial Pax: México. pp. 45-56.

VVAALLIIDDEEZZ ........................................................................................................................................................11 Validez del constructo..................................................2 Validez referida al criterio............................................3 Validez de contenido....................................................4

VVAALLIIDDEEZZ

UU NN II DD AA DD II II II ..

VVAALLIIDDEEZZ

Determinar el significado de una medida se centra en el concepto de validez. En un sentido muy general, un instrumento de medición es valido si hace aquello para lo que esta concebido. La validez de un test concierne a lo que el test mide y a que tan bien lo hace; nos revela lo que podemos inferir de las puntuaciones del test.

El estudio de la validez de un instrumento nos permite contestar si este es útil para medir cierto comportamiento; sin embargo, siempre debemos tener presente que lo validado no es el instrumento, sino la interpretación de los datos obtenidos por medio de un procedimiento especifico. Aunque según la definición de validez de un instrumento esta es referida típicamente a si la conducta mostrada en la situación de test es o no un reflejo de la conducta habitual del sujeto en situaciones naturales, hay otras metas de la validez igualmente importantes; la evaluación de la validez de un instrumento implica considerar también los siguientes aspectos: la adecuación con que mide la conducta sujeta a estudio, la capacidad para diagnosticar la conducta real de una persona, la sensibilidad para detectar el objetivo, la seguridad de las decisiones y la utilidad (Martínez, 1981).

La validación requiere siempre investigaciones empíricas, y el tipo de datos necesario para ello depende de la clase de validez. La validez es una cuestión de grado (no se trata de una propiedad que existe o no) y la validación es un proceso continuo. La validez de un test no puede ser reportada en términos generales; tampoco es valido decir de ninguna prueba que posea una validez alta o baja en lo abstracto; su validez debe ser establecida con referencia al uso particular para el cual el test esta siendo considerado (Nunnally, 1970; Anastasi, 1988).

Fundamentalmente, todos los procedimientos para determinar la validez de un test conciernen a las relaciones entre la ejecución en una prueba y otros hechos observables independientemente, acerca de las características de la conducta por considerar. Los métodos específicos empleados para investigar estas relaciones son numerosos y han sido

la Evaluación Psicológica. Editorial Pax: México. UNIDAD III VALIDEZ



descritos con varios nombres. Tradicionalmente, la validez ha sido tratada en la literatura con algunos de los tipos siguientes, establecidos en los Standards of the American Psychological Association (1966, citado por Nunnally, 1970; Martínez, 1981; Anastasi, 1988), según el tipo de test y el uso a que este destinado:

a. Validez del constructo, analizada al investigar que cualidades o

rasgos psicológicos mide un test, es decir, determina el grado en que algunos conceptos explicativos o constructos desarrollan los resultados del test.

b. Validez relativa al criterio o empírica, que compara las puntuaciones de los tests o las predicciones derivadas de ellos con una variable externa (criterio), considerada una medida directa de la característica o conducta en cuestión.

c. Validez del contenido, que valora hasta que punto es valido el contenido del test de una muestra representativa de la clase de situa-ciones o problemas sobre los que llegaremos a las conclusiones.

Históricamente, los evaluadores conductuales han criticado la

metodología de evaluación tradicional debido a su limitada validez y utilidad; sin embargo, no es sino hasta recientemente cuando el interés por desarrollar métodos de evaluación conductual ha sido asociado al interés correspondiente por examinar las propiedades psicométricas pertinentes de los métodos diseñados. En parte, la carencia del énfasis en la explicación de medidas y el reporte de la validez de las pruebas conductuales es el resultado de la noción antigua de que cuando la conducta criterio es muestreada directamente, no hay necesidad de demostrar la validez, pues cabe suponer que no hay inferencias de los datos de la prueba; no obstante, este es un análisis inexacto de los usos de los datos en evaluación conductual. Ciertamente —excepto en raras circunstancias—, el evaluador conductual suele estar interesado en hacer algún número de inferencias basadas en las respuestas observadas durante la situación de prueba. Como mínimo, el proceso de evaluación supone o infiere que una muestra de conducta observada en un punto en el tiempo es comparable con la que podría ser observada en algún otro punto en el tiempo en condiciones un poco diferentes de aquellas en las cuales fueron obtenidas las puntuaciones de muestra (Linehan, 1980).

Así, uno de los temas de interés fundamental en la evaluación conductual es precisamente el de la validación de las técnicas de

evaluación. Los teóricos de la evaluación comenzaron a plantearse la cuestión de si todas estas técnicas desarrolladas en el marco teórico de la psicometría serian o no adecuadas para la evaluación conductual, diseñadas con esquemas teóricos totalmente distintos. Por una parte, los tests tradicionales han sido construidos para poner de manifiesto diferencias interindividuales, mientras que lo que interesa con los instrumentos de evaluación conductual es revelar diferencias intrasujeto, esto es, antes y después de un tratamiento (Martínez, 1981).

Con el transcurso del tiempo y ya demostrada la aparente utilidad de los tratamientos derivados de la evaluación conductual, cabe plantear en este enfoque problemas metodológicos, formulándose diversas preguntas, como: ¿hasta qué punto podemos considerar eficaz el tratamiento?, ¿cuál es el mejor de varios tratamientos, teniendo en cuenta los resultados obtenidos?, ¿reflejan las diferencias entre las puntuaciones pretratamiento y postratarniento, cambios males en la conducta o simplemente errores de medida de los procedimientos utilizados en su obtención?, ¿son los instrumentos utilizados los adecuados para poner de relieve las conductas de interés? Evidentemente, cualquier instrumento de medición, cualquiera que sea el enfoque o sin importar a que disciplina pertenezca, debe presentar ciertas cualidades que demuestren su valor científico: su confiabilidad y su validez. En este sentido, tanto los instrumentos de medición procedentes de la evaluación tradicional como los construidos desde el enfoque conductual participan de la misma teoría de la medición. El asunto está en preguntarse cuáles procedimientos de obtención de la confiabilidad y la validez de un instrumento deben ser utilizados por uno u otro enfoque en la construcción de sus dispositivos de medida (Martínez, 1981).

Para contestar la pregunta de qué tipo de validez corresponde según la orientación teórica en que hayamos construido un instrumento de medición, en seguida explicaremos más ampliamente los tres tipos de validez considerados.

Validez del constructo En la medida en que una variable es abstracta en vez de concreta,

decimos que es un constructo. Una variable así constituye literalmente un constructo, pues representa algo que el científico compone con su imaginación, algo que no existe como dimensión de conducta




observable. La mayoría de los constructos están en el mismo caso: los límites del dominio de conductas observables relacionadas no son netos. La validez del constructo de una prueba es la extensión en la cual la prueba dice medir un constructo o rasgo teórico. Todo constructo esta diseñado para explicar y organizar consistencias de respuestas y es derivado de relaciones establecidas entre medidas conductuales. La validez del constructo requiere la acumulación gradual de información de una variedad de fuentes.

Cualquier dato que arroje luz sobre la naturaleza del rasgo considerado y de las condiciones que afectan su desarrollo y sus manifestaciones representa una evidencia apropiada para este tipo de validación (Nunnally, 1970; Anastasi, 1988).

La validez del constructo esta' basada en el significado psicológico de la puntuación de una prueba y en la explicación teórica de una buena o mala ejecución en ella. Cuando el experto en medición indaga la validez de las construcciones hipotéticas de una prueba, desea saber que propiedades psicológicas y de otra índole pueden explicar la varianza de dicha prueba, esto es, procura explicar las diferencias individuales observadas en las puntuaciones de un instrumento de medición. Casi siempre le interesa más la propiedad que pretende medir que la prueba. No se trata simplemente de validar una prueba, sino que es preciso validar la teoría en la cual esta descansa (Kerlinger, 1985; Kirsch y Guthrie, 1980).

Dado que la medición de constructos es una parte vital de la actividad científica, ¿cómo se establecen y validan esas medidas? En el proceso hay tres aspectos principales: a) especificar el domino de las conductas observables, b) determinar hasta que punto todas o algunas de esas conductas se correlacionan entre sí, y c) determinar si una, algunas o todas las medidas de tales variables actúan como si midieran el constructo (Nunnally, 1970).

La prueba suficiente de la validez del constructo la constituye el hecho de que las medidas del constructo (trátese de una sola medida de conductas observables o de una combinación de ellas) se comportan como cabe esperar que lo hagan, por ejemplo: si suponemos que una medida determinada esta' relacionada con el constructo ansiedad, el sentido común ha de sugerir muchos resultados obtenibles mediante esta medida. Las puntuaciones mayores (mayor ansiedad) ocurren en el caso de: a) pacientes clasificados como neuróticos ansiosos con mayor probabilidad que en pacientes no catalogados como ansiosos; b) examinados en un experimento amenazados con un shock eléctrico y no

en el caso de pacientes no amenazados, y c) estudiantes de doctorado antes de pasar su examen oral final mas que en el caso de estos después de que han aprobado su examen. Otro ejemplo: si creemos que determinada medida esta' relacionada con el constructo inteligencia, podríamos esperar que este correlacionada por lo menos moderadamente con las calificaciones escolares, con las evaluaciones de la inteligencia hechas por los profesores y con los niveles de realización profesional. Así sucede con todos los constructos: esperamos ciertas relaciones con otras variables y esperamos ciertos efectos en los experimentos controlados (Nunnally, 1970). En resumen, el propósito de la validez de constructo es validar la teoría subyacente al sistema de evaluación y a la medida misma; los constructos determinan que conductas han de seleccionarse para su observación. Un instrumento de medida estará ligado al sistema de constructos dentro del que fue construido y este tipo de validez nos indicara en que grado el instrumento de evaluación es una medida adecuada del constructo y en que medida las hipótesis derivadas de el pueden confirmarse mediante la utilización del instrumento en cuestión.

Validez referida al criterio La validez referida al criterio o predictiva interviene cuando se utiliza

un instrumento para estimar alguna forma importante de conducta, que recibe el nombre de criterio. Una vez obtenido el criterio, la validez de una función de predicción es determinada de manera directa y con mucha facilidad; consiste primordialmente en correlacionar las puntuaciones del test predictivo con las puntuaciones de la variable criterio. El tamaño de la correlación es una indicación directa de la magnitud de la validez (Nunnally, 1970).

La validez referida al criterio valora el grado en que el instrumento de evaluación puede utilizarse para estimar la conducta de una persona en otras situaciones, sean concurrentes con la aplicación del test o futuras. Para este propósito, la ejecución en la prueba es comparada con un criterio, o sea, con una medida directa e independiente de lo que el test esta diseñado a predecir (Martínez, 1981; Anastasi, 1988). Existen en el mercado diferentes pruebas cuya meta es predecir a futuro el comportamiento de los evaluados, por ejemplo: pruebas utilizadas para predecir el éxito escolar, pruebas que predicen la mejor opción a seguir para la elección de carrera o pruebas que predicen aptitudes o madurez




para distintas facetas del aprendizaje escolarizado básico. Lo que importa en este tipo de validez es la capacidad predictiva de

la prueba y no aquello que mide; en pocas palabras, lo importante es el criterio y su valor de predicción. Es fácil hablar de correlacionar un test predictivo con su criterio, pero obtener un buen criterio puede ser más difícil que lograr un test predictivo. En muchos casos, no disponemos de criterio alguno o aquellos con los que contamos adolecen de distintos defectos (Nunnally, 1970; Kerlinger, 1975). En resumen, la validez referida al criterio esta caracterizada por la predicción relacionada con un criterio externo y porque recurre a la comprobación del instrumento de medición, ya sea en el momento presente o en el futuro, comparándolo con algún resultado o medida.

Validez de contenido Para algunos instrumentos, la validez depende, primordialmente, de

la suficiencia con que mostramos un domino especifico de contenido. El test debe bastarse a si mismo para ser una medida adecuada de lo que suponemos que mide.

La validez de contenido es la representatividad o adecuación muestral del contenido del instrumento de medición. Toda propiedad psicológica o pedagógica posee un universo teórico de contenido constituido por aquello que cabe afirmar u observar acerca de ella. La validez de contenido esta dada por la pregunta: ¿es la sustancia o el contenido de este instrumento de medición representativa del contenido o del universo del contenido de la propiedad por medir? (Kerlinger, 1975).

La validez de contenido incluye esencialmente el examen sistemático del contenido del test para determinar si cubre una muestra representa-tiva del domino de conductas por medir. Como tal, la validez de conteni-do ha sido requerida típicamente para pruebas de evaluación de aprove-chamiento escolar y para medir que tan bien domina un individuo una habilidad específica (Linehan, 1980; Anastasi, 1988).

Como suponemos que la conducta no es generalizada por medio de estímulos diferentes, una adecuada representación de factores de estímulos relevantes es necesaria para hacer una evaluación con validez de contenido, en la cual interesa si las condiciones en que la conducta de la persona es observada representan a aquellos conjuntos de condiciones a los cuales estamos interesados en generalizar. Por tanto,

la principal contribución que aporta un instrumento de medida con validez de contenido es dar una data descripción del domino de conductas de interés (Linehan, 1980; Martínez, 1981).

Así, el objetivo de la validez de contenido es demostrar que los reactivos del test son una muestra representativa de un universo. La validez de contenido está interesada en lo que examinamos y compara esto con una especificación previamente definida, mas que con alguna noción vaga en la mente de un experto (Hoste, 1981). El énfasis principal en la construcción de pruebas orientadas al contenido no esta en la evaluación e interpretación de las puntuaciones, sino en asegurar un muestreo cuidadoso de un dominio de contenido pertinente. Las normas principales que es necesario satisfacer para asegurar la validez de contenido son: a) un conjunto representativo de ítemes o reactivos, y b) métodos sensatos de construcción de la prueba. A menudo existe una imposibilidad lógica o real de muestrear el contenido; para asegurarnos de que los reactivos representen realmente la conducta por evaluar, es necesario tener un bosquejo muy detallado de las clases de cuestiones y problemas que debemos incluir (Nunnally, 1970).

Denominemos U el universo de conductas que queremos evaluar. Una prueba de alta validez de contenido seria, en teoría, una muestra representativa de U. Si U consta de los subconjuntos A, B y C, toda muestra lo bastante amplia de U representara aproximadamente de igual forma a A, B y C; y así será satisfactoria la validez de contenido de la prueba. De este modo, la definición conceptual de una conducta debe especificar en detalle el universo o dominio de contenido conductual y sus estímulos asociados. Una vez que la definición conceptual ha sido determinada, un asunto de validación importante es si la muestra de los estímulos y las muestras observadas y registradas durante el procedimiento de medida es representativa del universo conductual que conceptualmente define a la conducta al respecto (Kerlinger, 1975; Linehan, 1980).

Normalmente y por fortuna, es imposible extraer de manera aleatoria muestras de reactivos de un universo de contenido; tales universos solo existen en teoría. Si bien es posible y recomendable reunir varias colec-ciones de reactivos, sobre todo en el ámbito del aprovechamiento, y extraer de ellas muestras aleatorias para someterlas a prueba, siempre quedara la duda de su validez de contenido por numerosos y buenos que sean los reactivos. Además, en la mayoría de las situaciones, el ejemplo simple de un muestreo al azar del contenido no es realista por una segunda razón: la selección del contenido suele implicar asuntos de




valores. Habría que formular explícitamente los valores que intervinieron en la elaboración de una medida y señalar como estructuraron la formulación del plan del test y la construcción de los reactivos; además, la validez de contenido se vuelve algo compleja cuando intentamos asegurar que empleamos métodos razonables de construcción de la prueba (Nunnally, 1970; Kerlinger, 1975).

En la construcción de pruebas orientadas al contenido, las inferencias se hacen acerca de la pertinencia y la cobertura de un domino de contenido especifico. La precisión con que cierto domino y sus límites son definidos es derivada de la pertinencia del contenido elegido. El domino debe ser delineado suficientemente con el propósito de determinar que reactivos le pertenecen o no; también es importante evitar la tendencia a sobregeneralizar considerando el domino muestreado por la prueba, por ejemplo: con una prueba de elección múltiple de ortografía podemos medir la habilidad para reconocer palabras escritas correctas e incorrectas, pero no podemos suponer que tal prueba también mida la habilidad para escribir correctamente en un dictado, la frecuencia de errores en composiciones escritas, ni otros aspectos de la habilidad en ortografía (Lieberman y Michael, 1986; Anastasi, 1988).

Aunque asegurar la validez de contenido suele conllevar problemas, inevitablemente este tipo de validez recae sobre todo en un juicio racional acerca de la suficiencia con que ha sido muestreado el contenido importante y de lo adecuado de la manera en que este fue expresado como reactivos del test; además, existen varios métodos para analizar los datos obtenidos mediante el test que han de proporcionar pruebas circunstanciales. Cabe esperar, por lo menos, un moderado nivel de coherencia interna entre los reactivos que forman parte de una prueba; así, estos deben tender a medir algo en común (Nunnally, 1970).

Como Hoste (1981) menciona, uno de los problemas que pueden contribuir a la carencia de progreso en el estudio teórico de la validez del contenido es que no existe algún modo aceptable de cuantificarlo. No hay evidencia cuantitativa obtenible de la validez del contenido ni puede ser expresada como un coeficiente de validez. Aunque por el análisis de los resultados experimentales obtenemos indicios útiles, la validez de contenido recae sobre todo en demostrar la corrección del contenido y el modo en que es representado. Así, dada la carencia de instrumentos o índices estadísticos para su determinación, la validez de contenido ha de ser determinada por medio de procedimientos racionales en vez de empíricos. Ante la ausencia de medidas estadísticas, la validez de

contenido es determinada por un examen cuidadoso por los procedimientos de construcción de la prueba. En la extensión con que el investigador siga los procedimientos justificados como requisitos para la validez del contenido y que el muestreo del universo original corresponda al universo de generalización, será probable encontrar las suposiciones de validez de contenido.

De lo anterior deducimos que la validación del contenido es básicamente de criterio; debemos estudiar los reactivos de la prueba y ponderar su supuesta representatividad del universo, lo cual significa que debemos juzgar la supuesta relación de cada reactivo con la propiedad al respecto. Por lo general, otros jueces competentes han de ponderar el contenido de los reactivos. Si las circunstancias lo permiten, definiremos con claridad el universo del contenido, es decir, los jueces recibirán las instrucciones especificas para que emitan sus juicios y también serán comunicados con precisión de lo que van a juzgar; por tanto, es factible aplicar un método que agrupe juicios independientes (Kerlinger, 1975).La validez de contenido es construida en una prueba desde el principio, mediante la elección de reactivos apropiados. Las especificaciones de la prueba deben mostrar las áreas o temas de contenido por tratar, los objetivos o procesos instruccionales por probar y la importancia relativa de los temas y procesos individuales. Con base en ello, establecemos el numero de reactivos de cada clase a ser preparados en cada tema (Anastasi, 1988).

En resumen, la validez de contenido proporciona una técnica adecua-da para evaluar pruebas de aprovechamiento educativo y ocupacional y de medición de habilidades, a la vez que permite contestar dos pregun-tas básicas para la validez de las pruebas: a) ¿incluye la prueba una muestra representativa de habilidades y conocimientos específicos?, y b) fiesta la ejecución en la prueba razonablemente libre de variables irrelevantes?

Como menciona Martínez (1981), existen dos aspectos importantes y complementarios de la validez de contenido de un instrumento que debemos tener en cuenta: a) que el instrumento no incluya aspectos irrelevantes de la conducta de interés, y b) que el instrumento incluya aspectos importantes que definen el domino intelectual.

Goldfried y D'Zurilla (1969; citados por Goldfried y Linehan, 1977; Martínez, 1981) proponen un procedimiento para el muestreo de los comportamientos de interés, a fin de justificar la validez de contenido del instrumento de evaluación. Las fases de este procedimiento son:




a. Un análisis situacional, que supone un muestreo de las respuestas típicas en las que la conducta de interés tiene mayor probabilidad de ocurrencia.

b. Una enumeración de la respuesta, que supone un muestreo de las respuestas típicas a cada situación determinada en la fase anterior.

c. Una evaluación de las respuestas, la cual se realiza para juzgar cada respuesta determinada en la fase anterior respecto a su calidad; generalmente, estos juicios son emitidos por expertos, los cuales deberán juzgar la calidad de las respuestas en cuanto a su eficacia.

Este criterio de las tres etapas podemos utilizarlo para seleccionar los reactivos del instrumento de medición y para proporcionar criterios empíricamente derivados con el fin de puntear esa medición. Con cualquiera de los procedimientos que vayamos a seguir para construir instrumentos de evaluación con validez de contenido, conviene además tener en cuenta una serie de sugerencias que, si las seguimos, pueden mejorarla. Dichas sugerencias son (Martínez, 1981):

a. La garantía de un buen instrumento no esta dada por el hecho de

constar de un conjunto de buenos elementos, sino que es necesario considerar si ese conjunto es una muestra representativa de las conductas de interés.

b. Deberán estar claramente recogidas las especificaciones de los objetivos de la evaluación.

c. Debemos subdividir los objetivos iniciales. d. Es necesario establecer claramente los tipos de respuesta

posibles para cada elemento o estímulo. e. Una vez especificadas las condiciones de los estímulos y

respuestas, el constructor de un test deberá elegir una de las posibles definiciones de universo de conductas, que generara los elementos u observaciones por incluir en el instrumento.

f. No es correcto sustituir un conjunto de tareas u observaciones por otras que guarden una elevada correlación con las primeras. Esto seria permisible solo en el enfoque de los tests normativos, centrados en las diferencias individuales.

g. En evaluación conductual, además de estudiar y analizar las con-ductas seleccionadas para la construcción del instrumento, es necesario tener presentes otros aspectos que afectaran la validez de contenido: tiempo en que se realizará la evaluación, duración de aquel, etcétera.

h. Por último, una elevada validez aparente del instrumento de evaluación no es una prueba de la validez de contenido del mismo. Este

es un hecho puesto de relieve con frecuencia en evaluación conductual; muchas veces, el instrumento de medida parece una muestra de una extensa variedad de situaciones, pero en realidad solo refleja intuiciones de los autores del instrumento.

La validez aparente alude al grado en que un instrumento parece

como si midiera aquello que pretendemos que mida. Tal validez se refiere a los juicios acerca del instrumento después de que este ha sido construido (Hoste, 1981); además, se centra en determinar si la evaluación luce adecuada a los propósitos para los cuales está diseñada; esta es probablemente la prueba más común de validez utilizada. Sin embargo, la validez del contenido no debe ser confundida con la validez aparente, la cual no es una validez en el sentido técnico, sino que alude a lo que superficialmente parece que mide y no a lo que el test en realidad mide. La validez aparente responde al requisito de si el test parece válido a quien va a tomarlo, al personal administrativo que decide su uso y a otros observadores técnicamente no entrenados. Aunque el uso común del termino validez en esta conexión puede crear confusiones, la validez aparente por si misma es una característica deseable de las pruebas. No es suficiente que una prueba sea objetivamente válida, sino también necesita validez aparente para que funcione de manera efectiva en situaciones prácticas. En contextos aplicados, la validez aparente está vinculada en cierta medida con las relaciones publicas; por ejemplo: los maestros utilizarán de mala gana un test de rendimiento, a menos que los ítemes tengan buen aspecto (Nunnally, 1970; Hoste, 1981; Anastasi, 1988).De lo anterior colegimos que la validez aparente puede ser mejorada si formulamos los reactivos de la prueba en términos que parezcan adecuados y plausibles en el ambiente particular donde tendrá aplicación la prueba (Anastasi, 1988).

Por último, cabe mencionar, por la importancia que tiene para la validación de las medidas en general y en particular para la validez de contenido, la teoría de la generalización de Cronbach (1972, citado por Linehan, 1980; Martínez, 1981). La ciencia se distingue de las observaciones casuales en que intenta formular enunciados generales acerca de los acontecimientos naturales. La ciencia esencialmente intenta explicar todos los hechos naturales en función de un conjunto relativamente pequeño de principios. Tales principios son generalizables con amplitud, es decir, se cumplen sin importar la naturaleza de los objetos y otras circunstancias particulares. En la ciencia psicológica es buscada de modo semejante la generalidad de la explicación (Nunnally,




1970). Esencialmente, la teoría de la generalización es un modo de reconceptualizar las cuestiones clásicas de confiabilidad y validez en términos de la generalización de puntuaciones mediante dominios o universos de interés. Un universo alude a la colección completa o total de medidas admisibles que pudieron haber sido hechas; a su vez, la puntuación observada en cualquier instrumento de evaluación es una estimación de la puntuación del universo, esto es, la puntuación que podríamos obtener si hubiéramos observado exhaustivamente, de manera hipotética, desde todas las condiciones admisibles dentro de ese universo.

Con medidas que requieren validez de contenido, la probabilidad de generalización esta relacionada con la corrección y amplitud con que el instrumento abarca el contenido que debe medir. Por tanto, en medidas que requieren validez del contenido, también es necesario ocuparse de la posibilidad de generalización; sin embargo, con tales medidas, la generalidad o representatividad de la amplitud del contenido se determina sobre todo por las opiniones de los expertos mas que por la experimentación (Nunnally, 1970).

Cone (1977, citado por Linehan, 1980) ha listado las siguientes facetas de universo mediante las cuales suele ser de interés la generalización en la evaluación conductual: a) puntuaciones, b) tiempo, c) ambiente, d) método, e) reactivos (esto es, una clase de respuestas semejantes), y f) dimensión (esto es, una clase de respuestas diferentes). Por su parte Nelson (1977, citado por Linehan, 1980) ha argumentado que la generalización por medio de estas facetas no es una característica necesaria de procedimientos de evaluación conductual útiles y precisos, ni la carencia de generalización mediante una o la ausencia de una o más facetas un signo de invalidez. Sin embargo, sugiere que la ausencia de generalización puede ser atribuida a una falla para representar adecuadamente en el muestreo de la evaluación el universo conceptual a ser predicho. Por ejemplo, si los ambientes incluidos en la especificación del universo de interés no son muestreados durante la medición, el procedimiento de evaluación tendrá poca relevancia en ese universo.

Así, en la construcción de instrumentos en la evaluación conductual, para garantizar validez de contenido debe haber un muestreo representativo de todos los ambientes, clases de respuesta, dimensiones, etcétera, esto es, un muestreo representativo de todas las facetas de interés. Por ende, es importante definir de manera precisa la habilidad que va a ser evaluada, diseñar una forma de ejercicios de

prueba con los que esa habilidad pueda ser exhibida simple y eficientemente y acordar el nivel que será aceptado como indicador de competencia satisfactoria en esa habilidad; en otras palabras, el objetivo del test debe revelar claramente lo que mide el instrumento, el propósito para el que fue construido.


0200und3art1aragon2002.pdf

Documents