la medicion de_lo_psicologico

Psicothema, 1998. Vol. 10, nº 1, pp. 1-21ISSN 0214 - 9915 CODEN PSOTEG

1

LA MEDICIÓN DE LO PSICOLÓGICOJosé Muñiz

Universidad de Oviedo

Se analiza la problemática implicada en la medición de las variables psicológicas,y se comentan las soluciones aportadas por los diferentes enfoques psicométricos. En pri-mer lugar, se subraya cómo las dificultades mayores para medir lo psicológico surgen deesa naturaleza especial que tiene lo psicológico: una banda interactiva acotada por una ba-se neurobiológica y un entorno sociocultural. Estas dificultades no fueron óbice para quese haya ido afianzando en psicología una medición rigurosa, cuyos orígenes pueden ras-trearse en los trabajos psicofísicos iniciados por Weber y Fechner y que se continúan conel escalamiento psicológico, a partir de los trabajos pioneros de Thurstone. Otra gran lí-nea de desarrollo de la medición sigue el rail de la teoría de los tests, cuyos inicios másrigurosos se ubican en el modelo lineal clásico propuesto por Spearman. A la vez, los te-óricos de la medición investigan los fundamentos de ésta, destacando dos líneas de avan-ce: la aproximación clásica, iniciada por Stevens, y el enfoque representacional, surgidoa partir de los años sesenta. Se hace especial hincapié en el gran avance que ha supuestopara la psicometría la aparición de la Teoría de Respuesta a los Items, enfoque que vienea dar solución a determinados problemas de la medición que no encontraban una soluciónapropiada dentro del marco clásico. Además, la teoría de respuesta a los ítems ha genera-do nuevos avances tecnológicos para el análisis y construcción de los tests, entre los quecabe destacar los Tests Adaptativos Computerizados y la Función de Información. Tam-bién se comentan los problemas de la validez y el uso de los tests en la práctica.

Psychological measurement. This paper analyzes the principle issues involved inthe measurement of psychological variables along with various psychometric solutionsto these problems. First, emphasis is placed on the difficulties that arise in psychologi-cal measurement due to the unique characteristics inherent in psychological events. The-se intrinsic limitations, however, were not an obstacle to the development of a rigorousempirical measurement tradition in psychology. This tradition originates in the psy-chophysical works of Weber and Fechner as well as the classical test theory formulatedby Spearman. Moreover, two approaches to measurement theory, the classic one propo-sed by Stevens and the representational view, investigate the logic and foundations ofmeasurement. This article pays special attention to the psychometric advances broughtby Item Response Theory, which resolves some of the problems not appropriately sol-ved within the framework of classical test theory. Item response theory serves as the ba-sis for new technologies to build and assess psychological and educational tests. Finally,test validity and test use are discussed.

Correspondencia: José MuñizUniversidad de Oviedo. Facultad de PsicologíaPlaza de Feijoo33003 Oviedo (Spain)E-mail: [email protected]

A grandes rasgos puede decirse que elobjetivo de la Psicología científica es el es-tudio de la conducta humana y las leyes quela rigen. Como ocurre con cualquier otra re-alidad, para una comprensión adecuada dela conducta humana hay que entender tantosus aspectos cualitativos como cuantitati-vos. A continuación trataré de exponer losaspectos fundamentales implicados en lacuantificación y medición de las distintasvariables y factores que manejan los psicó-logos, tanto en sus investigaciones como enla práctica profesional. No se trata de unaexposición técnica y exhaustiva, la situa-ción y el tiempo no lo permiten, pero sí desubrayar las líneas centrales de la mediciónde los rasgos psicológicos y de los instru-mentos más utilizados para ello, los tests.

Medir es inherente a todas las ciencias, yla Psicología no es una excepción. Si bienlos principios generales de la teoría de la me-dición son aplicables aquí como en el restode los campos científicos, no es menos ver-dad que las peculiaridades de los objetos deestudio de algunos de estos campos imponendeterminadas especificidades a la lógica ge-neral, y ése es el caso de lo psicológico.

El fin general de toda teoría de la medi-ción, trátese de la ciencia que se trate, es es-timar los errores aleatorios de las medicio-nes, pues toda medición, mayor o menor,conlleva un cierto error. Pero seguramenteestarán ustedes de acuerdo conmigo en que,por ejemplo, no es lo mismo medir la dis-tancia entre Oviedo y Gijón, cosa de la quese ocupan nuestros colegas físicos, que me-dir la distancia entre los ovetenses y los gi-joneses, entre sus actitudes, valores, perso-nalidad, etc., labor que ocupa a psicólogos,sociólogos, antropólogos y otras cienciassociales. Por tanto, para entender cabalmen-te los problemas a los que se enfrentan lospsicólogos al medir sus variables de estudioes necesario tener en mente las singularida-des de su campo de estudio, de lo psicológi-co. Diré dos palabras sobre ello, que creo

que serán suficientes para comprender porqué a veces la tecnología de la mediciónpsicológica se aleja de la metodología gene-ral de la medición utilizada por las cienciasllamadas duras.

Caracterización de lo psicológico

¿Cuáles son las características esencialesque definen a lo psicológico como campo deestudio? La conducta humana fermenta y sedesarrolla en una estrecha banda acotada poruna base neurobiológica y un entorno socio-cultural. El yo psicológico, la individuali-dad, la consciencia, y por ende la conducta,surgen de la interacción entre la estimula-ción ambiental y nuestra constitución bioló-gica, pero no se explican ni se agotan en nin-guno de estos dos polos, son otra cosa. Pre-cisamente es ése el campo interactivo en elque se mueven los psicólogos, por eso noson ni biólogos, ni neurólogos, ni sociólo-gos, ni filósofos, son psicólogos. Cuandodesde la psicología se explica un determina-do fenómeno, ya sea una neurosis, una fobia,el fracaso escolar o la inadaptación laboral,se tienen en cuenta tanto los aspectos neuro-lógicos como los culturales, sociales y edu-cativos, pero su explicación no se agota ni sereduce a ninguno de esos ámbitos. Natural-mente, cuanto más avancen las ciencias afi-nes en las que se apoya la psicología tantomejor, pero eso no significa abogar por unreduccionismo biológico o cultural. Losavances en el conocimiento del cerebro ayu-dan sin duda a entender la psique y la con-ducta humanas, pero es ingenuo y erróneopensar que, cuán glándula, el cerebro segre-ga la psique, sencillamente no es así. Algoparecido, salvando las distancias, a lo queocurre con el software de los ordenadores,que está íntimamente relacionado con elhardware, pero ni se explica ni se reduce aél. ¿Es que alguien en su sano juicio cree quepodría entender todo lo que hacen los orde-nadores sólo estudiando su hardware? Evi-

LA MEDICIÓN DE LO PSICOLÓGICO

2 Psicothema, 1998

dentemente, no, lo cual tampoco significaque pueda prescindir de él.

Igual de erróneo es pensar que la con-ducta humana venga completamente deter-minada por el entorno cultural y social;afortunadamente pasaron los tiempos en losque aprendices de ingenieros sociales con-fiaron en hallar un hombre nuevo con sólomodificar las circunstancias, qué ingenui-dad, hoy sabemos de los nefastos resultadosy del alto precio pagado. El ambiente exter-no está ahí, y es una variable clave en la mo-dulación de la conducta humana, pero nun-ca es el responsable final de ésta, nunca ladetermina completamente, el único respon-sable es la persona. Si admitiésemos lo con-trario, estaríamos negando de plano la liber-tad, y, eliminada ésta, no queda lugar para ladignidad y la responsabilidad, que brotandirectamente de ella.

Pues bien, en este ámbito peculiar e inte-ractivo, descrito a grandes rasgos, que carac-teriza a lo psicológico, no resulta sencillomedir con rigor en sentido clásico, acordecon los axiomas de Hölder (1901) y las pro-puestas ortodoxas de Campbell (1920, 1921,1928, 1938, 1940). Sin embargo, los psicó-logos miden sus variables y desarrollan so-fisticados instrumentos a tal efecto, los másconocidos de los cuales para el público sonlos tests, si bien los especialistas utilizan unagama mucho más amplia en sus investiga-ciones e intervenciones. Y miden en camposmuy diversos, según su área de especiali-zación, que van desde los procesos más bá-sicos, tales como los Tiempos de Reacción,Potenciales Evocados (Paz y Muñiz, 1989),Tiempo de Inspección, Conductancia de lapiel, etc., a los rasgos de personalidad, co-mo Neuroticismo, Depresión, Psicoticismo,Autoconcepto, por citar algunos, o aspectoscognoscitivos, como la Inteligencia, Memo-ria, Rapidez Perceptiva, Comprensión Ver-bal, etc., o variables más conectadas con laesfera sociocultural como las actitudes y va-lores. Y todo ello aplicado a campos de in-

tervención tan variados como la Clínica,Trabajo, Educación, Deporte, Calidad de Vi-da, Gerontología, Seguridad Vial, etc.

Cada una de esas variables y campos deaplicación tiene su problemática específica,que sería vano intentar tratar aquí, sin em-bargo, existen unos problemas generales enla medición de lo psicológico que son inva-riantes a todos los campos y variables men-cionadas. En todos los casos, por un lado,hay que estimar la cuantía de los errores co-metidos al medir, y, por otro, hay que garan-tizar que la medición no es baladí, que tieneentidad explicativa y predictiva. En otras pa-labras, hay que comprobar que las medicio-nes son fiables y válidas. Además de estaspropiedades que deben de reunir todas lasmediciones empíricas, los teóricos de la me-dición se ocupan de analizar y justificar deforma rigurosa el estatus métrico de las me-diciones, contemplado a la luz de los avan-ces de la teoría de la medición. De esos tresgrandes aspectos generales de la medición,fiabilidad, validez y fundamentos teóricos,es de lo que nos ocuparemos aquí, pero an-tes de entrar en ellos déjenme que diga unaspalabras sobre cómo empezó todo, sobre losorígenes de la medición psicológica.

Inicios de la medición

Los primeros intentos de medir con rigorlos atributos psíquicos tuvieron lugar a fina-les del siglo pasado en los laboratorios ale-manes, de la mano de Fechner (Fechner,1860/1966), pionero de las investigacionessobre las relaciones entre la estimulación fí-sica y las sensaciones psicológicas produci-das por ésta. Para estudiar la conexión entreambos continuos, el físico y el psicológico,Fechner tenía que medir cada uno de ellos yluego establecer la relación correspondiente.Si bien medir los estímulos físicos, tales co-mo el peso, el sonido, la longitud, etc., nosuponía ningún problema, se encontró conque no disponía de métodos para medir rigu-

JOSÉ MUÑIZ

Psicothema, 1998 3

rosamente las sensaciones, para lo cual desa-rrolló todo un conjunto de ellos, hoy clási-cos, denominados métodos psicofísicos indi-rectos (Baird, 1997; Baird y Noma, 1978;Blanco, 1996; Falmage, 1985; Fechner,1966; Gescheider, 1985; Muñiz, 1991). Ba-sándose en los trabajos previos de Weber,Fechner estableció que la función que uníala estimulación física con las sensacionespsicológicas suscitadas obedece a una fun-ción logarítmica. Ello quiere decir que al au-mentar la estimulación física geométrica-mente las sensaciones lo hacen aritmética-mente. O, en otras palabras, que si bien alprincipio al aumentar la estimulación físicaaumenta rápidamente las sensaciones, éstasvan necesitando cada vez mayor incrementode la estimulación física para experimentaralgún aumento. La misma ley había sido ob-servada con anterioridad en el campo de laeconomía entre el crecimiento de la fortunay el placer experimentado por el afortunado.Este campo de estudio iniciado por Weber yFechner se denomina Psicofísica, pues, co-mo su nombre indica, trata de poner en co-nexión las sensaciones psicológicas con laestimulación física que las suscita. La ley deFechner ha sido revisada por la Nueva Psi-cofísica (Stevens, 1961, 1975), que defiendeque la función que une ambos continuos, elfísico y el psicológico, no es logarítmica si-no potencial. Para someter a prueba su hipó-tesis han propuesto todo un conjunto de nue-vos métodos psicofísicos alternativos a losde Fechner, denominados directos.

Leyes Psicofísicas

Función Logarítmica (Fechner): S = C log E Función Potencial (Stevens): S = K Eb

donde: S: es la medida de la sensación producidaE: es la medida de la estimulación físicaC, K y b son constantes a determinar

La tradición psicofísica llega hasta nues-tros días, constituyendo un campo con gran-des implicaciones aplicadas, piénsese, porejemplo, en la importancia de conocer conprecisión los efectos del ruido, la luminosi-dad, sabores, olores, etc., sobre nuestro sis-tema perceptivo. En la actualidad gran par-te de las investigaciones psicofísicas se lle-van a cabo dentro del marco general de laTeoría de la Decisión y de la Teoría de laDetección de Señales (Egan, 1975; Green ySwets, 1966; Swets, 1996), un modelo desa-rrollado originariamente por los ingenierospara la detección de señales con ruido defondo, y que se ajusta bien a los humanosconsiderados como perceptores de señales.

El sistema perceptivo humano es muypeculiar, y la Teoría de la Detección de Se-ñales permite estudiar su funcionamientobajo diferentes condiciones. El nuestro noes un sistema perceptivo “neutral”, puesaunque con determinados invariantes, vieneinfluido en gran medida por las consecuen-cias de lo percibido, por la “matriz de pa-gos” asociada a la situación perceptiva, esdecir, el mismo sistema perceptivo actúa dedistinta forma en función de la situaciónperceptiva. Esta versatilidad permite inves-tigar y mejorar situaciones aplicadas de to-do tipo en las que los humanos tienen quetomar decisiones, siendo clave, por ejem-plo, para una racionalización y optimiza-ción de las condiciones de trabajo. Piénsese,sin ir más lejos, en situaciones tales como,¿bajo qué condiciones se maximiza la per-cepción de piezas defectuosas por un traba-jador de control de calidad?, o ¿cuáles sonlas causas de la accidentabilidad de los tra-bajadores en puestos aislados? Esas pregun-tas y otras sólo tienen respuesta correctacuando se conoce el funcionamiento del sis-tema perceptivo humano bajo determinadascondiciones.

Nuestras percepciones vienen con fre-cuencia condicionadas por sesgos cuyo es-tudio es sumamente importante, tanto a ni-


4 Psicothema, 1998

vel teórico como aplicado, para entender elcomportamiento humano. Les citaré unejemplo clásico de uno de estos sesgos, ima-gínense una ciudad en la que hay dos hospi-tales, uno grande, en el que nacen al mesunos doscientos bebés, cien niños y cien ni-ñas aproximadamente, y otro pequeño, en elque sólo nacen veinte al mes, diez niños ydiez niñas, más o menos. Si les digo que elúltimo mes en uno de los dos hospitales to-dos los nacidos fueron niñas, ¿de qué hospi-tal se trata? ¿del grande o del pequeño? Nohace falta que contesten aquí en público, pe-ro sé de buena tinta que una parte impor-tante de ustedes por una curiosa razón, bienestudiada por los psicólogos, pensó que setrataba del hospital grande, cuando en reali-dad es obvio que se trata del pequeño. Si enun caso tan claro como éste ya hay proble-mas, ¿qué no ocurrirá en nuestra vida dia-ria? Por ejemplo, ¿por qué los vendedoresde lotería agotan rápidamente los números“bonitos” y les cuesta tanto vender los “fe-os”, si es obvio que la probabilidad de quesalgan es exactamente la misma para todos?Seguramente dirán algunos de ustedes, “esque la gente no es lógica”, y naturalmentetienen razón, la gente no es lógica, y es quela conducta humana responde a las leyes dela psicología y no de la lógica, por eso seocupan de ella los psicólogos y no los ex-pertos en lógica.

Otro campo de la medición psicológicaen la que desembocan estos estudios psico-físicos es la medición de las actitudes, encuyo caso desaparece el continuo físico(Thurstone, 1927, 1928; Summers, 1970;Triandis, 1971). Medir actitudes es averi-guar las preferencias de las personas haciadeterminados estímulos, bien sean objetos,ideas o conceptos. Las actitudes constituyenun entramado clave para entender a los hu-manos, son el cristal a través del que mira-mos el mundo. Medir su fuerza, conocer suformación, su relación con la conducta y lamanera de cambiarlas constituyen campos

de sumo interés. Pocos productos salen hoyal mercado sin un estudio concienzudo delas actitudes de los consumidores haciaellos, y es que la relación calidad/precio nolo es todo, así que no conviene confiar cie-gamente en nuestro querido refrán asturianode que “el buen pan en la masera se vende”.

Seguramente todos ustedes tienen algunaexperiencia de primera mano de lo difícilque resulta que las personas cambien sus ac-titudes, y es que están formadas por una tra-ma en la que información, razón y emociónse entretejen de forma compleja. La razón yla información son importantes para que seproduzca un cambio de actitudes, pero rara-mente son suficientes sin apelar a los aspec-tos emocionales. Por ejemplo, dada la infor-mación de la que disponemos hoy acerca delos efectos cancerígenos del tabaco sobrelos que fuman y los que les rodean, nadiemedianamente informado debería osar tocarun cigarrillo, sin embargo la realidad esmuy otra. Los psicólogos que diseñan lascampañas antitabaco saben esto y en susanuncios tratan más bien de tocar la fibrasensible que de introducir nueva informa-ción en el sistema. De nuevo aquí observa-mos que la conducta se aleja de la lógica li-neal, y es que como nos recordó certera-mente Kant, nada estrictamente recto puedehacerse del torcido leño del que están he-chos los humanos.

Esta es a grandes rasgos una de las víaspor las que ha entrado la medición en psico-logía, y cuyo objetivo es el escalamiento delos estímulos, bien sea con referente físico(Psicofísica), o sin él (Actitudes). La otragran línea de progreso de la medición, mu-cho más conocida para el público en generales el escalamiento de los sujetos, es decir,los tests. El origen de éstos hay que ubicar-lo en las primeras pruebas sensomotoras uti-lizadas por Galton (1822-1911) en su famo-so laboratorio antropométrico de Kensing-ton. El primero en utilizar la palabra “testmental” será James McKeen Cattell (1860-

JOSÉ MUÑIZ

Psicothema, 1998 5

1944) en su artículo “Mental Tests and Me-asurements” publicado en la revista Mind en1890. Un giro radical lo constituye la esca-la individual construida por Binet y Simon(1905) para la medición de la inteligencia,al introducir tareas de carácter más cognos-citivo dirigidas a evaluar aspectos como eljuicio, la comprensión y el razonamiento,que según los autores constituían los com-ponentes fundamentales del comportamien-to inteligente. Pero la verdadera eclosión delos tests se producirá tras la primera guerramundial. Cuando Estados Unidos decideentrar en la guerra no dispone de ejército, yla selección y clasificación de los soldadosse lleva a cabo confiando en los test Alfa yBeta, diseñados a tal efecto por un comitédirigido por el psicólogo Yerkes. Puesto quelos aliados ganaron la guerra, no sabemosque hubiera pasado con los tests si la hubie-ran perdido, no parecía que los tests hubie-sen hecho un mal trabajo, de modo que laindustria y las instituciones se volcaron ensu uso para todo tipo de fines, especialmen-te en la selección de personal y en la orien-tación profesional y educativa. Su uso masi-vo se extiende hasta nuestros días, siendodifícil encontrar a alguien en las sociedadesdesarrolladas que primero o después no setenga que enfrentar a ellos.

En resumen, puede decirse que las dosgrandes avenidas de entrada de la mediciónen Psicología fueron a través del escala-miento de estímulos (Psicofísica y Actitu-des) y escalamiento de sujetos (Tests). Co-mo casi toda partición, ésta tiene tambiénalgo de arbitrario, pues la mayoría de losmodelos podrían generalizarse tanto a estí-mulos como a sujetos, si bien no faltan pro-blemas específicos que justifiquen la divi-sión (Muñiz y Hambleton, 1992). Ambosacercamientos tendrán sus síntesis más clá-sicas en los textos de Gulliksen (1950) yTorgerson (1958) respectivamente.

Ahora bien, se mida de un modo u otro,¿qué condiciones deben de reunir esas me-

diciones para que su uso sea el adecuado?Como ya se ha señalado, básicamente trespropiedades: que sean fiables, que sean vá-lidas, y que estén bien fundamentadas teóri-camente. Veamos cada una de ellas.

Fiabilidad

Bajo la denominación genérica de fiabili-dad se agrupan todo un conjunto de méto-dos y técnicas utilizadas por los psicólogospara estimar el grado de precisión con elque están midiendo sus variables. Hace másde cuarenta años, Robert L. Thorndike em-pezaba su famoso trabajo sobre fiabilidadcon estas palabras: “Cuando medimos algo,bien sea en el campo de la física, de la bio-logía o de las ciencias sociales, esa medi-ción contiene una cierta cantidad de erroraleatorio. La cantidad de error puede sergrande o pequeña, pero está siempre presen-te en cierto grado” (Thorndike, 1951, pág.560). Sus palabras siguen siendo tan ciertashoy como entonces, pues en lo esencial losproblemas de la medición cambian poco,aunque los instrumentos de medida vayan yvengan. Ahora bien, ¿cómo estiman los psi-cólogos el grado de error que hay en sus me-diciones? Veamos la lógica general.

Cuando un psicólogo aplica un test, unaescala o cualquier otro instrumento de me-dida a una persona, obtiene una cierta pun-tuación, que por razones obvias se denomi-na puntuación empírica. ¿Cómo estar segu-ros de que esa puntuación obtenida es la queverdaderamente le corresponde a esa perso-na en esa prueba? En otras palabras, ¿cuán-to error afecta a esa puntuación empírica?Responder estas preguntas es el objetivo dela fiabilidad. Visto así de frente, pareceríaque tales interrogantes son incontestables,pues, al fin y al cabo, el error cometido, seael que sea, está diluido en la puntuación em-pírica y no hay manera de separarlo. Efecti-vamente, no la hay directamente, como ocu-rre también con los compuestos químicos.


6 Psicothema, 1998

Por ejemplo, sabemos que el agua del marcontiene cierta cantidad de sal, pero para es-timar con precisión la cantidad de sal habráque buscar alguna técnica indirecta que per-mita la separación. Esas técnicas en el casode los tests las proporcionarán los estudiosde fiabilidad. Nótese que este problema deestimar los errores de medida es común atodas las ciencias, pudiendo decirse que lalógica seguida también lo es, si bien la na-turaleza de las variables medidas en las dis-tintas ciencias impone ciertas peculiarida-des. Por ejemplo, cuando pesamos un obje-to y obtenemos un cierto valor, o aplicamosun test a un sujeto y saca una determinadapuntuación empírica, o medimos la distan-cia entre dos ciudades, en los tres casos senos plantea la duda de cuánto error estamoscometiendo. Pues bien, para el caso de lasvariables psicológicas, la propuesta pioneray más fructífera para la estimación de loserrores fue hecha ya a principios de siglopor Spearman (1904, 1907, 1913) y la de-nominamos hoy Modelo Lineal Clásico,dando origen a todo un enfoque general so-bre los tests que suele conocerse como Teo-ría Clásica de los Tests. A partir sobre todode los años 60-70 aparecen nuevos modelospara abordar la estimación de los errores demedida, agrupándose los más utilizados ba-jo la denominación genérica de Teoría deRespuesta a los Items.

Modelo Clásico

La propuesta de Spearman para estimarlos errores cometidos al medir es un claroejemplo de cómo a partir de un sencillo mo-delo y de unas asunciones básicas es posiblededucir las fórmulas más complejas para laestimación de los errores de medida.

En primer lugar, Spearman considera quela puntuación empírica de un sujeto en unaprueba, puntuación que llamaremos X,consta de dos componentes, la puntuaciónque verdaderamente le corresponde en esa

prueba, que llamaremos V, y un cierto errore. Es decir, formalmente el modelo se po-dría expresar así:

X=V+e (1)

Donde X es la puntuación empírica obte-nida, V la puntuación verdadera y e el errorde medida.

Para poder derivar las fórmulas necesa-rias para el cálculo de la fiabilidad, Spear-man añade al modelo tres supuestos y unadefinición. Asume que 1) la verdadera pun-tuación de una persona en una prueba seríala que obtendría como promedio si se leaplicase infinitas veces la prueba [V=E(X)], 2) no hay relación entre la verdaderapuntuación de las personas y los errores demedida (ρve= 0), y 3) los errores de medidade los tests no están relacionados [ρ(ej,ek)=0]. Además, define el concepto de tests pa-ralelos como aquéllos que miden lo mismoaunque utilizando distintos ítems. Todo locual puede expresarse del siguiente modo:

Modelo Lineal Clásico

Modelo: X= V+eSupuestos: V= E(X)

ρve= 0ρ(ej,ek)= 0

Definición: Dos tests j,k se consideran para-lelos si: Vj = Vk y σ2

ej= σ2ek

A partir del modelo, mediante los desa-rrollos correspondientes, que aquí se omi-ten, va a ser posible llegar a fórmulas ope-rativas para la estimación de los errores (e),y por ende de las puntuaciones verdaderas(V) de los sujetos. Todas estas deduccionesnecesarias son lo que conforma el corpuspsicométrico de la teoría clásica de los tests,cuya formulación se recoge en textos tanclásicos como los de Gulliksen (1950) o

JOSÉ MUÑIZ

Psicothema, 1998 7

Lord y Novick (1968). Exposiciones siste-máticas pueden consultarse también enGuilford (1936, 1954), Magnuson (1967),Allen y Yen (1979), Thorndike (1982),Crocker y Algina (1986) o Traub (1994). Encastellano véase, por ejemplo, Yela (1984),Santisteban (1990), García-Cueto (1993) oMuñiz (1994, 1996a).

Mediante los desarrollos correspondien-tes se obtiene la fórmula del Coeficiente deFiabilidad (ρxx’) que permite estimar lacuantía de los errores cometidos al medir.Su fórmula expresa la cantidad de varianzade verdadera medida (σ2

v) que hay en laempírica (σ2

x), o en términos de la Teoría dela Información, la proporción señal-ruidodel proceso de medición:

ρxx’= σ2v/σ2

x (2)

Lo ideal es que toda la varianza empíricase deba a la verdadera, lo cual ocurriríacuando σ2

v= σ2x, en cuyo caso la fiabilidad

es perfecta, la prueba mide sin ningún error.El cálculo empírico del valor del coeficientede fiabilidad no se puede llevar a cabo me-diante la fórmula (2), que es meramente con-ceptual; la estimación empírica puede obte-nerse utilizando varias estrategias, entre lasque destacan: a) la correlación entre dos for-mas paralelas del test, b) la correlación entredos mitades aleatorias del test corregida me-diante la fórmula de Spearman-Brown, y c)la correlación entre dos aplicaciones delmismo test a una muestra de personas. Cadauno de estos procedimientos tiene sus pros ysus contras y se ajustan mejor a unas situa-ciones que a otras. En todos los casos el va-lor obtenido es un valor numérico entre 0 y1, indicando a medida que se acerca a 1 queel test está midiendo con precisión. Dadoque la fórmula (2) es conceptual, no operati-va, en literatura abundan las fórmulas clási-cas para la obtención del valor empírico delcoeficiente de fiabilidad, entre las que cabríadestacar las de Rulon (1939), Guttman

(1945), Flanagan (1937), KR20 y KR21 (Ku-der y Richardson, 1937), o el popular Coefi-ciente Alfa (Cronbach, 1951), que expresa lafiabilidad del test en función de su consis-tencia interna. Una forma alternativa peroequivalente de expresar la fiabilidad de lostests es mediante el Error Típico de Medida,o fiabilidad absoluta.

Se utilice el índice que se utilice, y en ca-da caso hay razones técnicas para utilizaruno u otro, lo importante es que toda medi-ción lleva asociado un grado de precisiónque es empíricamente calculable. Tal vez al-guno de ustedes se pregunte por qué se co-meten errores al medir, o, en otras palabras,cuáles son las fuentes del error más habitua-les en la medición psicológica. Es este unasunto exhaustivamente estudiado por losespecialistas, que han llegado a clasificarcon todo detalle las posibles fuentes de error(Cronbach, 1947; Schmidt y Hunter, 1996;Stanley, 1971; Thorndike, 1951), si biensimplificando bastante puede decirse queson tres las grandes avenidas por las que pe-netra el error aleatorio en la medición psi-cológica: a) la propia persona evaluada, queviene con determinado estado de ánimo, ac-titudes y temores ante el test, ansiedad, ocualquier tipo de evento previo a su evalua-ción, todo lo cual puede influir en la cuantíade los errores, b) el instrumento de medidautilizado, que con sus características especí-ficas puede influir diferencialmente en losevaluados, y c) la aplicación, corrección einterpretación hecha por los profesionales.Si todo se hace con rigor se minimizarán loserrores en todo el proceso, y es precisamen-te de lo que nos informa la fiabilidad de laprueba, de los errores cometidos. Una vezconocida la cuantía de estos errores, a partirde la puntuación empírica resulta sencilloestimar a cierto nivel de confianza elegidola puntuación verdadera de las personas enuna prueba. Si la fiabilidad de una prueba esperfecta (ρxx’=1), las puntuaciones empíri-cas y las verdaderas de las personas en di-


8 Psicothema, 1998

cha prueba coincidirán, pero si no es perfec-ta las puntuaciones verdaderas de las perso-nas en el test se estiman mediante un inter-valo confidencial en torno a la puntuaciónempírica. La implicación práctica inmediatade todo ello es que si se toman decisionesimportantes basadas en las puntuaciones delas personas en los tests hay que asegurarsede que éstos tienen una fiabilidad elevada.

Ahora bien, el modelo lineal clásico in-forma de la cuantía de los errores, pero no dela fuente originaria de éstos, que asume ig-nota y aleatoria. Otros muchos modelos sehan ocupado de desglosar el error y ofrecerasí no sólo la fiabilidad, sino también el ori-gen de los errores (Bock y Wood, 1971; No-vick, 1966; Sutcliffe, 1965), pero su comple-jidad técnico-formal y las complicacionesoperativas introducidas, en relación con lasventajas ofrecidas, ha hecho que ninguno ha-ya cuajado en la práctica. Mención especialal respecto merece la Teoría de la Generali-zabilidad propuesta por Cronbach y colabo-radores (Cronbach, Rajaratnam, Glesser,1963; Glesser, Cronbach y Rajaratnam,1965). Mediante el uso de complejos diseñosde Análisis de Varianza, este modelo permi-te hacer estimaciones sobre el tamaño de dis-tintas fuentes de error previamente contem-pladas en el proceso de medición. El progra-ma de ordenador GENOVA (Crick y Bren-nan, 1982) ha sido especialmente diseñadopara llevar a cabo los cálculos implicados enel modelo. En 1972 los autores publican unexhaustivo tratado (Cronbach, Glesser, Nan-da, y Rajaratman, 1972), verdadera biblia delmodelo, pudiendo consultarse también expo-siciones sistemáticas en Brennan (1983),Crocker y Algina (1986), Shavelson y Webb(1991) o Shavelson, Webb y Rowley (1989);en castellano véase Paz (1994).

Teoría de Respuesta a los Items

A lo largo de este siglo la Teoría Clásicade los tests y sus variantes han ido dando

cobertura teórica a la mayoría de las aplica-ciones de los tests, y puede decirse que, consus luces y sus sombras, el balance es clara-mente positivo (Muñiz, 1994). Ello no quie-re decir que no hubiese ciertos problemas yciertas áreas en las que el enfoque clásicomostrase limitaciones. Las dos más impor-tantes, en las que no voy a entrar aquí, se re-fieren 1) a la ausencia de invarianza de lasmediciones respecto del instrumento utiliza-do, es decir, bajo el modelo clásico cuandose utilizan tests distintos para evaluar lamisma variable no se obtienen directamenteresultados en la misma escala, por lo quehay que proceder a equiparar las puntuacio-nes obtenidas. Y 2) a la dependencia que laspropiedades del instrumento utilizado tie-nen de las propias personas evaluadas, locual no es deseable dentro de un marco ri-guroso de medición.

Aparte de estas dos limitaciones de fon-do, en lo que concierne al cálculo de la fia-bilidad de los tests, el problema que no en-contraba una respuesta adecuada dentro delmarco clásico era el de la dependencia entrela cantidad de error y el nivel de las perso-nas en la variable medida. Me explico. Den-tro del marco clásico se estima el coeficien-te de fiabilidad de una determinada prueba yse asume que es el mismo para todas las per-sonas a las que se aplica la prueba; sin em-bargo, se ha ido acumulando suficiente evi-dencia empírica a lo largo de los años quedemuestra que el mismo test no mide con lamisma precisión a todas las personas, que suprecisión está en función del nivel de la per-sona en la variable medida. Sin salirse delmarco clásico la solución más lógica a esteproblema es calcular diferentes coeficientesde fiabilidad para una prueba en función delos distintos niveles de puntuaciones de laspersonas evaluadas, lo cual es práctica habi-tual (Feldt y Qualls, 1996; Lord, 1984;Qualls, 1992; Thorndike, 1951). Si bien esesta una salida enjundiosa al problema, lasolución radical y novedosa va a venir de la

JOSÉ MUÑIZ

Psicothema, 1998 9

mano de un nuevo enfoque psicométricoque domina la escena actual de la mediciónpsicológica y educativa denominado Teoríade Respuesta a los Items (TRI).

Bajo la óptica de la TRI la fiabilidad deuna prueba pasa a denominarse Función deInformación, y es una función matemáticacontinua a lo largo de la escala de las pun-tuaciones de la prueba (Véase su fórmulamatemática más adelante, una vez formula-dos los modelos de TRI). Es decir, el test yano tiene un coeficiente de fiabilidad deter-minado, éste depende, está en función, delnivel de la persona en la variable medida.La fiabilidad se expresa mediante una fun-ción (Función de Información) que tomadistintos valores según el nivel de la perso-na en el test. De modo que el mismo test esmás fiable para unas personas que paraotras, lo cual no es difícil de entender.Piénsese, por ejemplo, en una prueba edu-cativa de cualquier materia que sea real-mente difícil, muy difícil, será precisa paraevaluar a los muy competentes en la mate-ria, pero todos los que posean conocimien-tos medios o bajos sacarían (en el caso ex-tremo) un cero, la prueba no discrimina en-tre ellos, está midiendo sus conocimientoscon un error elevado. Es lo mismo que ocu-rre cuando se desea medir con precisión laaltura que salta una persona, hay que irajustando el listón a sus posibilidades hastaencontrar justamente lo que es capaz de su-perar. Mutatis mutandis, lo mismo ocurrepara medir con precisión el nivel de unapersona en una variable psicológica o edu-cativa. La tecnología evaluativa basada enla teoría de respuesta a los ítems nos ha li-berado de la necesidad de tener que utilizarel mismo test con todas las personas parapoder compararlas.

Esta nueva conceptualización del errorpermitida por el marco de la TRI ha llevadoa una verdadera revolución en la evaluaciónpsicológica y educativa en los últimos años.Puesto que ya no es necesario utilizar el

mismo test para evaluar a todas las perso-nas, se elige aquél que mida con mayor pre-cisión a cada cual, es lo que se ha dado enllamar Tests Adaptativos Computerizados(Olea y Ponsoda, 1996; Renom, 1993; Wai-ner, 1990), ampliamente utilizados en otrospaíses y en fase embrionaria en el nuestro,aunque algunas compañías multinacionalesya los utilizan en España para certificacio-nes profesionales.

Tal vez se pregunten ustedes, cómo seprocede para elegir la prueba más adecuadapara cada persona. La estrategia consiste enbuscar aquella prueba cuya dificultad mejorse ajuste al examinado. Para ello se vanpresentando uno a uno los ítems extraídosde un Banco de ítems y en función de lasrespuestas, según sean aciertos o errores, seva aumentando o disminuyendo la dificul-tad de los ítems subsiguientes. De este mo-do se evita presentar los ítems muy difícilesa las personas con un nivel bajo y los muyfáciles a las de nivel elevado, con el consi-guiente ahorro de tiempo y mejora de lamotivación y fiabilidad de la prueba. Podríaparecer que por esta regla de tres aquéllosque reciben ítems fáciles saldrían favoreci-dos, pero no hay tal, puesto que cara a lapuntuación final no es lo mismo acertarítems fáciles que difíciles, éstos puntúanmás. El uso de estas pruebas está cambian-do la forma tradicional de evaluar y en paí-ses como Estados Unidos, Holanda, Israel oCanadá, por citar algunos, son de uso gene-ralizado para el acceso a la universidad, aldoctorado, o para certificaciones profesio-nales. Señalar, de paso, que cuando se ob-servan los avances habidos en los últimosaños en el campo de la evaluación psicoló-gica y educativa y vemos, por ejemplo,ahora que está en boca de todos, cómo selleva a cabo la Selectividad Universitariaen España, uno tiene la impresión de estarcirculando en un carro de bueyes en tiem-pos del automóvil y de las autopistas infor-máticas. Técnicamente nuestro sistema de


10 Psicothema, 1998

selectividad es manifiestamente mejorable,y no hacen falta grandes inventos, basta conechar una ojeada alrededor y ver lo que sehace en otros países.

Conceptos básicos de la TRI

Conviene señalar de entrada que los nue-vos modelos de TRI no reemplazan al enfo-que clásico, sino que mas bien constituyenun excelente complemento, permitiendo re-solver problemas que no encontraban solu-ción adecuada en el marco clásico, e impul-sando otros campos completamente nove-dosos de la medición psicológica y educati-va. Los orígenes lejanos de la TRI (Muñiz yHambleton, 1992) pueden rastrearse en lostrabajos pioneros de Richardson (1936),Lawley (1943), Tucker (1946), Lord (1952,1953a) y Birnbaum (1957), si bien su ver-dadero desarrollo surge a raíz del trabajo deRasch (1960), y, sobre todo, del libro deLord y Novick (1968). A partir de entoncesse produce una eclosión de publicaciones yde programas de ordenador que permitiránla aplicación de la TRI en la práctica. En laactualidad las fuentes bibliográficas sonabundantes (Hambleton, 1990, 1994; Ham-bleton y Swaminathan, 1985; Hambleton etal., 1991; López-Pina, 1995; Lord, 1980;Muñiz, 1997, 1996b).

Si la piedra angular del enfoque clásicoera asumir que la puntuación empírica ve-nía dada por la verdadera más un error ale-atorio (X= V+e), la TRI va a hacer unaasunción ciertamente más restrictiva, a sa-ber, que existe una relación matemática ofunción que conecta la competencia de lossujetos con la probabilidad de que éstosrespondan correctamente a los ítems. Enotras palabras, que dada la competencia deuna persona en la variable medida, conoce-mos la probabilidad que tiene de acertar elítem.

A la función matemática asumida queune los niveles de competencia de los su-

jetos con las probabilidades de que acier-ten un ítem es a lo que se denomina CurvaCaracterística del Item (CCI), dado queciertamente califica, caracteriza al ítem.Cada ítem tendrá la suya propia, su carnetde identidad. Las CCI más habitualesadoptan la forma de “S” como las de la fi-gura 1.

En el eje de abscisas aparecen los va-lores de la variable medida, denominada(θ), que está expresada en una escala queva de –∞ a +∞. En ordenadas aparece laprobabilidad de acertar el ítem. Elloquiere decir que mediante la CCI sabe-mos la probabilidad de que las personascon un determinado valor de θ superen elítem.

La forma exacta de la CCI va a quedarespecificada una vez que se elija una fun-ción matemática genérica, por ejemplo lacurva Normal acumulada, o la FunciónLogística, entre otras, y se determinen losparámetros correspondientes que la singu-larizan. Según el tipo de curva que seadopte y el número de parámetros que secontemplen se tendrán los distintos tiposde modelos de TRI. Aunque las posibili-dades son casi ilimitadas, a modo de ilus-tración se presentan a continuación lostres más utilizados en la práctica, queadoptan la Función Logística como CurvaCaracterística:

JOSÉ MUÑIZ

Psicothema, 1998 11

Figura 1. Curvas características de cinco ítems con di-ferentes parámetros.

Modelos Logísticos de 1, 2 y 3 parámetros

Pi(θ) = eD(θ-bi)/[1+eD(θ-bi)] (3)Pi(θ) = eDai(θ-bi)/[1+eDai(θ-bi)] (4)

Pi(θ) = ci + (1-ci)[eDai(θ-bi)]/[1+eDai(θ-bi)] (5)

donde:θ: representa los valores de la variable me-

didaPi(θ): probabilidad de acertar el ítem para

un determinado valor de θai: índice de discriminación del ítembi: índice de dificultad del ítemci: probabilidad de aciertos al azare: base de los logaritmos neperianos (2.7182)D: constante (cuando D=1,7 los valores se

acercan a los generados por la distribu-ción Normal)

La estimación de los parámetros de losmodelos se lleva a cabo mediante diversosprogramas de ordenador existentes a talefecto (BICAL, BILOG, LOGIST, MULTI-LOG, RASCAL, ASCAL, etc.), la mayoríade los cuales utilizan procedimientos de má-xima verosimilitud o bayesianos. Aparte delos tres modelos incluidos aquí por ser delos primeros formulados y muy utilizadosen la práctica, las líneas de investigaciónmás activas trabajan actualmente con mode-los bastante más complejos, una buena revi-sión de los cuales puede consultarse en Vander Linden y Hambleton (1997).

Función de Información del test

Una vez estimados los parámetros delmodelo puede calcularse la Función de In-formación del test, que indica la precisióncon la que éste mide a lo largo de la escalade la variable medida:

donde:n: número de ítems del testPi(θ): valores de las CCI de los ítemsQi(θ): 1- Pi(θ)P’i(θ): Derivada de Pi(θ)

En suma, bajo el enfoque de la teoría derespuesta a los ítems los errores cometidos almedir se estiman mediante la Función de In-formación, que permite especificar la preci-sión de las mediciones en función del nivelde las personas en la variable medida. Estosupone un avance importante respecto delcoeficiente de fiabilidad clásico y abre todoun abanico nuevo de posibilidades en elcampo de la medición psicológica y educati-va.

Validez

Determinar la cantidad de error de losinstrumentos de medida es básico para cual-quier ciencia, y hemos visto en líneas gene-rales cómo se lleva a cabo para el caso delos tests desde distintos enfoques psicomé-tricos. Pero el problema de la medición nosólo no acaba ahí, casi puede decirse queempieza, pues una vez que existen garantíasde que un instrumento mide con precisión,surge la pregunta clave: ¿son válidas las in-ferencias hechas a partir de él? Porque no setrata sólo de medir con precisión, además, y,sobre todo, hay que garantizar que las infe-


12 Psicothema, 1998

I(θ) = [P'i (θ)]2

Pi (θ)Qi (θ)i=1

n

∑

Figura 2. Funciones de Información de cinco ítems ydel Test formado por ellos.

rencias y decisiones que se hacen basadasen esas mediciones son correctas. Es este elproblema de la Validez, concepto clave de lamedición en las ciencias sociales. Que lasmediciones sean fiables es una condiciónnecesaria, pero no suficiente para que seanválidas. Se puede estar midiendo con granprecisión algo que no tiene ninguna capaci-dad explicativa o predictiva. No en vano losgrandes debates acerca de la utilidad de lostests, las escalas y otras mediciones psicoló-gicas y educativas se centran generalmenteen torno al problema de su validez.

Para probar la validez de las inferenciashechas a partir de las pruebas, como ocurrepara someter a prueba cualquier otra hipóte-sis científica, hay que recoger evidencia em-pírica que corrobore o refute las inferencias.Como señala Messick (1989), la validaciónde un test abarca todas las cuestiones experi-mentales, estadísticas y filosóficas por me-dio de las cuales se evalúan las hipótesis yteorías científicas. En realidad lo que se va-lida no es la prueba en sí, sino las inferenciashechas a partir de ella. La forma estándar devalidar las inferencias es derivar prediccio-nes y contrastarlas con los datos. Con sus lu-ces y sus sombras, el método hipotético de-ductivo experimental sigue siendo el canonpara la validación, eso sí, sin ingenuidadesacerca de su infabilidad, y conscientes de suslimitaciones, bien avisados, como estamos,por los ríos de tinta que los teóricos y los fi-lósofos de la ciencia han vertido y vierten alrespecto (Block, 1980, 1981; Bunge, 1985;Feyerabend, 1981; Fuentes, 1994; Hanson,1969; Kendler, 1981; Kuhn, 1962; Lakatos yMusgrave, 1970; Mayor, 1989; Pinillos,1980; Popper, 1959, 1963, 1972; Staats,1983; Staats y Mos, 1987; Suppe, 1977;Toulmin, 1972; Yela, 1987, 1994; etc.)

Dentro de ese marco general hay tres pro-cedimientos clásicos y muy utilizados pararecabar información empírica probatoria dela validez, denominados Validez de Conteni-do, Validez Predictiva y Validez de Construc-

to (Anastasi, 1986; Messick, 1989; Muñiz,1994; Paz, 1996; Wainer y Braun, 1988).

La validez de contenido tiene un carácterbásico, y va encaminada a comprobar que laprueba recoge una muestra representativade los contenidos correspondientes al cam-po evaluado. Por ejemplo, si se trata de unaescala de actitudes hay que asegurarse quetodos los componentes que conforman laactitud están representados en la escala, o sila prueba es de ansiedad, que no se dejanfuera aspectos importantes. No estará demás señalar dentro de este marco profesoralen el que nos encontramos, que este aspectotan elemental de la validez es descuidadocon demasiada frecuencia por los profesoresen sus exámenes, al no constituir éstos unamuestra representativa de la materia a eva-luar, con lo que se abre la puerta al azar enlas calificaciones. Personalmente, me sor-prenden con frecuencia las ideas tan inge-nuas de muchos profesores acerca de la me-dición educativa, a pesar de la importanciaque tiene sobre las vidas futuras de losalumnos. Conscientes de este problema, porejemplo, recientemente en Estados Unidosel sindicato de profesores más importante(American Federation of Teachers, 1990),junto con otras organizaciones, ha publica-do unos estándares técnicos que los profe-sores deben de seguir en sus evaluaciones.

La Validez Predictiva se centra en lacomprobación de que las pruebas predicenaquello para lo que fueron diseñadas. Cons-tituye un aspecto clave en la utilizaciónaplicada de los tests y las escalas en ámbitosen los cuales se toman decisiones importan-tes para las personas basándose en las prue-bas, por ejemplo en el ámbito de la selec-ción de personal, orientación, o situacionesde carácter clínico, por citar algunos. La ca-pacidad predictiva de una prueba suele ex-presarse mediante su Coeficiente de Validez(ρxy), que es la correlación entre las puntua-ciones en la prueba (x) y la ejecución en elcriterio que se pretende predecir (y). A me-

JOSÉ MUÑIZ

Psicothema, 1998 13

dida que el valor del coeficiente de validezse acerca a 1 mayor es la capacidad predic-tiva de la prueba. Cuando se utilizan variaspruebas para predecir un criterio se utilizacomo coeficiente de validez la correlaciónmúltiple de las pruebas con el criterio (Ryy’).

La Validez de Constructo, propuesta ori-ginariamente por Cronbach y Meehl (1955),trata de asegurar que las variables o cons-tructos medidos, además de capacidad pre-dictiva, tienen entidad y rigor, y se encuen-tran insertas dentro de un marco teórico co-herente. Las formas de recoger evidenciaempírica para comprobarlo son en generallas utilizadas para comprobar cualquier teo-ría científica, si bien se han hecho habitualeslas recogidas de datos a través de una matrizmultirrasgo multimétodo (Campbell y Fiske,1959), o mediante diferentes técnicas deanálisis multivariado, entre las que destacael Análisis Factorial, tanto exploratorio co-mo confirmatorio. En el primer caso suelehablarse de validez convergente-discrimi-nante y en el segundo de validez factorial.

En definitiva, para poder asegurar que unaprueba psicológica, educativa o sociológicaes válida hay que aportar diferentes tipos deevidencia que lo garantice, no se pueden ha-cer afirmaciones generales ni definitivas,pues como cualquier otra validación científi-ca, la de los tests es un proceso abierto en elque siempre cabe añadir nueva evidencia em-pírica que corrobore o refute la pertinencia delas inferencias hechas a partir del test.

El uso de los tests

Un buen ejemplo de este proceso conti-nuo de validación lo constituyen los Tests deInteligencia. Tras ya casi un siglo de inves-tigación empírica desde que apareciese elprimer test propiamente de inteligencia,propuesto por Binet, hoy conocemos bas-tante bien con qué fines pueden usarse y concuales no, aunque queden aún varias cues-tiones abiertas. Por ejemplo, sabemos que

las puntuaciones en los tests de inteligenciason bastante estables a lo largo de la vida delas personas, lo cual no quiere decir que nocambien ni sean modificables (Neisser etal., 1996). Lo que mejor predicen los testsde inteligencia es el rendimiento escolar,con una correlación en torno a 0.50 entre laspuntuaciones en los tests de inteligencia ylas notas escolares. Ello significaría que lainteligencia explica sólo un 25% del rendi-miento escolar. El otro 75% vendría expli-cado por otros factores tales como persis-tencia, motivación, interés académico, fac-tores culturales, refuerzos recibidos de lospadres y maestros, competencia del profe-sor, etc. (Neisser et al., 1996). Esta relaciónpositiva entre la inteligencia tal como la mi-den los tests y el rendimiento escolar tienecomo consecuencia que los niños más inte-ligentes permanecen por término medio másaños dentro del sistema educativo, con losefectos positivos que ello conlleva para suéxito social y laboral, por lo que indirecta-mente los tests de inteligencia también tie-nen poder predictivo para estos aspectos. Lavalidez de las mediciones de la inteligenciapara predecir aspectos de la vida laboral ysocial de las personas no es que sea muyelevada, en torno al 25%, pero si hay queelegir un sólo predictor, sigue siendo segu-ramente el mejor del que se dispone. Curio-samente, se conocen más exhaustivamentelas predicciones que se pueden hacer a par-tir de las mediciones de la inteligencia (va-lidez predictiva) que la propia naturaleza dela inteligencia (validez de constructo), exis-tiendo un intenso debate acerca de los fac-tores responsables de las diferencias indivi-duales en inteligencia, en el cual los tres in-gredientes básicos son la herencia, el am-biente y los procesos psicológicos básicos,tales como tiempos de reacción, potencialesevocados, tiempo de inspección, capacidadatencional, rapidez de acceso a la memoria,etc. Si bien la teorización sobre la inteligen-cia ha avanzado notablemente, en compara-


14 Psicothema, 1998

ción los tests con los que se mide no han ex-perimentado grandes cambios (Sternberg yKaufman, 1996).

Como no podía ser de otro modo, existentests malos, regulares, buenos y muy bue-nos, es el profesional en cada caso el quetiene que evaluar la calidad y proceder enconsecuencia. Como ocurre con las tecnolo-gías de otros muchos campos del saber,siempre existe la posibilidad de su uso ina-decuado, observándose últimamente un in-terés especial en las organizaciones profe-sionales por impulsar los aspectos éticos dela práctica, especialmente en lo que a losinstrumentos de medida se refiere (Franca-Tarragó, 1996; Keith-Spiegel y Koocher,1985; Kimmel, 1996; Muñiz, en prensa;Schmeiser, 1992; Schuler, 1982; Stanley,Sieber y Melton, 1996). Debido a que lamayoría de los problemas con los instru-mentos de medida psicológicos y educati-vos provienen en gran parte de su uso ina-decuado más que de las propiedades técni-cas per se, existe actualmente un debate encurso entre los investigadores y profesiona-les acerca de la conveniencia o no de incluirlas consecuencias del uso de las pruebasdentro del propio marco de la validez (Linn,1997; Mehrens, 1997; Messick, 1980, 1989,1995; Popham, 1997; Shepard, 1997).

Señalar, finalmente, que el uso adecuadode los instrumentos de medida no sólo im-plica que las propiedades técnicas (Fiabili-dad y Validez) sean las adecuadas, hay otrosaspectos relativos a la propia situación deaplicación que deben de controlarse, talescomo la relación examinado-examinador, laansiedad ante las pruebas (Spielberger yVagg, 1995), entrenamiento previo, diferen-cias culturales, deseabilidad social, etc.

Se olvida a veces que los tests psicoló-gicos y educativos representan la posibili-dad de juzgar a las personas de forma igua-litaria, por sus méritos demostrados, no porcriterios como la cuna, la tribu, la familia, laapariencia, las cartas de recomendación, o

el juicio subjetivo de supervisores y profe-sores. Ése fue su espíritu originario, y siguesiéndolo, sus problemas potenciales de usono deben enmascarar el paso adelante quesupone esta filosofía frente a posiciones re-trógradas como las mencionadas, tendentesa mantener el statu quo, independientemen-te de la valía personal.

Teoría de la Medición

Paralelo a la medición empírica de lasvariables psicológicas, cuya problemáticase acaba de exponer a grandes rasgos, exis-te toda una línea de trabajo más teórica en-caminada al análisis del estatus teórico delas mediciones psicológicas, que hinca susraíces en los trabajos originarios del campode la Física (Campbell, 1920, 1921, 1928,1938; Hölder, 1901). Será precisamente uncomité de expertos dirigidos por Campbellquienes en 1940 (Campbell et al., 1940)emitan un informe en el que dudan que lasmediciones de carácter psicológico y psico-físico reúnan las condiciones exigidas porlos axiomas de Hölder (1901). La aproxi-mación de Campbell al problema de la me-dición era ciertamente restrictiva y tomadaal pie de la letra dejaría fuera incluso mu-chas de las mediciones físicas, por lo cualya fue criticada por el propio Bertrand Rus-sell (1937). El argumento central de Camp-bell era que para poder hablar de medicióndebe de darse un isomorfismo entre la can-tidad y las magnitudes de la propiedad amedir; para lo cual había que demostrar quelas magnitudes obedecían a los axiomas decantidad desarrollados por Hölder (1901).Representa una postura de carácter Platóni-co, bajo cuya óptica las propiedades de lacantidad no son negociables.

Aproximación Clásica

La revolución copernicana en la funda-mentación teórica de la medición psicológi-

JOSÉ MUÑIZ

Psicothema, 1998 15

ca vendrá de la mano de Stevens (1946,1951), al eliminar la restricción de que losnúmeros asignados como medidas tenganque obedecer necesariamente a las leyes dela cantidad, abriendo así la posibilidad aotros tipos de escalas (Fraser, 1980). Stevensdefine la medición como la asignación denúmeros a objetos según determinadas re-glas. La flexibilización introducida al permi-tirse diferentes reglas de asignación extiendeel sistema de Campbell y permite el estable-cimiento de las hoy clásicas cuatro escalasde medición, Nominal, Ordinal, Intervalo yRazón, que vienen definidas por cuatro re-glas distintas de asignación de los números alos objetos. Para representar un sistema em-pírico concreto no habrá por qué utilizar to-das las propiedades del sistema numérico.La escala Nominal sólo tiene en cuenta lapropiedad de los números igual/desigual, losnúmeros actúan aquí como nombres. En laOrdinal, además de igualdad/desigualdad, setiene en cuenta el orden. La escala de Inter-valo además de las anteriores propiedadesañade la igualdad/desigualdad de las dife-rencias, no existiendo un cero absoluto de laescala. Finalmente, en la escala de Razónexiste el cero absoluto de la escala e igual-dad de razones.

Tras la propuesta de Stevens surgen nu-merosas clasificaciones de escalas (Coombs,1952, 1964; Torgerson, 1958), pues no hayninguna razón para limitar las propiedades alas cuatro mencionadas. Además, la literatu-ra sobre en qué escala vienen medidos losdistintos atributos psicológicos y la relaciónentre el tipo de escala y las operaciones es-tadísticas permitidas para cada tipo de esca-la inundan la bibliografía especializada(Gaito, 1980; Lord, 1953b; Michell, 1986;Stine, 1989; Townsend y Ashby, 1984).

Enfoque Representacional

En definitiva, a partir del trabajo pionerode Stevens la medición psicológica no sólo

sigue avanzando en el campo empírico, sinoque recibe un fuerte empujón en lo que a laevaluación de su estatus teórico se refiere.Tanto la aproximación de Stevens como lade Campbell al análisis teórico de la medi-ción se mueven dentro de un marco clásico,pues, como señala Fraser (1980), si bienCampbell consideraba claves las relacionesempíricas, Stevens subraya las propiedadesde la escala. Ambos tratan la relación entrelos sistemas empírico y formal como axio-mática, y por tanto debe de estar presentepara llevar a cabo la medición.

Por el contrario, el nuevo enfoque Repre-sentacional sobre teoría de la medición queaparece en los años sesenta (Coombs, 1964;Krantz et al., 1971; Luce y Narens, 1986;Mitchell, 1990; Narens, 1985; Narens y Lu-ce, 1986; Pfanzagl, 1968; Roberts, 1979;Savage y Ehrlich, 1990; Schwager, 1991;Suppes y Zinnes, 1963) se caracteriza fun-damentalmente por reconocer explícitamen-te el papel que juega la teoría en la medi-ción, pasando ésta a formar parte integral dela teoría. Medir es construir un modelo dealguna realidad existente en el mundo. Portanto, como cualquier otra modelización,implica establecer una correspondencia en-tre el sistema relacional empírico (el mun-do) y un sistema relacional formal (el mo-delo), de tal modo que se pueda decir queuno representa al otro; si el modelo es nu-mérico entonces la representación se deno-mina medición (Fraser, 1980). En este con-texto los problemas de la medición no sonotros que los problemas científicos genera-les para establecer modelos de la realidad, lamedición pasa a ser modelización en la queel sistema relacional formal son los núme-ros. Por tanto el problema central a resolverserá el de la Representación, es decir, ase-gurarse que el modelo representa adecuada-mente la realidad. Medir es modelizar.

Si bien este enfoque es actualmente do-minate entre los teóricos y filósofos de laciencia, su influencia en la psicología apli-


16 Psicothema, 1998

cada es escasa, pues como señala Schwa-ger (1991) en una crítica reciente, este ele-gante enfoque trata de garantizar la repre-sentabilidad formal, que es importante, pe-ro no ha aportado hasta la fecha gran cosaa la teoría psicológica y menos aún a lapráctica profesional aplicada. Una buenasíntesis de los problemas de carácter apli-cado aún pendientes de una solución idó-nea fue expuesta recientemente por Wainer(1993), para una excelente revisión y aná-lisis de los problemas de la medición enpsicología puede consultarse el trabajo deMichell (1997).

Estos son, en suma, y a grandes rasgos,algunas de las certezas y de las dudas queocupan a quienes trabajamos en el campo dela medición psicológica, espero no haberlesaburrido demasiado con ellas. En el campo

de la medición psicológica quedan muchosproblemas teóricos y aplicados por resolver,de modo que no faltará el trabajo de inves-tigación para quienes se dedican a estos me-nesteres. Esperemos, parafraseando al fa-moso matemático Hilbert (1902), cuandopresentó en París, ya va para un siglo, los 23problemas más importantes de las matemá-ticas aún sin resolver, que para tales menes-teres contemos entre nosotros con los mejo-res maestros y los más entusiastas y apasio-nados discípulos.

Nota

El texto corresponde a la conferencia pronun-ciada por el autor como lección inaugural delcurso académico 1997-1998 en la Universidadde Oviedo.

JOSÉ MUÑIZ

Psicothema, 1998 17

Referencias

Allen, M. J. y Yen, W. M. (1979). Introduction toMeasurement Theory. Monterrey, CA: Bro-oks/Cole Publishing Company.

American Federation of Teachers, National Coun-cil on Measurement in Education y NationalEducation Association (1990). Standards forteacher competence in educational assessmentof students. Washington, DC: Autor.

Anastasi, A. (1986). Evolving concepts of test vali-dation. Annual Review of Psychology, 37, 1-15.

Baird, J. C. (1997). Sensation and judgment:complementary theory of psychophysics.Mahwah, NJ: LEA.

Baird, J. C. y Noma, E. (1978). Fundamentals ofscaling and psychophysics. Nueva York: Wiley.

Binet, A. y Simon, T. H. (1905). Methodes nou-velles pour le diagnostic du niveau intellec-tuel des anormaux. L’Année Psychologique,11, 191-244.

Birnbaum, A. (1957). Efficient design and use oftests of ability for various decision-makingproblems (Series Report nº 58-16, Project nº7755-23). Randolph Air Force Base, TX:USAF School of Aviation Medicine.

Blanco, M. (1996). Psicofísica. Madrid: Univer-sitas.

Block, N. (Ed.) (1980, 1981). Readings in philo-sophy of psychology (2 vols.). Cambridge,MA: Harvard University Press.

Bock, R. D. y Wood, R. (1971). Test theory. An-nual Review of Psychology, 22, 193-224.

Brennan, R. L. (1983). Elements of generalizabi-lity theory. Iowa City, IA: American CollegeTesting.

Bunge, M. (1985). La investigación científica.(2ª ed.). Barcelona: Ariel.

Campbell, D. T. y Fiske, A. W. (1959). Conver-gent and discriminant validation by the multi-trait-multimethod matrix. Psychological Bu-lletin, 56, 81-105.

Campbell, N. R. (1920). Physics. The Ele-ments. Cambridge: Cambridge UniversityPress.

Campbell, N. R. (1921). What is science? (Reim-preso). Nueva York: Dover Publications.

Campbell, N. R. (1928). An account of the prin-ciples of measurement and calculation. Lon-dres: Longmans Green.

Campbell, N. R. (1938). Symposium: Measu-rement and its importance for philosophy.Aristotelian Society, vol. 17 (Suplemento).Londres: Harrison.

Campbell, N. R. et al. (1940). Final Report. Ad-vance Science, núm. 2, 331-349.

Cattell, J. Mck. (1890). Mental tests and measu-rements. Mind, 15, 373-380.

Coombs, C. H. (1952). A theory of psychologi-cal scaling. Engineering Research Bulletin,34. Ann Arbor, MI: University of MichiganPress.

Coombs, C. H. (1964). A theory of data. NuevaYork: Wiley.

Crick, J. E. y Brennan, R. L. (1982). GENOVA.A generalized Analysis of Variance System(FORTRAN IV Computer Program and Ma-nual). Doschester, MA: Computer Facilities,University of Massachusetts at Boston.

Crocker, L. y Algina, J. (1986). Introduction toclassical and modern test theory. NuevaYork: Holt, Rinehart and Winston.

Cronbach, L. J. (1947). Test reliability: its mea-ning and determination. Psychometrika, 12,1-16.

Cronbach, L. J. (1951). Coefficient alpha and theinternal structure of tests. Psychometrika, 16,297-334.

Cronbach, L. J., Glesser, G. C., Nanda, H. y Ra-jaratnam, N. (1972). The dependability of Be-havioral Measurement: Theory of Generali-zability for scores and profiles. Nueva York:Wiley.

Cronbach, L. J. y Meehl, P. E. (1955). Constructvalidity in psychological tests. PsychologicalBulletin, 52, 281-302.

Cronbach, L. J., Rajaratnam, N., Glesser, G. C.(1963). Theory of Generalizability: a libe-ralization of reliability theory. The BritishJournal of Statistical Psychology, 16, 2, 137-163.

Egan, J. (1975). Signal detection theory andROC analysis. Nueva York: Academic Press.

Falmage, J. C. (1985). Elements of psychophysi-cal theory. Nueva York: Oxford UniversityPress.

Fechner, G. T. (1860/1966). Elements of psy-chophysics. Nueva York: Holt, Rinehart andWinston.

Feldt, L. S. y Qualls, A. L. (1996). Estimation ofmeasurement error variance at specific scorelevels. Journal of Educational Measurement,33(2), 141-156.

Ferrando, P. J. (1996). Evaluación de la unidi-mensionalidad de los ítems mediante análisisfactorial. Psicothema, 8(2), 397-410.

Feyerabend, P. (1981). Tratado contra el método.Madrid: Tecnos.

Flanagan, J. L. (1937). A note on calculating thestandard error of measurement and reliabilitycoefficients with the test score machine. Jour-nal of Applied Psychology, 23, 529.

Franca-Tarragó, O. (1996). Etica para psicólo-gos. Introducción a la psicoética. Bilbao:Desclée de Brouwer.

Fraser, C. O. (1980). Measurement in psycho-logy. British Journal of Psychology, 71, 23-34.

Fuentes, J. B. (1994). Introducción del conceptode “conflicto de normas irresuelto personal-mente” como figura antropológica (específi-ca) del campo psicológico. Psicothema, 6(3),421-446.

Gaito, J. (1980). Measurement scales and statis-tics: resurgence of an old misconception. Psy-chological Bulletin, 87, 564-567.

García-Cueto, E. (1993). Introducción a la psi-cometría. Madrid: Siglo XXI.

Gescheider, G. A. (1985). Psychophysics: met-hod, theory, and application. Hillsdale, NJ:LEA.

Glesser, G. C., Cronbach, L. J. y Rajaratnam, N.(1965). Generality of scores influenced bymultiple sources of variance. Psychometrika,30, 395-418.

Green, D. M. y Swets, J. A. (1966). Signal de-tection theory and psychophysics. NuevaYork: Wiley.

Guilford, J. P. (1936, 1954). Psychometric Met-hods. Nueva York: McGraw-Hill.

Gulliksen, H. (1950). Theory of Mental Tests.Nueva York: Wiley (Reimpreso en 1987).

Guttman,L. (1945). A basis for analyzing test-re-test reliability. Psychometrika, 10, 255-282.

Hambleton, R. K. (1990). Item response theory:introduction and bibliography. Psicothema, 2,97-107.

Hambleton, R. K. (1994). Item response theory:A broad psychometric framework for measu-rement advances. Psicothema, 6(3), 535-556.

Hambleton, R. K. y Swaminathan, H. (1985).Item response theory: Principles and applica-tions. Boston: Kluwer.

Hambleton, R. K., Swaminathan, H. y Rogers,H. J. (1991). Fundamentals of item responsetheory. Beverly Hills, CA: Sage.


18 Psicothema, 1998

Hanson, N. R. (1969). Perception and discovery.San Francisco: Freeman.

Hilbert, D. (1902). Mathematical problems. Bu-lletin of the American Mathematical Society,8, 437-479.

Hölder, O. (1901). Die axiome de quantität dielehre von mass. Berichte ueber die Verhand-lugen der Königlich Sachsischen Gessells-chaft der Wissenschaften zu Leipzig, Mat-hematisch-Psysische Class, 53, 1-64.

Intelligence (1997). Número especial dedicado a“Intelligence and Social Policy”. Intelligence,24(1).

Keith-Spiegel, P. y Koocher, G. P. (1985). Ethicsin psychology. Professional standards and ca-ses. Nueva York: Random House.

Kendler, H. H. (1981). Psychology: A science inconflict. Nueva York: Oxford.

Kimmel, A. J. (1996). Ethical issues in beha-vioral research. Cambridge, MA: Black-well.

Krantz, D. H. Luce, R. D., Suppes, P. y Twersky,A. (1971). Foundations of measurement. Vol1. Additive and polynomial representations.Nueva York: Academic Press.

Kuder, G. F. y Richardson, M. W. (1937). Thetheory of estimation of test reliability. Psy-chometrika, 2, 151-160.

Kuhn, T. S. (1962). The structure of scientific re-volutions. Chicago: University of ChicagoPress.

Lakatos, I. y Musgrave, A. (Eds.) (1970). Criti-cism and the growth of knowledge. Londres:Cambridge University Press.

Lawley, D. N. (1943). On problems connectedwith item selection and test construction. Pro-ceedings of the Royal Society of Edimburg,61, 273-287.

Linn, R. L. (1997). Evaluating the validity of as-sessments: the consequences of use. Educa-tional Measurement: Issues and Practice,16(2), 14-16.

López-Pina, J. A. (1995). Teoría de respuesta alítem: fundamentos. Barcelona: PPU.

Lord, F. M. (1952). A theory of test scores. Psy-chometric Monographs, nº 7.

Lord, F. M. (1953a). An application of confiden-ce intervals of maximum likelihood to the es-timation of an examinee’s ability. Psychome-trika, 18, 57-75.

Lord, F. M. (1953b). On the statistical treatmentof football numbers. The American Psycholo-gist, 8, 750-751.

Lord, F. M. (1980). Applications of item respon-se theory to practical testing problems. Hills-dale, NJ: LEA.

Lord, F. M. (1984). Standard errors of measu-rement at different ability levels. Journal ofEducational Measurement, 21(3), 239-243.

Lord, F. M. y Novick, M. R. (1968). Statisticaltheories of mental tests scores. Reading, MA:Addison-Wesley.

Luce, R. D. y Narens, L. (1986). The mathema-tics underlying measurement on the conti-nuum. Science, 236, 1527-1532.

Magnuson, D. (1967). Test Theory. Reading,MA: Addison-Wesley. (Traducción española:Mexico: Trillas, 1972).

Mayor, J. (1989). El método científico en psico-logía. En J. Arnau y H. Carpintero (Comps.).Tratado de psicología general, Vol. I: Histo-ria, teoría y método. Madrid: Alhambra.

Mehrens, W. A. (1997). The consequences ofconsequential validity. Educational Measu-rement: Issues and Practice, 16(2), 16-18.

Messick, S. (1980). Test validity and the ethicsof assessment. American Psychologist, 35,1012-1027.

Messick, S. (1989). Validity. En R. L. Linn (Ed.),Educational Measurement. Nueva York:Macmillan.

Messick, S. (1995). Validity of psychological as-sessment. American Psychologist, 50, 741-749.

Michell, J. (1986). Measurement scales andstatistics: a clash of paradigms. PsychologicalBulletin, 100, 398-407.

Michell, J. (1990). An introduction to the logic ofpsychological measurement. Hillsdale, NJ:LEA.

Michell, J. (1997). Quantitative science and thedefinition of measurement in psychology.British Journal of Psychology, 88, 355-383.

Muñiz, J. (1991). Introducción a los métodospsicofísicos. Barcelona: PPU.

Muñiz, J. (1994). Teoría clásica de los tests. Ma-drid: Pirámide. (2ª ed.).

Muñiz, J. (1996a). Fiabilidad. En J. Muñiz (Co-or.), Psicometría. Madrid: Universitas.

Muñiz, J. (Coor.). (1996b). Psicometría. Madrid:Universitas.

Muñiz, J. (1997). Introducción a la teoría derespuesta a los ítems. Madrid: Pirámide.

Muñiz, J. (en prensa). Aspectos éticos y deonto-lógicos de la evaluación psicológica. En Eva-luación Psicológica, Madrid: TEA Ediciones.

JOSÉ MUÑIZ

Psicothema, 1998 19

Muñiz, J. y Hambleton, R. K. (1992). Medio si-glo de teoría de respuesta a los ítems. Anuariode Psicología, 52, 41-66.

Narens, L. (1985). Abstract measurement: thetheory of numerical assignment. Psychologi-cal Bulletin, 99, 166-180.

Narens, L. y Luce, R.D. (1986). Measurement:the theory of numerical assignment. Psycho-logical Bulletin, 99, 166-180.

Neisser, U. et al. (1996). Intelligence: knownsand unknows. American Psychologist, 51(2),77-101.

Novick, M. R. (1966). The axioms and principalresults of classical test theory. Journal ofMathematical Psychology, 3, 1-18.

Olea, J. y Ponsoda, V. (1996). Tests adaptativosinformatizados. En J. Muñiz (Coor.), Psico-metría. Madrid: Universitas.

Paz, M. D. (1994). Teoría de la Generalizabili-dad. En J. Muñiz, Teoría clásica de los tests.Madrid: Pirámide.

Paz, M. D. (1996). Validez. En J. Muñiz (Coor.),Psicometría. Madrid: Universitas.

Paz, M. D. y Muñiz, J. (1989). Potenciales evo-cados y tiempos de reacción. Psicothema, 1,97-117.

Pfanzagl, J. (1968). Theory of measurement.Nueva York: Wiley.

Pinillos, J. L. (1980). Problemas actuales de lapsicología científica. Análisis y Modificaciónde Conducta, 6, 11-12.

Popham, W. J. (1997). Consequential validity:right concern-wrong concept. Educational Me-asurement: Issues and Practice, 16(2), 9-13.

Popper, K. R. (1959). The logic of scientific dis-covery. Londres: Hutchinson.

Popper, K. R. (1963). Conjectures and refuta-tions. Nueva York: Harper.

Popper, K. R. (1972). Objective knowledge. Ox-ford: Clarenton Press.

Qualls, A. L. (1992). A comparison of score le-vel estimates of the standard error of measu-rement. Journal of Educational Measu-rement, 29(3), 213-225.

Rasch, G. (1960). Probabilistic models for someintelligence and attainment tests. Copenha-gen: The Danish Institute for Educational Re-search.

Renom, J. (1993). Tests adaptativos computeri-zados. Barcelona: PPU.

Richardson, M. W. (1936). The relationship bet-ween difficulty and the differential validity ofa test. Psychometrika, 1, 33-49.

Roberts, F. S. (1979). Measurement theory. Rea-ding, MA: Addison Wesley.

Rulon, P. J. (1939). A simplified procedure fordetermining the reliability of a test by split-halves. Harvard Educational Review 9, 99-103.

Russell, B. (1937). The Principles of Mathema-tics (2ª Ed.). Nueva York: Norton.

Santisteban, C. (1990). Psicometría. Teoría ypráctica en la construccción de tests. Madrid:Norma.

Savage, L. W. y Ehrlich, R. (Eds.). (1990). Phi-losophical and foundational issues in measu-rement theory. Hillsdale, NJ: LEA.

Schmeiser, C. B. (1992). Ethical codes in theprofessions. Educational Measurement: Is-sues and Practice, 5-11.

Schmidt, F. L. y Hunter, J. E. (1996). Measu-rement error in psychological research: les-sons from 26 research scenarios. Psychologi-cal Methods, 1(2), 199-223.

Schuler, H. (1982). Ethical problems in psycho-logical research. London: Academic Press.

Schwager, K. W. (1991). The representationaltheory of measurement: an assessment. Psy-chological Bulletin, 110(3), 618-626.

Shavelson, R. y Webb, N. (1991). Generalizabi-lity theory. Beverly Hills, CA: Sage.

Shavelson, R. Webb, N. y Rowley, G. L. (1989).Generalizability Theory. American Psycholo-gist, 44 (6), 922-932.

Shepard, L. A. (1997). The centrality of test useand consequences for test validity. Educatio-nal Measurement: Issues and Practice, 16(2),5-8.

Spearman, C. (1904). The proof and measu-rement of association between two things.American Journal of Psychology, 15, 72-101.

Spearman, C. (1907). Demonstration of formulaefor true measurement of correlation. Ameri-can Journal of Psychology, 18, 161-169.

Spearman, C. (1913). Correlations of sums anddifferences. British Journal of Psychology, 5,417-126.

Spielberger, C. D. y Vagg, P. R. (Eds.) (1995).Test anxiety. Theory, assessment and treat-ment. Washington, DC: Taylor and Francis.

Staats, A. W. (1983). Psychology’s crisis of de-sunity. Philosophy and method for a unifiedscience. Nueva York: Praeger.

Staats, A. W. y Mos, L. P. (Eds.) (1987). Annalsof theoretical psychology. Vol. 5. NuevaYork: Plenum Press.


20 Psicothema, 1998

Stanley, B. H., Sieber, J. E. y Melton, G. B.(Eds.). (1996). Research ethics. A psychologi-cal approach. Lincoln, NE: University of Ne-braska Press.

Stanley, J. C. (1971). Reliability. En R. L. Thorn-dike (ed.), Educational Measurement. Was-hington. DC: American Council on Educa-tion.

Sternberg, R. J. y Kaufman, J. C. (1996). Inno-vation and intelligence testing: the curious ca-se of the dog that didn’t bark. European Jour-nal of Psychological Assessment, 12(3), 175-182.

Stevens, S. S. (1946). On the theory of scales ofmeasurement. Science, 103, 677-680.

Stevens, S. S. (1951). Mathematics, measu-rement and psychophysics. En S. S. Stevens(Ed.), Handbook of experimental psychology.Nueva York: Wiley.

Stevens, S. S. (1961). To honor Fechner and re-peal his law. Science, 133, 80-86.

Stevens, S. S. (1975). Psychophysics: introduc-tion to its perceptual, neural, and social pros-pects. Nueva York: Wiley.

Stine, W. W. (1989). Meaningful inference: therole of measurement in statistics. Psychologi-cal Bulletin, 105, 1, 147-155.

Summers, G. F. (Ed.) (1970). Attitude measu-rement. Chicago: Rand McNally.

Suppe, F. (Ed.). The structure of scientific theo-ries. Urbana, IL: University of Illinois Press.

Suppes, P. y Zinnes, J. L. (1963). Basic measu-rement theory. En R. D. Luce, R. R. Bush y E.Galanter (Eds.), Handbook of mathematicalpsychology. Vol. I, págs. 1-76. Nueva York:Wiley.

Sutcliffe, J. P. (1965). A probability model forerror of classification, I: General considera-tions. Psychometrika, 30, 73-96.

Swets, J. A. (1996). Signal detection theory andROC analysis in psychology and diagnostics:collected papers. Mahwah, NJ: LEA.

Thorndike, R. L. (1951). Reliability. En E. L.Lindquist (Ed.), Educational Measurement(págs. 560-620). Washington, DC: AmericanCouncil on Education.

Thorndike, R. L. (1982). Applied Psychometrics.Boston: Hougton Mifflin.

Thurstone, L. L. (1927). A law of comparativejudgment. Psychological Review, 34, 273-286.

Thurstone, L. L. (1928). Attitudes can be measu-red. American Journal of Sociology, 33, 529-554.

Torgerson, W. S. (1958). Theory and methods ofscaling. Nueva York: Wiley.

Toulmin, S. (1972). Human understanding. Prin-ceton: Princeton University Press.

Townsend, J. T. y Ashby, F. G. (1984). Measu-rement scales and statistics: the misconcep-tion misconceived. Psychological Bulletin,96, 394-401.

Traub, R. E. (1994). Reliability for the socialsciences: Theory and applications. Londres:Sage.

Triandis, H. C. (1971). Attitude and attitudechange. Nueva York: Wiley.

Tucker, L. R. (1946). Maximum validity of a testwith equivalent items. Psychometrika, 11, 1-13.

Van der Linden, W. J. y Hambleton, R. K. (Eds.).(1997). Handbook of modern item responsetheory. Nueva York: Springer-Verlag.

Wainer, H. (Ed.). (1990). Computerized adaptivetesting: a primer. Hillsdale, NJ: LEA.

Wainer, H. (1993). Measurement problems.Journal of Educational Measurement, 30(1),1-21.

Wainer, H. y Braun, H. I. (Eds.). (1988). Test va-lidity. Hillsdale, NJ: LEA.

Yela, M. (1984). Introducción a la teoría de lostests. Madrid: Facultad de Psicología, Univer-sidad Complutense.

Yela, M. (1987). Toward a unified psychologicalscience. En A. W. Staats y L. P. Mos (Eds.),Annals of theoretical psychology. Vol. 5. Nue-va York: Plenum Press.

Yela, M. (1994). El problema del método cientí-fico en psicología. Anuario de Psicología, 60,3-12.

Aceptado el 10 de octubre de 1997

JOSÉ MUÑIZ

Psicothema, 1998 21

la medicion de_lo_psicologico

Documents