la paradoja de simpson y la interpretaciÓn de los …18ff96f4-d7a0-4ee2...analicemos los datos del...

13
e --tTk~~~1ka LA PARADOJA DE SIMPSON Y LA INTERPRETACIÓN DE LOS RESULTADOS DE LAS EVALUACIONES DEL RENDIMIENTO ACADÉMICO EN EL SISTEMA EDUCATIVO JOSÉ LUIS GAVIRIA (•) Este artículo pretende alcanzar los siguien- tes objetivos: explicar en qué consiste la paradoja de Simpon; explicar que la para- doja de Simpson puede aparecer cuando la variable dependiente de continua; resaltar que la interpretación de los resultados de una evaluación puede ser errónea si este fenómeno se da; presentar un caso en el que dicha paradoja aparece en la recien evaluación de la Secundaría del Sistema Educativo Español, y comprobar que la co- rrecta interpretación de los resultados pue- de ser contraria de lo que prima facie pudiera parecer. Un médico ' estuvo participando du- rante un tiempo en un experimento clínico para probar la eficacia de un nuevo trata- miento para una enfermedad de una alta tasa de mortalidad. La muestra que partici- pó en el experimento estaba compuesta por enfermos procedentes de una zona ru- ral y por enfermos procedentes de la capi- tal. Al cabo del experimento el médico contaba con todos los resultados. Era ade- más muy aficionado a las apuestas, y deci- dió apostar con un colega, utilizando los datos del experimento. La apuesta consis- tía en lo siguiente: El médico elige un tra- tamiento, y su colega extrae un historial clínico al azar entre las personas que han recibido ese tratamiento. Si el paciente en cuestión sobrevivió a la enfermedad, en- tonces el médico gana. Si el paciente falle- ció, entonces el médico pierde la apuesta. El colega observó que su compañero siem- pre apostaba por el tratamiento convencio- nal, y no por el nuevo. Sabiendo que su adversario había participado en el estudio, supuso consecuentemente que el médico conocía los datos, y por tanto jugaba con ventaja. Al cabo del tiempo, el médico cayó enfermo de la misma enfermedad. El cole- ga fue a visitarle, y quedó muy sorprendi- do al enterarse de que había elegido voluntariamente recibir el tratamiento nue- vo, en lugar del tratamiento convencional. Inmediatamente pensó que la enfermedad había afectado a su capacidad de racioci- nio. Con mucha delicadeza le preguntó: »¿Cómo es que has elegido el nuevo trata- miento para tu enfermedad? ¿No habías participado en el estudio clínico corres- pondiente?» »Efectivamente, y es esa la ra- zón de mi decisión. Definitivamente es el mejor tratamiento de los dos». »Pero, ¿cómo es que cuando apostábamos siempre ele- gías el tratamiento convencional?» »Pues e) Universidad Complutense de Madrid. (1) Esta historieta es una adaptación de la presentada en BLYTH, 1972. Reinkta de Educación, núm. 318 (1999), pp. 211-223 211

Upload: others

Post on 22-Mar-2020

2 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: LA PARADOJA DE SIMPSON Y LA INTERPRETACIÓN DE LOS …18ff96f4-d7a0-4ee2...Analicemos los datos del ensayo ilustrativo. Cuando se realizan las apuestas, podemos no saber si los datos

e--tTk~~~1ka

LA PARADOJA DE SIMPSON Y LA INTERPRETACIÓN DE LOS RESULTADOSDE LAS EVALUACIONES DEL RENDIMIENTO ACADÉMICO EN EL SISTEMA

EDUCATIVO

JOSÉ LUIS GAVIRIA (•)

Este artículo pretende alcanzar los siguien-tes objetivos: explicar en qué consiste laparadoja de Simpon; explicar que la para-doja de Simpson puede aparecer cuando lavariable dependiente de continua; resaltarque la interpretación de los resultados deuna evaluación puede ser errónea si estefenómeno se da; presentar un caso en elque dicha paradoja aparece en la recienevaluación de la Secundaría del SistemaEducativo Español, y comprobar que la co-rrecta interpretación de los resultados pue-de ser contraria de lo que prima faciepudiera parecer.

Un médico ' estuvo participando du-rante un tiempo en un experimento clínicopara probar la eficacia de un nuevo trata-miento para una enfermedad de una altatasa de mortalidad. La muestra que partici-pó en el experimento estaba compuestapor enfermos procedentes de una zona ru-ral y por enfermos procedentes de la capi-tal. Al cabo del experimento el médicocontaba con todos los resultados. Era ade-más muy aficionado a las apuestas, y deci-dió apostar con un colega, utilizando losdatos del experimento. La apuesta consis-tía en lo siguiente: El médico elige un tra-tamiento, y su colega extrae un historial

clínico al azar entre las personas que hanrecibido ese tratamiento. Si el paciente encuestión sobrevivió a la enfermedad, en-tonces el médico gana. Si el paciente falle-ció, entonces el médico pierde la apuesta.El colega observó que su compañero siem-pre apostaba por el tratamiento convencio-nal, y no por el nuevo. Sabiendo que suadversario había participado en el estudio,supuso consecuentemente que el médicoconocía los datos, y por tanto jugaba conventaja.

Al cabo del tiempo, el médico cayóenfermo de la misma enfermedad. El cole-ga fue a visitarle, y quedó muy sorprendi-do al enterarse de que había elegidovoluntariamente recibir el tratamiento nue-vo, en lugar del tratamiento convencional.Inmediatamente pensó que la enfermedadhabía afectado a su capacidad de racioci-nio. Con mucha delicadeza le preguntó:»¿Cómo es que has elegido el nuevo trata-miento para tu enfermedad? ¿No habíasparticipado en el estudio clínico corres-pondiente?» »Efectivamente, y es esa la ra-zón de mi decisión. Definitivamente es elmejor tratamiento de los dos». »Pero, ¿cómoes que cuando apostábamos siempre ele-gías el tratamiento convencional?» »Pues

e) Universidad Complutense de Madrid.(1) Esta historieta es una adaptación de la presentada en • BLYTH, 1972.

Reinkta de Educación, núm. 318 (1999), pp. 211-223

211

Page 2: LA PARADOJA DE SIMPSON Y LA INTERPRETACIÓN DE LOS …18ff96f4-d7a0-4ee2...Analicemos los datos del ensayo ilustrativo. Cuando se realizan las apuestas, podemos no saber si los datos

porque eligiendo ese tratamiento tenía másposibilidades de ganar». »Pero, ¿no quieredecir eso que ahora tienes menos prob-abilidades de sobrevivir?» —¡No, de ningu-na manera!— Esta respuesta casi convencióal colega de que el médico tenía afectadoel cerebro. Decidió no parecer grosero, ypor entretener un rato al enfermo le conce-dió el beneficio de la duda. —¿Puedes explicar-me como es posible eso?». —¡Naturalmente!»,respondió el enfermo. —Basta con que ob-serves con detenimiento la siguiente tabla,que casualmente tengo aquí (tabla I). Pue-des observar que con el tratamiento con-vencional aproximadamente el 46% de lospacientes sobrevivieron, mientras que delos que recibieron el tratamiento experi-mental, sólo el 11% sobrevivieron. ¡Me pa-reció la opción más lógica apostar por eltratamiento convencional!». »Claro, eso loentiendo perfectamente», —dijo el colegaalgo mosqueado. «De hecho sospechabaque tú tenías estos datos cuando hicimosnuestra apuesta. Sin embargo no entiendoporqué ahora que tienes que elegir trata-miento ¡no eliges también el convencio-nal!». Lo entenderás perfectamente cuandoveas la tabla II.

TABLA I

Tratamientoconvencional

Tratamientoexperimental

Fallecidos 5.950 9.005

Supervivientes 5.050 1.095

Puedes comprobar que cuando seaplicaron los dos tratamientos en el mediorural, el tratamiento experimental consi-guió una tasa de supervivencia de 0.1, con-tra 0.05263 del tratamiento convencional.En el medio urbano, el resultado fue de0.95, contra 0.5 del convencional. Esto meconvenció de que definitivamente el trata-miento experimental era el que me conve-nía. Es más, teniendo en cuenta que yo soyun paciente de medio urbano, y suponien-do que mis características son similares alresto de los sujetos de esa muestra, ¡misprobabilidades de supervivencia son del95%,

El colega se dio cuenta de que el mé-dico estaba en sus cabales, y aunque sinacabar de entender del todo el asunto, sedespidió cortésmente y pasó el resto deldía dando vueltas a las dichosas tablas.

A esta curiosa situación, se la conocecomo paradoja de Simpson. Ha sido des-crita y tratada en varios lugares (Simpson,1951; Blyth, 1972; Wainer, 1986). Tiene quever con la interacción de segundo ordenen las tablas de contingencia de 2x2x2.

Formalmente la paradoja de Simpsonconsiste en lo siguiente: Es posible que P(a I b) < P(a 115) a pesar de que P (a I -6c) >P (a 15c) y P (a I bU) > P (a I Como se-ñala Blyth (1972), intuitivamente pareceque tiene que ser que P (a I b) haya de seralgún valor intermedio entre P (a I bc) y P(a I bc), y que P (a I b) debiera ser algún va-lor intermedio entre P (a I bc) y P (a I bc) , yque P (a I b) debiera ser algún valor inter-medio entre P (a I bc) y P (a I bc).

Como sabemos, P (a I b) = P (a I bc) P(c I b) + P (a I bU) P(I b), y P (a I E) = P

TABLA II

MEDIO RURAL MEDIO URBANO

TratamientoConvencional

Tratamientoexperimental

9.000

TratamientoConvencional

5.000

Tratamientoexperimental

Fallecidos 950 5

Supervivientes 50 1.000 5.000 95

212

Page 3: LA PARADOJA DE SIMPSON Y LA INTERPRETACIÓN DE LOS …18ff96f4-d7a0-4ee2...Analicemos los datos del ensayo ilustrativo. Cuando se realizan las apuestas, podemos no saber si los datos

(a 115c) P (c 115) + P (a 113U) P (Z113). Comopodemos ver, el razonamiento intuitivo se-ría cierto, si los pesos P (clb) = P (c 1b), yP (lb) = P ("El b). Cuando ese no es elcaso, resulta que b y c no son inde-pendientes, y es su interacción la que dalugar a la paradoja mencionada.

Simpson describió este caso con tresvariables dicotómicas. Es habitual quecomo en el ejemplo de Blyth, una de ellasactúa como variable dependiente en unexperimento. Pero la paradoja también seproduce cuando dicha variable dependien-te es continua. Calcular las proporcionescomo estimadores de las probabilidades eslo mismo que en los datos de las tabla I yII asignar un cero a los casos de falleci-miento, y un uno a los de supervivencia.Tendríamos entonces para cada casilla lasmedias que aparecen en las tablas III y IV,donde podemos apreciar que se produce

TABLA III

Tratamientoconvencional

Tratamientoexperimental

Resultados 0,45909091 0,10841584

la paradoja. Nada nos impide utilizar unacodificación distinta de la dicotómica, yobtener por tanto una variable dependien-te continua y unas tablas similares a las an-teriores en las que también se produce laparadoja de Simpson.

Es muy importante considerar la posi-bilidad de la aparición de la paradoja deSimpson al interpretar resultados de eva-luación 2 del rendimiento. No hacerlo asíllevaría necesariamente a la mala interpre-tación de los datos.

INTERPRETACIÓN DINÁMICA DE LA PA-RADOJA DE SIMPSON

Como hemos visto en el apartado anteriortambién puede darse la paradoja de Simpsoncuando la variable dependiente es una varia-ble continua. Las propiedades de la medianos ayudan a entender mejor la naturalezadel problema, y a darnos cuenta de que esposible que aparezca también en diseñosen los que las variables independientes noson dicotómicas.

En la tabla V, tenemos los datos corres-pondientes a las medias de rendimiento enmatemáticas en las pruebas de la evalua-

TABLA IV

MEDIO RURAL MEDIO URBANO

Tratamientoconvencional

Tratamientoexperimental

Tratamientoconvencional

Tratamientoexperimental

Resultados 0,05 0,1 0,5 0,95

(2) Un revisor anónimo mantiene que sólo puede hablarse de paradoja cuando los datos proceden de un

experimento y no cuando proceden de una evaluación. Según el diccionario una »paradoja es una especie ab-

surda o que lo parece». También es una »aserción inverosímil o falsa que se presenta con apariencias de verda-

dera». Analicemos los datos del ensayo ilustrativo. Cuando se realizan las apuestas, podemos no saber si los

datos proceden de una evaluación o de un experimento. La paradoja se plantea cuando hacemos apuestas so-

bre esos datos. El resultado sería el mismo fuese cual fuese la procedencia de los datos. Si sólo tenemos en

cuenta la tabla I, parece que el mejor tratamiento es el convencional. Si tenemos en cuenta la tabla II, nos da-

mos cuenta de que es justo lo contrario. La consideración de la información de la tabla I en exclusiva nos em-

puja a hacer una aseveración aparentemente acertada, que al analizar la tabla 11 se demuestra errónea. En esto

estriba la paradoja. No importa de donde procedan los datos.

213

Page 4: LA PARADOJA DE SIMPSON Y LA INTERPRETACIÓN DE LOS …18ff96f4-d7a0-4ee2...Analicemos los datos del ensayo ilustrativo. Cuando se realizan las apuestas, podemos no saber si los datos

ni 2

o'712

n22n21

o o

V22

ción de la secundaria, 1997, de los alum-nos españoles de 16 años. Como resultadode la aplicación de la reforma del sistemaeducativo español, algunos centros ya ha-bían implantado la nueva modalidad curri-cular, (Educación Secundaria Obligatoria,4 Q de ESO), mientras que en otra parte im-portante de los mismos todavía seguíanimpartiendo el curriculum anterior, 29 cur-so de Mil'. También en este grupo de edadexisten otras dos vías curriculares, 2Q deFormación Profesional de ler grado, y 2Qcurso de REM (Reforma Experimental delas Enseñanzas Medias).

Los datos de la tabla V, correspondena las medias de rendimiento en las pruebasde matemáticas de 4Q de ESO y 2.2 de BUPde centros públicos y privados. Las fre-cuencias de cada casilla han sido variadaspara ilustrar el problema. Más adelante se

incluyen las frecuencias reales con las quese apreciará una variante del problemamencionado con más de dos categorías enuna de las variables de clasificación.

En la ilustración 1 tenemos repre-sentados los datos de la tabla V. Las me-dias de los centros de naturaleza pública yprivada se representan como puntos deuna barra rígida, mientras las frecuenciasrepresentan a la masa que se apoya enesos puntos. De esta manera, si la frecuen-cia corresponde a la masa, entonces lamedia es centro de gravedad del sistema.Queda claro en esta ilustración que es per-fectamente posible que las medias de 21 y22 (4Q de ESO y 2º de BUP privado) seansuperiores a las de 11 y 12 (4 Q de ESO y 2Qde BUP público) respectivamente, y que almismo tiempo la media de la fila I sea su-perior a la media de la fila II.

TABLA V

49 ESO Free. 2 9 BUP Free. Mediaglobal

PÚBLICO 268,13 278,03 276,558957

2284 13084 15368

PRIVADO 270,68 285,97 275,887535

3716 1920 5636

6000 15004 21004

ILUSTRACIÓN I

214

Page 5: LA PARADOJA DE SIMPSON Y LA INTERPRETACIÓN DE LOS …18ff96f4-d7a0-4ee2...Analicemos los datos del ensayo ilustrativo. Cuando se realizan las apuestas, podemos no saber si los datos

El que ocurra esta paradoja es posiblesiempre que se den ciertas condiciones.La determinación de cuáles son esas con-diciones es importante en dos momentosdistintos. Por una parte, cuando se estáplanificando un estudio; tanto de evalua-ción, como un experimento. En la evalua-ción del sistema educativo ocurre que serealizan periódicamente mediciones delos rendimientos de los alumnos con la in-tención de llevar a cabo comparacionesentre evaluaciones sucesivas. Cuando losinstrumentos de medida son suficiente-mente fiables los cambios observadospueden atribuirse a cambios reales pro-ducidos en el sistema. Sin embargo loscambios en el sistema educativo se pro-ducen de forma muy lenta y paulatina. Esmuy difícil que la diferencia en los valo-res medios de rendimiento entre dos eva-luaciones sucesivas sea estadísticamentesignificativa. Por ello, dados los resultadosde una evaluación tenemos una estimaciónrazonable de los valores medios que se ob-tendrán en la siguiente en cada estrato. Sinembargo, cuando un sistema educativo seencuentra en un periodo de transición en-tre dos líneas curriculares distintas, en unbreve periodo de tiempo nos encontramoscon que la composición de los estratos dela muestra debe cambiar muy sustancial-mente de una a otra evaluación. Esto nosplantea una situación en la que es posiblede antemano saber si se da la posibilidadde que en la próxima evaluación aparezcala paradoja de Simpson.

También puede resultar interesantecuando se han recogido los datos y se vana interpretar. Eso nos sitúa en dos condi-ciones distintas. Cuando conocemos lostotales marginales de una de las variablesde clasificación, y cuando conocemos loscuatro totales marginales. El estudio deesas condiciones lo realizamos para elcaso de dos variables de clasificación di-cotómicas, pero puede generalizarse a va-riables con más niveles.

A. Dado el peso total de los dos con-juntos, y las medias de cada categoría en losdos conjuntos, decidir:

1. Si es posible la paradoja en esos conjuntos2. Valores de las frecuencias en una de lascategorías en uno de los conjuntos que ha-cen posible la paradoja.3. Dado un valor dentro del intervalo ante-rior, decidir el conjunto de valores en unacategoría del otro conjunto que hace posiblela paradoja.B. Dados los cuatro totales marginales,

determinar:1. Si puede haber paradoja2. Qué valores de una casilla hacen posiblela paradoja.En los párrafos siguientes se analizan

cada uno de estos puntos.A.1 Dadas las medias de cada categoría

se decide inmediatamente si existe algunadistribución de frecuencias que haga queaparezca la paradoja. Para ello tiene quedarse que:

Xi �. Fc21 y 5E 12 5E22

mm (1-21,5Z22) max (71],g12)A.2 Dada la frecuencia total de los

conjuntos, podemos fácilmente determi-nar en una de las categorías de uno de losconjuntos, cuáles son los valores máximoso mínimos que su frecuencia puede adop-tar para que se produzca la paradoja. Su-pongamos que el conjunto 1 es aquél enel que las medias de las categorías sonmenores.

Inspeccionando la ilustración 1 vemosque para que la paradoja se produzca, lasdos medias 5e, y 3 tienen que estar com-prendidas en la región determinada por Vc12y R21,o en general entre max (111,R12) y mmn(21, /22).

La categoría 12 puede tener el máximode frecuencia. La categoría 11 ppede tenercomo máximo aquella frecuenciá que haceque la media rc, sea mayor que x21.

n/1012i-Rit) = (N1. - ni - F[21) dedonde

215

Page 6: LA PARADOJA DE SIMPSON Y LA INTERPRETACIÓN DE LOS …18ff96f4-d7a0-4ee2...Analicemos los datos del ensayo ilustrativo. Cuando se realizan las apuestas, podemos no saber si los datos

NI (r121 T(22) N1(12 —

T(11)

n„—

N, _ (1)(x 12 -- k

11)

Esta es condición necesaria aunque nosuficiente para que se produzca la parado-ja. Si tornamos como referencia otras fre-cuencias, las condiciones equivalentesserían

rI 3

11)n 1 2 > N (12

,

@Tu — T111)

(3722 - X

21)

(1-12 - x

21)

CX- 12 —T(21)A.3 Una vez determinado el valor de

la frecuencia en una de las categorías deuno de los conjuntos, y puesto que haydos totales marginales que no están deter-minados, entonces tenemos todavía otrogrado de libertad. Supongamos que esaprimera frecuencia se ha determinado enel conjunto en el que las medias son infe-riores. Para que se produzca la paradojaentonces el valor mínimo que puede tomarn,, es tal que la medida x, sea menor queXI.

1121 (x1. - x41 ) = n22 (x2.2 - x l.) Y n22 = N2 - n21De (2) se deduce que

n21 = N, (22 -_XI) y como

(x„ — x11)

n„„ +n,A2)

( 5111 -11 12) N1 (51., xi2) 2 ,n > N (3)— („ 121) n"N i („ )72.)

o lo que es lo mismo, que

( TI2 — X

21) N, —n22 -< N 2 íz.- n

"V122 5¿21) Ni (R22 — Y(21)

Alternativamente, si el valor que fuedeterminado en primer lugar hubiese sidodel conjunto 2, entonces los valores corres-pondientes del conjunto 1 serían

x21)n„ <N1 — + n

(Y(12 — 1)

o bien

n> N n22N (-12 1

lA l2 51-112 2 kX 12 x11)

Naturalmente si se pretende evitar laparadoja los valores de las frecuencias de-berían ser los complementarios de las co-tas indicadas.

B. Un problema distinto es el que seplantea cuando los totales marginales es-tán completamente determinados. Es elcaso en el que ya se han recogido todoslos datos de una evaluación, o de un expe-rimento. Entonces podemos determinar:

1. Si puede haber paradoja con esos tota-les marginales.2. Qué valores de frecuencia de una casi-lla, ya que sólo hay un grado de libertad,hacen posible la paradoja.B.1 Para lo primero, suponemos que

N 1 >=N2 . Entonces n„ tiene que ser sufi-cientemente pequeño. Pero dados los tota-les marginales, n„ tiene que ser mayor oigual a N, - N2 ya que N, = n ll + n21 , y n21no puede ser mayor que N2.

En consecuencia una condición nece-saria para que se pueda producir la para-doja es que

(N — N2.) < N, (3 12 - 5121)

071 12 - 5111)

Y en general entonces n1 1 tiene cornolímites los dos extremos de la anterior de-sigualdad.

B.2 En el segundo punto, si los tota-les marginales permiten la paradoja, se tra-ta de ver cuál es el valor máximo quepuede tomar n„ para que ésta de hecho seproduzca.

El valor más pequeño de la frecuenciade la casilla 11 está determinada por el valormás grande que puede haber en la frecuen-cia de 21. Y eso es el min(N ,, N, ). Una vezdeterminada)7, se produce la paradoja six, < x 1 , es decir como n21 = N - n, susti-tuyendo en la (3), y operando obtenemosque para que se produzca la paradoja

n22 15- N2

n21 > N, (X12 — 5122)

, o bien

, o bien

(2)

(

N,

— se deduce que

para que se produzca la paradoja tiene queocurrir que

(21 - 5-1 11) NI ( c 2i -22)

216

Page 7: LA PARADOJA DE SIMPSON Y LA INTERPRETACIÓN DE LOS …18ff96f4-d7a0-4ee2...Analicemos los datos del ensayo ilustrativo. Cuando se realizan las apuestas, podemos no saber si los datos

V(22 - 5112) N — NI 2("22 - "21) n„ <

N2 I I - 3112)

N1 (37111 - (21)

Naturalmente para que ésta no seproduzca el valor de n„ tiene que ser sucomplementario.

G.H. Haggstrom, (citado en Blyth,1972) señala que la paradoja de Simpsones la forma más simple de la paradoja dela falsa correlación. «Un dominio x estádividido en cortos intervalos, en cadauno de los cuales y es una función linealde x con pendiente negativa. Pero lossegmentos van subiendo paulatinamentecuando avanzamos hacia la derecha, deforma que cuando consideramos la rela-ción global entre x e y, y es prácticamenteuna función lineal de x con una fuerte co-rrelación positiva.» (Véase la ilustración II).

ILUSTRACIÓN II

70

60

50

40

30

20

/0

o20

40

63

80

ICO

OTROS PROBLEMAS DE INTERPRETA-CIÓN EN DISEÑOS 2 x 2

La paradoja de Simpson no es el únicocaso en el que puede ser un error realizarcomparaciones de las medias globales.Como regla general, siempre que existauna interacción entre al menos dos varia-bles de clasificación, la diferencia entre lasmedias globales de las categorías de unade las variables puede enmascarar los ver-daderos resultados.

Si tenemos dos variables de clasifica-ción, A y B, con dos niveles cada una, A, yA2 y B, y B2, existe interacción si la diferen-cia de medias en la variable dependienteentre los niveles de A, y A, es de distintamagnitud en el nivel B, que en el nivel B2.

Al A2

B1 11 12

B2 21 22

Si se da *nteracción entre las variablesde clasificación, ésta puede ser básicamentede dos tipos.

ILUSTRACIÓN III

I X

4

ANNo

x„

En el primer tipo las diferencias entre lascategorías varían en su magnitud, pero no enel sentido. Así por ejemplo en la ilustraciónIII, vemos que R2I III? Y 122 312, aunquela diferencia entre las dos últimas es ma-yor que entre las dos primeras. En estecaso la diferencia entre las medias globa-les, - )72. no representa de manera exac-ta la magnitud de las diferencias entre lospares de medias de las columnas, pero síque mantiene el sentido. Es decir, al inter-pretar estos resultados podemos aceptarque la fila II superior a la I, aunque no po-demos hacer conjeturas acerca de las mag-nitudes de esas diferencias, excepto en suvalor medio.

En el segundo tipo de interacción lasdiferencias entre las medias cambian desentido al cambiar de una a otra categoríade una de las variables de clasificación.

X12

217

Page 8: LA PARADOJA DE SIMPSON Y LA INTERPRETACIÓN DE LOS …18ff96f4-d7a0-4ee2...Analicemos los datos del ensayo ilustrativo. Cuando se realizan las apuestas, podemos no saber si los datos

Dadas las medias de cada casilla, el va-lor de las cotas de las frecuencias es muysimilar al caso de A.2 y A.3.

Podemos ver en la ilustración IV que L 1 >III , pero TC22 < k- 12 . En este caso la diferencia

- 5Z2. no representa ni la magnitud ni elsentido de los verdaderos efectos.

ILUSTRACIÓN IV

La paradoja de Simpson es un caso si-milar al que se da en la interacción del tipo1, la de la ilustración III, y tiene mucha im-portancia porque puede darse cuando nohay interacción en absoluto. En ambos ca-sos lo más prudente es realizar las compa-raciones con los datos desagregados.

GENERALIZACIÓN A MÁS DE DOSCATEGORÍAS

A partir de la ilustración I se entiende fácil-mente que la generalización a más de doscategorías en una de las variables de clasi-ficación es inmediata. En la ilustración Vvemos cómo sería un caso con tres nivelesen una de las variables. En una tabla cleeste tipo tendríamos cuatro grados de li-bertad si sólo dos totales marginales estu-viesen determinados, o bien dos gradosde libertad si estuviesen definidos los cin-co totales marginales.

ILUSTRACIÓN V

CUASI-PARADOJA

En el caso en el que una cle las variables declasificación tiene tres o más categorías, pue-de darse una situación como la de la ilustra-ción VI.

ILUSTRACIÓN VI

o

En ella uno de los conjuntos tieneuna media superior en dos categoríase inferior en una tercera. Se trata portanto de un caso en el que puede exis-tir interacción entre las variables de cla-sificación. Llamamos a esta situacióncuasi-paradoja ya que no es la magnitudde las diferencias de las medias la quedetermina por sí sola la situación. Apa-rentemente esta situación no es tan llama-tiva como el verdadero caso de Simpson.Sin embargo, tanto en un caso como enotro la media general está enmascarandolos verdaderos efectos.

Es evidente que cuando hay interac-ción entre las variables de clasificación,es desaconsejable la utilización cle lasmedias generales. Pero no es el únicocaso. Como hemos visto con la paradojay la cuasi-paradoja de Simpson, es posi-ble que no haya interacción entre lasvariables y que sin embargo sea desa-consejable la presentación de los datosagregados.

218

Page 9: LA PARADOJA DE SIMPSON Y LA INTERPRETACIÓN DE LOS …18ff96f4-d7a0-4ee2...Analicemos los datos del ensayo ilustrativo. Cuando se realizan las apuestas, podemos no saber si los datos

ALGUNOS EJEMPLOS EN LAEVALUACIÓN DEL RENDIMIENTO ENSECUNDARIA EN EL SISTEMAEDUCATIVO ESPAÑOL 3

En el momento en el que se evaluó la en-señanza secundaria en España, (1997), enlos cursos modales correspondientes a 16arios, coexistían cuatro modalidades curri-culares con distintos niveles de implanta-ción. Se trata de 2Q de BUP, 4Q de ESO, 2Qde REM y 2Q de FP1. Las modalidades deY de BUP y Y de REM estaban en proce-so de desaparición. Pero mientras la últi-ma sólo subsistía residualmente en una clelas comunidades evaluadas, Y de BUP eratodavía la opción mayoritaria en la mayo-ría de ellas, mientras que paulatinamentese estaba implantando 4 Q de ESO.

Cuando se analizan los datos de losalumnos de 16 años en las distintas ma-terias, (tabla VI), vemos que la diferenciaes estadísticamente significativa a favorde los centros públicos, y sólo en gramá-tica y literatura esa diferencia es a favorde los centros privados.

Cuando analizamos con más deta-lle estos datos vemos que de las cincomaterias evaluadas, en cuatro de ellas, cuan-do hay diferencias significativas es favor delos centros privados (tablas VII a XI). En lamateria restante, matemáticas, mientras quela diferencia aparente a nivel global era de3,28 puntos a favor de los centros públicos,al desglosar los datos aparece una diferenciade 7,05 puntos a favor de los privados en se-gundo de BUP, de 4,34 a favor de los públi-cos en Y de FP, y una diferencia de 3,64puntos a favor de los públicos significativasólo al nivel del 5% en 4Q de ESO.

El efecto es ciertamente espectacularen ciencias de la naturaleza y en geografíae historia. En la primera de estas dos mate-rias la diferencia aparente es de 5,68 pun-tos a favor de los centros públicos. Cuandoanalizamos por líneas curriculares vemosque las diferencias significativas son de10,25 puntos y de 15,34 puntos ¡a favor delos centros privados!

Algo similar ocurre en geografía e histo-ria. A una diferencia aparente no significativade 0,33 puntos a favor de los centros públi-

TABLA VI

Dif. SignificativaA favor de:

Públicos Privados Diferencia

ComprensiónLectora

271,46 270,36 1,1 Públicos

Gramática yLiteratura

266,24 269,25 -3,01 Privados

Matemáticas 264,25 260,97 3,28 Públicos

Ciencias de laNaturaleza

268,87 263,19 5,68 Públicos

Geografía eI listoria

269,9 269,57 0,33 No

(3) Ejemplos tornados de DE LA ORDEN y otros (1998).(4) Curso modal correspondiente a una edad es aquél en el que la mayoría de los alumnos tienen esa edad.

219

Page 10: LA PARADOJA DE SIMPSON Y LA INTERPRETACIÓN DE LOS …18ff96f4-d7a0-4ee2...Analicemos los datos del ensayo ilustrativo. Cuando se realizan las apuestas, podemos no saber si los datos

TABLA VIIComprensión lectora

Públicos Privados Diferencias

Dif. Significativa

a favor de:

r BUP 281,68 286,34 -4,66 Privados

42 ESO 273,1 271,35 1,75 No

r FP 246,22 246,27 -0,05 No

TABLA VIII

Gramática y literatura

Públicos Privados Diferencias

Dif. Significativa

a favor de:

r BUP 289,26 298,74 -9,48 Privados

42 ESO 264,96 265,32 -0,36 No

r FP 221,72 2226,76 -5,04 Privados

TABLA IXMatemáticas

Públicos Privados Diferencias

Dif. Significativa

a favor de:

r BUP 276,86 283,91 -7,05 Privados

42 ESO 267,27 263,63 3,64 Públicos(Sólo a15%)

22 FP 230,26 225,92 4,43 Públicos

TABLA XCiencias de la Naturaleza

Públicos Privados Diferencias

Dif. Significativa

a favor de:

r BUP 271,21 281,46 -10,25 Privados

42 ESO 273,79 289,13 -15,34 Privados

r FP 226,46 225,73 0,73 No

TABLA XIGeografía e Historia

Públicos Privados Diferencias

Dif. Significativa

a favor de:

r BUP 278,92 289,92 -11 Privados

42 ESO 271 281,7 -10,7 Privados

22 FP 232,3 232,91 -0,61 No

220

Page 11: LA PARADOJA DE SIMPSON Y LA INTERPRETACIÓN DE LOS …18ff96f4-d7a0-4ee2...Analicemos los datos del ensayo ilustrativo. Cuando se realizan las apuestas, podemos no saber si los datos

cos corresponden dos diferencias muy sig-nificativas de 11 y de 10,7 puntos en 29 deBUP y 49 de ESO respectivamente a favorde los centros privados.

En la tabla XIII aparece la distribuciónde frecuencias de cada estrato que diocomo resultado los efectos paradójicos re-señados.

En resumen, una vez analizadas condetenimiento las líneas curriculares vemosque de diez diferencias estadísticamentesignificativas ocho son a favor de los cen-tros privados, y dos, una de ellas sólo al ni-vel del 5%, a favor de los centros públicos.

Es evidente que las conclusiones a lasque se puede llegar son radicalmente dis-tintas cuando se tiene en cuenta la exist-encia de la paradoja de Simpson.

También a un nivel mayor de desagre-gación se producen interacciones que es nece-sario atender para explicar el verdaderosignificado de los datos. Mientras que las dife-rencias observadas por materia y curso en-tre centros públicos y privados en cada

una de las comunidades autónomas esconsistente 5 con los datos de las tablas VIIa XI en comprensión lectora, gramática yliteratura, ciencias de la naturaleza y geo-grafía e historia, en matemáticas de 4 9 deESO se da también una interacción con lavariable comunidad autónoma. Así vemosen la tabla XII que hay cinco comunidadesen las que la diferencia es a favor de loscentros públicos, y seis en las que las dife-rencias son a favor de los centros privado.Además, esas diferencias varían desde 25puntos a favor de los centros privados (As-turias), hasta 17 puntos a favor de los pú-blicos (Cantabria) (tabla XII). Todo sonclaros ejemplos de cómo quedan enmasca-rados los verdaderos efectos si se agreganindiscriminadamente los datos.

Dado que el nivel de implantación delcurso 49 de la ESO es muy distinto en unasy otras comunidades, está claro que nopuede hacerse una comparación globalentre centros públicos y privados referidosa este curso.

TABLA XIIMatemáticas en 4 9 de ESO por comunidades autónomas

GRUPO DE EDADCOMUNIDAD

AUTÓNOMA DELCENTRO

TITULARIDAD MATEMÁTIC.AS49 DE ESO

Media

16 AÑOS ARAGÓN PÚBLICO 286,94PRIVADO 281,71

ASTURIAS PÚBLICO 265,24

PRIVADO 301,21

BALEARES PÚBLICO 257,86PRIVADO 264,81

(5) Sólo en Baleares, en Extremadura (Comprensión Lectora y Matemáticas), y en Navarra (Matemáti-cas), ocurre que sean los centros públicos superiores significativamente a los privados en 2° de BUP. En lasdos primeras comunidades se da también el caso de que en ellas los centros privados son superiores a lospúblicos en todas las materias evaluadas en 40 de ESO, lo que está señalando probablemente diferencias enel ritmo de implantación de la ESO entre estas comunidades y las demás. En el caso de Navarra no se habíaimplantado 40 de ESO en ningún centro en el momento de la evaluación.

221

Page 12: LA PARADOJA DE SIMPSON Y LA INTERPRETACIÓN DE LOS …18ff96f4-d7a0-4ee2...Analicemos los datos del ensayo ilustrativo. Cuando se realizan las apuestas, podemos no saber si los datos

TABLA XII (cont.)Matemáticas en 4 2 de ESO por comunidades autónomas

CANTABRIA PÚBLICO 272,11PRIVADO 255,75

LA MANCHA PÚBLICO 270,01PRIVADO 282,36

CAS11 L. LEÓN PÚBLICO 284,56PRIVADO 276,28

CATALUÑA PÚBLICO 254,79PRIVADO 255,18

CEUTA/MELILLA PÚBLICO 243,93PRIVADO 266,86

EXTREMA PÚBLICO 265,06PRIVADO 288,28

GALICIA PÚBLICO 247,32

LA RIOJA PÚBLICO 288,47PRIVADO 286,68

MADRID PÚBLICO 273,67PRIVADO 262,88

MURCIA PÚBLICO 257,59PRIVADO 246,02

VALENCIA PÚBLICO 252,10

TABLA XIIINúmero de alumnos por línea curricular y titularidad del centro 6

CursoTitularidad del

centro

Alumnos en Comp.Lect., Gram. y Lit. y

Mat.

Alumnos en CCNN yGeo. e Hist.

Q 2 BUP Públicos 6852 622

Privados 3920 479

42 ESO Públicos 8238 1541

Privados 927 57

º 2 FP Públicos 3257 214

Privados 2635 273

(6) Las frecuencias reseñadas son las resultantes de ponderar el tamaño del estrato por el peso que a di-cho estrato le corresponde corno corrección por submuestreo.

222

Page 13: LA PARADOJA DE SIMPSON Y LA INTERPRETACIÓN DE LOS …18ff96f4-d7a0-4ee2...Analicemos los datos del ensayo ilustrativo. Cuando se realizan las apuestas, podemos no saber si los datos

CONCLUSIONES

Cuando se presentan resultados de la eva-luación del rendimiento de los alumnos enel sistema educativo, es importante poderdeterminar las diferencias asociadas conciertas variables de clasificación. Por estarazón el diseñar la muestra se estratificanlos datos en función de las variables consi-deradas de más interés. En la presentaciónde los resultados se tiende a hacer hinca-pié en los efectos principales de las varia-bles de clasificación, y en algunasinteracciones de primer orden, por razonesde parsimonia. Es sabido que si existe unainteracción entre las variables de clasifica-ción, la presentación de los efectos princi-pales en exclusiva puede enmascarar losverdaderos efectos. Pero incluso cuandono hay interacción entre las variables declasificación respecto de la variable depen-diente, pueden darse casos como el de laparadoja de Simpson en los que la interac-ción se da respecto de las frecuencias. Tan-to en la paradoja de Simpson en diseñosde 2x2, 2x3 ó más, como en lo que hemosdenominado cuasi-paradoja de Simpson,en diseños de 2x3 ó más, la presentaciónde sólo los efectos principales enmascarael verdadero sentido de los efectos prima-

facie (aparentes) de las variables de clasifi-cación.

Se han presentado las condiciones enlas distribuciones de frecuencias que posi-bilitan la aparición de la paradoja en los di-seños 2x2, y se han ilustrado los efectos dela cuasi-paradoja con datos tomados de laevaluación del rendimiento académico enel sistema educativo español.

BIBLIOGRAFÍA

BLYTH, C. R. (1972) «On Simpson's Paracloxand the Sure-Thing Principie». Journalof the American Statistical Association,V. 67, 338, pp. 364-366

ORDEN Hoz, A. de la y otros (1998) 2. »Losresultados escolares». Diagnóstico delsistema educativo 1997. Estudios e in-formes INCE, Ministerio de Educacióny Cultura. Madrid.

SINIPSON, E. H. (1951) »The interpretation ofInteraction in Contingency Tables».Journal of tbe Statistical Society, SeriesB, V. 13, pp. 238-241

WAINER, H. (1986) «Minority Contributionsto the SAT Score Turnaround: Anexample of Simpson's Paradox». Jour-nal of Educational Statistics, V. 11, 4,pp. 239-244.

223