pardo sanmartin analisis de datos vol i capitulo 2

30
 2 Conceptos previos Ya en el capítulo anterior han empezado a aparec er algunas ideas fundamentales relacionadas con el análisis de datos (niveles de indagación, escalas de medida). En este ca pítulo continua- remos revisando algunos conceptos básicos (variable, población, muestra, parámetro, estadís- tico, muestreo) y ofreciendo una exposición resumida de la teoría de la probabilidad, la cual, según tendremos ocasión de constatar repetidamente, constituye el argumento matemático en el que se basan gran parte de los procedimientos estadísticos que estudiaremos en los próxi- mos capítulos. Tipos de variables Una variable es la representación numérica de una característica some tida a medición. Reci-  be ese nombre porque, al medir una característica en un conjun to de elementos (por ejemplo, la altura en un grupo de sujetos), los valores que se obtienen no son idénticos en todos los elementos medidos (las alturas de los sujetos varían). Normalmente, la característica medida (la altura) también recibe el nombre de variable, a unque hay quien prefiere reservar el término  para el resultado de la medición (los valores obtenidos al medir la altura). Los niveles o escalas de medida descritos en el capítulo anterior sirven para hacer una pri- mera clasificación de los diferentes tipos de varia bles. En principio, podríamos decir que exis- ten tantos tipos de variables como escalas o niveles de medida: nominal, ordinal, de intervalos y de razón. Pero las consideraciones teóricas del capítulo anterior deben ser revisadas cuando se adopta un punto de vista práctico. Por un lado, la distinción entre medidas de intervalos y de razón carece por completo de relevancia para el anális is de datos: aunque las operaciones aritméticas que tiene sentido hacer c on los números que se obtienen con esas dos medidas no son las mismas, las operaciones estadísticas sí lo son (en estadística se suele trabajar con dis- tancias; y eso convierte en irrelevante el hecho de que el cero de la escala sea absoluto o no). Por otro lado, las reflexiones ya hec has en relación con la medida ordinal ponen de manifiesto que existen serios inconvenientes para asumir que todas las variables teóricamente ordinales son del mismo tipo. Estas consideraciones (basadas en las reflexiones hechas en el capítulo anterior sobre el rol de las escalas de medida) justifican, en nuestra opinión, una clasificac ión de los diferentes tipos de variables en sólo dos: categóricas y cuantitativas.

Upload: fotocopias-azul

Post on 04-Nov-2015

9 views

Category:

Documents


0 download

DESCRIPTION

cap 2

TRANSCRIPT

  • 2Conceptos previos

    Ya en el captulo anterior han empezado a aparecer algunas ideas fundamentales relacionadascon el anlisis de datos (niveles de indagacin, escalas de medida). En este captulo continua-remos revisando algunos conceptos bsicos (variable, poblacin, muestra, parmetro, estads-tico, muestreo) y ofreciendo una exposicin resumida de la teora de la probabilidad, la cual,segn tendremos ocasin de constatar repetidamente, constituye el argumento matemtico enel que se basan gran parte de los procedimientos estadsticos que estudiaremos en los prxi-mos captulos.

    Tipos de variablesUna variable es la representacin numrica de una caracterstica sometida a medicin. Reci-be ese nombre porque, al medir una caracterstica en un conjunto de elementos (por ejemplo,la altura en un grupo de sujetos), los valores que se obtienen no son idnticos en todos loselementos medidos (las alturas de los sujetos varan). Normalmente, la caracterstica medida(la altura) tambin recibe el nombre de variable, aunque hay quien prefiere reservar el trminopara el resultado de la medicin (los valores obtenidos al medir la altura).

    Los niveles o escalas de medida descritos en el captulo anterior sirven para hacer una pri-mera clasificacin de los diferentes tipos de variables. En principio, podramos decir que exis-ten tantos tipos de variables como escalas o niveles de medida: nominal, ordinal, de intervalosy de razn. Pero las consideraciones tericas del captulo anterior deben ser revisadas cuandose adopta un punto de vista prctico. Por un lado, la distincin entre medidas de intervalos yde razn carece por completo de relevancia para el anlisis de datos: aunque las operacionesaritmticas que tiene sentido hacer con los nmeros que se obtienen con esas dos medidas noson las mismas, las operaciones estadsticas s lo son (en estadstica se suele trabajar con dis-tancias; y eso convierte en irrelevante el hecho de que el cero de la escala sea absoluto o no).Por otro lado, las reflexiones ya hechas en relacin con la medida ordinal ponen de manifiestoque existen serios inconvenientes para asumir que todas las variables tericamente ordinalesson del mismo tipo. Estas consideraciones (basadas en las reflexiones hechas en el captuloanterior sobre el rol de las escalas de medida) justifican, en nuestra opinin, una clasificacinde los diferentes tipos de variables en slo dos: categricas y cuantitativas.

  • 34 Anlisis de datos (vol. I)

    Llamamos variables categricas a las mediciones resultantes de aplicar una escala nomi-nal (sexo: hombre, mujer; tipo de tratamiento: A, B, control; resultado del tratamiento: recu-perados, no recuperados; resultado de un ensayo: acierto, error; tipo de metas motivacionales:aprendizaje, ejecucin; etc.). Se incluyen aqu las variables que, aun siendo ordinales, slotienen unas pocas categoras distintas (clase social: baja, media-baja, media, media-alta, alta;nivel de estudios: primarios, secundarios, medios, superiores; etc.).

    Llamamos variables cuantitativas a las mediciones que resultan al aplicar una escala deintervalos o de razn (la temperatura medida en grados Celsius, la altura medida en cm, elpeso medido en kg, el tiempo de reaccin medido en milisegundos, el nmero de aciertos enuna prueba de rendimiento, etc.). Incluimos aqu las variables que, aun no alcanzando el nivelde medida de intervalos (como ocurre, por ejemplo, con las puntuaciones en una escala de do-lor percibido), no est claro que puedan reducirse a un nivel de medida estrictamente ordinal.Esta ltima afirmacin es especialmente relevante si se tiene en cuenta que en muchas reasde conocimiento se utilizan escalas para medir actitudes, satisfaccin, habilidades, emociones,calidad de vida, estado de salud percibido, etc. Este tipo de escalas arrojan, en teora, medicio-nes ordinales y, por tanto, variables tambin ordinales, pero de ese tipo de variables que yahemos calificado como no estrictamente ordinales y, por tanto, de las que, en la prctica, pue-den tratarse como si en realidad fueran cuantitativas. Podramos decir que las herramientasestadsticas que permiten obtener informacin til con estas variables que estamos calificandode no estrictamente ordinales son las herramientas diseadas para analizar variables cuanti-tativas (de intervalos o de razn). Y no olvidemos que uno de los principales objetivos delanlisis es el de extraer informacin til de los datos.

    Las variables cuantitativas pueden ser discretas o continuas. Una variable se consideradiscreta cuando entre dos valores consecutivos no puede darse un valor intermedio; ste esel caso de variables como el nmero de hijos o la proporcin de aciertos en un test (se puedentener 2 o 3 hijos, pero no 2,7; y la proporcin de aciertos en un test toma valores discretos,aunque tenga decimales, porque procede del nmero de aciertos, que es una variable discreta).Una variable se considera continua cuando entre dos valores consecutivos siempre es posibleencontrar un valor intermedio; ste es el caso de variables como la edad o los tiempos de reac-cin (se puede tener 21 o 22 aos, pero tambin 21,3 o 21,34571; el nmero de decimales de-pende de la precisin que seamos capaces de conseguir). En la prctica, dado que la precisincon la que es posible medir tiene sus limitaciones y que pretender medir con una precisinilimitada no tiene ningn sentido, todas las variables son, de hecho, discretas. No obstante,la distincin entre variables discretas y continuas tiene su importancia terica pues, segn ve-remos, los modelos de probabilidad diseados para uno y otro tipo de variables tienen suspeculiaridades.

    Para poder trabajar cmodamente con variables es importante estar familiarizado con lanotacin que utilizaremos. Por lo general, a las variables las representaremos con letras latinasmaysculas: X, Y, Z . Y para distinguir una variable de los valores concretos que toma, aadi-remos un subndice: Xi, Yi, Zi. El subndice no tiene nada que ver con el valor concreto quetoma la variable, sino con la posicin que ocupa ese valor en el conjunto de valores de lavariable: X1 se refiere al primer valor de la variable X; X2 se refiere al segundo valor de lavariable X; Xn se refiere al ensimo el ltimo valor de la variable X. As, si la variable Xtoma los valores 3, 7, 9, 12 y 15, entonces X1 = 3, X2 = 7, ..., y X5 = 15. Ocasionalmenteutilizaremos letras minsculas para representar una variable (tal es el caso de las puntuacionesdiferenciales); pero siempre quedar claro de qu se est hablando.

  • Captulo 2. Conceptos previos 35

    Poblacin y muestraEl anlisis de datos debe ser entendido, ante todo, como un conjunto de herramientas al servi-cio de la investigacin emprica. Ah es donde encaja como conjunto de procedimientos dise-ados para organizar los datos, extraer informacin til y elaborar conclusiones. En ocasiones,los objetivos de un estudio podrn cubrirse simplemente resumiendo la informacin medianteherramientas descriptivas; pero, normalmente, ser necesario aplicar herramientas inferencia-les para poder efectuar comparaciones y estudiar relaciones.

    Ocurre, adems, que, por lo general, las conclusiones de un estudio se basan en datos par-ticulares. Si se desea, por ejemplo, probar la eficacia de un nuevo tratamiento para aliviar elinsomnio, es lgico pensar que no ser posible reunir a todos las personas que padecen insom-nio; ms bien habr que conformarse con aplicar el tratamiento slo a algunos pacientes; porotro lado, tampoco parece razonable aplicar a todos los pacientes con insomnio un tratamientocuya eficacia se desconoce. Utilizar slo unos pocos elementos del total es algo con lo quehay que lidiar casi siempre que se realiza un estudio: para conocer, por ejemplo, la opininde los espaoles sobre la eutanasia no ser posible recoger la opinin de todos los espaoles;para saber cmo reaccionan a un estmulo visual las personas mayores de 60 aos no ser po-sible presentar el estmulo a todos los humanos mayores de 60 aos; etc. Ocasionalmente setendr acceso a todos los elementos que se desee estudiar; pero eso ser ms bien la excepciny no la regla.

    Ahora bien, aunque slo se utilicen unos pocos pacientes, o unos pocos espaoles, o unospocos humanos, lo habitual es que las conclusiones de un estudio no queden restringidas aesos pocos sujetos. Lo que realmente suele interesar es poder utilizar la informacin disponi-ble para elaborar conclusiones sobre el conjunto total de sujetos de la misma clase (todos lospacientes con insomnio, todos los espaoles mayores de 60 aos, todos los humanos). A estesalto de lo particular a lo general es a lo que llamamos inferencia estadstica.

    La inferencia estadstica exige utilizar, por un lado, procedimientos que ayuden a efectuarcorrectamente el salto de lo particular a lo general y, por otro, procedimientos que garanticenque ese salto se apoya en una buena base. Tan importante es disponer de una buena tcnicade anlisis de datos para realizar la inferencia como seleccionar apropiadamente los datos quese van a analizar para, de esta manera, proporcionar una buena base de apoyo a la inferencia.Las tcnicas de muestreo se encargan de garantizar que la inferencia se apoya en una buenabase. Y las herramientas estadsticas englobadas bajo la denominacin general de anlisis dedatos se encargan de garantizar que la inferencia se desarrolla correctamente. De esto ltimotratan los prximos captulos, pero antes conviene repasar algunos conceptos fundamentalesque ayudarn a entender lo dems.

    Una poblacin o universo es un conjunto de elementos (sujetos, objetos, entidades abs-tractas, etc.) que poseen una o ms caractersticas en comn. En general, el trmino pobla-cin hace referencia al conjunto total de elementos que interesa estudiar y queda definidacuando se hacen explcitas las caractersticas que esos elementos comparten. Ejemplos de po-blaciones son: las personas empadronadas en una comunidad autnoma, todos los hombresmayores de 30 aos, los pacientes que sufren depresin, las posibles respuestas que un sujetopodra emitir en una escala de satisfaccin, el censo de votantes en unas elecciones, los nme-ros mltiplos de 3; etc.

    Las poblaciones pueden ser de muy diversa ndole; algunas son incluso ficticias, en elsentido de que, aun estando formadas por elementos observables, no todos ellos resultan acce-

  • 36 Anlisis de datos (vol. I)

    sibles. Si se quiere trabajar, por ejemplo, con la poblacin de hombres espaoles mayoresde 30 aos, puede ocurrir que muchos de ellos no estn censados, a otros no habr forma delocalizarlos, otros no estarn dispuestos a participar en el estudio, etc. En estas circunstancias,la poblacin real no ser exactamente la de los hombres espaoles mayores de 30 aos, sinootra parecida: la de los hombres espaoles mayores de 30 aos a los que se ha tenido acce-so. Es muy importante intentar definir con la mayor precisin posible la poblacin con la quese va a trabajar, pues va a constituir el marco desde el que se va a iniciar la recogida de datosy sobre el que van a recaer las conclusiones del anlisis.

    Dependiendo del nmero de elementos de que constan, unas poblaciones son finitas yotras infinitas. Los pacientes que padecen depresin o los votantes censados son ejemplos depoblaciones finitas. Los nmeros mltiplos de 3 o las posibles respuestas (tiempos de reac-cin) que un sujeto puede emitir en una tarea de discriminacin visual son ejemplos de pobla-ciones infinitas. Normalmente, las poblaciones con las que interesa trabajar en las cienciassociales y de la salud son finitas, pero tan grandes que a todos los efectos pueden considerarseinfinitas. Es precisamente el hecho de que las poblaciones, por lo general, sean infinitas oestn formadas por un gran nmero de elementos lo que hace que la descripcin exacta de suspropiedades sea un objetivo prcticamente inaccesible. Por esta razn, lo habitual es trabajarcon muestras.

    Una muestra es un subconjunto de elementos de una poblacin. A diferencia de las po-blaciones, que suelen ser conjuntos de elementos de gran tamao, las muestras suelen ser con-juntos de elementos de tamao reducido. Por supuesto, para poder describir con exactitud laspropiedades de una poblacin cualquiera, sera necesario examinar todos y cada uno de loselementos que componen esa poblacin. Pero, dado que las poblaciones que habitualmenteinteresa estudiar son tan grandes que, normalmente, resulta muy difcil (si no imposible) teneracceso a todos sus elementos, son las muestras las que proporcionan la informacin necesariapara poder describir las propiedades de las poblaciones objeto de estudio.

    El conocimiento que se va generando en la vida cotidiana acerca del mundo est, muy fre-cuentemente, basado en muestras: con slo comer una vez en un restaurante nos formamosuna opinin acerca de la calidad de su cocina y de su servicio; con slo conocer a un par depersonas de un determinado colectivo nos formamos una idea sobre el tipo de personas queforman ese colectivo; con slo ver dos pelculas de un director de cine nos aventuramos a en-casillarlo en un estilo; etc. Con el anlisis de datos se hace algo parecido: se extraen conclu-siones referidas a todos los elementos (poblacin) a partir de la observacin de slo unos po-cos elementos (muestra).

    Ahora bien, para que estas conclusiones sean vlidas es necesario que la muestra utilizadasea representativa de la poblacin a la que se supone que representa, lo cual se consigue me-diante las tcnicas de muestreo (ver ms adelante, en este mismo captulo). Al hablar de losdiferentes tipos de muestreo volveremos sobre el concepto de muestra y ello nos permitir se-guir profundizando en su significado.

    Parmetros y estadsticosUn parmetro es un valor numrico que describe una caracterstica poblacional. Ya se hadefinido una poblacin como un conjunto de elementos que poseen una o ms caractersticasen comn. Pero los elementos de una poblacin poseen, adems, otras muchas caractersticasque no comparten o en las que no coinciden. Por ejemplo, la poblacin de hombres espaoles

  • Captulo 2. Conceptos previos 37

    mayores de 30 aos est formada por elementos que tienen en comn ser hombres, espaolesy mayores de 30 aos, pero en esa poblacin es posible considerar otras muchas caractersti-cas en las que no todos los elementos poblacionales coinciden: el estado civil, el nivel educa-tivo, el peso, la altura, la presin arterial, la actitud hacia la eutanasia, el estado de salud per-cibido, etc. Al medir, por ejemplo, el estado de salud percibido, se obtendrn tantos valoresnumricos como elementos formen parte de la poblacin (suponiendo que se tenga acceso atodos los elementos). Si ahora se calcula el promedio (un solo nmero) de esos valores num-ricos se habr definido un parmetro, pues se habr descrito numricamente una caractersticade la poblacin: el estado de salud percibido medio de los hombres espaoles mayores de 30aos.

    En la poblacin de personas que padecen trastorno depresivo, todos los elementos de lapoblacin coinciden en una caracterstica especfica: padecer trastorno depresivo. Pero exis-ten, obviamente, otras caractersticas en las que no todos los elementos coinciden. Por ejem-plo, unos pacientes sern hombres y otros mujeres. Si se tuviera acceso a todos los elementosde esa poblacin, se podra contar el nmero de pacientes que son hombres (o mujeres) y esopermitira definir un parmetro; es decir, permitira describir numricamente una caractersticade la poblacin: la proporcin de hombres (o mujeres) en la poblacin de pacientes con tras-torno depresivo. As pues, existen valores numricos como la media o la proporcin (ademsde otros muchos que tendremos ocasin de estudiar), que cuando se refieren a alguna caracte-rstica poblacional reciben el nombre de parmetros.

    Hay algunas caractersticas de los parmetros que interesa resaltar. En primer lugar, losparmetros son, en general, valores poblacionales desconocidos: puesto que las poblacionescon las que se suele trabajar son tan grandes que sus elementos raramente resultan accesiblesen su totalidad, no es posible calcular un valor numrico basado en todos los elementos. Ensegundo lugar, los parmetros son valores numricos constantes en el sentido de que son valo-res nicos (es decir, no son variables): definida una poblacin cualquiera y un parmetro enella, ese parmetro slo puede tomar un valor numrico concreto: en un momento dado, laproporcin de hombres en la poblacin de pacientes con trastorno depresivo es un valor ni-co. Por ltimo, es necesario sealar que para referirnos a los parmetros utilizaremos (as escomo suele hacerse) letras griegas minsculas: , , , , , etc.

    Un estadstico es un valor numrico que describe una caracterstica muestral. Por tanto,un estadstico es a la muestra lo que un parmetro a la poblacin. Acabamos de ver que en unapoblacin cualquiera, adems de las caractersticas que la definen y que son comunes a todoslos elementos, es posible definir otras muchas caractersticas en las que no todos los elemen-tos coinciden. De una muestra, lgicamente, cabe decir lo mismo. Y una vez definida una oms de esas caractersticas en las que no todos los elementos coinciden, es posible obtenerun valor numrico que las describa: a ese valor numrico se le llama estadstico.

    De la poblacin de hombres espaoles mayores de 30 aos se puede extraer una muestrade n sujetos. En esa muestra se puede definir y medir, por ejemplo, la altura. Hecho esto, esposible realizar diferentes transformaciones con los valores obtenidos: sumarlos, multiplicar-los, sumarlos y dividirlos por el nmero de valores, etc. Cada una de estas transformacioneses un valor numrico que describe un aspecto diferente de la caracterstica medida (la altura).Es decir, cada una de estas transformaciones es un estadstico. Pero no todos los estadsticosposeen la misma utilidad. De hecho, muchos de ellos no tienen ninguna utilidad porque notienen ningn significado. Otros muchos, como la media, la mediana, la desviacin tpica, laproporcin, etc., tienen un significado y utilidad contrastados, y por esta razn se utilizan paraanalizar datos.

  • 38 Anlisis de datos (vol. I)

    1 Obviamente, si se est utilizando N para representar el tamao de una poblacin es porque esa poblacin es finita. En unapoblacin infinita tambin es infinito el nmero de muestras distintas de tamao n que es posible extraer.2 El muestreo aleatorio puede realizarse de dos maneras distintas: (1) con reposicin, es decir, devolviendo cada elementoa la poblacin una vez que ha sido seleccionado (lo que implica que ese elemento puede aparecer ms de una vez en la mis-ma muestra) y (2) sin reposicin, es decir, sin devolver a la poblacin los elementos que van siendo seleccionados. Si lamuestra se obtiene con reposicin, el nmero de muestras que es posible obtener viene dado por N n, es decir, por las varia-ciones con repeticin de N elementos (tamao de la poblacin) tomados de n en n (tamao de la muestra). Si la muestra seobtiene sin reposicin, el nmero de muestras posibles viene dado por N!/(N ! n)!, es decir, por las variaciones sin repeticinde N elementos tomados de n en n.

    Recordemos que los parmetros son valores poblacionales generalmente desconocidosporque corresponden a elementos a los que no se tiene acceso en su totalidad. Esto sera unverdadero problema si no fuera porque cada parmetro poblacional posee su rplica muestralen un estadstico concreto susceptible de ser calculado. Esto significa que los estadsticosmuestrales se van a utilizar para intentar formarnos una idea sobre los verdaderos valores desus correspondientes parmetros poblacionales desconocidos. Este proceso consistente enatribuir a un parmetro el valor que toma su correspondiente estadstico se conoce con elnombre de estimacin. La estimacin es un concepto especialmente importante en estadsticainferencial (y, por tanto, tambin en el anlisis de datos); a ella dedicaremos un captulo com-pleto, pero antes debemos seguir profundizando en el concepto de estadstico.

    Es evidente que de una poblacin cualquiera es posible extraer ms de una muestra dife-rente del mismo tamao. Esto significa que, definido un estadstico, cualquiera que ste sea,su valor exacto depender de los valores concretos que tomen cada uno de los elementos queformen parte de la muestra obtenida. Ahora bien, de una poblacin de tamao1 N es posibleextraer N n muestras diferentes2 de tamao n. Si en cada una de esas N n muestras calculamosun estadstico, encontraremos que el valor de ese estadstico no siempre es el mismo; es decir,encontraremos que el valor del estadstico vara de una muestra a otra. Esto significa que unestadstico no es un valor numrico constante (como lo es un parmetro), sino que es unavariable: su valor concreto vara dependiendo de la muestra en la que se calcula.

    Resumiendo, mientras un parmetro es un valor poblacional, un estadstico es un valormuestral; mientras un parmetro es, por lo general, un valor desconocido, un estadstico esun valor conocido o susceptible de ser conocido; mientras un parmetro es un valor numricoconstante, un estadstico es una variable. Estas diferencias tambin se reflejan en la notacinhabitualmente utilizada para representar a unos y a otros. Mientras que los parmetros se sue-len representar con letras griegas minsculas (, , , , , etc.), los estadsticos se suelen re-presentar con letras latinas maysculas (X

    _, S, P, R, B, etc.).

    MuestreoYa hemos sealado que uno de los objetivos fundamentales del anlisis de datos es el de ex-traer conclusiones de tipo general a partir de unos pocos datos particulares. Tambin hemossealado que esto exige utilizar, por un lado, procedimientos que ayuden a efectuar correcta-mente ese salto (inferencia) de lo particular a lo general y, por otro, procedimientos que ga-ranticen que el salto se apoya en una buena base. Tan importante como disponer de una buenatcnica para analizar los datos es seleccionar apropiadamente los datos que se van a analizar.Qu datos se analizan condiciona la utilidad del cmo se analizan.

  • Captulo 2. Conceptos previos 39

    Wonnacott y Wonnacott (1990, pg. 4) recogen un ejemplo que resulta especialmente tilpara ilustrar esta idea. En 1936, los editores de Literary Digest intentaron pronosticar el resul-tado de las elecciones presidenciales de Estados Unidos utilizando una muestra formada porvotantes seleccionados de las guas telefnicas y de los listados de miembros de varios clubes.La muestra as obtenida presentaba (como pudo constatarse despus) un fuerte sesgo haciael bando republicano, lo cual se vio agravado, muy probablemente, por el hecho de que, detodos los cuestionarios enviados, slo fueron contestados una cuarta parte. La muestra resultser tan sesgada (es decir, tan poco representativa de la poblacin de votantes) que llev alerrneo pronstico de que se producira una victoria republicana. El da de la votacin se pro-dujo la sorpresa: los republicanos obtuvieron menos del 40 % de los votos y el candidato de-mcrata, Roosevelt, fue reelegido presidente por una aplastante mayora. Es probable que elcandidato republicano, Alf Landon (quien seguramente se haba levantado esa maana espe-rando ser nombrado presidente), dejara de confiar en las predicciones elaboradas a partir deencuestas basadas en muestras.

    La ms importante leccin que debe aprenderse del error cometido por los editores deLiterary Digest es que, cuando se intenta extraer conclusiones sobre las propiedades de unapoblacin a partir de la informacin contenida en una muestra de esa poblacin, es necesario,ante todo, utilizar muestras representativas del total de la poblacin. El no trabajar con mues-tras apropiadas llevar inevitablemente a que nuestras predicciones estn, ya desde el princi-pio, condenadas al fracaso (lo que puede constituir un verdadero problema cuando, como esfrecuente, esas predicciones estn en la base de decisiones importantes). Por tanto, para queuna muestra pueda ofrecer informacin satisfactoria sobre las propiedades de una poblacines necesario, antes que nada, que sea representativa de la poblacin. Y esto slo se consiguesi todos los elementos poblacionales han tenido la oportunidad de ser elegidos.

    El trmino muestreo se refiere al proceso seguido para extraer una muestra de una po-blacin. El muestreo puede ser de dos tipos: probabilstico y no-probabilstico. En el muestreoprobabilstico se conoce (o puede calcularse) la probabilidad asociada a cada una de las mues-tras que es posible extraer de una determinada poblacin; y cada elemento poblacional tieneasociada una probabilidad conocida (o calculable) de pertenecer a la muestra. En el muestreono-probabilstico se desconoce o no se tiene en cuenta la probabilidad asociada a cada posibleresultado muestral: el investigador selecciona aquella muestra que ms representativa le pare-ce o, simplemente, aquella que considera que puede extraer con mayor comodidad o menorcoste (voluntarios que responden a un anuncio, alumnos matriculados en un curso o en uncentro, clientes que compran un producto, pacientes que acuden a un centro de salud o a unhospital, etc.).

    Lgicamente, slo con el muestreo probabilstico se conoce la probabilidad asociada acada resultado muestral y, consecuentemente, slo l permite formarse una idea sobre el gradode representatividad de una muestra. Por tanto, slo el muestreo probabilstico ofrece una baseadecuada para inducir las propiedades de una poblacin a partir de la informacin muestral.Esto no significa que el muestreo no probabilstico no pueda generar muestras representativas;lo que ocurre es que al utilizar un muestreo de tipo no probabilstico no se tiene informacinacerca de si la muestra es o no representativa. En consecuencia, ya desde ahora, se dejar aun lado el muestreo no probabilstico y se considerar en todo momento que los datos de quese dispone constituyen una muestra aleatoriamente seleccionada de su respectiva poblacin,es decir, una muestra aleatoria.

    En el muestreo aleatorio (seleccin al azar) se verifican dos importantes propiedades. Enprimer lugar, todos los elementos poblacionales tienen la misma probabilidad de ser elegidos;

  • 40 Anlisis de datos (vol. I)

    por tanto, cualquiera de ellos puede ser elegido y sta es una condicin necesaria para obteneruna muestra representativa. En segundo lugar, el resultado de cada extraccin no afecta ni de-pende del resultado de cualquier otra; es decir, las extracciones son independientes entre s;y sta, segn tendremos ocasin de comprobar, es una condicin que asume la mayora de losprocedimientos estadsticos que estudiaremos (para profundizar en estos conceptos, puedeconsultarse Pardo y San Martn, 1998, pgs. 45-55).

    Debe tenerse en cuenta que, puesto que las poblaciones con las que se suele trabajar sondesconocidas, nunca hay forma de saber si la muestra elegida es o no representativa de la po-blacin muestreada. Lo que s se sabe es si se ha utilizado o no un mtodo de seleccin quegarantiza que la muestra elegida es una muestra representativa de la poblacin. Y ese mtodode seleccin es el muestreo aleatorio.

    Ahora bien, aunque el muestreo aleatorio permite obtener una muestra apropiada en lamayor parte de los contextos, en ocasiones es posible que surja la necesidad de trabajar conpoblaciones cuyas caractersticas estn aconsejando alguna variante. No es ste el lugar paradescribir con detalle los diferentes tipos de muestreo aleatorio, pero s nos parece convenienteofrecer una breve descripcin de los ms utilizados.

    En el muestreo aleatorio sistemtico se comienza elaborando una lista con los N elemen-tos poblacionales numerados de 1 a N. A continuacin se fija el tamao de la muestra que sedesea obtener (n) y se efecta una extraccin al azar entre los k = N/n primeros elementos (sik no es un nmero entero, se redondea al entero ms prximo). El resto de los n !1 elementosque configurarn la muestra se obtienen a partir de k. Llamando i a la posicin ocupada porel primer elemento extrado, la muestra estar formada por los elementos poblacionales queocupen las posiciones i, i + k, i + 2k, i + 3k, ..., i + (n!1) k.

    As, para extraer una muestra aleatoria de tamao 100 de una poblacin de 2.000 elemen-tos, se comienza elaborando una lista asignando a cada elemento un nmero de 1 a 2.000. Laconstante que se debe utilizar es k = N/n = 2.000/100 = 20. Despus, se selecciona al azar unelemento entre los 20 primeros. Si, por ejemplo, el elemento seleccionado es el que ocupa laposicin i = 9, el resto de los elementos de la muestra sern los que ocupen en la lista las po-siciones 29, 49, 69, 89, ..., 1949, 1969, 1989. Este tipo de muestreo es til cuando se disponede un listado de toda la poblacin y se desea obtener una muestra aleatoria homogneamenterepartida a lo largo de toda la lista.

    El muestreo aleatorio estratificado se utiliza cuando una poblacin est formada por di-ferentes subpoblaciones o estratos. Por ejemplo, en la poblacin de hombres espaoles mayo-res de 30 aos se pueden definir diferentes estratos segn el nivel socioeconmico, el tipo deprofesin, el nivel de estudios, el estado civil, etc. Con el muestreo aleatorio simple existe laposibilidad de que alguno de los estratos no est suficientemente representado (particular-mente si existen estratos muy pequeos). El muestreo aleatorio estratificado es til cuandoexiste especial inters en que todos los estratos de la poblacin tengan una adecuada represen-tacin. Se comienza definiendo los estratos e identificando los elementos que pertenecen acada estrato. Se tienen as k estratos con tamaos N1, N2, ..., Nk (N1 + N2 + + Nk = N). Acontinuacin se elaboran k listas (una por estrato) con los elementos de cada estrato debida-mente numerados y se procede a extraer aleatoriamente una muestra de cada estrato mediantemuestreo aleatorio simple o mediante muestreo aleatorio sistemtico. La muestra total estarformada por las k submuestras extradas.

    El tamao de las submuestras puede o no ser proporcional al tamao de los estratos. Enla afijacin simple se asigna a todas las submuestras el mismo tamao. En la afijacin propor-cional el tamao de las submuestras se fija de forma proporcional al tamao de los estratos.

  • Captulo 2. Conceptos previos 41

    3 En este apartado se ofrece una explicacin ms bien intuitiva y poco formal del concepto de variable aleatoria y de suscaractersticas. Este tipo de explicacin es la que nos ha parecido ms apropiada para quienes se inician en el anlisis dedatos. El lector interesado en una exposicin ms formal puede consultar Amn (1984, Captulos 3 a 6).

    Y si la variabilidad de los estratos es muy distinta, conviene extraer submuestras ms grandesde los estratos con mayor varianza: afijacin ptima. Por ejemplo, si al extraer una muestraaleatoria de tamao 100 de una poblacin formada por 20.000 personas con un 40 % de hom-bres y un 60 % de mujeres, queremos que esas proporciones poblacionales se mantengan enla muestra (afijacin proporcional), debemos formar dos estratos (es decir, dos grupos: unocon los hombres y otro con las mujeres) y seleccionar aleatoriamente 40 sujetos del primerestrato y 60 del segundo. Si se conocieran las varianzas de la variable estudiada y la del grupode hombres fuera muy diferente de la del grupo de mujeres, convendra seleccionar ms suje-tos del estrato con mayor varianza.

    En el muestreo por conglomerados, las unidades muestrales no son elementos individua-les, sino grupos de elementos llamados conglomerados. En lugar de considerar que la pobla-cin est formada por N elementos, se considera que est formada por k conjuntos o conglo-merados de elementos. Se selecciona aleatoriamente uno o varios de esos conglomerados yse acepta como muestra el conjunto de todos los elementos que forman parte de ese o esosconglomerados seleccionados. Por ejemplo, en un estudio sobre desarrollo cognitivo en el quela poblacin de referencia es la de todos los alumnos de Educacin Primaria de la Comunidadde Madrid, en lugar de seleccionar una muestra aleatoria de un listado de todos los alumnosde Educacin Primaria, se podran seleccionar unos pocos colegios de la poblacin de cole-gios y utilizar como muestra a todos los alumnos de los colegios seleccionados. Las ventajasde este tipo de muestreo son evidentes cuando se trabaja con poblaciones muy grandes: nose necesita un listado de todos los elementos de la poblacin, sino slo de aquellos que for-man parte de los conglomerados seleccionados.

    En el muestreo aleatorio por conglomerados puede procederse por etapas; se habla enton-ces de muestreo polietpico. En la primera etapa se divide la poblacin en k conglomeradosy se elige uno o varios de ellos (unidades muestrales primarias); en la segunda, los conglome-rados elegidos se dividen en conglomerados ms pequeos y se vuelve a elegir uno o variosde ellos (unidades muestrales secundarias); etc. La muestra definitiva la componen todos loselementos de los conglomerados seleccionados en la ltima etapa. Obviamente, cuando seprocede por etapas slo es necesario un listado de los elementos que forman parte de los con-glomerados seleccionados en la ltima etapa. Si, en el estudio sobre desarrollo cognitivo, lapoblacin de referencia fuese la de todos los alumnos espaoles de enseanza primaria, sepodra comenzar seleccionando unas pocas comunidades autnomas; despus, una provinciade cada comunidad autnoma seleccionada; despus, un pueblo o ciudad de esas provincias;por ltimo, un colegio de cada pueblo o ciudad seleccionados. Al proceder por etapas, en cadaetapa y dependiendo de las caractersticas de los conglomerados que finalmente se vayan amuestrear, es posible utilizar cualquiera de los restantes mtodos de muestreo aleatorio:simple, sistemtico o estratificado.

    Variables aleatoriasEl concepto de variable3 como representacin numrica de una caracterstica sometida amedicin ya se ha presentado al hablar de los distintos tipos de variables (ver, en este mismo

  • 42 Anlisis de datos (vol. I)

    4 Una variable aleatoria es una funcin que asigna un nmero real, y slo uno, a cada uno de los sucesos elementales deun espacio muestral (el lector poco familiarizado con la teora de la probabilidad puede revisar el apartado sobre conceptosbsicos de probabilidad que se ofrece en el apndice de este mismo captulo).5 Las variables categricas no suelen ser el objetivo primordial del anlisis de datos. Esto no quiere decir que variables comoel sexo, el tipo de tratamiento, o el nivel educativo no tengan inters analtico, sino que el inters del anlisis suele dirigirse,no exactamente a esas variables (cuyos valores suelen ser fijos y conocidos), sino al nmero de veces que aparece cada uno

    captulo, el apartado sobre Tipos de variables). En ese momento se destac el hecho de queuna variable es la representacin de una caracterstica (sexo, altura, etc.) que no siempre quese mide toma los mismos valores, es decir, la representacin de una caracterstica que vara.Ha llegado el momento de sealar otra importante peculiaridad de las variables que sueleinteresar analizar: la aleatoriedad resultante del muestreo.

    Una variable aleatoria4 es una coleccin de nmeros (al menos dos). En sentido estricto,hasta que no hay nmeros, no hay variable. Pero ya sabemos que no todos los nmeros quese asignan en el proceso de medicin tienen el mismo significado, lo cual nos ha llevado aclasificar las variables como categricas y cuantitativas.

    Al medir una variable en una muestra de tamao n se obtienen n valores. Si la variablees categrica (por ejemplo, sexo), los posibles valores distintos sern pocos (hombre, mujer)y cada uno de ellos se repetir varias veces (pues todos los resultados sern hombre o mujer).Por el contrario, si la variable es cuantitativa (por ejemplo, altura), habr muy pocas repeti-ciones o ninguna (si la medida se hace con suficiente precisin, habr muchos valores distin-tos y muy pocas repeticiones de un mismo valor). Tras asignar nmeros a los resultados delmuestreo (por ejemplo, unos a los hombres y doses a las mujeres; centmetros a las alturas),en ambos casos tendremos variables aleatorias porque en ambos casos tendremos nmerosresultantes del muestreo aleatorio.

    Ahora bien, saber que la variable sexo toma unos y doses no aporta informacin til (yase sabe que la variable sexo toma unos y doses, y que eso no depende del muestreo). Lo inte-resante es saber cuntos unos y cuntos doses aparecen en una muestra. Es en ese momento,es decir, cuando a las categoras de la variable sexo se le asocian los resultados del muestreo,cuando se tiene una variable aleatoria. Pero centrar la atencin en cuntos hombres (o muje-res) aparecen en una muestra es centrar la atencin, no en la variable sexo, sino en una nuevavariable: el nmero de hombres, que es una variable porque depende de la muestra concretaen la que se calcula (es decir, porque vara de muestra a muestra) y, adems, es aleatoria por-que los valores que toma son resultado del muestreo aleatorio. Por supuesto, la variable sexo(categrica) es estadsticamente interesante: permite formar grupos y, aunque ya se sabe quvalores toma, siempre resulta posible aplicar herramientas descriptivas para conocer con qufrecuencia toma cada valor. Pero la variable nmero de hombres (cuantitativa) es mucho msinteresante: permite, segn veremos, efectuar comparaciones y estudiar relaciones tomandocomo referencia algunos modelos tericos de probabilidad.

    Con una variable cuantitativa como la altura ocurre algo parecido. Aunque los valoresque toma la variable tienen inters en s mismos (pueden ser ms altos o ms bajos, muy pare-cidos entre s o muy distintos, etc.), el hecho de que haya muchos valores distintos hace difcilformarse una idea de las caractersticas de la variable si no se utiliza algn tipo de resumencomo, por ejemplo, la altura media. Estos resmenes son, obviamente, cuantitativos, varande muestra a muestra (es decir, son variables) y sus valores dependen del muestreo (es decir,son variables aleatorias); y, lo que es ms interesante, permiten, segn veremos, efectuarcomparaciones y estudiar relaciones5.

  • Captulo 2. Conceptos previos 43

    de sus valores en una muestra concreta. Por tanto, el anlisis de datos es, bsicamente, anlisis de datos cuantitativos.Cuando se habla de anlisis de datos categricos o de variables categricas se est hablando, generalmente, del anlisisde las frecuencias (datos cuantitativos) asociadas a las categoras de las variables categricas.

    Centro, dispersin y forma de la distribucin

    De lo estudiado hasta aqu cabe deducir que el anlisis de datos es, sobre todo, anlisis devariables aleatorias, es decir, anlisis de los nmeros que se asignan a los resultados delmuestreo aleatorio. Pero, qu puede hacerse con estas variables (con estos nmeros)?

    Segn veremos a lo largo de este manual (y de los siguientes volmenes), el anlisis dedatos suele centrarse en la aplicacin de herramientas inferenciales con el objetivo de efectuarcomparaciones y estudiar relaciones. Pero, antes de eso, lo primero que suele hacerse (y queconviene hacer) con un conjunto de datos es formarse una idea lo ms exacta posible acercade las caractersticas de cada variable individualmente considerada. Y esto se consigue apli-cando herramientas descriptivas. Para esto, tanto las variables aleatorias directamente resul-tantes del muestreo (sexo, altura) como las transformaciones que normalmente interesa hacerde ellas (nmero de hombres o de mujeres, altura media) deben caracterizarse prestando aten-cin a tres propiedades fundamentales: centro, dispersin y forma.

    1. El centro de una variable es el valor que ms se repite (variables categricas) o el prome-dio del conjunto de valores (variables cuantitativas). Indica qu valor de la variable, detodos los posibles, cabe esperar encontrar con mayor probabilidad. Puede calcularse dediferentes maneras (ver los dos siguientes captulos), pero el ms utilizado se conoce co-mo valor esperado o esperanza matemtica.

    En una muestra concreta, el valor esperado de una variable es su media aritmtica.Pero una muestra concreta no es ms que una de las muchas (infinitas?) que es posibleextraer de una determinada poblacin. El concepto de valor esperado incorpora la ideadel centro que cabra esperar encontrar a la larga, es decir, del que cabra encontrar en elconjunto de todas las muestras de tamao n que podran extraerse de una determinada po-blacin; lo cual no es otra cosa que el centro (media aritmtica) de la poblacin. Y, segntendremos ocasin de comprobar ms adelante, el concepto de valor esperado cobraespecial relevancia cuando se utiliza para identificar el centro de muchas de las distribu-ciones tericas de probabilidad (binomial, normal, etc.) que se utilizan en estadstica paraentender mejor el comportamiento de los datos.

    2. La dispersin de una variable se refiere al grado de concentracin o alejamiento de losvalores en torno al centro de la variable. Al igual que ocurre con el centro, la dispersinde una variable puede calcularse utilizando diferentes mtodos (ver los siguientes dos ca-ptulos), pero quiz el ms utilizado es la desviacin tpica (y su cuadrado, la varianza),que viene a ser una especie de promedio de distancias al centro de la variable.

    3. La forma de la distribucin refleja la frecuencia con la que se repite cada valor (variablescategricas) o cada rango de valores (variables cuantitativas).

    Aqu es importante distinguir entre distribuciones empricas y distribuciones tericas.Una distribucin emprica indica cmo se distribuyen, de hecho, los valores de una varia-ble. Una distribucin terica es una frmula matemtica (un modelo) que se utiliza parafacilitar el trabajo con variables aleatorias (en realidad, las distribuciones tericas son unade las herramientas estadsticas ms tiles para un analista de datos).

  • 44 Anlisis de datos (vol. I)

    6 En este contexto es importante recordar la distincin ya establecida entre variables discretas (entre dos valores consecu-tivos no puede darse un valor intermedio; por ejemplo, el nmero de aciertos) y continuas (entre dos valores consecutivossiempre es posible encontrar un valor intermedio si se mide con suficiente precisin; por ejemplo, la edad). Esta distincinentre variables lleva asociada una distincin entre distribuciones de probabilidad que gusta mucho enfatizar a los estads-ticos. En una distribucin discreta, cada valor de la variable tiene asociada una probabilidad concreta (por ejemplo, laprobabilidad de obtener tres caras en cinco lanzamientos de una moneda, o la probabilidad de padecer trastorno depresivo).En una distribucin continua no existe tal cosa; la probabilidad asociada a un valor concreto es nula (si se define una alturacon muchos decimales, la probabilidad de que un sujeto tenga exactamente esa altura es nula; de hecho, en las distribucionescontinuas se habla de densidad en lugar de probabilidad). Esto puede entenderse fcilmente si se tiene en cuenta que laprobabilidad del conjunto de posibles valores de una variable vale 1 y que esa probabilidad hay que repartirla entre lostericamente infinitos valores de la variable continua.

    Una distribucin emprica est formada por los valores que toma una variable en unamuestra concreta y por las frecuencias relativas asociadas a cada valor. Imaginemos queen una determinada poblacin definimos la variable padecer trastorno depresivo, conposibles valores s y no; extraemos al azar una muestra de esa poblacin y asignamosun 1 a las personas que padecen depresin y un 0 a las que no la padecen; tendremos, porun lado, una variable aleatoria (unos y ceros resultantes del muestreo) y, adems, el n-mero o proporcin de unos y ceros; es decir, tendremos la distribucin emprica formadapor los valores que toma la variable (unos y ceros) y por las frecuencias relativas asocia-das a cada valor (proporciones de unos y ceros). Imaginemos ahora que el 10 % de laspersonas de la poblacin padece depresin; en este nuevo escenario es posible utilizar elclculo de probabilidades (en concreto, una distribucin terica llamada binomial; verCaptulo 3) para conocer la probabilidad asociada a cada posible resultado muestral.

    Otro ejemplo. Imaginemos que seleccionamos una muestra al azar de una determina-da poblacin y medimos la altura de los sujetos; los nmeros (por ejemplo, centmetros)resultantes del muestreo constituyen una variable aleatoria; asociando a esos nmeros lafrecuencia relativa con la que aparecen tendremos la distribucin emprica de la variablealtura. Imaginemos ahora que asumimos que, en la poblacin muestreada, las alturas delos sujetos se distribuyen en forma de campana (muchos casos en torno al centro y pocosen las orillas); es decir, imaginemos que las alturas de los sujetos se parecen a una distri-bucin terica llamada normal (ver Captulo 5). En este nuevo escenario es posible utili-zar la distribucin terica normal para conocer la probabilidad asociada a cada posibleresultado muestral.

    A la combinacin formada por los valores de una variable aleatoria y por las probabi-lidades asociadas a cada uno de esos valores se le suele llamar funcin de probabilidado distribucin de probabilidad. Aqu, con frecuencia, tambin nos referiremos a estacombinacin simplemente como distribucin6, intentando dejar claro en cada caso si setrata de una distribucin emprica o terica.

    As pues, para formarnos una idea apropiada de las caractersticas de una variable aleatoriavamos a prestar atencin a tres propiedades: centro, dispersin y forma de la distribucin. Elcentro es una especie de representante del resto de valores; indica en torno a qu valor es msprobable encontrar casos. La dispersin ayuda a precisar si el centro es o no un buen represen-tante del resto de valores (segn veremos, desempea un papel esencial en la inferencia esta-dstica). La forma de la distribucin, por ltimo, permite detectar dnde tienden a agruparselos valores y si existen valores que se alejan llamativamente de los dems; y, lo que es msimportante, cul es la probabilidad asociada a cada valor de la variable y, consecuentemente,cul es la probabilidad asociada a cada posible resultado muestral.

  • Captulo 2. Conceptos previos 45

    ProbabilidadLa teora de la probabilidad es el aparato matemtico en el que se basa la estadstica para me-jorar la descripcin de los datos y, sobre todo, para hacer inferencias de lo particular (muestra)a lo general (poblacin). Entender correctamente muchos de los procedimientos estadsticosque estudiaremos (al menos, algunos aspectos concretos de esos procedimientos) requiere es-tar familiarizado con algunos conceptos bsicos de la teora de la probabilidad.

    Por supuesto, este apartado no es, ni mucho menos, un curso sobre teora de la probabili-dad (para ello puede recurrirse a cualquiera de los excelentes manuales de probabilidad exis-tentes en el mercado). Este apartado incluye nicamente los conceptos de probabilidad quees necesario manejar para poder trabajar con las distribuciones de probabilidad que se estu-dian ms adelante.

    Lo que se hace al analizar datos es extraer muestras aleatorias y calcular nmeros con dis-tribucin de probabilidad conocida para poder interpretar mejor esos nmeros y para podertomar decisiones a partir de ellos. Por tanto, lo que conviene saber de la teora de la probabili-dad es, bsicamente, la parte relacionada con la seleccin de muestras aleatorias y con lasdistribuciones de probabilidad asociadas a los valores muestrales (nmeros) que se calculanen ellas.

    Espacio muestral y sucesosLlamamos experimento aleatorio a cualquier accin cuyo resultado no puede predecirse concerteza. Lanzar una moneda al aire y observar el resultado (no podemos predecir con certezasi saldr cara o cruz) o medir la altura de un sujeto elegido al azar (no podemos predecir concerteza cul ser su altura exacta) son experimentos aleatorios.

    El espacio muestral (E) es el conjunto de posibles resultados de un experimento aleato-rio. En el experimento aleatorio consistente en lanzar una moneda y observar el resultado, elespacio muestral est formado por los dos resultados posibles, cara y cruz. En el experimentoaleatorio consistente en medir la altura de un sujeto, el espacio muestral est formado por to-dos los posibles resultados de la medicin; si el experimento aleatorio consiste en lanzar unamoneda dos veces, el espacio muestral est formado por cuatro posibles resultados: cara-cara,cara-cruz, cruz-cara, cruz-cruz; si se miden las alturas de dos sujetos, el espacio muestral estformado por todas las combinaciones resultantes de combinar las dos mediciones; etc.

    Un suceso (S) es un subconjunto de un espacio muestral. Un suceso simple o elementalest formado por un nico resultado (por ejemplo, obtener cara-cara en dos lanzamientosde una moneda). Un suceso compuesto est formado por ms de un resultado (por ejemplo,obtener una cara en dos lanzamientos; es decir, obtener cara-cruz o cruz-cara). Al suce-so formado por todos los resultados del espacio muestral se le llama suceso seguro; y a losresultados que no forman parte del espacio muestral, suceso imposible.

    La unin (c) de dos sucesos es el conjunto de resultados distintos que forman parte deuno u otro suceso. La diferencia entre dos sucesos es el conjunto de resultados que pertene-cen al primer suceso y no al segundo. La interseccin (1) de dos sucesos es el conjunto deresultados que forman parte tanto de uno como de otro suceso. Dos sucesos se consideraniguales cuando incluyen los mismos resultados; y exclusivos cuando no tienen ningn resulta-do en comn. Un suceso tiene su complementario en todos los resultados del espacio mues-tral que no forman parte de l.

  • 46 Anlisis de datos (vol. I)

    Concepto de probabilidad

    Existen diferentes formas de entender el concepto de probabilidad. Una aproximacin intui-tiva al concepto consiste en considerarlo como sinnimo de lo fcil o difcil que es observarcada uno de los sucesos de un espacio muestral. Si lanzamos al aire tres monedas, el sucesotres caras nicamente puede ocurrir de una manera: cara-cara-cara; sin embargo, el sucesouna cara puede ocurrir de tres maneras distintas: cara-cruz-cruz, cruz-cara-cruz, cruz-cruz-cara. Por tanto, parece ms fcil (ms probable) observar el suceso una cara que el sucesotres caras. Pero la probabilidad de un suceso es algo ms que lo fcil o difcil que es obser-varlo: es un nmero que intenta cuantificar lo fcil o difcil que es observarlo.

    El punto de vista a priori, tambin llamado clsico, asume que todos los sucesos elemen-tales de un espacio muestral tienen las mismas posibilidades de ocurrir (principio de indife-rencia) y cuantifica la probabilidad asociada a un suceso concreto (S ) como su frecuenciarelativa terica:

    P (S ) = [2.1]

    es decir, como el nmero de resultados favorables al suceso (ns) dividido entre el nmero deresultados posibles (n).

    En este punto de vista se asume, por ejemplo, que los dos resultados posibles del lanza-miento de una moneda (cara y cruz) tienen las mismas posibilidades de ocurrir (es decir, sonequiprobables); consecuentemente, la probabilidad a priori de cada uno de ellos vendr dadapor P (cara) = P (cruz) = 1/2 = 0,5. Del mismo modo, puesto que el suceso cara-cara en doslanzamientos es uno entre cuatro posibles (cara-cara, cara-cruz, cruz-cara, cruz-cruz) que seasumen equiprobables, su probabilidad a priori vendr dada por P (cara-cara) = 1/4 = 0,25.

    El punto de vista a posteriori, tambin llamado frecuentista o estadstico, concibe laprobabilidad de un suceso como el lmite al que tiende su frecuencia relativa:

    P (S ) = [2.2]

    (aqu, n no es el nmero de sucesos del espacio muestral, sino el nmero de veces que se rea-liza el experimento aleatorio). Este punto de vista no hace ninguna suposicin previa sobrelas probabilidades de los sucesos; en lugar de eso, la probabilidad que se asigna a un sucesoes su frecuencia relativa emprica, es decir, la proporcin de veces que se observa el sucesoal realizar el experimento aleatorio un nmero infinito de veces. Ahora bien, como no es posi-ble realizar un experimento un nmero infinito de veces, la probabilidad a posteriori de unsuceso hay que estimarla realizando el experimento muchas veces, tantas como sea necesariohasta observar que el valor de su frecuencia relativa se estabiliza. Imaginemos, por ejemplo,que se lanza una moneda 100 veces y que se obtienen 54 caras, es decir: P (cara) = 54/100 =0,54; se sigue lanzando hasta 500 veces y se obtienen 242 caras: P (cara) = 242/500 = 0,484;se lanza 1.000 veces y se obtienen 511 caras: P (cara) = 511/1.000 = 0,511; se lanza 10.000veces y se obtienen 4.962 caras: P (cara) = 4.942/10.000 = 0,4962; se lanza 20.000 veces yse obtienen 10.062 caras: P (cara) = 10.062/20.000 = 0,5031; se lanza 30.000 veces y se obtie-nen 14.967 caras: P (cara) = 14.967/30.000 = 0,4989; etc. Lo que ocurre al proceder de estamanera es que conforme va aumentando el nmero de ensayos (lanzamientos), la frecuencia

  • Captulo 2. Conceptos previos 47

    relativa del suceso cara se va estabilizando en torno a 0,50. Pues bien, sta es la probabilidada posteriori del suceso cara.

    En la prctica, ambas formas de entender la probabilidad (a priori y a posteriori) son ti-les y, tambin, necesarias. Por ejemplo, cuando se selecciona una muestra aleatoria de unapoblacin se est asumiendo que todos los elementos poblacionales tienen la misma probabili-dad de ser elegidos (principio de indiferencia), es decir, se est adoptando un punto de vistaa priori. Sin embargo, para conocer la probabilidad de que una persona de esa poblacin seahombre o fumador o tenga nivel de estudios superiores o una altura por encima de 180 cm,etc., no puede asumirse el principio de indiferencia (es decir, no puede asumirse que hay elmismo nmero de hombres que de mujeres o el mismo nmero de fumadores que de no fuma-dores, etc.); a no ser que se tenga informacin sobre todos los elementos de la poblacin, lasprobabilidades asociadas a esos sucesos slo pueden estimarse a posteriori, es decir, obser-vando sus frecuencias relativas empricas.

    Sin embargo, adoptar uno u otro punto de vista no tiene implicaciones relevantes sobrelas conclusiones a las que puede llegarse. Puesto que tanto las probabilidades a priori comolas a posteriori se conciben como frecuencias relativas (tericas en el primer caso y empricasen el segundo), sus propiedades son idnticas:

    1. La probabilidad de todos los sucesos del espacio muestral (el suceso seguro) vale 1. Esdecir, P (E ) = 1.

    2. La probabilidad de un suceso es siempre no negativa. Es decir, P (S ) >$ 0.3. La probabilidad de la unin de dos o ms sucesos mutuamente exclusivos es igual a la

    suma de las probabilidades individuales de cada suceso. Es decir, P (S1 c S2 c S3 c ) == P (S1) + P (S2) + P (S3) +

    Estas propiedades son precisamente las que han servido para formular una teora axiomticao formal de la probabilidad. Adoptndolas como axiomas (pues son propiedades inherentesa cualquier probabilidad, ya sea sta concebida a priori o a posteriori) y procediendo a partirde ellas por deduccin se obtienen una serie de teoremas o reglas que constituyen lo que seconoce como clculo de probabilidades. De estas reglas destacaremos dos particularmentetiles: la regla o teorema de la multiplicacin (referida a la interseccin de sucesos) y la reglao teorema de la suma (referida a la unin de sucesos).

    Regla de la multiplicacin

    Entre los conceptos ms interesantes que podemos encontrar en la teora de la probabilidadse encuentra el de probabilidad condicional. Se refiere a la probabilidad de que ocurra unsuceso cuando se impone la condicin de que haya ocurrido otro previamente. Se representamediante P (S1 | S2) y se lee como probabilidad condicional de S1 dado S2 o, simplemente,como probabilidad de S1 dado S2.

    Para entender fcilmente el significado de una probabilidad condicional, consideremosel ejemplo propuesto en la Tabla 2.1. Los resultados que muestra la tabla se han obtenido alclasificar a las 10.000 personas de una determinada poblacin utilizando los criterios sexo(hombres, mujeres) y tabaquismo (fumadores, no fumadores).

    De acuerdo con la ecuacin [2.1] (nmero de casos favorables dividido entre el nmerode casos posibles), la probabilidad de que un sujeto elegido al azar sea fumador, es decir, la

  • 48 Anlisis de datos (vol. I)

    probabilidad del suceso fumador (F ), asumiendo que cualquier sujeto tiene la misma proba-bilidad de ser elegido, vale

    P (F ) = =

    Y la probabilidad de que un sujeto elegido al azar sea hombre (H ) vale

    P (H ) = =

    Tabla 2.1. Frecuencias conjuntas de sexo y tabaquismo

    Fumadores No fumadores Total

    Hombres 1.000 3.000 4.000Mujeres 2.500 3.500 6.000

    Total 3.500 6.500 10.000

    Ahora bien, si se impone la condicin de que el sujeto elegido sea hombre, entonces cul esla probabilidad de que sea fumador? Es decir, cul es la probabilidad condicional del sucesofumador dado el suceso hombre? Para responder a esta pregunta hay que tener en cuenta quelos casos favorables, es decir, los hombres fumadores, son 1.000, y que, debido a la restric-cin impuesta, los casos posibles son 4.000 (slo los hombres). Por tanto:

    P (F | H ) = =

    El numerador de esta probabilidad condicional recoge los 1.000 hombres fumadores, es decir,los elementos que forman parte de la interseccin entre el suceso fumador y el suceso hombre(F 1 H ). La probabilidad de esta combinacin de sucesos (ser fumador y ser hombre) vale:

    P (F 1 H ) = =

    Y el denominador de la probabilidad condicional recoge los 4.000 elementos del suceso dado(H ) cuya probabilidad ya sabemos que vale 0,40 (ver ms arriba). En consecuencia:

    P (F | H ) = = = =

    Es decir, la probabilidad condicional del suceso S1 dado el suceso S2 es igual a la probabi-lidad de la interseccin de ambos sucesos dividida entre la probabilidad del suceso dado:

    = [2.3]

    Precisamente esta definicin de probabilidad condicional, que contiene en el numerador laprobabilidad de la interseccin de los dos sucesos, sirve para formular la regla de la multipli-cacin (tambin llamada regla del producto):

  • Captulo 2. Conceptos previos 49

    La probabilidad de la interseccin de dos sucesos es igual a la probabilidad individualde uno de ellos multiplicada por la probabilidad condicional del otro.

    Es decir,

    = = [2.4]

    Por tanto, hablar de interseccin en el contexto de los sucesos de un espacio muestral es equi-valente a hablar de multiplicacin en el contexto de las probabilidades de esos sucesos.

    Pero la definicin [2.4] necesita ser matizada. Es claro que no todo suceso tiene por qualterar la probabilidad de cualquier otro. De hecho, muchos sucesos no alteran las probabilida-des de otros muchos. Pues bien, cuando dos sucesos no ven alteradas sus respectivas probabi-lidades individuales por la presencia del otro, decimos que esos sucesos son independientes.Cuando se da esta circunstancia, la probabilidad condicional de un suceso no difiere de suprobabilidad individual. Es decir, si dos sucesos son independientes se verifica

    = [2.5]

    Por tanto, si dos sucesos son independientes, la regla de la multiplicacin ya presentada msarriba, se simplifica:

    La probabilidad de la interseccin de dos sucesos independientes es igual al productode sus probabilidades individuales. Y a la inversa: si la probabilidad de la interseccinde dos sucesos es igual al producto de sus probabilidades individuales, entonces esossucesos son independientes.

    Volviendo a los datos de la Tabla 2.1, puede decirse que el suceso hombre es independientedel suceso fumador? Sabemos (ver ms arriba) que la probabilidad de la interseccin entreesos sucesos vale 0,10, la del suceso hombre 0,40 y la del suceso fumador 0,35. Si los dos su-cesos fueran independientes, la probabilidad de su interseccin (0,10) debera ser igual al pro-ducto de sus probabilidades individuales (0,40 0,35 = 0,14). Puesto que la probabilidad 0,10es distinta de la probabilidad 0,14, podemos decir que los sucesos hombre y fumador no sonindependientes.

    Regla de la suma

    Si dos sucesos son mutuamente exclusivos (es decir, si no tienen elementos en comn; verFigura 2.1, grfico de la izquierda), la probabilidad de su unin es la suma de sus probabili-dades individuales. Esto es lo que afirma el axioma 3. Ahora bien, si los sucesos no son exclu-sivos (es decir, si tienen algn elemento en comn; ver Figura 2.1, grfico de la derecha), ala probabilidad de la unin hay que restarle la parte que tienen en comn, es decir, la intersec-cin de ambos. Este razonamiento da pie para formular la regla de la suma:

    Si S1 y S2 son sucesos exclusivos: P (S1 c S2) = P (S1) + P (S2). [2.6]Si S1 y S2 son sucesos no exclusivos: P (S1 c S2) = P (S1) + P (S2) ! P (S1 1 S2).

    Por tanto, hablar de unin en el contexto de los sucesos de un espacio muestral es equivalentea hablar de suma en el contexto de las probabilidades de esos sucesos. En el ejemplo de la

  • 50 Anlisis de datos (vol. I)

    Figura 2.1, la probabilidad de la unin de los dos sucesos del grfico de la izquierda se obtie-ne sumando las probabilidades individuales de ambos sucesos. Sin embargo, en el grfico dela derecha, la probabilidad de la unin de ambos sucesos no se corresponde con la suma delas probabilidades individuales; a la suma de esas probabilidades individuales hay que restarla probabilidad de la interseccin (es decir, hay que restar la probabilidad correspondiente alelemento e, pues se ha sumado dos veces).

    Volviendo a los datos de la Tabla 2.1, la regla de la suma puede utilizarse para conocerla probabilidad de la unin de los sucesos hombre y fumador, es decir, la probabilidad de queun sujeto elegido al azar sea hombre o fumador. Obviamente, ser hombre y ser fumador noson sucesos exclusivos, pues una persona puede ser al mismo tiempo ambas cosas. Por tanto:

    P (H c F ) = P (H ) + P (F ) ! P (H 1 F ) = 0,40 + 0,35 ! 0,10 = 0,65

    Figura 2.1. Sucesos exclusivos (izquierda) y no exclusivos (derecha) en el espacio muestral E

    Combinando la regla de la multiplicacin y la regla de la suma se llega a un teorema, muy co-nocido en estadstica, llamado teorema de Bayes. No obstante, puesto que no ayuda a resol-ver nada que no se resuelva con las dos reglas estudiadas, no ser tratado aqu (el lector inte-resado puede consultar, por ejemplo, Amn, 1984, pgs. 53-59).

    Apndice 2

    Combinatoria (reglas de contar)

    Utilizar el clculo de probabilidades requiere, entre otras cosas, conocer el espacio muestral con el quese desea trabajar, es decir, los posibles resultados del correspondiente experimento aleatorio. Aunquecon espacios muestrales pequeos es fcil calcular el nmero total de resultados, con espacios mues-trales grandes la tarea se complica bastante. En estos casos es muy til disponer de alguna herramientaque facilite el trabajo. Como tambin lo es contar con herramientas que ayuden a calcular, por ejemplo,cuntas comparaciones por pares pueden hacerse con un determinado nmero de elementos; o de cun-tas maneras distintas puede ordenarse un conjunto de estmulos para presentarlos a una muestra desujetos. Todos estos clculos pueden realizarse fcilmente con las llamadas reglas de contar, algunasde las cuales se describen en este apartado.

    Comencemos con el principio fundamental de la combinatoria. Sirve para resolver muchas delas situaciones que podemos encontrarnos y es muy fcil de aplicar:

    Si el suceso S1 puede ocurrir de n1 maneras, el suceso S2 de n2 maneras, ..., el suceso Sk de nk mane-ras, los k sucesos S1, S2, ..., Sk pueden ocurrir conjuntamente de n1 n2 nk maneras.

    E

    S1 S2

    a b

    c d

    e f

    g h

    E

    S1 S2

    a b

    c d

    e f

    g h

    E

    S1 S2

    a b

    c d

    f g

    j ie

    E

    S1 S2

    a b

    c d

    f g

    j ie

  • Captulo 2. Conceptos previos 51

    7 Tambin pueden formarse variaciones, combinaciones y permutaciones con repeticin, pero su utilidad para el analistade datos es ms bien escasa y no sern tratadas aqu. El lector interesado en ellas puede consultar Amn (1979, pg. 33).8 El signo ! se lee factorial (n! se lee n factorial; 5! se lee cinco factorial) y significa que el nmero que le precede hayque multiplicarlo por todos los nmeros enteros menores que l hasta llegar a 1. As, 5! = 5 4 3 2 1 = 120. La excep-cin a esta regla la constituye el nmero 0: se asume que 0! = 1.

    Para comprender la utilidad de este principio, vamos a comenzar con un par de ejemplos de juegos quepueden resultar bastante familiares. Primero: cuntos resultados posibles tiene una quiniela de ftbol?Una quiniela tiene 15 resultados, cada uno de los cuales puede ocurrir de 3 maneras distintas; por tanto,los 15 resultados juntos pueden ocurrir de 3 3 3 = 3

    15 = 14.348.907 maneras distintas. Segundo:cuntos resultados hay en la lotera primitiva? En este juego se eligen al azar 6 nmeros entre 49 posi-bles (nmeros del 1 al 49); el primer nmero elegido puede ser uno cualquiera de los 49 posibles; elsegundo, uno de 48 restantes (pues el segundo resultado no puede ser el nmero que ya ha salido comoprimer resultado); el tercero, uno de 47 restantes; ...; el sexto, uno de los 44 restantes; por tanto, los 6nmeros elegidos pueden aparecer de 49 48 47 46 45 44 = 10.068.347.520 maneras.

    Aunque ambos casos se resuelven utilizando la misma estrategia, lo cierto es que difieren en unaspecto importante. En el caso de la quiniela, cada posible resultado es distinto de cada otro porque elorden en el que aparecen las quince apuestas es crucial. En la lotera primitiva, sin embargo, no todoslos posibles resultados son distintos entre s, sino que hay algunos que son equivalentes a otros; porejemplo, el resultado {1, 2, 3, 4, 5, 6} es, obviamente, equivalente al resultado {1, 3, 5, 2, 4, 6}; y tam-bin es equivalente a cualquier otro que contenga los mismos nmeros aunque estn en distinto orden.Por tanto, para calcular correctamente los posibles resultados de la lotera primitiva es necesario teneren cuenta de cuntas maneras pueden ordenarse 6 nmeros distintos. Veamos: el primer nmero puedeocupar cualquiera de las 6 posiciones disponibles; el segundo, cualquiera de las cinco restantes; ...; elsexto, la nica disponible al final. Aplicando el principio fundamental de la combinatoria se llega a laconclusin de que 6 nmeros distintos pueden ordenarse de 6 5 4 3 2 1 = 720 maneras distintas.Dado que esto ocurre con cualquier combinacin de 6 nmeros, el nmero de posibles resultados distin-tos en la lotera primitiva vendr dado por el cociente entre el primer clculo realizado (10.068.347.520,cantidad que incluye muchos resultados equivalentes) y las distintas maneras de ordenar 6 nmeros(720), es decir, 13.983.816 maneras distintas.

    Para terminar de aclarar estas diferencias entre posibles resultados de un experimento aleatorio,consideremos un ejemplo algo ms simple. Supongamos que lanzamos una moneda dos veces y obser-vamos el resultado. Llamando c al resultado cara y x al resultado cruz, este experimento aleatorio tieneasociados cuatro posibles resultados: cc, cx, xc, xx. El hecho de que estos cuatro resultados se conside-ren o no distintos entre s depender del criterio que se aplique para distinguirlos: (1) si se consideraque dos resultados son distintos tanto si contienen elementos distintos como si, conteniendo los mismos,se encuentran en distinto orden, entonces los 4 resultados son distintos; (2) si se considera que dos re-sultados son distintos nicamente si contienen elementos distintos, entonces hay 3 resultados distintos:cc, cx, xx (los resultados cx y xc cuentan como un nico resultado); (3) por ltimo, si se considera quedos resultados son distintos nicamente cuando contienen los mismos elementos pero en distinto orden,entonces hay 2 resultados distintos: cx y xc. A los resultados de aplicar el primer criterio se les llamavariaciones; a los de aplicar el segundo criterio, combinaciones; y a los de aplicar el tercer criterio,permutaciones. Y, aunque todos estos resultados pueden calcularse utilizando el principio fundamentalde la combinatoria, existen algunas frmulas que facilitan el trabajo7.

    Variaciones ( ): nmero de grupos distintos que es posible formar con N elementos tomados de nen n, considerando que dos grupos son distintos tanto si difieren en alguno de sus elementos como sidifieren en el orden de los mismos8:

    = [2.7]

  • 52 Anlisis de datos (vol. I)

    Supongamos que 10 candidatos optan a 3 puestos de trabajo con diferente remuneracin. De cuntasmaneras distintas pueden repartirse los 3 puestos entre los 10 candidatos? Para responder a esta pregun-ta es necesario tener en cuenta que cada grupo de tres candidatos es distinto de cada otro tanto si inclu-ye algn candidato distinto como si los puestos se reparten de forma distinta entre los mismos tres can-didatos (importa el orden). Por tanto, se trata de variaciones de 10 elementos tomados de 3 en 3:

    = = = maneras

    Utilizando el principio fundamental de la combinatoria se llega al mismo resultado: el primer premiopuede recaer sobre 10 personas distintas, el segundo sobre 9 y el tercero sobre 8; por tanto, los trespremios pueden repartirse de 10 9 8 = 720 maneras distintas.

    Combinaciones ( ): nmero de grupos distintos que es posible formar con N elementos tomadosde n en n, considerando que dos grupos son distintos nicamente si difieren en alguno de sus elementos:

    = = [2.8]

    Supongamos que tenemos que formar grupos de trabajo de 3 personas con los 10 empleados de un de-partamento. Cuntos grupos distintos de 3 personas pueden formarse? Obviamente, dos grupos serndistintos nicamente si no contienen las mismas personas; aqu, el orden en el que se elije a las personasno afecta a la composicin del grupo. Por tanto, se trata de combinaciones de 10 elementos tomadosde 3 en 3:

    = = = = grupos

    Utilizando el principio fundamental de la combinatoria se llega al mismo resultado: el primer miembrodel grupo puede ser uno cualquiera de los 10 empleados; el segundo, uno cualquiera de los 9 restantes;el tercero, uno cualquiera de los 8 restantes. Por tanto, con los 10 empleados es posible formar un totalde 10 9 8 = 720 grupos. Pero, como muchos de estos grupos son equivalentes (estn formados porlos mismos sujetos aunque en distinto orden), la cantidad obtenida (720) hay que dividirla entre el n-mero de ordenaciones distintas que es posible hacer con tres elementos: 3 2 1 = 6. En consecuencia,es posible formar un total de 720 / 6 = 120 grupos distintos.

    Permutaciones (Pn): nmero de ordenaciones distintas que es posible realizar con n elementos:

    Pn = n ! [2.9]

    Por ejemplo, de cuntas maneras distintas pueden asignarse los 10 empleados del ejemplo anterior alos 10 despachos disponibles en el departamento? La solucin, ahora, no consiste en hacer subgrupos,sino en ordenar a los 10 empleados de todas las formas posibles. Se trata, por tanto, de permutacionesde 10 elementos:

    P10 = 10 ! = 10 9 8 1 = 3.628.800 maneras distintas

    Utilizando el principio fundamental de la combinatoria se obtiene el mismo resultado: el primer miem-bro del grupo puede ocupar uno cualquiera de los 10 despachos disponibles; el segundo, uno cualquierade los 9 restantes; ...; el dcimo, el nico despacho disponible; por tanto, los 10 empleados pueden re-partirse en los 10 despachos de 10 9 8 1 = 3.628.800 maneras distintas.

  • Captulo 2. Conceptos previos 53

    En lo que a nosotros ms nos interesa, tanto las variaciones como las combinaciones tienen la importan-te utilidad de permitir calcular el nmero de muestras distintas que es posible extraer de una poblacinfinita. Supongamos que se extrae una muestra de n = 5 personas de una poblacin de N = 20 personas(si la poblacin tuviera 20 millones de personas el razonamiento sera el mismo). Ciertamente, un grupode personas no cambia porque las mismas 5 personas se elijan en un orden u otro. Pero, cuando se ex-traen muestras aleatorias, lo que interesa es que cualquiera de ellas tenga la misma probabilidad de serelegida. Y puesto que los elementos pueden aparecer en distinto orden, cada una de esas posibilidadestendr asociada una probabilidad. Por tanto, desde este punto de vista, una muestra debe considerarsedistinta de otra tanto si contiene algn elemento distinto como si, conteniendo los mismos, se encuen-tran en distinto orden. Consiguientemente, el nmero de muestras posibles vendr dado por las variacio-nes de 20 elementos tomados de 5 en 5:

    = = = muestras posibles

    Ahora bien, si se considera que una muestra es distinta de otra nicamente cuando contiene algn ele-mento distinto, entonces el nmero de muestras posibles vendr dado por las combinaciones de 20elementos tomados de 5 en 5:

    = = = = muestras distintas

    Es claro que el nmero de muestras posibles que resulta con uno y otro criterio es muy distinto. Sinembargo, la probabilidad asociada a cada posible muestra es la misma independientemente del criterioadoptado. En el primer caso (variaciones), esa probabilidad vale uno dividido entre las 1.860.480 mues-tras posibles; en el segundo, uno dividido entre las 15.504 muestras posibles.

    Cmo seleccionar una muestra aleatoria

    Al trabajar con poblaciones finitas, la extraccin de una muestra aleatoria requiere, en general, comoprimer paso, que los elementos poblacionales estn identificados de alguna manera. Una forma apro-piada de identificarlos consiste en numerar los elementos poblacionales de 1 a N y, a continuacin, uti-lizar una tabla de nmeros aleatorios para elegir los elementos que formarn parte de la muestra.

    Las tablas de nmeros aleatorios (como la tabla A del apndice final) han sido elaboradas de talforma que todos los dgitos del 0 al 9 aparecen con la misma frecuencia y repartidos de forma aleatoria(los dgitos suelen aparecer en estas tablas formando grupos para facilitar su lectura, pero esa agrupa-cin no tiene otro significado).

    Para ilustrar cmo utilizar la tabla de nmeros aleatorios, supongamos que tenemos que extraeruna muestra de tamao n = 50 de una poblacin de tamao N = 800. El primer paso consiste en numerarlos elementos poblacionales de 1 a 800 (normalmente se trabaja con listas que tienen resuelto esto). Acontinuacin, en la tabla de nmeros aleatorios (la del apndice final est formada por 1.000 dgitos:40 filas por 25 columnas) seleccionamos al azar un dgito cualquiera. Supongamos que la eleccin recaesobre el dgito colocado en la 29 fila y en la 13 columna: hemos elegido el nmero 5. Leyendo a partirde esa posicin de izquierda a derecha (aunque podra hacerse en cualquier otra direccin) encontramoslos siguientes nmeros de tres dgitos (tres dgitos porque se es el nmero de dgitos del tamao pobla-cional: 800): 541, 149, 050, etc. Seguimos as hasta obtener los 50 elementos que deben formar partede la muestra. Si reanudamos la secuencia donde la hemos dejado, el siguiente nmero es 944; comoeste nmero es mayor que 800 (tamao poblacional), desechamos ese valor y continuamos: 109, 341,etc. Por supuesto, se puede continuar indistintamente en la fila de abajo o en la de arriba; cualquier di-reccin que se tome ofrecer una secuencia aleatoria.

  • 54 Anlisis de datos (vol. I)

    El problema de los mtodos de extraccin basados en tablas de nmeros aleatorios es que slo re-sultan aplicables cuando se est trabajando con poblaciones finitas. En una poblacin infinita no es po-sible, por ejemplo, numerar todos los elementos que la componen. En estos casos es necesario adoptaruna estrategia de muestreo diferente. Una de estas estrategias se conoce con el nombre de simulacin:tcnica de muestreo estadstico controlado utilizada, junto con un modelo, para obtener respuestasaproximadas sobre problemas probabilsticos (...) complejos (Lewis y Orav, 1989, pg. 9). En el apn-dice del Captulo 6 se ofrece una breve explicacin de un mtodo de simulacin conocido como mtodoMonte Carlo.

    Ejercicios

    2.1. En el ejercicio 1.1 (ver captulo anterior) hemos propuesto un conjunto de caractersticas conel objetivo de aprender a identificar el nivel de medida que era posible alcanzar con ellas.Ahora se trata de decidir si esas caractersticas, a las que ya podemos empezar a llamar varia-bles, deben ser clasificadas como categricas o como cuantitativas.a. Percepcin subjetiva del dolor.b. Grupo de tratamiento (experimental, control).c. Satisfaccin con un determinado servicio.d. Peso de los recin nacidos.e. Tiempo de reaccin.f. Calidad percibida del estado de salud general.g. Rendimiento en el test de inteligencia Raven.h. Actitud hacia el aborto (en contra, indiferente, a favor).i. Rendimiento en una prueba de clculo numrico.j. Nivel socioeconmico (bajo, medio, alto).k. Nmero de aciertos en una prueba de rendimiento.l. Calidad del material recordado.m. Nivel de ansiedad.n. Intensidad del ruido ambiental.. Aos de experiencia educativa de un profesor.o. Color de un estmulo (rojo, amarillo, verde, azul).p. Dosis de un frmaco (0 mg, 100 mg, 250 mg, 500 mg).q. Grado de dificultad de una pregunta.r. Nivel de alcohol en sangre (g/l).s. Consumo de alcohol (nulo, bajo, medio, alto).t. Nmero de cigarrillos/da.u. Tabaquismo (fumadores, exfumadores, no fumadores).v. Puntuaciones en la escala de depresin de Hamilton.w. Nmero de accidentes de trfico ocurridos en fin de semana.x. Tipo de ideologa poltica (izquierda, centro, derecha).y. Nivel de conservadurismo medido en el continuo izquierda-derecha.z. Tipo de tratamiento antidepresivo (farmacolgico, psicolgico, mixto).

  • Captulo 2. Conceptos previos 55

    2.2. A continuacin se ofrecen varias afirmaciones que pueden ayudar a precisar el significadode algunos de los conceptos introducidos en este captulo. Cul de ellas es verdadera y culfalsa?a. Un parmetro es una caracterstica individual de cada elemento de una poblacin.b. Un estadstico es un nmero y, por tanto, una constante.c. Al seleccionar varias muestras de una misma poblacin y calcular en cada una de ellas un

    estadstico, el valor de ese estadstico ser siempre el mismo slo si las muestras sonaleatorias y del mismo tamao.

    d. Bajo ciertas circunstancias, los estudiantes de la Universidad Autnoma de Madrid cons-tituyen una poblacin.

    e. Una muestra aleatoria de los estudiantes de un colegio de una ciudad puede ser conside-rada representativa de los estudiantes de esa ciudad.

    2.3. En un ensayo clnico diseado para probar la eficacia de un nuevo frmaco destinado a pa-cientes con insomnio se utiliza una muestra de los pacientes con insomnio que acuden a laconsulta de un determinado hospital durante un determinado periodo de tiempo. Sealar la(s)alternativa(s) correcta(s):a. Se tiene una muestra aleatoria de pacientes con insomnio.b. Se tiene una muestra no aleatoria de pacientes con insomnio.c. La poblacin de referencia es la de pacientes con insomnio.

    2.4. Para estudiar la relacin entre las variables tabaquismo y enfisema pulmonar se han recogidodatos en tres hospitales de la zona sur de Madrid. Al comienzo del estudio, los sujetos,elegidos aleatoriamente entre los pacientes sin enfisema que han acudido a consulta duranteun ao, se han clasificado como fumadores, exfumadores y no fumadores. Tras diez aos deseguimiento se ha registrado la presencia o no de enfisema pulmonar.a. Cul es la poblacin de referencia?b. Cul es el parmetro que interesa estudiar?c. Se ha seleccionado una muestra aleatoria de la poblacin de referencia?d. A qu tipo de conclusin permite llegar un estudio de estas caractersticas (descriptiva,

    relacional, explicativa)?

    2.5. Sealar cules de las siguientes afirmaciones son verdaderas y cules son falsas:a. Si dos sucesos son independientes, la probabilidad de uno de ellos es la misma tanto si el

    otro suceso est presente como si no.b. Si dos sucesos son independientes, la probabilidad de su suma es igual a la suma de sus

    probabilidades.c. Si dos sucesos son exclusivos, su probabilidad conjunta es igual al producto de sus proba-

    bilidades individuales.d. Si se lanza una moneda al aire cinco veces y en las cinco ocasiones sale cara, la probabi-

    lidad de que salga cara en el sexto lanzamiento es menor que la probabilidad de que salgacruz (asumimos que la moneda no est trucada y que el lanzamiento es imparcial).

    e. Si se lanza una moneda al aire diez veces, el resultado 5 caras es igual de probable queel resultado 7 caras.

  • 56 Anlisis de datos (vol. I)

    2.6. Un examen consta de tres preguntas. Todas ellas tienen cinco alternativas de respuesta de lasque slo una es correcta. Si un sujeto responde al azar, cul es la probabilidad de que:a. No acierte ninguna pregunta?b. Acierte una pregunta?c. Acierte dos preguntas?d. Acierte las tres preguntas?

    2.7. En un estudio sobre discriminacin visual se presentan a un sujeto 10 pares de estmulos lumi-nosos de la misma intensidad. La tarea consiste en decidir si los estmulos de cada par tieneno no la misma intensidad. Si el sujeto realiza la tarea respondiendo al azar:a. Cul es la probabilidad de que no d la respuesta correcta en ningn par?b. Cul es la probabilidad de que d la respuesta correcta en un solo par?

    2.8. En un estudio dirigido a establecer la prevalencia de la demencia senil en personas mayoresde 65 aos, se han recogido datos sobre 5.000 personas. Cada persona se ha clasificado utili-zando dos criterios: sexo (hombre, mujer) y demencia senil (s, no). La siguiente tabla muestralos resultados obtenidos:

    Demencia senil

    Sexo S = s N = no Total

    H = hombres 500 1.500 2.000M = mujeres 750 2.250 3.000

    Total 1.250 3.750 5.000

    a. Son independientes los sucesos ser hombre y padecer demencia?b. Si se elige una persona al azar, cul es la probabilidad de que se trate de una mujer que

    no padece demencia?c. Si se elige una persona al azar y resulta ser hombre, cul es la probabilidad de que pa-

    dezca demencia?d. Si se elige al azar una persona y resulta que padece demencia, cul es la probabilidad de

    que sea un hombre?

    2.9. Supongamos que la poblacin de personas mayores de 60 aos est formada por un 40 % dehombres (H ) y un 60 % de mujeres (M ). Supongamos, adems, que el porcentaje de personasdependientes (D ) en esa poblacin es del 10 % entre los hombres y del 20 % entre las mujeres.Si se elige una persona al azar:a. Cul es la probabilidad de que la persona elegida sea un hombre dependiente?b. Cul es la probabilidad de que la persona elegida sea una mujer dependiente?c. Cul es la probabilidad de que la persona elegida sea dependiente?d. Si la persona elegida es dependiente, cul es la probabilidad de que sea un hombre?

    2.10. Tres pruebas diagnsticas para la deteccin del Alzheimer (A, B y C) detectan la enfermedaden el 90, 80 y 70 %, respectivamente, de las personas que la padecen. Si el diagnstico de ca-da prueba es independiente del de las dems:

  • Captulo 2. Conceptos previos 57

    a. Cul es la probabilidad de detectar la enfermedad si se aplican las pruebas A y B?b. Cul es la probabilidad de no detectar la enfermedad si se aplican las pruebas B y C?c. Si se considera que la enfermedad est presente slo si las tres pruebas la detectan, cul

    es la probabilidad de que un enfermo de Alzheimer sea diagnosticado como tal?d. Si se considera que la enfermedad est presente slo si, aplicadas las tres pruebas, al me-

    nos dos de ellas la detectan, cul es la probabilidad de que un enfermo de Alzheimer seadiagnosticado como tal?

    2.11. Consideremos dos preguntas de un examen: P1 y P2. Ambas tienen varias alternativas de res-puesta de las que slo una es correcta, pero la primera pregunta tiene cuatro alternativas yla segunda cinco. Un estudiante responde al azar a una de esas dos preguntas y acierta (A).a. Cul es la probabilidad de que la pregunta respondida sea la primera?b. Cul es la probabilidad de que la pregunta respondida sea la segunda?

    2.12. Un detector de mentiras diagnostica correctamente al 90 % de las personas que mienten (M)y al 95 % de las que no mienten. Se elige al azar una persona de un colectivo de 100 personasdel que se sabe que 20 mienten.a. Tanto si esa persona miente como si no, cul es la probabilidad de que el detector ofrez-

    ca un diagnstico correcto?b. Si el detector indica que esa persona miente, cul es la probabilidad de que el diagnsti-

    co sea correcto?

    2.13. Se sabe que, en una determinada poblacin, la prevalencia de una enfermedad concreta esdel 30 %. Se dispone de una prueba diagnstica con una sensibilidad (= diagnstico positivocuando la persona padece la enfermedad) del 90 % y una especificidad (= diagnstico negati-vo cuando la persona no padece la enfermedad) del 80 %. Al realizar un diagnstico concretoa un sujeto de esa poblacin:a. Cul es la probabilidad de que la prueba d un resultado positivo?b. Cul es la probabilidad de que la prueba d un diagnstico equivocado?c. Si la prueba da un resultado positivo, cul es la probabilidad de que la persona no est

    enferma?

    2.14. El 40 % de los aspirantes a un puesto de trabajo ha superado (S) una determinada prueba deseleccin. El 80 % de los aspirantes que superan esa prueba terminan siendo contratados (C),frente a slo el 5 % de los que no la superan. Si un aspirante es finalmente contratado, cules la probabilidad de que haya superado la prueba de seleccin?

    2.15. En un determinado instituto de enseanza secundaria, el 48 % de los estudiantes son chicos(O) y el 52 % chicas (A). El 15 % de los chicos tiene 19 aos o ms; el 5 % de las chicas tiene19 aos o ms.a. Cul es la probabilidad de que un estudiante elegido al azar tenga 19 aos o ms?b. Son independientes los sucesos ser chico y tener 19 aos o ms?c. Si se elige un estudiante al azar y resulta tener ms de 19 aos, cul es la probabilidad

    de que sea una chica?

  • 58 Anlisis de datos (vol. I)

    2.16. El azar (la seleccin aleatoria) desempea un importante rol en el anlisis de datos: no sloes la nica estrategia de que disponemos para obtener muestras representativas, sino que lasreglas que se derivan de la teora de la probabilidad se basan en l. Pero el azar, o las leyesdel azar, tienen otras muchas aplicaciones. Una de ellas, muy interesante, tiene que ver congarantizar el anonimato en los cuestionarios que contienen preguntas sensibles.

    Imaginemos un estudio en el que se trata de obtener una estimacin de la proporcin depersonas que defraudan a Hacienda (lo mismo valdra para conductas como el consumo dedrogas, para los gustos o inclinaciones sexuales, etc.; es decir, para conductas que las perso-nas se sienten inclinadas a ocultar o maquillar por ser socialmente indeseables). Lgicamen-te, pocas personas decidirn confesar un delito (como defraudar a Hacienda) a no ser que re-ciban plenas garantas de que su respuesta permanecer en el anonimato.

    Wonnacott y Wonnacott (1990, pgs. 107-108) han propuesto una ocurrente manera degarantizar el anonimato de las respuestas a un cuestionario. La estrategia consiste en pediral entrevistado que lance una moneda en privado con la siguiente indicacin: (1) si sale cara,responda a la pregunta: ha defraudado alguna vez a Hacienda?; (2) si sale cruz, vuelvaa lanzar la moneda y diga si ha vuelto a salir cruz. Al proceder de esta manera, si el entre-vistado responde s, el entrevistador no tiene forma de saber si el entrevistado ha defrau-dado a Hacienda o ha obtenido dos cruces. El anonimato est garantizado.

    Por supuesto, esta estrategia no permite conocer las respuestas individuales de los entre-vistados. Pero s permite obtener una estimacin de la proporcin de personas que defraudana Hacienda.

    a. Supongamos que la verdadera proporcin () de entrevistados que defrauda a Haciendavale 0,40. Qu proporcin (P) de respuestas s cabe esperar encontrar en una muestraconcreta con el procedimiento descrito?

    b. Si en una muestra concreta se obtiene P = 0,15, qu valor habr que estimar para ?c. Para poder responder a las dos preguntas anteriores es necesario asumir que ciertas cosas

    ocurren de cierta manera. Qu cosas y de qu manera?

    Soluciones

    2.1. En estas soluciones se indica no slo si una variable es categrica o cuantitativa. En las variables cate-gricas se indica si son nominales u ordinales. En las cuantitativas se distingue entre las que son tpi-camente cuantitativas (de intervalos o de razn; aclarando si son continuas o discretas) y las que, nosiendo tpicamente cuantitativas, tampoco son estrictamente ordinales.

    a. Cuantitativa (no estrictamente ordinal).b. Categrica (nominal).c. Cuantitativa (no estrictamente ordinal).d. Cuantitativa (continua).e. Cuantitativa (continua).f. Cuantitativa (no estrictamente ordinal).g. Cuantitativa (no estrictamente ordinal).h. Categrica (ordinal).i. Cuantitativa (no estrictamente ordinal).j. Categrica (ordinal).

  • Captulo 2. Conceptos previos 59

    k. Cuantitativa (discreta).l. Cuantitativa (no estrictamente ordinal).m. Cuantitativa (no estrictamente ordinal).n. Cuantitativa (continua).. Cuantitativa (discreta).o. Categrica (nominal).p. Cuantitativa (discreta).q. Cuantitativa (no estrictamente ordinal).r. Cuantitativa (continua).s. Categrica (ordinal).t. Cuantitativa (discreta).u. Categrica