ii - repaso...ii - repaso el capítulo expone algunos conceptos básicos sobre medición y...

30
Capítulo II – Repaso (borrador)- 15 II - REPASO El capítulo expone algunos conceptos básicos sobre medición y estadística descriptiva. En tanto el libro está dirigido a profesionales y, especialmente, estudiantes de ciencias sociales y disciplinas afines que desean introducirse en los conocimientos sobre la teoría y las técnicas elementales de muestreo, se supone que el lector tiene incorporados mínimos cono- cimientos (e incluso experiencia de trabajo) sobre estadística y metodología de investigación. Sin embargo, como algunos conceptos, tanto por falta de ejercitación cotidiana como por di- ficultades en el aprendizaje, pueden estar un poco “débiles”, se incluye también un breve re- paso sobre un grupo de medidas estadísticas descriptivas. Debe tenerse en cuenta que apenas se dedican párrafos a temas que merecerían capítu- los completos. Si el lector descubre que ciertos conceptos le parecen demasiado novedosos, no estará de más una lectura complementaria de alguno de los libros sobre álgebra, probabili- dad, estadística y metodología de investigación hallables en cualquier biblioteca universitaria. II.1 - Elementos del dato El procedimiento de medición en las ciencias en general y en ciencias sociales en particular puede ser definido de diversas maneras, pero todas tienen en común que se refieren a propiedades o atributos de un objeto. Supongamos que podemos observar, mediante diversos procedimientos, las características de los pobladores de una localidad. Si averiguamos el grado de instrucción formal de una mujer cualquiera no estamos “midiendo” a la mujer porque esta, además de su instrucción formal, tiene otros atributos (nacionalidad, cantidad de hijos, condición de actividad, cobertura de salud, cultura, representaciones, preferencias, vínculos, etc.), pero tampoco estamos “midiendo” la instrucción en general, aplicable a cualquier poblador de la localidad. Estamos midiendo la instrucción formal de esta mujer particular. Si observamos la instrucción del resto de las mujeres hemos medido la instrucción de las mujeres de la localidad. Si hacemos lo mismo con los varones hemos medido la instrucción de toda el pueblo. Se mantiene el atributo “grado de instrucción formal”, pero varia el objeto (mujeres, varones, localidad). Por otra parte podríamos saber cual es la edad de una mujer y en este caso habríamos medido la edad de esa mujer y así de todas las mujeres y varones, obteniendo la medición de la edad de todos los pobladores. De esta forma hemos mantenido el objeto, pero variado el atributo (de nivel de instrucción formal a edad). No se observan los objetos por sí mismos, ni las propiedades en abstracto, sino estas propiedades sobre los objetos. Hemos visto que, cuando medimos, se atribuye un valor o categoría de un atributo a un objeto, es decir medición es el proceso por el cual se clasifican en categorías de ciertos atributos a una serie de objetos considerados. El resultado de la medición es el dato, constituido por tres elementos: las variables o atributos, las categorías o valores y las unidades de análisis, elementos u objetos considerados.

Upload: others

Post on 05-Oct-2020

24 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: II - REPASO...II - REPASO El capítulo expone algunos conceptos básicos sobre medición y estadística descriptiva. En tanto el libro está dirigido a profesionales y, especialmente,

Capítulo II – Repaso (borrador)- 15

II - REPASO

El capítulo expone algunos conceptos básicos sobre medición y estadística descriptiva.

En tanto el libro está dirigido a profesionales y, especialmente, estudiantes de cienciassociales y disciplinas afines que desean introducirse en los conocimientos sobre la teoría y lastécnicas elementales de muestreo, se supone que el lector tiene incorporados mínimos cono-cimientos (e incluso experiencia de trabajo) sobre estadística y metodología de investigación.Sin embargo, como algunos conceptos, tanto por falta de ejercitación cotidiana como por di-ficultades en el aprendizaje, pueden estar un poco “débiles”, se incluye también un breve re-paso sobre un grupo de medidas estadísticas descriptivas.

Debe tenerse en cuenta que apenas se dedican párrafos a temas que merecerían capítu-los completos. Si el lector descubre que ciertos conceptos le parecen demasiado novedosos,no estará de más una lectura complementaria de alguno de los libros sobre álgebra, probabili-dad, estadística y metodología de investigación hallables en cualquier biblioteca universitaria.

II.1 - Elementos del dato

El procedimiento de medición en las ciencias en general y en ciencias sociales enparticular puede ser definido de diversas maneras, pero todas tienen en común que se refieren apropiedades o atributos de un objeto.

Supongamos que podemos observar, mediante diversos procedimientos, las característicasde los pobladores de una localidad. Si averiguamos el grado de instrucción formal de una mujercualquiera no estamos “midiendo” a la mujer porque esta, además de su instrucción formal, tieneotros atributos (nacionalidad, cantidad de hijos, condición de actividad, cobertura de salud,cultura, representaciones, preferencias, vínculos, etc.), pero tampoco estamos “midiendo” lainstrucción en general, aplicable a cualquier poblador de la localidad. Estamos midiendo lainstrucción formal de esta mujer particular.

Si observamos la instrucción del resto de las mujeres hemos medido la instrucción de lasmujeres de la localidad. Si hacemos lo mismo con los varones hemos medido la instrucción detoda el pueblo. Se mantiene el atributo “grado de instrucción formal”, pero varia el objeto(mujeres, varones, localidad).

Por otra parte podríamos saber cual es la edad de una mujer y en este caso habríamosmedido la edad de esa mujer y así de todas las mujeres y varones, obteniendo la medición de laedad de todos los pobladores. De esta forma hemos mantenido el objeto, pero variado el atributo(de nivel de instrucción formal a edad).

No se observan los objetos por sí mismos, ni las propiedades en abstracto, sino estaspropiedades sobre los objetos.

Hemos visto que, cuando medimos, se atribuye un valor o categoría de un atributo a unobjeto, es decir medición es el proceso por el cual se clasifican en categorías de ciertos atributos

a una serie de objetos considerados.

El resultado de la medición es el dato, constituido por tres elementos: las variables oatributos, las categorías o valores y las unidades de análisis, elementos u objetosconsiderados.

Page 2: II - REPASO...II - REPASO El capítulo expone algunos conceptos básicos sobre medición y estadística descriptiva. En tanto el libro está dirigido a profesionales y, especialmente,

16 - Introducción al muestreo para estudiantes de ciencias sociales (en preparación)

II.1.A - Unidades de análisis

Son los elementos o sujetos de una investigación. Son los objetos sobre los cuales sepredica. Pueden ser concretos o abstractos, pueden ser naturales o creados específicamente alsolo propósito de la investigación o pueden ser individuales o colectivos. Un conjunto de ele-mentos puede o no ser una unidad de análisis colectiva, en tanto no se pueda (o no se desee)una desagregación analítica en sus componentes elementales.

Debemos ser especialmente cuidadosos al trabajar con información proveniente deunidades de análisis colectivas ya que se pueden cometer groseros errores analíticos al exten-der sus propiedades a los integrantes individuales, sobre todo cuando los datos son promediosde un conjunto de observaciones individuales o razones entre diferentes categorías. Estoserrores son aún mayores a medida que aumenta el tamaño del colectivo y su heterogeneidad.

II.1.B - Variables o atributos

Son las propiedades no constantes a observar en las unidades de análisis (peso, volu-men, grado de madurez, provincia de origen, cantidad de hijos, superficie, etc.). Una variablepuede tomar un valor cualquiera dentro de un conjunto determinado, al que se conoce comodominio de la variable.

II.1.C - Categorías o valores

Son las posiciones o estados de una variable. De tipo de fruta pueden ser: manzana, pera.De peso pueden ser: 225 gr, 185 gr, etc. De grado de madurez pueden ser: muy, algo o nada ma-dura.

Las categorías o valores de las variables deben cumplir con dos requisitos fundamentales:

Deben ser exhaustivas, es decir, que permitan la inclusión de todas las unidades deanálisis, que no quede alguna sin posibilidad de ser ubicada.

Deben ser excluyentes, es decir, que ninguna unidad pueda ser incluida en más de unacategoría a la vez.

Existen casos particulares donde aparentemente no se cumple con estos requisitos y queson conocidos como respuestas múltiples (1).

Notas:

1Se denomina respuestas múltiples a los casos donde, aparentemente, las unidades pueden ser ubicadas

en más de una categoría de la variable. Por ejemplo si la variable es "diario leído en el ultimo mes", sus categoríasson los nombres de los diarios publicados en ese período (Clarín, Nación, Página 12, Crónica, ninguno, etc.). Cadaunidad de análisis puede leer más de un diario y entonces se ubicaría en más de una categoría. En realidad no hayuna sola variable sino un conjunto de ellas: "lectura de Clarín en el último mes", "lectura de Nación ...", "lectura dePágina 12...", etc. con sus respectivas categorías (Si / No). O hay una sola variable con categorías más complejasresultantes de diversas combinaciones (lectura solo de Clarín / lectura de Clarín y Página 12 / lectura de Clarín, Pá-gina 12 y Crónica / etc.)La respuesta múltiple no es una variable con categorías no excluyentes sino una forma de recolectar la informacióno de presentar los datos.

Page 3: II - REPASO...II - REPASO El capítulo expone algunos conceptos básicos sobre medición y estadística descriptiva. En tanto el libro está dirigido a profesionales y, especialmente,

Capítulo II – Repaso (borrador)- 17

II.1.D - Las variables según el nivel de medición

Si clasificamos a los habitantes de la República Argentina teniendo en cuenta la varia-ble “región de residencia habitual” los agruparemos, por ejemplo, en categorías tales como“Noroeste”, “Cuyo” o “Patagonia”.

Podríamos sacar conclusiones sobre las frecuencias (cantidad de habitantes) obtenidaspor cada categoría (en la Patagonia viven menos personas que en la Mesopotamia, en la Re-gión Pampeana encontramos al 60% de los habitantes de nuestro país, dos de cada diez ar-gentinos viven en Cuyo o en el Noroeste, etc.), pero las categorías (en este caso regiones) nopueden ser ordenadas jerárquicamente ni es factible realizar ningún tipo de operación mate-mática con ellas.

Al respecto suele haber confusión con las operaciones u ordenamientos derivados delas frecuencias. Si bien podemos ordenar a las regiones (categorías) en forma creciente o de-creciente a partir de la cantidad de residentes, no podemos hacer algo con ellas independien-temente de ese dato. Podemos dividir la cantidad de residentes de una zona por los de otra,pero no podemos dividir Cuyo por Mesopotamia. Lo mismo sucede con variables como el se-xo, la adscripción política, la religión y muchas otras de uso común en las ciencias sociales.

Decimos de este tipo de variables que su nivel de medición es nominal o, para simplifi-car, que son variables nominales. Sus categorías no van más allá de una simple (aunque por logeneral muy útil) clasificación de las unidades de análisis. En el nivel o escala nominal cadauna de las categorías asignadas a la variables en cuestión tiene idéntica importancia a las demás.

Pero otras variables tienen categorías que pueden ser ordenadas con independencia desus frecuencias, aunque no podamos establecer cual es la magnitud de la diferencia en el or-denamiento, a que distancia está una categoría de otra. Sabemos que un cabo "manda" másque un soldado, un cabo primero más que un cabo y un sargento más que un cabo primero,pero no sabemos “cuanto más manda”, no podemos darle una magnitud a esa diferencia aúncuando podamos establecer funciones inherentes al grado.

Lo mismo nos sucede con categorías como ayudante de segunda, ayudante de primera,jefe de trabajos prácticos, profesor adjunto y profesor titular o con categorías de variablescomo "intensidad de actitud autoritaria" o “grado de información sobre medidas preventivasdel cólera”, etc. Simplificando, sus categorías suelen ser del estilo “mal, regular, bien”, “nada,algo, mucho”, “baja, media, alta” o similares.

Decimos de estas variables en las que podemos ordenar las categorías pero no darleuna magnitud a sus diferencias, que su nivel de medición es ordinal.

Si trabajamos con variables como la “temperatura” no sólo podemos ordenar a las ca-tegorías sino también observar magnitudes en las diferencias, indicar exactamente la separa-ción entre dos puntos. En estos casos hablamos de un nivel de medición intervalar o de inter-

valos. En el nivel o escala de intervalos se conocen las distancias entre las categorías, pero tantoel punto de origen como la unidad de medida o distancia entre las categorías son arbitrarios.

Si además de poder indicar exactamente la separación entre dos puntos contamos conun punto "cero" natural o real, que implica ausencia de atributos, (cantidad de hijos nacidosvivos, remuneración mensual, edad, tamaño de los establecimientos agropecuarios, etc.), ha-blamos de un nivel de medición de razones (o razones constantes, cocientes o proporciones).Podemos comparar valores utilizando sus proporciones y decir cosas como que una mujer ha

Page 4: II - REPASO...II - REPASO El capítulo expone algunos conceptos básicos sobre medición y estadística descriptiva. En tanto el libro está dirigido a profesionales y, especialmente,

18 - Introducción al muestreo para estudiantes de ciencias sociales (en preparación)

tenido el doble de hijos que otra, lo que no podríamos hacer si el cero fuera arbitrario comoen el caso de la temperatura (al menos utilizando las escalas Celcius o Fahrenheit). Si la má-xima de hoy fue 20ºC y la de ayer 10ºC, podemos decir que la temperatura máxima de hoyfue 10 grados centígrados mayor que la de ayer, pero no sería correcto decir que hubo el “do-ble de calor” (con perdón por el barbarismo) que ayer.

“Sin embargo, prácticamente [...], esta distinción entre escala de intervalo y escala de

proporción es puramente académica, ya que es extremadamente difícil encontrar una escala

legítima de intervalo que no sea al propio tiempo una escala de proporción. [...] en todos los

casos en que se dispone de una unidad, será legítimo emplear todas las operaciones co-

rrientes de la aritmética, incluidas las raíces cuadradas, las potencias y los logaritmos” (2)

Una error habitual al clasificar variables según su nivel de medición es resultado deatribuirles atributos de otras con las que se encuentran asociadas. Es cierto que podríamosrealizar ciertas operaciones matemáticas asignándole a la jerarquización militar el monto re-muneratorio que le corresponde a cada grado, y decir que un coronel gana 2,3 veces más queun teniente, pero ello no nos permite decir que un coronel "manda" o "es" 2,3 veces más queun teniente.

El "máximo nivel de instrucción alcanzado" es una variable ordinal aunque este aso-ciada con "cantidad de años de estudio" (razones), y "clase social" es nominal por más quepodamos realizar un ordenamiento atendiendo al ingreso (razones) o al prestigio asociado asus categorías (ordinal).

La clasificación de variables según su nivel de medición se realiza atendiendo exclusi-vamente a lo que se puede realizar, lógica y matemáticamente, con sus categorías o valores yno con sus frecuencias o con otras variables asociadas. Por supuesto la clasificación de unavariable no depende de su nombre, sino de una exhaustiva definición de sus características ycategorías (3).

Suele designarse a las variables nominales y ordinales como "cualitativas" y a las in-tervalares y de razones como "cuantitativas", atendiendo a que con las categorías de las se-gundas se pueden realizar operaciones matemáticas.

Algunos autores utilizan los conceptos de variable y valor cuando se trata de nivelesde medición intervalar o de razones, y utilizan los términos atributo y categoría cuando setrata de niveles de medición ordinal y nominal, diferenciando entre medición de variables ymedición de atributos. Lo importante es tener en cuenta que hay cosas que se pueden hacer y

Notas:

2 Blalock, H. M., Estadística Social, Introducción

3 Si las categorías de una variable a la que denominamos “Educación” las establecemos a partir del nivel

que la unidad de análisis haya alcanzado (primario, secundario, terciario o universitario) y su grado de cumplimiento,habremos decidido trabajar con una escala ordinal. Sabemos que la categoría “primario completo” implica un mayornivel de instrucción que “primario incompleto”, pero no podemos establecer la magnitud de la diferencia.

Pero si establecemos las categorías de esa variable a partir de la cantidad de años de instrucción formalaprobados, trabajaremos con un nivel de medición de razones, donde con claridad sabremos la magnitud de la dife-rencia entre categorías y donde el cero implica ausencia del atributo.

Lo que no quita que sea conveniente, en la medida de lo posible, darle a las variables un nombre mássustantivo. Y que no siempre el mayor nivel de medición sea el aconsejable a los efectos analíticos.

Page 5: II - REPASO...II - REPASO El capítulo expone algunos conceptos básicos sobre medición y estadística descriptiva. En tanto el libro está dirigido a profesionales y, especialmente,

Capítulo II – Repaso (borrador)- 19

otras que no dependiendo del nivel de medición. Si trabajamos con una variable nominal nopodemos hablar de direccionalidad en su asociación con otra. No podemos decir que a mayorsexo le corresponde una mayor tasa de actividad pero si que los hombres tienen un tasa deactividad más alta que las mujeres. La direccionalidad en la asociación sólo aparece a partirdel nivel de medición ordinal, donde afirmaciones como "a medida que aumenta la jerarquíamilitar aumenta la remuneración asignada" o "el porcentaje de desempleados en la poblacióneconómicamente activa masculina disminuye a medida que aumenta el nivel de instrucción"si son posibles.

II.1.E - Otros criterios de clasificación de las variables

La clasificación de variables por nivel de medición (escala ordinal, ya que estamos) noes la única clasificación posible ni utilizada. Cuando hablamos de variables y les atribuimoscategorías como sociodemográficas, dicotómicas, dependientes, actitudinales, discretas, etc.,estamos utilizando otros criterios clasificatorios, a los que no estaría de más que el lector lesdé una repasada.

De cualquier forma, recordemos que se conoce como variables continuas a aquellasque, teóricamente, pueden tomar infinitos valores.

Si medimos la altura de todas las personas no hallaremos valores por arriba de los 3metros (para poner una medida cualquiera). El dominio de la variable tiene un límite. Pero,dependiendo de nuestras pretensiones y de la precisión del intrumento de medición, entre dosvalores cualesquiera siempre podremos hallar un número intermedio más preciso. Entre 170 y171 cm podemos establecer infinitos valores (170.5, 170.51, 170.511, 170.5111, etc.) La infi-nitud dentro del rango de la variable es lo que caracteriza a las variables continuas.

Aquellas variables que no pueden tomar cualquier magnitud entre dos valores dados seconocen como variables discretas, aún cuando el rango de valores sea muy grande o tienda ainfinito. La cantidad de insectos en es una variable discreta, por inconmensurable que sea elnúmero total, ya que, por ejemplo, entre 1.000.000.001 y 1.000.000.002 insectos no hay otrovalor posible.

En general, las medidas (peso, altura, distancia, etc.) dan origen a datos continuos,mientras que los conteos (número de hijos, la cantidad de votos, habitantes de una localidad,etc.) dan origen a datos discretos.

Por supuesto, esta división entre variables continuas y discretas tiene sentido cuando elnivel de medición es intervalar o de razones.

Y también recordemos que se conoce como independientes a las variables a las que seles adjudica alguna fuerza explicativa sobre otras, mientras que se conoce como variables de-

pendientes a las que pueden ser explicadas, parcial o totalmente, por las independientes.

Page 6: II - REPASO...II - REPASO El capítulo expone algunos conceptos básicos sobre medición y estadística descriptiva. En tanto el libro está dirigido a profesionales y, especialmente,

20 - Introducción al muestreo para estudiantes de ciencias sociales (en preparación)

II.2 - Algunas medidas de estadística descriptiva

La estadística descriptiva tiene como fin la reducción de un conjunto de datos a unas pocasmedidas que permiten conocer y comparar las características del grupo o grupos bajo estudio.

Se describe al grupo en función de las características conjuntas y no en función de lascualidades particulares de tal o cual integrante. Podemos dividir a esta descripción en tres tipos deconocimientos básicos:

• Composición: cantidad de elementos de un grupo que tienen una determinadacaracterística o la forma cómo se distribuyen en el grupo los individuos de acuerdo con laintensidad de la característica observada. Por ejemplo: frecuencias y porcentajes.

• Características abstractas: resultado de la aplicación de diversos instrumentos estadísticosque permiten resumir la masa total de información en unas pocas medidas. Los principalesinstrumentos para observar las características abstractas de un grupo son:

las medidas de tendencia central (valores alrededor de los que se concentran lasobservaciones individuales). Ejemplo: la media aritmética o promedio.

las medidas de posición (localización de valores típicos o atípicos dentro de ladistribución). Ejemplo: los cuartiles.

las medidas de dispersión (valores que resumen el grado de variabilidad de loselementos alrededor de las medidas de tendencia central). Ejemplo: la varianza.

las medidas relativas a la forma: hacen referencia a la forma de la distribución delas observaciones. La asimetría indica si los valores de los elementos estudiadosse agrupan simétricamente respecto del valor medio y la curtosis señala si en ladistribución de esas medidas predominan o no los valores cercanos a las medidasde tendencia central.

• Relaciones entre las variables: grado y características de la relación entre dos o másvariables.

II.2.A - Distribución de frecuencias

Es el conteo de la cantidad de elementos que comparten determinadas características.Para ejemplificar, durante el desarrollo de este punto utilizaremos una población ficticia com-puesta por doce hogares con sus correspondientes ingresos mensuales:

hogares a b c d e f g h i j k l

ingresos ($) 120 100 60 160 140 160 120 70 130 100 100 60

Page 7: II - REPASO...II - REPASO El capítulo expone algunos conceptos básicos sobre medición y estadística descriptiva. En tanto el libro está dirigido a profesionales y, especialmente,

Capítulo II – Repaso (borrador)- 21

Es común y conveniente que la información no se presente desagregada caso por caso,como lo hemos hecho, sino en un tabla donde en la primera columna están las categorías en-contradas y en la segunda columna la cantidad de apariciones de cada una. Es lo que se cono-ce como una distribución de frecuencias. Para la población de hogares que usamos de ejem-plo...

x ƒ

$ 60 2

$ 70 1

$ 100 3

$ 120 2

$ 130 1

$ 140 1

$ 160 2

Σ 12

... donde en la columna encabezada por x tenemos a los valores de la variable ingresosque encontramos en nuestra población y en la columna encabezada por f la cantidad de vecesque aparece cada valor en la población (frecuencias).

Si indicamos para cada categoría la cantidad de casos que quedan sumando su frecuen-cia y las de las categorías que están por debajo de ella obtendremos una distribución de fre-cuencias acumuladas.

Ingresos ƒ ƒ acumulada

$ 60 2 2

$ 70 1 3

$ 100 3 6

$ 120 2 8

$ 130 1 9

$ 140 1 10

$ 160 2 12

Pero suele pasar, y es lo que habitualmente sucede, que los datos no están desagrega-dos y ni siquiera resumidos en categorías. Cuando la cantidad de categorías es grande (ocuando los datos son continuos) los valores se presentan agrupados en intervalos, o conjuntosde valores contiguos. En el cuadro que figura a continuación vemos la distribución de fre-cuencias de la edad de la población menor de 15 años de una determinada localidad y luego ladistribución agrupadas sus categorías en tres intervalos.

Page 8: II - REPASO...II - REPASO El capítulo expone algunos conceptos básicos sobre medición y estadística descriptiva. En tanto el libro está dirigido a profesionales y, especialmente,

22 - Introducción al muestreo para estudiantes de ciencias sociales (en preparación)

Población de 0 a 14 años de la localidad X

en 1991

categorías intervalos

x ƒ x ƒ

0 120 0 a 4 580

1 118 5 a 9 506

2 116 10 a 14 452

3 115

4 111

5 107

6 102

7 100

8 100

9 97

10 96

11 93

12 90

13 88

14 85

Entonces, tenemos tres formas en las que podemos encontrar o presentar la informa-ción:

a) desagregada por caso: es un listado (o matriz) de todas los elementos relevados, consus correspondientes categorías. Para los datos del cuadro superior implicaría un listado querefleje cada uno de los 1538 integrantes de la población con su correspondiente edad. Es unaforma incómoda y poco habitual de presentar datos.

b) resumida en categorías: es un listado de todas las categorías halladas en el releva-miento, con la frecuencia de aparición de cada una. Es habitual cuando las categorías obser-vadas son pocas y los datos discretos.

c) agrupada en intervalos: implica unir a las categorías contiguas en grupos (interva-los) e informar, para cada intervalo, la cantidad de casos que le corresponde (frecuencia). Esuna presentación habitual cuando los valores observados son muchos o con datos continuos.

Podríamos haber hallado la información sobre los hogares que nos sirvieron de ejemploagrupada en intervalos de la siguiente forma:

x ƒ ƒ acumu-

lada

$ 51 – 80 3 3

$ 81 – 110 3 6

$ 111 – 140 4 10

$ 141 o más 2 12

Page 9: II - REPASO...II - REPASO El capítulo expone algunos conceptos básicos sobre medición y estadística descriptiva. En tanto el libro está dirigido a profesionales y, especialmente,

Capítulo II – Repaso (borrador)- 23

II.2.B - Proporciones, porcentajes y razones

¿Qué importancia, qué peso tienen los hogares con determinados ingresos en esta po-blación? ¿Qué peso tienen los de mayores ingresos? ¿Qué relaciones podemos establecer en-tre unos y otros? ¿Cómo comparar la distribución de ingresos de los hogares con los de otraspoblaciones? Podemos empezar a contestar preguntas como estas con algunas medidas esta-dísticas simples.

La proporción de una categoría surge de dividir la cantidad de casos (frecuencia) deesa categoría por el total de casos de la distribución ( f/N ).

¿En que proporción encontramos a cada valor en nuestra distribución?

x ƒ ƒ / N

$ 60 2 2/12 = 0,167

$ 70 1 1/12 = 0,083

$ 100 3 3/12 = 0,250

$ 120 2 2/12 = 0,167

$ 130 1 1/12 = 0,083

$ 140 1 1/12 = 0,083

$ 160 2 2/12 = 0,167

Σ 12 1

Si sumamos las proporciones de todos los valores el resultado siempre será la unidad.

Los porcentajes los obtenemos multiplicando las proporciones por cien. De esta formaestandarizamos la información unificando el tamaño de la distribución, ya que con el por-centaje estamos diciendo cuantos casos habría de una categoría si N = 100. Por lo que, si su-mamos los porcentajes de todas las categorías, el total será siempre 100.

Si en una distribución de frecuencias en vez de utilizar los valores absolutos utilizamoslos porcentajes obtendremos lo que se llama una distribución porcentual, siendo una de susprincipales ventajas la posibilidad de comparación con otras distribuciones.

x ƒ ƒ / N % ( f/N×100 )

$ 60 2 2/12 = 0,167 16,67 %

$ 70 1 1/12 = 0,083 8,33 %

$ 100 3 3/12 = 0,250 25,00 %

$ 120 2 2/12 = .0,167 16,67 %

$ 130 1 1/12 = 0,083 8,33 %

$ 140 1 1/12 = 0,083 8,33 %

$ 160 2 2/12 = 0,167 16,67 %

Σ 12 1 100 %

Cuando se habla de frecuencia relativa se hace referencia al cociente entre la cantidadde veces que aparece una categoría y la cantidad de apariciones de todos las categorías quetoma una variable (total de casos/elementos). Aunque deberíamos diferenciar entre distribu-ciones de frecuencias relativas o porcentuales si tratamos con proporciones o porcentajes,respectivamente, el uso habitual ha llevado a aceptar que se hable de distribuciones de fre-cuencias relativas tanto para una como para otra medida.

Page 10: II - REPASO...II - REPASO El capítulo expone algunos conceptos básicos sobre medición y estadística descriptiva. En tanto el libro está dirigido a profesionales y, especialmente,

24 - Introducción al muestreo para estudiantes de ciencias sociales (en preparación)

Así como podemos construir distribuciones de frecuencias absolutas acumuladas, tam-bién podemos hacerlo con las proporciones y los porcentajes. El resultado será una distribu-ción de frecuencias porcentuales acumulada.

Ingresos ƒ ƒ acumulada % % acumulado

$ 60 2 2 16,67 16,67

$ 70 1 3 8,33 25,00

$ 100 3 6 25,00 50,00

$ 120 2 8 16,67 66,67

$ 130 1 9 8,33 75,00

$ 140 1 10 8,33 83,33

$ 160 2 12 16,67 100

Para la categoría $100, la frecuencia acumulada es 6 y el porcentaje acumulado es50%, lo que nos indica que el número de hogares con $100 o menos de ingresos mensuales es6 y que representan a la mitad de la población.

Aunque la más usada, cien no es la única base para estandarizar las proporciones.Cuando las proporciones son pequeñas, para facilitar su lectura e interpretación, se las estan-dariza con bases más altas (por mil o más).

La razón de un número A a otro B se define fácilmente: A dividido por B. Siguiendocon nuestro ejemplo, la razón de los hogares con $70 o menos de ingresos mensuales a loshogares con más de $70 de ingresos mensuales, es de 3/9, (3 son los hogares con un ingresode $70 o menos y 9 son los que tienen más de $70). Si consideramos a $70 como el límiteentre los ingresos suficientes e insuficientes para determinados fines, podemos expresarlo dediversas maneras: hay 3 hogares con ingresos insuficientes cada 9 con ingresos suficientes, larazón entre hogares con ingresos insuficientes y hogares con ingresos suficientes de 3 a 9. O,mejor aún, es de 1 a 3, ya que siempre es conveniente llevar las razones a su mínima expre-sión. Si podemos llevar alguno de los componentes de la razón a la unidad, la haremos máscomprensible.

A diferencia de las proporciones, las razones pueden ser mayores que la unidad: tene-mos 3 hogares con $100 de ingresos cada 2 con $160, o la razón los hogares con ingresos de$100 a los hogares con ingresos de $160 es 3/2.

Otra diferencia con las proporciones es que las razones pueden establecerse entre cate-gorías o totales de diferentes variables (1 desocupado cada 2 hogares, 1 automóvil cada 2 per-sonas adultas, 20 habitantes por kilómetro cuadrado, etc.)

A los efectos comparativos las razones también pueden estandarizarse. Una razón es-tandarizada es, por ejemplo, el índice de masculinidad, que surge de dividir la cantidad de va-rones por la cantidad de mujeres en una región determinada y luego multiplicar el númeroobtenido por 100; el índice de masculinidad nos da la cantidad de varones por cada 100 muje-res.

Page 11: II - REPASO...II - REPASO El capítulo expone algunos conceptos básicos sobre medición y estadística descriptiva. En tanto el libro está dirigido a profesionales y, especialmente,

Capítulo II – Repaso (borrador)- 25

región

A B

varones 431259 483301

mujeres 475872 520478

razón varones/mujeres 87/96 91/98

índice de masculinidad 90,6 92,9

Y como se puede observar en la tabla precedente, la razón estandarizada hace más fácilcomparar de un vistazo la relación entre varones y mujeres en ambas regiones que la razónsin estandarizar.

Cuando alguno de los componentes de la razón es muy pequeño (por lo común el nu-merador) en relación al otro y por lo tanto la estandarización con base 100 arroja muchas ci-fras decimales, se suele utilizar bases mayores para evitarlas (1.000, 10.000 o más), lo que escomún en las tasas demográficas.

Podemos considerar a las proporciones como un tipo especial de razón, donde el de-nominador es igual a la cantidad total de casos y el numerador una fracción de ese total.

II.2.C - Medidas de tendencia central, de posición y de dispersión

Hemos visto que la descripción del comportamiento de una variable se puede hacermediante una distribución de frecuencias (absolutas o relativas). También podemos utilizarotros tipos de medidas. Las más importantes se conocen como de tendencia central, de posi-ción y de dispersión (aunque esta clasificación no es compartida por todos los autores, y al-gunos coloca dentro de la misma categoría a las medidas de tendencia central y de posición).

Cada una tiene sus ventajas y limitaciones y la aplicación de una u otra depende de losresultados que se pretendan obtener o resaltar.

II.2.C.1 - Medidas de tendencia central

Un promedio es un valor representativo de un conjunto de datos. Si los datos están or-denados según su magnitud (no su frecuencia) los promedios tienden a ubicarse en el centrodel conjunto, por lo que se los conoce también como medidas de centralización o de tenden-cia central. En un sentido estricto el concepto de promedio es equivalente a tendencia centraly engloba a varias medidas, entre ellas las medias (aritmética, geométrica, armónica). Perocomo la media aritmética es el promedio más habitual, es de uso corriente y aceptado que laspalabras promedio y media se utilicen como sinónimo de media aritmética, cosa que tambiénharemos si el contexto no permite dudas sobre su significado.

La media aritmética (media)

Si usamos la expresión ∑=

N

i

ix1

estamos haciendo referencia a la suma de los ingresos de

todos los hogares. El símbolo xi ("x sub i") denota cualquiera de los N valores que una varia-

ble X puede tomar. El símbolo que antecede a xi, compuesto por la letra griega ∑∑∑∑ (sigma ma-

Page 12: II - REPASO...II - REPASO El capítulo expone algunos conceptos básicos sobre medición y estadística descriptiva. En tanto el libro está dirigido a profesionales y, especialmente,

26 - Introducción al muestreo para estudiantes de ciencias sociales (en preparación)

yúscula), una N sobre ∑ y la expresión i=1 bajo ∑ se utiliza para indicar la suma de todas lasxi, desde i=1 hasta i=N, es decir desde la primera hasta la última.

Por suerte, cuando no hay confusión posible se representa esta suma por notaciones

más simples, como ∑∑∑∑x o ∑∑∑∑xi. Nosotros vamos a adoptar la notación más simple posible parala sumatoria cuando esta incluya a todos los valores. Entonces, en nuestro ejemplo...

∑∑∑∑x = xa + xb + xc + xd + xe + xf + xg + xh + xi + xj + xk + xl

Continuando con la población de N=12 hogares, y reemplazando...

∑∑∑∑x=120+100+60+60+140+160+120+70+130+100+100+60=1.320 pesos

La media aritmética de una variable en un conjunto de elementos se define como el co-ciente de la suma de los valores que adquiere la variable en cada uno de ellos por la cantidadde elementos.

N

x∑=µfórmula que, aplicada a nuestro

ejemplo, nos da:µ = =

1320110

.

12 pesos

El agregado de la palabra "pesos" después del 110 no es caprichoso (también deberíafigurar en el numerador). La media aritmética siempre expresa unidades de la variable sobrela que trabajamos.

Usamos la letra griega µ (mu) para designar la media porque estamos trabajando con

una población. Si estuviéramos trabajando con una muestra usaríamos la X (x suprarayada)para designar a la media. La expresión en el numerador (lo que está arriba de la línea de divi-sión, por si alguno todavía tiene previa matemática de 4to. grado) indica que deben sumarselas edades de todos los componentes de la población.

Pero si la información se nos presenta como distribución de frecuencias, debemos apli-car una fórmula de media ligeramente diferente, que es:

x

==µ∑∑

f

f 60 2 70 1 100 3 120 2 130 1 140 1 160 2

12110

× + × + × + × + × + × + × =

... e implica sumar todos los valores multiplicados por su frecuencia de aparición (xƒ),

y dividir este número por la suma de todas las frecuencias (∑∑∑∑ƒ). Obviamente, ∑∑∑∑ƒ = N (sumade las frecuencias = total de elementos).

El cálculo de la media para datos agrupados en intervalos es parecido al cálculo parauna distribución de frecuencias simple. Cada intervalo será tratado como una categoría, peroel valor de cada intervalo lo asumirá su punto medio, expresado en la fórmula como (li + Li)

÷ 2 × ƒi, donde li denota el límite inferior del intervalo y Li el límite superior del intervalo.La notación ƒi (ƒ sub i ) hace referencia a la frecuencia (cantidad de casos) del intervalo.

Así, para el primer intervalo, el valor del punto medio es...

(Li + li) ÷ 2 = 51 + 80 ÷ 2 = 65,5 pesos

Es importante tener en cuenta que cuando hablamos de los límites de los intervalos es-tamos haciendo referencia a los límites reales y no a los que, para simplificar la presentación

Page 13: II - REPASO...II - REPASO El capítulo expone algunos conceptos básicos sobre medición y estadística descriptiva. En tanto el libro está dirigido a profesionales y, especialmente,

Capítulo II – Repaso (borrador)- 27

o por convención, suelen aparecen en los cuadros estadísticos. Si existe un intervalo que in-cluye todos los valores entre $ 1.000 y $ 1.900 y el siguiente los valores entre $ 2.000 y $2.900, consideraremos a $ 1.950 como el límite superior del primer intervalo y a $ 1.951 co-mo el límite inferior del siguiente.

Si bien en nuestro ejemplo todos los intervalos son de la misma amplitud, ello no esimprescindible. Lo importante es que los puntos medios sean los correctos, ya que al calcularla media con datos agrupados en intervalos trabajamos bajo el supuesto que todos los casosdel intervalo están colocados en la mitad del mismo, o dicho de otra forma, como si se distri-buyeran uniformemente a distancias iguales a lo largo del intervalo 4. Pero como es necesarioutilizar intervalos cerrados, el problema suele presentarse con el último intervalo. Es fre-cuente encontrarnos con que este intervalo está “abierto” (75 años o más, 1.000.000 de habi-tantes o más, más de 89 kg, etc.) lo que nos obliga a adoptar un criterio para cerrar el inter-valo y por lo tanto definir su punto medio. Mantener la amplitud de los intervalos precedenteses riesgoso ya que los últimos intervalos suelen contener valores muy extremos y la distribu-ción de sus casos suele ser la menos uniforme de todas. No es posible dar una respuesta, una“receta” al problema.

Volvamos a la población de nuestro ejemplo. Para simplificar y pese a lo expuesto,vamos a cerrar el último intervalo manteniendo la amplitud de los anteriores, con lo que nosqueda:

x ƒ

$ 51 – 80 3

$ 81 – 110 3

$ 111 – 140 4

$ 141 – 170 2

... y si aplicamos la fórmula para el cálculo de la media con datos agrupados en inter-valos, el resultado es:

µ =

+

L lf

N

i i

2 i

=× + × + × + ×

=65 5 3 95 5 3 125 5 4 155 5 2

12108

, , , , pesos

Debido al agrupamiento de datos (y el cierre arbitrario del último intervalo), el resulta-do final, si bien se aproxima, no es el mismo que al aplicar las fórmulas para datos desagre-gados o distribuciones de frecuencias, por lo que resulta aconsejable, si se dispone de la in-formación y el cálculo no es exageradamente largo y complejo (cosa que, a partir de la proli-feración de las computadoras personales, ya no es un problema), calcular la media con la in-formación desagregada o resumida en categorías.

Notas:

4Aunque es una modalidad infrecuente, no deja de ser interesante el presentar a los intervalos acompaña-

dos por su media aritmética cuando ello es posible. El cálculo de las distintas medidas estadísticas no se ve afecta-do, en estos casos, por el supuesto de distribución uniforme de los casos dentro del intervalo.

Page 14: II - REPASO...II - REPASO El capítulo expone algunos conceptos básicos sobre medición y estadística descriptiva. En tanto el libro está dirigido a profesionales y, especialmente,

28 - Introducción al muestreo para estudiantes de ciencias sociales (en preparación)

Si por razones de presentación y claridad decidiéramos presentar cuadros con datosagrupados en intervalos pero contamos con la información desagregada, las medidas estadís-ticas se calcularán sobre ella. Bajo este criterio, expondríamos la información sobre ingresosde nuestro ejemplo de la siguiente manera:

Ingreso men-

sual del hogar

hoga-

res

$ 51 – 80 3

$ 81 – 110 3

$ 111 – 140 4

$ 141 – 170 2

µ = 110 pesos

Nótese que 110 pesos es el resultado del cálculo de la media con datos desagregados oa partir de una distribución de frecuencias simple (por categorías) y no agrupados por inter-valos.

Nótese también que no hay hogar alguno con un ingreso de $110: el promedio es unacaracterística abstracta.

Mediana y modo (o moda)

La mediana es definible como el valor de la variable que tiene por debajo y por arribade él la misma cantidad de casos, o que divide a la distribución en dos partes iguales (de

acuerdo a su uso, la mediana también puede ser considerada una medida de posición)

Mientras que los distintos tipos de medias solo son calculables con escalas intervalares,para que se pueda determinar la mediana es suficiente que la distribución tenga un nivel demedición ordinal. Sin embargo no la podemos determinar en una escala nominal, ya que ne-cesita un ordenamiento de las categorías.

Pero si podemos usar con las escalas nominales al modo (o moda), que no es otra cosaque el valor con mayor frecuencia. Por supuesto, en una distribución puede encontrarse másde una categoría a la que le corresponda la mayor frecuencia, por lo que la moda no esta dadanecesariamente por un único valor (distribuciones bimodales o multimodales). E inclusopuede suceder que la moda no exista, si en la distribución todos los valores tienen la mismafrecuencia.

II.2.D - Medidas de posición. Cuartiles, deciles y percentiles.

Son medidas que localizan la posición de valores típicos o atípicos dentro de la distri-bución. Así como la mediana divide a la distribución en dos partes iguales, los cuartiles sonlas tres categorías que dividen a la distribución en cuatro partes iguales. El primer cuartil es lacategoría que deja por abajo de sí el 25% de los casos y el tercero es la que deja por debajo desí el 75 % de los casos. Por lo que entre ambos queda el 50%. El segundo cuartil es la cate-goría que deja, tanto por debajo como por arriba, a la mitad de los casos (y, por lo tanto, esequivalente a la mediana).

La notación es Q1, Q2 y Q3 para el primer, segundo y tercer cuartil respectivamente.

También existen los deciles (9 valores de la variable que dividen a la distribución endiez partes iguales) y los percentiles (99 valores de la variable que dividen a la distribución

Page 15: II - REPASO...II - REPASO El capítulo expone algunos conceptos básicos sobre medición y estadística descriptiva. En tanto el libro está dirigido a profesionales y, especialmente,

Capítulo II – Repaso (borrador)- 29

en cien partes iguales), siendo la mediana (md) y el segundo cuartil iguales al quinto decil yal percentil 50.

II.2.E - Medidas de dispersión

Así como las medidas de tendencia central son valores representativos del conjunto so-bre los que se distribuyen las observaciones individuales, las medidas de dispersión nos re-sumen el grado de variabilidad de los valores individuales en relación a las medidas de ten-dencia central.

Su utilidad la veremos a medida que nos vayamos introduciendo en la lógica delmuestreo, lo que no quita que, mientras tanto, recordemos como se calculan. Seguimos paraello con la población que nos sirve de ejemplo. Recordemos que N=12, y µ= $110 (es decir,que consta de 12 hogares cuya media de ingresos mensuales es 110 pesos) y la distribución defrecuencias es la siguiente:

X ƒ

60 2

70 1

100 3

120 2

130 1

140 1

160 2

La varianza, la cuasivarianza y el desvío estándar

Ahora vamos a realizar un cálculo muy sencillo. Queremos saber en cuanto se aleja ca-da uno de los valores hallados en la población de la media aritmética, es decir, vamos a res-tarle, a cada valor, la media aritmética (x - µ), con lo que obtenemos una medida que se cono-ce como desvío a la media (o simplemente desvío) y cuya notación, tratándose de una pobla-ción, es la D mayúscula.

valor desvío

x D (x-µ)

60 -50

70 -40

100 -10

120 10

130 20

140 30

160 50

Si multiplicamos los desvíos de cada valor por la frecuencia de ese valor, luego los su-mamos y al resultado de esta suma lo dividimos por la suma de las frecuencias obtendremosun promedio de los desvíos, medida bastante inútil porque siempre da cero. Pero si para hacerel cálculo consideremos los valores absolutos de los desvíos (sin tener en cuenta el signo) lle-garemos a una medida que se conoce como desvío medio o desviación media (DM).

Page 16: II - REPASO...II - REPASO El capítulo expone algunos conceptos básicos sobre medición y estadística descriptiva. En tanto el libro está dirigido a profesionales y, especialmente,

30 - Introducción al muestreo para estudiantes de ciencias sociales (en preparación)

valor frecuencia desvíodesvío ×

frecuencia

desvío absoluto ×frecuencia

x ƒ D (x – µ) D × ƒ D × ƒ

60 2 -50 -100 100

70 1 -40 -40 40

100 3 -10 -30 30

120 2 10 20 20

130 1 20 20 20

140 1 30 30 30

160 2 50 100 100

∑f= 12 =∑ fD 340

==∑∑

f

fDDM 28,33

Si bien en algún momento el desvío medio se utilizó como una medida de dispersión,cayó en desuso al descubrirse las propiedades de otras medidas. Pero nos sirve como intro-ducción para las operaciones siguientes. Vamos a calcular ahora los promedios de los desvíos(como el desvío medio), pero antes de multiplicarlos por su frecuencia elevamos cada desvíoal cuadrado (lo que también elimina los signos negativos). Luego a cada desvío cuadrado lomultiplicamos por su correspondiente frecuencia, una vez multiplicados por su frecuencia lossumamos y a esta suma la dividimos por la cantidad de casos. Calculamos así el promedio delos desvíos cuadrados, operación que puede expresarse con la siguientes fórmulas:

( )N

x2∑ µ−

, para datos desagregados o...

( )f

f

Σ

µ−∑ 2x

ó ( )

N

x2∑ µ− f

, para distribución de frecuencias

valor frecuencia desvío desvío cuadradodesvío cuadrado ×

frecuencia

X ƒ D (x - µ) D2(x-µ)2 (x-µ)2 ׃

60 2 -50 2.500 5.000

70 1 -40 1.600 1.600

100 3 -10 100 300

120 2 10 100 200

130 1 20 400 400

140 1 30 900 900

160 2 50 2.500 5.000

∑f= 12 ( ) =µ−∑ f2

x 13.400

( )=

Σ

µ−∑f

f2

x1.117

Este promedio de los desvíos elevados al cuadrado (o desvíos cuadrados) es lo que seconoce como varianza y se simboliza como σ² (sigma cuadrado) cuando tratamos con unapoblación.

Page 17: II - REPASO...II - REPASO El capítulo expone algunos conceptos básicos sobre medición y estadística descriptiva. En tanto el libro está dirigido a profesionales y, especialmente,

Capítulo II – Repaso (borrador)- 31

La segunda operación simplemente consiste en extraer la raíz cuadrada de la varianza,llegando así al desvío estándar, cuya notación es σ (sigma) y que, para decirlo en difícil, no esotra cosa que la raíz cuadrada de la media aritmética del cuadrado de los desvíos.

Sobre la varianza por ahora tengamos en cuenta que no es simplemente un paso nece-sario para calcular el desvío estándar, sino una medida que tiene utilidades por sí misma.Después volveremos sobre ella.

Formalizando un poco la cosa, podemos decir que estamos en presencia de una pobla-ción de tamaño N=12, con una media (µ) de ingresos de 110 pesos, una varianza (σ²) de 1.117pesos y un desvío estándar (σ) de 33,4 pesos, ya que...

33,41.117σσ 2 ===

Aunque suene obvio, es conveniente memorizar que también el desvío estándar se ex-presa en unidades de la variable sobre la que se lo ha calculado (en nuestro ejemplo: pesos).No así la varianza, cuya unidad de medida es la de la variable elevada al cuadrado.

Mientras las características de tendencia central nos dan valores del grupo alrededor delcual se distribuyen las observaciones individuales, las características de dispersión nos danvalores con respecto al grado de variabilidad de los individuos alrededor del valor central.Podemos tener una población distinta a la que nos está sirviendo de ejemplo, que tenga la mismamedia (µ=110 pesos) pero una varianza de 1,3 pesos y un desvío estándar de 1,14 pesos. Tantola varianza como el desvío estándar son mucho más pequeños. Como ambos son promediosobtenidos a partir de los desvíos individuales (distancia de cada elemento de la media) novamos a arriesgarnos demasiado si sostenemos que en esta segunda población la mayoría desus integrantes tienen una promedio de ingresos mucho más cercano a los 110 pesos que losde la primera.

Es aconsejable, para comparar la variabilidad de diversos grupos con medias aritméti-cas diferentes (o comparar la variabilidad, en un mismo grupo, de variables distintas) no utili-zar las magnitudes absolutas de las varianzas o desvíos estándar sino una medida relativa devariabilidad que se conoce como coeficiente de variabilidad o de variación (V) y se obtiene aldividir el desvío estándar por la media (también conocido como coeficiente de variación dePearson y denotado con Cv).

µ

σV = ó 100

µ

σV ×=

De cualquier forma, la utilidad del desvío estándar no se hará del todo evidente hastaque veamos las áreas bajo la curva normal. Por ahora nos conformaremos con saber que, aligual que su cuadrado (la varianza), el desvío estándar es un número que crece a medida queaumenta la dispersión de los valores alrededor de la media.

Con respecto a la cuasivarianza, como su nombre lo indica, es “casi una varianza”.Mientras que la varianza se obtiene dividiendo la suma de los desvíos cuadrados de todos loselementos por la cantidad total de elementos, a la cuasivarianza se llega dividiendo esta sumade los desvíos cuadrados por la cantidad total de elementos menos uno.

Varianza: N

D2∑ Cuasivarianza:

1-N

D2∑

Page 18: II - REPASO...II - REPASO El capítulo expone algunos conceptos básicos sobre medición y estadística descriptiva. En tanto el libro está dirigido a profesionales y, especialmente,

32 - Introducción al muestreo para estudiantes de ciencias sociales (en preparación)

Por supuesto, con grupos de gran cantidad de elementos la diferencia entre una y otramedida es irrelevante.

La cuasivarianza tiene más importancia en la estadística inferencial que en la descripti-va, pero aprovechamos ahora para introducir el concepto por su similitud con la varianza.

También es calculable el desvío estándar a partir de la cuasivarianza (calculando su raízcuadrada), medida a la que llamaremos, a falta de mejor nombre “cuasidesvío estándar”.

Otras medidas de dispersión.

El rango o recorrido simplemente tiene en cuenta la diferencia entre el mayor y el me-nor de los valores de una población. Medida que por si sola no suele servir para mucho y,cuando la distribución tiene valores extremos atípicos, casi es mejor ni mirarla. Más útil es elrango intercuartílico, basado en la diferencia entre los cuartiles tercero y primero (Q3 - Q1) yque comprende al 50% de los casos (lo que no es poco a los efectos comparativos). Otra me-dida utilizada con menos frecuencia es el rango semiintercuartílico o desviación cuartílica:

2Q-(Q 1)3 ÷Estas medidas, así como los recorridos derivados de los deciles y percentiles, son me-

didas de dispersión que tienen el cuenta el rango o amplitud total de la distribución y esta-blecen fracciones dentro de ella. Con prudencia y algunas reservas que no desarrollaremosaquí, pueden ser usadas a nivel ordinal (y a niveles de medición superiores).

Las otras medidas de dispersión que ya hemos visto como la desviación media, la va-rianza y el desvío estándar se apoyan en las diferencias entre cada uno de los valores de la

distribución y la media (desvíos). Solo son aplicables con escalas intervalares o de razones.

II.2.F - La forma de las distribuciones

Debe tenerse cuidado al presentar datos o comparar información utilizando las medidasde tendencia central, aisladamente o acompañadas de alguna medida de dispersión. Podemosllegar a conclusiones erróneas si no consideramos también otro tipo de información.

Teniendo distribuciones absolutamente distintas, dos poblaciones pueden compartir lamedia aritmética y el desvío estándar. Si solo atendemos a estas medidas, tenderemos a pen-sar que las distribuciones son similares.

µ=418 µ=418σ=111 σ=111

Por ello es conveniente, a los efectos descriptivos, acompañar la información con otrasmedidas que dan mejor idea de la posición de los valores y su distribución, como la mediana,los cuartiles y deciles y las medidas de dispersión basadas en los recorridos.

Page 19: II - REPASO...II - REPASO El capítulo expone algunos conceptos básicos sobre medición y estadística descriptiva. En tanto el libro está dirigido a profesionales y, especialmente,

Capítulo II – Repaso (borrador)- 33

Pero lo que nos brinda una visión más comprensiva y directa es la forma de la distribu-ción. Para observarla los datos suelen representarse gráficamente mediante un histograma opolígono de frecuencias. Cuando, de una distribución, además de conocer algunas medida deresumen conocemos su cantidad de modos, el grado de simetría o asimetría y su apunta-miento (curtosis) ya tenemos suficiente información como para poder empezar a sacar algu-nas conclusiones más acabadas sobre las características generales del conjunto de los ele-mentos considerados.

Si la distribución presenta solo un modo (solo una punta) se la conoce como unimodal.Si presenta dos puntas, se la denomina bimodal, y si presenta todavía más se la conoce comomultimodal. La cantidad de puntas en las distribuciones multimodales es definida por el in-vestigador, dependiendo de los modos que considere relevantes.

Unimodal Bimodal Multimodal

Otra característica es el grado de simetría. Se dice que una distribución es simétricacuando, al ser dividida por la mediana, las áreas resultantes son imágenes entre sí (lo que noes lo mismo que tener la misma superficie). Cuando la curva es simétrica, la mediana coinci-de con la media.

Si la curva, además de simétrica, es unimodal, la mediana y la media coinciden tam-bién con el modo.

áreas de igual superficie

curva simétrica curva asimétrica

Cuando las frecuencias de los valores bajos son altas se habla de una asimetría positi-va. A la inversa, cuando las frecuencias de los valores altos son altas, se habla de una asime-tría negativa.

asimetría positiva asimetría negativa

Otra característica de la forma de la distribución es el grado de concentración de los ca-sos alrededor de un punto de la distribución: la curtosis. Si la distribución tiende a la simetría

Page 20: II - REPASO...II - REPASO El capítulo expone algunos conceptos básicos sobre medición y estadística descriptiva. En tanto el libro está dirigido a profesionales y, especialmente,

34 - Introducción al muestreo para estudiantes de ciencias sociales (en preparación)

y es unimodal, con una distribución de frecuencias concentrada, podemos observar la caracte-rística forma leptocúrtica.

Pero si los valores se distribuyen más uniformemente la curva se aplana, toma la for-ma de un plato invertido y se denomina platicúrtica.

Cuando los valores no se concentran en demasía sobre un punto ni se distribuyen uni-formemente, la curva se llama mesocúrtica y tiene una forma acampanada.

leptocúrtica platicúrtica mesocúrtica

Hay además otras curvas que suelen aparecer y que reciben nombres por aproximacióna su forma. La curva J concentra casi todos los casos hacia alguno de los extremos y crece (J)o decrece (J invertida) rápidamente. La curva J invertida es característica de la distribucióndel ingreso en países como el nuestro.

Cuanto el crecimiento o decrecimiento es más lineal, se habla de distribuciones trian-gulares.

Cuando los valores tienen frecuencias similares las distribución tienden a una líneaparalela al eje de las X, y se las conoce como distribuciones rectangulares

Cuando la distribución es bimodal y los modos se localizan en los extremos de la es-cala, teniendo los valores centrales baja frecuencia, la representación gráfica tiende a tenerforma de campana invertida y se la conoce como curva en U.

J invertida o positiva Triangular positiva Rectangular U

II.2.F.1 - Medidas de forma (sesgo y curtosis).

La mediana, los cuartiles, deciles y percentiles pueden servir para aproximarnos a laforma de una distribución. Pero cuando los datos han sido medidos a nivel intervalar es útildescribirlos también en relación a su agrupamiento sobre un punto.

Veamos ahora el concepto de momento. Un momento es el promedio de los desvíos(elevados a una potencia determinada) con respecto a un punto arbitrario de la distribución.Cuando la potencia es 1, se lo conoce como momento de primer orden, cuando la potencia es2, como momento de segundo orden, y así, cuando la potencia es 5, se lo conoce como mo-mento de quinto orden.

Page 21: II - REPASO...II - REPASO El capítulo expone algunos conceptos básicos sobre medición y estadística descriptiva. En tanto el libro está dirigido a profesionales y, especialmente,

Capítulo II – Repaso (borrador)- 35

Si el punto de referencia es la media aritmética, el momento de primer orden es:

N

)x(

N

)x(m

1

1

∑∑ µ−=

µ−=

El momento de primer orden con respecto a la media es cero, ya que, como vimos, lasuma de todos los desvíos es igual a cero

Por si aparece alguna confusión, el momento de primer orden no es igual al desvío medio. Este úl-

timo es el promedio de los desvíos absolutos (sin considerar el signo).

Siempre teniendo como referencia a la media aritmética, el momento de segundo ordenes:

N

)x(m

2

2

∑ µ−=

Solo para ejercitarnos un poco ¿a qué medida ya vista en este capítulo es igual el mo-mento de segundo orden con respecto a la media?

Si la respuesta no fue la varianza, es conveniente releer lo referente a las medidas dedispersión (y la cita de Blalock al comienzo de la introducción).

Se suelen usar también los momentos de tercer y cuarto orden, que no son más que elpromedio de los desvíos con respecto a un punto cualquiera de la distribución elevados, res-pectivamente, a las potencias 3 y 4.

En general, el momento de orden r de una distribución con respecto a un punto arbitra-rio se expresa como:

N

)xx(m

r0

r

∑ −=

Si este punto arbitrario es 0, se obtienen los momentos con respecto al origen. De losdiferentes momentos que se pueden calcular, los más usados son los momentos con respecto ala media.

Hay que tener en cuenta que los momentos pares eliminan los signos negativos en elnumerador, pero los impares pueden tener tanto signos negativos como positivos (salvo elmomento 1, que siempre da cero). El momento de tercer orden con respecto a la media, mo-mento impar, se utiliza como medida de asimetría (o sesgo). Si la suma de los desvíos por de-bajo de la media es mayor que la suma de los desvíos por arriba de la media, el resultado seráun número positivo. Al contrario, el resultado será negativo.

momento de orden 3 con res-

pecto a la media=positivo

momento de orden 3 con res-

pecto a la media=negativo

Es por ello que se habla de asimetría positiva y negativa. También se habla de sesgo ala derecha cuando la asimetría es positiva (por el mayor largo de la cola a la derecha de lamedia) o a la izquierda cuando es negativa.

Page 22: II - REPASO...II - REPASO El capítulo expone algunos conceptos básicos sobre medición y estadística descriptiva. En tanto el libro está dirigido a profesionales y, especialmente,

36 - Introducción al muestreo para estudiantes de ciencias sociales (en preparación)

Solo si los desvíos están equilibrados (simetría) el resultado del momento tres con res-pecto a la media será 0.

A los efectos comparativos, como medida estandarizada (que no tienen en cuenta launidad de medición) de sesgo o asimetría se utiliza...

32

31

m

mB =

Considerando que, para distribuciones unimodales, el modo se sitúa antes de la mediaen los sesgos positivos y la media antes del modo en los sesgos negativos, también se puedemedir el sesgo como:

σ

modoµsesgo

−=

El momento cuatro arroja un resultado positivo. Las potencias, cuanto más altas, in-crementan la importancia de los desvíos extremos, y el momento cuatro es más sensible queel momento dos a estos valores, por lo que se usa como medida de apuntamiento (curtosis).Su estandarización es...

22

4

42

42

m

m

m

mB ==

...donde los valores bajos de B2 indican una curva platicúrtica (achatada) y los valoresaltos una curva leptocúrtica (apuntada).

B2= 2,5 3 4,25

II.3 - La curva normal

Existe una forma de distribución de frecuencias de alta relevancia en la estadística: lacurva normal, cuya forma general podemos graficar de la siguiente manera:

Las distribuciones de muchas de las variables con las que trabajamos suelen estar ale-jadas de esta forma. Pero aunque ello no fuera así, lo destacable de la curva normal no estádado por su aplicación en poblaciones reales sino por su relevancia teórica en la estadísticainferencial. Utilizaremos sus aplicaciones a partir del capítulo siguiente. Por ahora veamosalgunas de sus características.

Page 23: II - REPASO...II - REPASO El capítulo expone algunos conceptos básicos sobre medición y estadística descriptiva. En tanto el libro está dirigido a profesionales y, especialmente,

Capítulo II – Repaso (borrador)- 37

Como podemos deducir del gráfico, es una curva unimodal, de forma acampanada yperfectamente simétrica. Se apoya en un número infinito de casos, lo que lleva, cuando depoblaciones reales se trata, a trabajar con aproximaciones a la misma.

Al ser una curva simétrica y unimodal coinciden la media, la mediana y el modo. Sucurtosis (B2) es igual a 3 y responde a una ecuación sencilla que no viene al caso tratar aquí,en la que intervienen el desvío estándar y la media aritmética.

Aunque toda curva normal es unimodal, simétrica y con curtosis 3, no existe una únicacurva normal, variando las diferentes curvas normales según las medias aritméticas y desvíosestándar en juego.

En el gráfico observamos cuatro distribuciones:

Las dos curvas a la izquierda tienen una media aritmética de 300. Las dos que estánmás a la derecha un promedio de 500. El desvío estándar es, para las dos curvas más altas, de75, mientras que para la más baja a la izquierda es 100 y para la más baja a la derecha es 125.Sin embargo, las cuatro distribuciones son normales, ya que todas responden a la ecuación dela curva normal.

La propiedad más importante de la curva normal es que, con independencia de los va-lores que tomen la media y el desvío estándar, hay siempre un área constante (o proporciónde casos) entre la media y un valor que se encuentre a una distancia dada (en unidades dedesvío estándar) con respecto a la media.

Es decir que, entre la media y un valor que se halla, por ejemplo, a un 1 desvío están-dar de la media, hay siempre la misma proporción de casos, independientemente de los valo-res concretos que se consideren.

µ=300 σ=100 µ=500 σ=125

x=200 x=625

La curva normal de la izquierda tiene un desvío estándar de 100 y una media de 300.Por lo tanto, el valor 200 se halla a –1 desvío estándar de la media.

Page 24: II - REPASO...II - REPASO El capítulo expone algunos conceptos básicos sobre medición y estadística descriptiva. En tanto el libro está dirigido a profesionales y, especialmente,

38 - Introducción al muestreo para estudiantes de ciencias sociales (en preparación)

La curva de la derecha tiene un desvío estándar de 125 y una media de 500. El valor625 se halla a 1 desvío estándar de la media. Como ambos valores se hallan a la misma dis-tancia de la media, medida en desvíos estándar, la proporción de casos que hay entre estosvalores y su respectiva media (el área grisada) es similar.

Sabemos que, cuando una distribución es normal, la proporción de casos que se hallanentre la media y un valor ubicado a un desvío estándar de la misma es, aproximadamente, el34%. Las áreas grisadas expresan, entonces, al 34 % de los casos de cada una de las distribu-ciones graficadas.

A continuación se grafica el peso de las áreas bajo la curva normal para desvíos a lamedia dados en cantidades de desvíos estándar (puntaje z).

Si se desea conocer otras áreas entre la media y valores que se hallan a determinadadistancia, en desvíos estándar, hay que consultar a la tabla de áreas bajo la curva normal. Su-

pongamos que deseamos conocer, para la distribución normal de µ=300 y σ=100, el áreacomprendida entre la media y el valor 175.

El valor 175 tiene un desvío (x-µ) de –125 Si σ=100, entonces la expresión del desvío125 en desvíos estándar (puntaje z) es...

25,1100

125

100

300175

σ

µxz −=

−=

−=

−=

Para conocer a que proporción equivale z=-1,25 recurrimos a la tabla de áreas bajo lacurva normal. Esta tabla es un cuadro de doble entrada que tiene en la primera columna lospuntajes z con valores de hasta un decimal, y en la primera fila las centésimas del puntaje z.

Al ser la curva normal simétrica, habitualmente la tabla presenta sólo las áreas corres-pondientes a los puntajes z positivos, teniendo los puntajes z negativos las mismas proporcio-nes que los correspondientes valores positivos. Si este es el caso, debemos buscar que áreacorresponde al puntaje z=1,25 (prescindiendo del signo).

Los valores z de la primera columna nos permiten llegar hasta el 1,2. Para un valor concentésimas debemos buscar además en la primera fila (en nuestro ejemplo 0,05), y luego laintersección de la fila y la columna que contienen los valores que, sumados nos dan el puntaje

Page 25: II - REPASO...II - REPASO El capítulo expone algunos conceptos básicos sobre medición y estadística descriptiva. En tanto el libro está dirigido a profesionales y, especialmente,

Capítulo II – Repaso (borrador)- 39

z que nos interesa, y en esta intersección hallaremos la proporción del área bajo la curva nor-mal para este puntaje z.

z 0 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09

0 0,000000 0,003989 0,007978 0,011967 0,015953 0,019939 0,023922 0,027903 0,031881 0,035856

0,1 0,039828 0,043795 0,047758 0,051717 0,055670 0,059618 0,063559 0,067495 0,071424 0,075345

0,2 0,079260 0,083166 0,087064 0,090954 0,094835 0,098706 0,102568 0,106420 0,110261 0,114092

... ........ ........ ........ ........ ........ ........ ........ ........ ........ ........

1,2 0,384930 0,386860 0,388767 0,390651 0,392512 0,394350 0,396165 0,397958 0,399727 0,401475

... ........ ........ ........ ........ ........ ........ ........ ........ ........ ........

Entonces, el área bajo la curva normal para z=1,25 es 0,39435 ó 39,435%. Y conclui-mos que el porcentaje de casos que tienen valores entre 175 y 300 (la media) es el 39,435%(al final del capítulo se incluye una tabla completa de áreas bajo la curva normal).

También podemos hallar el área bajo la curva normal utilizando alguna de las planillasde cálculo para computadoras, lo que nos evita cálculos si debemos interpolar algún valor queno figura en tabla. En el caso del Excel, la función =DISTR.NORM.ESTAND(Z) (donde Z de-be remplazarse por el puntaje que nos interesa) nos da como resultado el área desde el valorde origen de la curva hasta el valor que corresponde al puntaje indicado.

Si la proporción del área que nos interesa corresponde a z=2, empleando la función es-cribimos =DISTR.NORM.ESTAND(2), y obtenemos 0,97725, proporción del área bajo la cur-va normal grisada en el gráfico.

Pero si al resultado le restamos 0,5 (la mitad del área bajo la curva normal), obtendre-mos 0,47725, que es la proporción del área para el puntaje z en un solo sentido (abajo o arribade la media).

Utilizando el “Excel” para hallar el área correspondiente a z=1.25, escribimos la fun-ción =DISTR.NORM.ESTAND(1,25). El resultado es 0,89435016, al que le debemos restarle0,5 y llegamos a 0,39435016, resultado más preciso que el valor por tabla (0,39435).

Pero, más allá de la diferencia en la precisión (habitualmente despreciable), con valoresde z como 1,253 (que no se encuentran en la tabla) nos ahorramos tener que calcular interpo-laciones entre valores como 1,25 y 1,26.

Page 26: II - REPASO...II - REPASO El capítulo expone algunos conceptos básicos sobre medición y estadística descriptiva. En tanto el libro está dirigido a profesionales y, especialmente,

40 - Introducción al muestreo para estudiantes de ciencias sociales (en preparación)

Areas bajo la curva normal

z Tabla Excel

1,25 0,39435 0,39435016

1,253 ¿? 0,39489708

1,26 0, 396165 0,39616525

Si transformamos todos los valores de cualquier distribución normal en distancias a lamedia expresadas en unidades de desvío estándar (puntaje z), estamos estandarizando estadistribución, convirtiéndola en lo que se conoce como una curva normal tipificada, con mediacero y desvío estándar uno. La curva normal tipificada no tiene frecuencias absolutas sinoproporciones.

Es importante recordar que las áreas bajo la curva normal están dadas en relación a ladistancia con la media, por lo que la distancia en desvíos estándar entre dos puntos cuales-quiera no es un puntaje z y no puede interpretarse en términos de áreas bajo la curva normal,salvo que alguno de ellos sea la media. El puntaje z no es sinónimo de desvío estándar, sinode desvíos a la media expresados en desvíos estándar. Si deseamos calcular el área entre dosvalores cualesquiera, y ninguno de ellos es la media, debemos observar primero el área de ca-da uno en relación a la media y luego proceder por adición o sustracción de áreas.

Sabemos que, para la distribución normal que estamos tomando de ejemplo (µ=300 yσ=100), la cantidad de casos entre 200 y 300 (la media) representa al 34,1345% de todos loscasos, ya que la distancia entre 200 y 300 equivale a un desvío estándar (z=1).

Siguiendo el mismo razonamiento podemos decir la cantidad de casos que se halla en-tre los valores 300 y 400 representa también el 34,1345% (400 se aleja un desvío estándar dela media). Por lo tanto, sumando las dos áreas, el porcentaje de casos que se halla entre losvalores 200 y 400 es el 68,269 %. Y de ello podemos concluir que si extraemos al azar unelemento de esta población, tenemos, aproximadamente, un 34% de posibilidades que tengaun valor entre 200 y 300, otro 34% de posibilidades que su valor esté entre 300 y 400 y, enconsecuencia, un 68% de posibilidades que el valor esté entre 200 y 400.

200←→300 300←→400 200←→400

z= −1 z= + 1 34,1345% + 34,1345%

34,1345%

+

34,1345%

=

68,269%

Podemos estar interesados en conocer un área comprendida entre dos valores que sehallan del mismo lado de la media, por ejemplo entre 100 y 250. En este caso procedemos porsustracción. Averiguamos primero las áreas comprendidas entre cada uno de ellos y la mediay luego restamos al área del valor más alejado de la media el área del valor más cercano a lamedia.

Page 27: II - REPASO...II - REPASO El capítulo expone algunos conceptos básicos sobre medición y estadística descriptiva. En tanto el libro está dirigido a profesionales y, especialmente,

Capítulo II – Repaso (borrador)- 41

100 ← → 300 250↔300 100←→250

z = − 2 z = − 0,5 47,725% − 19,146%

47,725%

19,146%

=

28,579%

Cuando el área comprendida implica valores con puntaje z de diferente signo, las áreasbajo la curva normal para estos valores deben sumarse. Cuando los valores tienen puntaje zde igual signo, se procede por sustracción.

Apéndice 1. Notaciones

Es importante que aclaremos la notación (conjunto de símbolos empleados paraexpresar conceptos lógicos y matemáticos) a utilizar de aquí en más. Aunque a medida queincorporemos conceptos esta notación se irá ampliando, es recomendable que el lector nosolo tenga estas hojas señaladas de forma de poder volver a ellas fácilmente (o confeccioneun resumen para tenerlo siempre a mano), sino que además trate de memorizar las notacionesde uso más frecuente.

Uno de los problemas que encontramos al tratar con bibliografía estadística es que lanotación no es absolutamente uniforme. En la medida de lo posible se utiliza la simbologíamás habitual y a la que están acostumbrados los estudiantes de Ciencias Sociales de laUniversidad de Buenos Aires, pero, siendo uno de los objetivos del libro servir deintroducción a materiales mas avanzados sobre muestreo, a modo ilustrativo se agregatambién la notación utilizada por distintos autores.

La primera gran diferencia en la notación hace referencia al origen de los datos,dependiendo de si se tratamos con una muestra (estadísticos) o de una población(parámetros). Esta distinción, aunque a primera vista parece estar hecha para complicarnosun poco la vida, es sumamente útil al simplificar fórmulas en las que intervienen al mismotiempo datos provenientes de poblaciones y de muestras, lo que, como el lector podrá suponerfácilmente, será una constante a partir de ahora.

Las variables se identifican con cualquier letra latina mayúscula (A, B, C,...,Z), aunquepor lo general se utilizan X, Y y Z. Cuando se trata con variables dependientes eindependientes, X suele hacer referencia a la variable dependiente, Y a la independiente y Z ala de control.

Para un valor cualquiera de la variable se utiliza xi (equis minúscula sub i) osimplemente x (equis minúscula). Pero es común que se use la y e incluso la X o la Y. Hayquienes emplean la X o la Y para hacer referencia a los valores provenientes de una poblacióny la x o y para los provenientes de una muestra.

Para referirse a la cantidad de casos o elementos de una población se utiliza N (enemayúscula) y para los de una muestra n (ene minúscula). Aunque en esto hay bastantecoincidencia, no faltan las excepciones.

Tampoco hay demasiadas discrepancias en la notación de la proporción y sucomplemento, utilizándose la P (pe mayúscula) y la Q (cu mayúscula) cuando los datos

Page 28: II - REPASO...II - REPASO El capítulo expone algunos conceptos básicos sobre medición y estadística descriptiva. En tanto el libro está dirigido a profesionales y, especialmente,

42 - Introducción al muestreo para estudiantes de ciencias sociales (en preparación)

provienen de una población y la p (pe minúscula) y q (cu minúscula) cuando provienen deuna muestra. También se las utiliza para hacer referencia a los porcentajes. Cuandosimultáneamente se hace referencia a proporciones y porcentajes, se utilizan p y P para las

proporciones y p×100 y P×100 para los porcentajes (o simplemente el símbolo %)

Para hacer referencia a la media utilizamos µ (mu griega minúscula) yx (equisminúscula suprarayada) dependiendo de si trata de un parámetro o un estadístico,respectivamente. Pero así como también se usan y o Y para hacer referencia a los valores de

una variable, no es extraño encontrary oY para representar a la media aritmética (enespecial la i griega mayúscula suprarayada cuando se habla de una población). Cuandosimultáneamente se hace referencia a los valores de dos o más variables, se deben utilizar, enminúscula, la mismas letras que se emplearon para designar a las variables.

Es generalizado el uso de σ (sigma minúscula) para referirse al desvío estándar de lapoblación y σ2 para la varianza de la población, pero un problema especial genera el uso deS, s, S2 y s2. Es probable que el lector los asocie con el desvío estándar (S, s) y la varianza (S2,s2) de una muestra, lo que es correcto. Pero también es una notación que se utiliza para hacerreferencia a la cuasivarianza y a lo que podemos denominar el “cuasidesvío” estándar o laraíz cuadrada de la cuasivarianza (en el mejor de los casos, S2 y S para la población y s2 y spara una muestra).

Estrictamente, la varianza es el promedio de los desvíos cuadrados y, como tal, debecalcularse con el mismo criterio tanto para una población como para una muestra o una dis-tribución muestral. La cuasivarianza, aunque semejante, es una medida diferente que no com-parte con la varianza ni su cálculo ni muchos de sus atributos, y por lo tanto merece un nom-bre y una notación aparte. Sin embargo la ese minúscula al cuadrado (s2), e incluso S2, seusan, en parte de la bibliografía, para hacer referencia tanto a la varianza como a la cuasiva-rianza muestral, a veces sin aclaraciones al respecto, lo que puede generar confusiones. Hayautores que incluso hablan de varianza muestral como sinónimo de cuasivarianza.

Pero, como veremos en los próximos capítulos, la cuasivarianza muestral tiene mayorrelevancia que la varianza muestral, y por lo tanto gran parte de los autores hablan de varian-za muestral (y utiliza la notación s2) cuando, en realidad, lo que calculan es la cuasivarianza.Consecuentemente, cuando se refieren al desvío estándar de una muestra, están hablando dela raíz cuadrada de la cuasivarianza. Para esta bibliografía...

1-N

DS

2

2 ∑= , 1-n

ds

2

2 ∑= , 1-N

DS

2∑= y 1-n

ds

2∑=

No está de más comentar que muchos programas de computación siguen criterios similares. Si al-

gún lector quiere ejercitarse (lo que es altamente aconsejable) y replicar los ejercicios a través de

ellos, debe tener en cuenta que, por ejemplo, en la planilla de cálculo de uso más frecuente, el

“Excel” de Microsoft, la función “=var”, definida en las versiones en castellano como la “varianza

de la muestra”, calcula la cuasivarianza. Para calcular la varianza debe usarse la función “=varp”,

definida como “varianza de la población”.

Un caso paradigmático es el programa de procesamiento estadístico SPSS, donde el comando “va-

riance” o su abreviatura “var” calcula la cuasivarianza, y el comando “stddev” la raíz cuadrada de

la cuasivarianza, sin que existan comandos que permitan usar en el divisor n en lugar de n-1, de-

biendo el usuario, en caso de trabajar con datos de una población, disponer el recálculo correspon-

diente.

Page 29: II - REPASO...II - REPASO El capítulo expone algunos conceptos básicos sobre medición y estadística descriptiva. En tanto el libro está dirigido a profesionales y, especialmente,

Capítulo II – Repaso (borrador)- 43

Pese al ligero desacuerdo que nos genera, y al solo efecto de no aportar mayor confu-sión, se utilizará de aquí en más este criterio mayoritario. Salvo aclaración, el lector deberárecordar que las notaciones s2 (cuasivarianza muestral) y S2 (cuasivarianza poblacional) im-plican la utilización en el divisor de n-1 o N-1. Y, por lo tanto, las notaciones s (cuasidesvíoestándar muestral, para darle un nombre) y S (cuasidesvío estándar poblacional), si no se in-cluya alguna salvedad, son la raíz cuadrada de s2 y S2, respectivamente. Para referirnos a la

varianza muestral, si es que nos hace falta, utilizaremos una ve corta (v) o 2mσ , y para simbo-

lizar el desvío estándar de una muestra mσ .

En el cuadro a continuación figuran algunas de las notaciones a utilizar. En los casosdonde hay más de un símbolo, el que se utilizará es el primero. El resto se incluye a modo deinformación sobre la notación utilizada en la bibliografía.

Población Muestra

Denominación Cantidad de casos / elementos Cantidad de casos / elementos

Notación N nDenominación Desvío Desvío

Notación D dFórmula µ-x x-xDenominación Proporción Proporción

Notación P pDenominación Media aritmética Media aritmética

Notación µ ó X ó Y x ó y

Fórmula Nx∑ nx∑Denominación Varianza Varianza

Notación 2σ v / 2mσ

Fórmula ND2∑ nd 2∑Denominación cuasivarianza cuasivarianza

Notación 2S 2s

Fórmula ( )1-ND2∑ ( )1-nd2∑Denominación Desvío estándar Desvío estándar

Notación σmσ

Fórmula ND2∑ nd2∑No debemos olvidar que, con independencia de la notación que usemos y su origen,

siempre estamos hablando de las mismas medidas, que su cálculo es similar tanto para unamuestra como para una población.

Page 30: II - REPASO...II - REPASO El capítulo expone algunos conceptos básicos sobre medición y estadística descriptiva. En tanto el libro está dirigido a profesionales y, especialmente,

44 - Introducción al muestreo para estudiantes de ciencias sociales (en preparación)

Apéndice 2. Areas bajo la curva normal

Calculada mediante la función =DISTR.NORM.ESTAND () de Excel, con resultados redondeados a

seis decimales.

Para usar la tabla es necesario convertir el valor observado en puntaje z y que la variable se distribuya

normalmente. Los valores de la tabla expresan la proporción del área de la curva normal tipificada (media aritmé-

tica=0, desvío estándar=1). Se indican las áreas correspondientes a los valores z positivos, ya que la curva normal

es simétrica. Los valores z negativos tienen las mismas proporciones de área que sus correspondientes valores po-

sitivos.

z 0 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09

0 0,000000 0,003989 0,007978 0,011967 0,015953 0,019939 0,023922 0,027903 0,031881 0,035856

0,1 0,039828 0,043795 0,047758 0,051717 0,055670 0,059618 0,063559 0,067495 0,071424 0,075345

0,2 0,079260 0,083166 0,087064 0,090954 0,094835 0,098706 0,102568 0,106420 0,110261 0,114092

0,3 0,117911 0,121719 0,125516 0,129300 0,133072 0,136831 0,140576 0,144309 0,148027 0,151732

0,4 0,155422 0,159097 0,162757 0,166402 0,170031 0,173645 0,177242 0,180822 0,184386 0,187933

0,5 0,191462 0,194974 0,198468 0,201944 0,205402 0,208840 0,212260 0,215661 0,219043 0,222405

0,6 0,225747 0,229069 0,232371 0,235653 0,238914 0,242154 0,245373 0,248571 0,251748 0,254903

0,7 0,258036 0,261148 0,264238 0,267305 0,270350 0,273373 0,276373 0,279350 0,282305 0,285236

0,8 0,288145 0,291030 0,293892 0,296731 0,299546 0,302338 0,305106 0,307850 0,310570 0,313267

0,9 0,315940 0,318589 0,321214 0,323814 0,326391 0,328944 0,331472 0,333977 0,336457 0,338913

1 0,341345 0,343752 0,346136 0,348495 0,350830 0,353141 0,355428 0,357690 0,359929 0,362143

1,1 0,364334 0,366500 0,368643 0,370762 0,372857 0,374928 0,376976 0,378999 0,381000 0,382977

1,2 0,384930 0,386860 0,388767 0,390651 0,392512 0,394350 0,396165 0,397958 0,399727 0,401475

1,3 0,403199 0,404902 0,406582 0,408241 0,409877 0,411492 0,413085 0,414656 0,416207 0,417736

1,4 0,419243 0,420730 0,422196 0,423641 0,425066 0,426471 0,427855 0,429219 0,430563 0,431888

1,5 0,433193 0,434478 0,435744 0,436992 0,438220 0,439429 0,440620 0,441792 0,442947 0,444083

1,6 0,445201 0,446301 0,447384 0,448449 0,449497 0,450529 0,451543 0,452540 0,453521 0,454486

1,7 0,455435 0,456367 0,457284 0,458185 0,459071 0,459941 0,460796 0,461636 0,462462 0,463273

1,8 0,464070 0,464852 0,465621 0,466375 0,467116 0,467843 0,468557 0,469258 0,469946 0,470621

1,9 0,471284 0,471933 0,472571 0,473197 0,473810 0,474412 0,475002 0,475581 0,476148 0,476705

2 0,477250 0,477784 0,478308 0,478822 0,479325 0,479818 0,480301 0,480774 0,481237 0,481691

2,1 0,482136 0,482571 0,482997 0,483414 0,483823 0,484222 0,484614 0,484997 0,485371 0,485738

2,2 0,486097 0,486447 0,486791 0,487126 0,487455 0,487776 0,488089 0,488396 0,488696 0,488989

2,3 0,489276 0,489556 0,489830 0,490097 0,490358 0,490613 0,490863 0,491106 0,491344 0,491576

2,4 0,491802 0,492024 0,492240 0,492451 0,492656 0,492857 0,493053 0,493244 0,493431 0,493613

2,5 0,493790 0,493963 0,494132 0,494297 0,494457 0,494614 0,494766 0,494915 0,495060 0,495201

2,6 0,495339 0,495473 0,495603 0,495731 0,495855 0,495975 0,496093 0,496207 0,496319 0,496427

2,7 0,496533 0,496636 0,496736 0,496833 0,496928 0,497020 0,497110 0,497197 0,497282 0,497365

2,8 0,497445 0,497523 0,497599 0,497673 0,497744 0,497814 0,497882 0,497948 0,498012 0,498074

2,9 0,498134 0,498193 0,498250 0,498305 0,498359 0,498411 0,498462 0,498511 0,498559 0,498605

3 0,498650 0,498694 0,498736 0,498777 0,498817 0,498856 0,498893 0,498930 0,498965 0,498999

3,1 0,499032 0,499064 0,499096 0,499126 0,499155 0,499184 0,499211 0,499238 0,499264 0,499289

3,2 0,499313 0,499336 0,499359 0,499381 0,499402 0,499423 0,499443 0,499462 0,499481 0,499499

3,3 0,499517 0,499533 0,499550 0,499566 0,499581 0,499596 0,499610 0,499624 0,499638 0,499650

3,4 0,499663 0,499675 0,499687 0,499698 0,499709 0,499720 0,499730 0,499740 0,499749 0,499758

3,5 0,499767 0,499776 0,499784 0,499792 0,499800 0,499807 0,499815 0,499821 0,499828 0,499835

3,6 0,499841 0,499847 0,499853 0,499858 0,499864 0,499869 0,499874 0,499879 0,499883 0,499888

3,7 0,499892 0,499896 0,499900 0,499904 0,499908 0,499912 0,499915 0,499918 0,499922 0,499925

3,8 0,499928 0,499930 0,499933 0,499936 0,499938 0,499941 0,499943 0,499946 0,499948 0,499950

3,9 0,499952 0,499954 0,499956 0,499958 0,499959 0,499961 0,499963 0,499964 0,499966 0,499967

4 0,499968 0,499970 0,499971 0,499972 0,499973 0,499974 0,499975 0,499976 0,499977 0,499978

4,1 0,499979 0,499980 0,499981 0,499982 0,499983 0,499983 0,499984 0,499985 0,499985 0,499986

4,2 0,499987 0,499987 0,499988 0,499988 0,499989 0,499989 0,499990 0,499990 0,499991 0,499991

4,5 0,4999965992

5 0,4999997129