estadística inferencial: métodos cuantitativos
DESCRIPTION
Se describen los principales conceptos referidos a estadística inferencial.TRANSCRIPT
1
Métodos de Investigación Cuantitativos Por Sandra Crucianelli
Las encuestas sociales y las más difundidas en el campo del periodismo, las
encuestas electorales, son herramientas de documentación y/o investigación del
reportero.
Intentos de fraude y manipulación en la difusión de los datos pueden ser
detectados por el reportero si éste comprende el mecanismo científico sobre el
que reposa la realización de encuestas.
En este plano, hay dos tipos básicos de investigaciones cuantitativas que
podemos realizar:
Estadística Descriptiva: Es el caso de la medición de todos los elementos de un
universo. Por ejemplo, búsqueda de los mismos datos o variables de estudio
para todos los legisladores. El cruce de información o la comparación con
estudios previos puede conducir a una primicia. En periodismo, el reportero
puede encarar una medición de este tipo cuando nuestro universo a estudiar es
demasiado pequeño (ejemplo, individuos estudiados por profesiones, como
médicos, abogados, etc.). A nivel estatal, el Censo Nacional es el caso más
representativo de Estadística Descriptiva aplicada, independientemente del
universo. La forma de analizar sus resultados es mediante identificación de
variables, comparando con datos previos, calculando sobre éstos variaciones
porcentuales y construyendo medidas de proporción que permitan poner en
contexto los datos numéricos, para darles un significado noticiable.
Estadística Inferencial: Es el caso de las encuestas. Inferir es deducir o elaborar
un pronóstico sobre la base de datos previamente recolectados. Se utiliza
cuando el universo en estudio es demasiado grande como para entrevistar a
todos sus componentes. Por ejemplo los ciudadanos que integran el padrón
electoral.
Criterios de Calidad para la Publicación de Encuestas (sociales o electorales):
Antes de decidir la publicación de una encuesta, el reportero o editor deberían
contar con los datos de la ficha técnica.
2
Elementos de la Ficha Técnica:
Universo o Población: Se llama así al conjunto total de elementos que son
objeto de estudio. Puede estar formado/a por personas, hogares,
empresas u objetos.
Muestra: Es una parte de ese universo que lo representa. Se calcula
mediante fórmulas. A menos que las poblaciones sean menores de
100.000, el tamaño de la muestra es independiente del Universo
Tamaño de la muestra: Magnitud de los elementos que van a ser
encuestados, medidos o estudiados (factor determinante en el resultado)
Error de muestreo: Error cometido y estimado, admitido por el
encuestador. Se expresa como un intervalo. Por ejemplo +/- 3 % (esto
significa que va desde el valor negativo -3 % hasta el valor positivo +3 %)
Nivel o Intervalo de Confianza: Probabilidad de obtener una confianza
concreta de que el resultado de la muestra represente al real. Se trabaja
con 90, 95, 99% de IC
Z: (Zeta) Coeficiente que se corresponde a cada IC
Nombre de la encuestadora
Fecha de realización del trabajo de campo
Origen de la financiación.
ERROR MUESTRAL
El error que informan las encuestadoras en las fichas técnicas es un error
muestral. Es decir, ese error está referido sólo al cálculo del tamaño de la
muestra. Es una condición de borde, que la consultora determina antes de
calcular el tamaño muestral (sobre la base de su presupuesto, cuanto más
dinero se disponga, más chico será el error y por consiguiente más grande será
la muestra), ya que para aplicar la fórmula de tamaño de muestra y calcularla,
necesito conocer el valor de ese error.
Por supuesto, a ese error muestral, hay que agregarle otros, en especial los que
tienen que ver con la representatividad de la muestra: que todos los sectores
estén proporcionalmente representados (representatividad de la muestra), el
diseño del cuestionario y el trabajo de campo, es decir, cómo se seleccionarán
las zonas a encuestar, los hogares y dentro de ellos, el individuo que
responderá la encuesta. Por lo tanto, como pueden intuir, ese error muestral
puede aumentar mucho si se cometieron otros errores durante el trabajo
de diseño de la encuesta y la recolección de datos.
¿Para qué nos sirve a los periodistas conocer el error muestral? = Para construir
los intervalos posibles de votos que el candidato podrá obtener.
3
Vamos a suponer que se hizo una encuesta y que el candidato A sacó el 20 % de
intención de voto. Si el error muestral admitido e informado por la
encuestadora fue del +/- 3 %, entonces, para interpretar mejor esa encuesta hay
que construir el intervalo de probables porcentajes que podría sacar ese
candidato el día de la elección: restando 3 por un lado y sumando 3 por el otro,
con lo que en realidad, lo que me están diciendo es que probablemente el
candidato A obtenga un porcentaje de votos que podría ir del 17 al 23
% (Restando 20 % - 3 % y sumando 20% + 3 % )
Como podrán advertir, con valores muy reñidos entre candidatos (por ejemplo,
si el candidato A obtiene 20 % y el que le sigue obtiene 19,2 %) es casi imposible
predecir quién ganará la elección, porque cuando construyan los
intervalos, restando y sumando 3 a cada valor, (si se usó ese error) cada
intervalo correspondiente a cada candidato contendrá muchos valores que
compartirán (caso conocido como “empate técnico”)
Conclusión: No asuman en una crónica y mucho menos en un título que cierto
candidato podrá ganar, si la diferencia entre los dos primeros candidatos
es muy ajustada. Al menos con ese margen de error del 3 %. Para poder
pronosticar un resultado en esos casos se tendría que trabajar con un error muy
pequeño, del orden del +/- 1 %, lo cual implicaría usar una muestra
excesivamente grande, de alrededor de 10.000 casos
VERIFICACION DEL ERROR
Una correlación inversamente proporcional, entre el error muestral informado y
el tamaño de la muestra, debe ser observada con detenimiento para detectar
posibles manipulaciones numéricas.
A mayor tamaño de muestra, menor error de muestreo. Ambos datos, están
inversamente relacionados y puede verificarse su correspondencia mediante la
aplicación de fórmulas.
Por ejemplo, si una encuestadora sostiene que realizó una encuesta sobre 400
casos con el +/- 2 % de error, está faltando a la verdad porque ambos datos no
mantienen correspondencia para el Índice de Confianza habitualmente más
usado, que es del 95 %.
En general, para encuestas electorales nacionales se consideran óptimas
muestras de 1.200 casos, con un +/- 3% de error para un Índice de Confianza del
95 %. Para encuestas electorales locales o regionales, muestras de 625 casos
resultan óptimas, con el +/- 4% de error muestral.
4
Philip Meyer dice en su libro “Periodismo de Precisión” que el buen
periodista nunca debe olvidarse de este número: 384. Es el tamaño de una
muestra, independiente del universo general en estudio, si se trabaja con un
nivel de confianza del 95 % y un error del +/- 5 %.
Para estudios sociales, en especial los periodísticos y cuando no conozcan la
dimensión total del universo en estudio, 384 (ó 400 en general), será un buen
tamaño de muestra. Pero tal muestra no aporta seguridad al caso de las
encuestas electorales, donde lo que persigue es un pronóstico.
Índices de Confianza menores del 95 % no son recomendables, ya que
obligaría a trabajar con muestras pequeñas y en consecuencia, con intervalos de
error más grandes. Por el contrario, Índices de Confianza mayores del 95 % no
son empleados ya que para ello, habría que trabajar con muestras demasiado
grandes.
Las encuestas realizadas mediante el uso de sitios de Internet no tienen
predicción alguna y sus resultados no son generalizables.
Las encuestas telefónicas no son predictivas cuando el porcentaje de
penetración de la telefonía fija no supera el 85.
NIVELES DE PREDICCION
Dependen del momento en que se realice la encuesta. No se debe olvidar que
una encuesta es una foto del momento en que se realiza. Cuanto más nos
acercamos al día de la elección, más predicción se obtiene. La encuesta
comienza a ser predictiva, en términos electorales, aproximadamente 30 días
antes del día de la elección y el pronóstico se mantiene siempre y cuando el
escenario político-social-económico no observe grandes cambios.
¿Cuál sería el número mínimo de entrevistados necesarios para hacer una
buena encuesta electoral en una capital latinoamericana, independientemente
de la cantidad de electores que allí vivan?
En el caso de las encuestas electorales, hay ciertos criterios de calidad
internacionales que sí dependen del universo en estudio, básicamente porque es
posible, a través del padrón electoral, conocer la cantidad de electores. Si las
poblaciones electorales son menores o iguales a 100.000, una buena muestra
ronda en los 625 casos, en cuyo caso el error aumenta un poco,
aproximadamente al +/- 4 %. No tendría sentido aplicar el +/- 3 % en una ciudad
pequeña, porque tendría que usar una muestra demasiado grande (más de
1.000 casos) y a partir del entrevistado número 625, los resultados no diferirían
en mucho (se produce el efecto meseta).
5
Para ciudades con más de 100.000 habitantes o países en general, en honor a la
verdad estadística, se requieren muestras más grandes de 800 si se quiere
trabajar con el +/- 3 % de error, ya que con 800 casos se tiene un +/- 3,5 % de
error, no de 3.
Si una encuestadora dice que relevó 800 casos y el error muestral fue del +/- 3
% mintió.
Las capitales requieren muestras similares a las nacionales, aunque las
consultoras digan lo contrario.
De todos modos, si los resultados no son muy reñidos y el número de indecisos
es bajo, se podría aceptar para una capital una muestra de 800, aunque siempre
considerando que el error supera a la recomendación de calidad y es de 3,5.
TAMAÑOS OPTIMOS DE MUESTRAS
Para encuestas electorales nacionales, sí es necesario entrevistar más gente
que 800 personas. En estos casos, se recomiendan muestras de alrededor de
1.200 casos, porque es el tamaño de muestra que se obtiene de considerar que el
error con el que trabajará el encuestador es del +/- 3 % (el mínimo aceptable).
Con una muestra de 800 casos no alcanza, porque no se llega al mínimo de
error que se exige (+/- 3 %) para ser considerada de calidad.
El tema de la proporcionalidad no tiene que ver con la determinación con el
tamaño de la muestra, sino con el método que se usará para entrevistar.
En las electorales, siempre se debe aplicar la proporcionalidad (porque es la que
permite asegurar la representatividad de todos los sectores), aunque se trabaje
en una ciudad pequeña, porque no todos los circuitos electorales o barrios están
igualmente distribuidos.
En cambio, para una encuesta de tipo social, sí se puede hacer un sorteo de los
mismos, usando el 384 e independientemente del Universo. Si el trabajo se
diseñó bien, los resultados no deberían diferir mucho en si se sortearan 600 y
800. (Ejemplo: una encuesta entre legisladores)
En ese caso, como comprenderán el universo es pequeño comparado con el
electoral. Por eso el 384 funciona.
Los tamaños de muestras se obtienen a partir de fórmulas estadísticas que
responden a determinados modelos matemáticos.
La recomendación de calidad para la encuesta electoral es la encuesta
domiciliaria, distribuyendo proporcionalmente densidad geográfica de los
electores, sexo y edad.
6
Para encuestas de tipo social, muchas veces no resulta necesaria la
proporcionalidad.
También es un error pensar que con hacer encuestas en las capitales de los
países es suficiente. Toda elección nacional merece una encuesta nacional. Las
consultoras dicen que los resultados serían parecidos, pero con electorados tan
volátiles como los latinoamericanos, plantear esa hipótesis y darla como válida
es demasiado arriesgado.
Puede que en un momento del pasado haya sido así. Pero no es una ley
universal. En honor a la verdad, no se hacen por cuestiones de costos.
ENCUESTAS TELEFONICAS
Las encuestas telefónicas sólo son predictivas si la penetración de teléfonos fijos
en la población estudiada es superior al 85 %, que es una recomendación de
calidad internacional.
En nuestros países latinoamericanos no sería posible una telefónica nacional.
Los celulares no cuentan. En USA ya no se hacen domiciliarias, solo telefónicas
y funcionan por dos razones: el 93 % de los norteamericanos tiene teléfono y
por otro lado, ha quedado demostrado que casi el 100 % de quienes van a votar
tienen teléfono, ya que allí el voto no es obligatorio.
Regla estadística Básica: REGLA DE LA ALEATORIEDAD
“Todos y cada uno de los miembros de una población sobre la que se pretenden
generalizar los resultados han de tener la misma probabilidad conocida de
formar parte de la muestra”
¿Cómo cumplir con esta regla?
Dar a cada miembro de la población en estudio la misma posibilidad de ser
incluido, usando un método estadístico-matemático correcto
El proceso en el que se agudiza este requerimiento es en la determinación del
tamaño de la muestra y la selección de los individuos o elementos a incluir.
Concepto de la Pirámide Poblacional
Indispensable para estudios generales (sondeos electorales)
Encuestas representativas deben basarse en este concepto
Sin pirámide poblacional no hay representatividad.
Sin pirámide poblacional se viola la regla de aleatoriedad.
Una muestra debe tener correspondencia con los % de sexo, edad y
residencia geográfica conforme los datos del censo.
7
Tipos de muestreo
1) Método Aleatorio Simple:
Se usa si se dispone de una lista total de los elementos de la población y
el azar determina a cuál se estudiará
Todos los individuos tienen la misma chance de formar parte de la
muestra
Mismo concepto del sorteo de lotería
Ningún procedimiento debe violar la aleatoriedad de la medición
Ejemplo Aleatorio Simple: Si en una ciudad hay 900 médicos y quiero
encuestarlos para consultarlos sobre sus hábitos de fumar. La muestra
fue determinada en 277 - Numeraré a los 900 médicos y sortearé 277 -
Con reposición: Si uno no contesta, se da como parte de la encuesta
(NS/NC). Si no se lo encuentra, se sortea otro.
2) Método Estratificado (Proporcional): Es el más usado, en especial en
encuestas electorales.
Se divide a la población por grupos o clases llamados estratos. Los
elementos de cada estrato son homogéneos. (Ejemplo: Barrios o circuitos
electorales)
Se toma una submuestra de cada uno mediante el método aleatorio
(electores)
Respeta pirámide proporcional
Ejemplo: estratificado proporcional: Ciudad con 3.000.000 habitantes
Muestra: 400 - 6 circuitos electorales (35%, 25%,10%,10%,15%, 5%)- Se
calcula la proporción de los circuitos sobre la base de 400 y la selección de
los individuos dentro de cada circuito es al azar.
3) Método Por Agrupados:
Consiste en seleccionar al azar grupos llamados conglomerados o
agrupados y luego tomar una submuestra de cada uno.
Los elementos de cada conglomerado no son uniformes.
Por ejemplo: Letras de la guía telefónica: Primeros diez de cada letra, con
reposición.
No respeta pirámide
8
¿Cómo detectar encuestas manipuladas o mal realizadas?
I. Haga una revisión crítica del tamaño de muestra, del IC y del error
usado.
II. Deténgase solo en los resultados numéricos y haga su propia
interpretación.
III. Verifique si el error se corresponde con el tamaño de muestra, apelando
a tablas (Anexo Tablas)
IV. Detecte posibles errores en el cruce de datos.
V. Compare el método usado por la consultora con otras encuestas
realizadas por el mismo equipo, para analizar si se empleo el mismo
parámetro metodológico.
VI. Si encuentra errores o fallas, llame a la consultora, tómela como fuente y
pídale explicaciones.
VII. Insista en saber el origen del financiamiento de la encuesta y el propósito
que la motivo.
VIII. No descarte el material que tiene entre manos. Una encuesta mal hecha o
un intento de manipulación pueden constituir una noticia. Explote el
tema periodísticamente.
TEORIA DE LAS PROBABILIDADES
La investigación cuantitativa se basa en la Teoría de las Probabilidades. Las
probabilidades de que un individuo responda una encuesta o no lo haga, son
datos que se deben conocer sobre la base de estudios previos, ya que los
mismos son requeridos en las fórmulas de construcción de tamaños de muestra.
Es la razón por la que se explica este punto. Pero hagamos un abordaje más
práctico:
¿Cómo calcular fácilmente una probabilidad?
Muchas veces en los medios de comunicación hablamos de probabilidades, sin
tener una idea clara del fundamento científico sobre el que descansa el
concepto. El tema forma parte de cursos de estadística universitarios y no
siempre resulta sencillo explicar cómo puede servirnos esto a los periodistas.
Trataremos de hacer una aproximación sencilla.
Todo el mundo tiene una idea primitiva de lo que es la probabilidad. En la vida
cotidiana, cuando decimos que habrá un 70 % de probabilidades de que llueva,
en realidad estamos hablando de una probabilidad porcentual, ya que
teóricamente, la escala para medir una probabilidad se mide de 0 a 1.
9
Así las cosas, podemos definir Probabilidad como: El conjunto de posibilidades
de que un evento ocurra o no, en una escala es de 0 a 1. Si un evento tiene P de
no ocurrir, p=0. Si ocurre con certeza, p=1. Lo contrario, la posibilidad de que un
evento no ocurra se denota con la letra q. La suma de p+q debe dar 1. Según lo
anterior, la condición más desfavorable en este campo es: p = q = 0,5 (incerteza)
Voy a poner un ejemplo de aplicación práctica: Supongamos que un juez tiene
en su archivo 12 carpetas de sentencias pendientes para resolver, 5 de las cuales
están archivadas en carpetas de portada color marrón y 7 tienen tapas negras.
Todas las carpetas están mezcladas. Si va a su armario y abre el cajón, saca una
de ellas sin mirar ¿qué probabilidad tiene de sacar una de tapa marrón?
P = 5 / 12 (se calcula dividiendo 5 entre 12) = 0,4
Por lo tanto, multiplicando por 100, el magistrado tiene un 40 % de
probabilidad de sacar una de tapas color marrón. Obviamente, la probabilidad
de que saque una negra es:
P= 7 / 12 = 0,6 y en porcentaje el 60 %, aunque se podría haber llegado al mismo
resultado restando (1 - 0,4), ya que como les expliqué, la suma de las
probabilidades puras siempre da 1.
Este es el concepto más simple de probabilidad (dividir una parte entre el total)
y luego multiplicar por 100, .aunque hay otros aspectos más complejos, pero la
idea es que puedan calcular probabilidades sencillas.
Así pueden calcular probabilidades tales como:
La cantidad promedio de automóviles del Estado que circulan en su
ciudad diariamente y del mismo modo la cantidad de accidentes de
tránsito que se producen diariamente. Con esos datos, que supongo una
fuente les podrá proporcionar, podrían calcular la probabilidad
porcentual de que un automóvil oficial protagonice un accidente de
tránsito.
Si tuvieran acceso al número de hogares totales de la ciudad en la que
viven y al mismo tiempo, del número de hogares en los que diariamente
se cometen delitos contra la propiedad (hurtos, robos), entonces podrían
calcular la probabilidad porcentual de que cada hogar sea víctima de un
delito contra la propiedad.
Con el dato de la cantidad de electores a nivel nacional, podrían calcular
para la muestra ideal de 1.200 casos, la probabilidad que tiene un elector
a nivel país de formar parte de esa muestra (*).
10
(*) La inversa, ¿qué significado periodístico tendrá? Podemos debatir este punto en el
foro de la semana.
ANEXO TABLAS
Tablas Tamaños de muestra
Finitas < de 100.000 (Para IC 95%)
U error 4% error 5% error 10%
500 ----- 222 83
1000 385 286 91
2000 476 333 95
3000 517 353 97
4000 541 364 98
5000 556 370 98
10.000 588 385 99
15.000 600 390 99
20.000 606 392 100
25.000 610 394 100
50.000 617 397 100
100.000 621 398 100
Infinitas > 100.000 (electorales nacionales, para IC 95%)
Error Tamaño Muestra
3% 1.111
4% 625
5% 400
6% 278
7% 204
8% 156
9% 123
10% 100