clase 2 tema 2. medidas de posición - wordpress.com · 2017-04-16 · tema 2. medidas de posición...

13
Metodología Cuantitativa II Sílvia Caufapé Hostench UPF 1 Clase 2 Tema 2. Medidas de posición Estadística descriptiva univariable Herramientas para presentar y resumir el contenido de variables aisladas Presentar la distribución de una variable Resumir las características de una distribución con medidas estadísticas Tabla de frecuencias Las frecuencias muestran el número de casos que corresponden a cada valor de la variable Ejemplo: frecuencia de la variable sexo en el grupo de estudiantes de estadística descriptiva: Género Frecuencia (f) Hombres 55 Mujeres 44 Total (N) 99 Porcentajes Los porcentajes indican cuál sería la frecuencia de cada categoría de la variable si el número total de observaciones fuese cien. Ejemplo: Frecuencia de la variable sexo en el grupo de estudiantes de Estadística descriptiva (aula 1).

Upload: others

Post on 08-Jul-2020

9 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Clase 2 Tema 2. Medidas de posición - WordPress.com · 2017-04-16 · Tema 2. Medidas de posición Estadística descriptiva univariable • Herramientas para presentar y resumir

Metodología Cuantitativa II Sílvia Caufapé Hostench

UPF 1

Clase 2

Tema 2. Medidas de posición Estadística descriptiva univariable

• Herramientas para presentar y resumir el contenido de variables aisladas

• Presentar la distribución de una variable • Resumir las características de una distribución con medidas estadísticas Tabla de frecuencias

• Las frecuencias muestran el número de casos que corresponden a cada valor de la variable

• Ejemplo: frecuencia de la variable sexo en el grupo de estudiantes de estadística descriptiva:

Género Frecuencia (f)

Hombres 55

Mujeres 44

Total (N) 99

Porcentajes

• Los porcentajes indican cuál sería la frecuencia de cada categoría de la variable si el número total de observaciones fuese cien.

• Ejemplo: Frecuencia de la variable sexo en el grupo de estudiantes de Estadística descriptiva (aula 1).

Page 2: Clase 2 Tema 2. Medidas de posición - WordPress.com · 2017-04-16 · Tema 2. Medidas de posición Estadística descriptiva univariable • Herramientas para presentar y resumir

Metodología Cuantitativa II Sílvia Caufapé Hostench

UPF 2

• Porcentaje = (f / N) × 100 - f: Frecuencia de la categoría

- N: Número total de observaciones.

• Ventaja de los porcentajes: - Es más fácil de identificar su significado

- Permite comparar el tamaño de las categorías. • Porcentaje acumulado: porcentaje de todos los casos igual o inferior a un

cierto valor de la variable - Sólo tienen sentido con variables cualitativas de medida ordinal y variables

cuantitativas (es decir, de intervalo o de razón).

Datos perdidos (missing cases)

• Cuando se analizan datos “reales”, frecuentemente hay observaciones para los que no sabemos el valor de una o más variables.

• Esto es a menudo el caso con datos de encuestas. Siempre hay algunas personas que no responden a una pregunta.

• Ejemplo: Variable estado civil de la encuesta European Social Survey (ESS)

- Categorías de respuesta: o Casado/a

o Separado/a o Divorciado/a o Viudo/a o Soltero/a

- Categorías adicionales:

Page 3: Clase 2 Tema 2. Medidas de posición - WordPress.com · 2017-04-16 · Tema 2. Medidas de posición Estadística descriptiva univariable • Herramientas para presentar y resumir

Metodología Cuantitativa II Sílvia Caufapé Hostench

UPF 3

o No contesta o No sabe

o No respuesta

• Cuando hay datos perdidos, se hace una distinción entre los porcentajes “normales” y los porcentajes válidos.

• Los porcentajes válidos se calculan sin tener en cuenta las categorías de valores perdidos.

• La distinción entre diferentes tipos de valores perdidos (no sabe, no respuesta, etc.) se ignora a menudo.

• Es posible agrupar estas observaciones en una categoría general de datos

perdidos.

• No hay una definición absoluta de lo que representa datos perdidos. Depende

de la cuestión de investigación.

Page 4: Clase 2 Tema 2. Medidas de posición - WordPress.com · 2017-04-16 · Tema 2. Medidas de posición Estadística descriptiva univariable • Herramientas para presentar y resumir

Metodología Cuantitativa II Sílvia Caufapé Hostench

UPF 4

- Ejemplo: intenciones de voto en la próxima elección: "No sabe": o Datos perdidos si el objetivo es explicar a qué partido votar.

o Datos válidos si el objetivo es explicar que personas tienen o no una preferencia.

Tablas para variables continuas

• Ejemplos anteriores: variables categóricas, número limitado de valores diferentes.

• Con variables continuas (o variables categóricas con muchas categorías), las tablas de frecuencias no son muy útiles. Es necesario agrupar los valores en categorías. - Ejemplo: variable edad en los datos ESS.

• Por lo tanto agrupamos los datos:

• Es necesario agrupar los valores en categorías.

Page 5: Clase 2 Tema 2. Medidas de posición - WordPress.com · 2017-04-16 · Tema 2. Medidas de posición Estadística descriptiva univariable • Herramientas para presentar y resumir

Metodología Cuantitativa II Sílvia Caufapé Hostench

UPF 5

• No existe una regla absoluta sobre cómo agrupar los valores de una variable. • Encontrar un equilibrio entre:

- Demasiadas categorías (número muy pequeño de observaciones en cada categoría)

- No suficiente categorías (significa perder una gran cantidad de información

de la variable original). • En general, una dosis de sentido común es suficiente. Construcción de tablas de frecuencias

• Título claro y completo

• Las filas y las columnas deben tener títulos claros y describir su contenido de manera correcta. Es importante comunicar claramente las unidades utilizadas (sobre todo indicar si son porcentajes),

• Incluir el número total de observaciones • Indicar la fuente de los datos.

• Número de decimales: Generalmente, un decimal es suficiente. Siempre utilizar el mismo número de decimales para todas las entradas en una columna.

• Redondeo: por convención, cifras inferiores del 5 se redondean por debajo y cifras iguales o superior del 5 se redondean arriba.

- Ejemplos: 17.34 à 17.3, 17.35 à 17.4. • No escribir el símbolo % después de cada porcentaje (indicarlo en el título de

la columna).

• No utilizar líneas verticales. • Evitar poner demasiado líneas horizontales. Medidas de tendencia central

• Calcular frecuencias y porcentajes es una forma de resumir la información disponible sobre las variables de interés.

• A menudo, queremos resumir la información más a fondo, particularmente con variables cuantitativas.

• Se utilizan dos tipos de estadísticos:

Page 6: Clase 2 Tema 2. Medidas de posición - WordPress.com · 2017-04-16 · Tema 2. Medidas de posición Estadística descriptiva univariable • Herramientas para presentar y resumir

Metodología Cuantitativa II Sílvia Caufapé Hostench

UPF 6

- Medidas de tendencia central (o “de centro”, o “de posición”): centro de gravedad de una distribución.

- Medidas de dispersión: carácter disperso o concentrado de la distribución.

Moda

• La moda de una distribución se define como el valor más frecuente.

• Es posible que una variable tenga dos o más modas.

• Para una variable con un número relativamente pequeño de categorías, la moda se puede identificar fácilmente en una tabla de frecuencias.

• Si una variable puede tomar muchas variables diferentes, la moda es menos informativa. - Ejemplo: edad en los datos ESS.

o Moda = 35 años (2.11% de las observaciones). Hay varias otras edades con un número de observaciones casi igual.

• Con datos agrupados en clases o categorías, solo es posible determinar la clase modal. - Ejemplo: ingreso en los datos del ESS.

• La clase modal es muy sensible a la definición (arbitraria) de los intervalos de valores.

Media

• Es la medida de tendencia central más utilizada.

Page 7: Clase 2 Tema 2. Medidas de posición - WordPress.com · 2017-04-16 · Tema 2. Medidas de posición Estadística descriptiva univariable • Herramientas para presentar y resumir

Metodología Cuantitativa II Sílvia Caufapé Hostench

UPF 7

• La media es igual a la suma de todas las observaciones dividida por el número de observaciones.

• Cálculo: - X: una variable (aquí: la edad)

- X1: valor de la variable X en la primera observación,

- X2: valor de X en la segunda observación, etc. - N: número total de observaciones

- X: media de la variable X

( ) NXXXXXXXXXXX 10987654321 +++++++++=

Page 8: Clase 2 Tema 2. Medidas de posición - WordPress.com · 2017-04-16 · Tema 2. Medidas de posición Estadística descriptiva univariable • Herramientas para presentar y resumir

Metodología Cuantitativa II Sílvia Caufapé Hostench

UPF 8

• Media con datos agrupados: - Cuando se trabaja con datos agrupados en intervalos o clases, no es

posible calcular el valor exacto de la media. - Pero podemos hacer una aproximación de la media.

- Ejemplo: datos sobre el ingreso, datos ESS. Intervalos de ingreso: o Menos de €150 o Entre €150 y menos de €300 o Entre €300 y menos de €500 o Etc.

- Se da un valor asignado: Valor en medio del intervalo o €1000-€1500 à €1250 o €1500-€2000 à €1750

- ¿Valores asignados para las primera y última categorías?

o Menos de €150 à €150 o €10.000 o más à €10.000

Page 9: Clase 2 Tema 2. Medidas de posición - WordPress.com · 2017-04-16 · Tema 2. Medidas de posición Estadística descriptiva univariable • Herramientas para presentar y resumir

Metodología Cuantitativa II Sílvia Caufapé Hostench

UPF 9

• Problemas con la media: - A veces, la media puede ser un indicador problemático. - La media puede estar fuertemente influenciada por valores extremos

(observación atípica o “outlier”).

• Alternativa: la mediana (Me). - Mediana: Valor de la observación que se encuentra en medio de la

distribución, por lo que hay el mismo número de observaciones en cada lado.

Mediana

• Para encontrar la mediana: ordenar las observaciones en orden ascendente

• Número impar de observaciones: la mediana es el valor de la observación (N +1)/2.

• Ejemplos: - Primer grupo de alumnos: 18 19 20 20 21 21 21 22 22 22 23

- Segundo grupo de alumnos: 18 19 20 20 21 21 21 22 22 23 51

• Si el número de observaciones es par, la mediana es la media de las observaciones (N/2) y (N/2 + 1).

• Ejemplo:

Page 10: Clase 2 Tema 2. Medidas de posición - WordPress.com · 2017-04-16 · Tema 2. Medidas de posición Estadística descriptiva univariable • Herramientas para presentar y resumir

Metodología Cuantitativa II Sílvia Caufapé Hostench

UPF 10

- Tercer grupo de alumnos: 18 18 19 19 20 20 21 22 22 22 23 23 - Me = 20.5

• La mediana es el valor de la variable para el cual el porcentaje acumulado supera el 50%.

• Ejercicio: Ránking de CCA según PIB per cápita anual (2015)

• Mediana con datos agrupados: - Con datos agrupados, no podemos determinar exactamente la mediana. - Problema similar al cálculo de la media con datos agrupados.

- Utilizando los porcentajes acumulados, es fácil determinar en qué intervalo está la mediana. Este intervalo se llama la clase mediana.

Page 11: Clase 2 Tema 2. Medidas de posición - WordPress.com · 2017-04-16 · Tema 2. Medidas de posición Estadística descriptiva univariable • Herramientas para presentar y resumir

Metodología Cuantitativa II Sílvia Caufapé Hostench

UPF 11

• ¿Cómo podemos determinar con mayor precisión el valor del ingreso mediano?

- Debemos hacer una suposición sobre la distribución de las observaciones dentro de los intervalos de ingresos.

- Se supone que los individuos se distribuyen de manera uniforme. Es decir, se supone que hay tantas personas que ganan entre 1500 y 1600, como personas que ganan entre 1600 y 1700, entre 1700 y 1800, etc.

- Sabemos que el 46,4% de las personas ganan menos de 1500 euros y que el 58,7% de las personas ganan menos de 2000 euros.

- ¿Cuál es el ingreso que ganan menos del 50% de la gente?

Page 12: Clase 2 Tema 2. Medidas de posición - WordPress.com · 2017-04-16 · Tema 2. Medidas de posición Estadística descriptiva univariable • Herramientas para presentar y resumir

Metodología Cuantitativa II Sílvia Caufapé Hostench

UPF 12

Forma de una distribución

• Con muchas variables, la mediana y la media dan indicaciones similares. Esto sucede cuando la distribución de los valores de una variable es simétrica.

• “Una distribución es simétrica si los lados derecho e izquierdo del histograma son aproximadamente imágenes especulares el uno del otro” (Moore: 14).

• Ejemplo típico de una distribución simétrica: distribución en forma de campana (distribución normal o Gaussiana).

• Una gran discrepancia entre la mediana y la media es un signo de que la

distribución es asimétrica.

• Distribución asimétrica hacia la derecha o positiva: - La cola de la derecha se extiende mucho más lejos que la cola de la

izquierda.

- Mediana < media. • Distribución asimétrica hacia la izquierda o negativa:

- La cola de la izquierda es más larga que la cola de la derecha.

- Media < mediana.

• Distribución asimétrica: - Hay observaciones atípicas a la izquierda (distribución asimétrica hacia la

izquierda) o a la derecha (distribución asimétrica hacia la derecha). - Estas observaciones “tiran” la media en su dirección.

Page 13: Clase 2 Tema 2. Medidas de posición - WordPress.com · 2017-04-16 · Tema 2. Medidas de posición Estadística descriptiva univariable • Herramientas para presentar y resumir

Metodología Cuantitativa II Sílvia Caufapé Hostench

UPF 13

- Ejemplo: variable ingreso (ESS). Gran diferencia entre la media (2160€) y la mediana (1646€).

- à Distribución asimétrica hacia la derecha.

Fin clase 2