conceptos bÁsicos de estadÍstica - … · es la presentación de datos ordenados en filas y...

24
CONCEPTOS BÁSICOS DE ESTADÍSTICA Curso: Estadística con aplicaciones de Excel Prof: Willer David Chanduví Puicón 1 Organización de la información Presentación de datos Realizado el experimento o finalizada la investigación, el investigador ha recopilado un conjunto de datos u observaciones los cuales requieren ser ordenados. La Estadística nos proporciona los métodos apropiados para tal fin. Así tenemos: 1. Tablas o cuadros estadísticos. Es la presentación de datos ordenados en filas y columnas. Partes principales de una tabla Número de la tabla: Es el código con el que se identifica la tabla que generalmente es un número decimal. Ejemplo: Tabla Nº 3.7 la parte entera, 3, indica el capítulo o parte de la obra en donde se encuentra ubicada la tabla y la parte decimal 7, indica que es la séptima tabla de ese capítulo. El título de la tabla: La tabla se explicará por si misma por tanto se debe dar suficiente información en el título, es decir, el título debe ser conciso y completo puesto que es una descripción del contenido. Para que un título sea completo, éste debe responder a cuatro preguntas claves: ¿Qué? Qué se estudia, es decir, cuál es la población que se está estudiando?; ¿Cómo?, es decir, ¿cómo se clasifican los datos en la tabla, o sea, de acuerdo a qué características?; ¿Dónde?, es decir, a qué institución o lugar geográfico pertenecen los datos?; ¿Cuándo?, es decir, el período de tiempo o fecha en la que se realizó la investigación. Fila de los encabezamientos o de los subtítulos. En esta fila se escriben los nombres de las variables y sus categorías o niveles. Cuando la variable es cuantitativa se anota sus unidades de medida. Columna matriz: es la primera columna del margen izquierdo. En esta columna se anota las categorías o niveles de la variable que está considerada en la fila de los encabezamientos.

Upload: truongthuy

Post on 02-Oct-2018

222 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: CONCEPTOS BÁSICOS DE ESTADÍSTICA - … · Es la presentación de datos ordenados en filas y columnas. ... Histogramas y polígonos. ... mediante el par de valores de marca de clase

CONCEPTOS BÁSICOS DE ESTADÍSTICA Curso: Estadística con aplicaciones de Excel Prof: Willer David Chanduví Puicón

1

Organización de la información

Presentación de datos

Realizado el experimento o finalizada la investigación, el investigador ha recopilado un conjunto de

datos u observaciones los cuales requieren ser ordenados. La Estadística nos proporciona los

métodos apropiados para tal fin. Así tenemos:

1. Tablas o cuadros estadísticos. Es la presentación de datos ordenados en filas y columnas.

Partes principales de una tabla

Número de la tabla: Es el código con el que se identifica la tabla que generalmente

es un número decimal. Ejemplo: Tabla Nº 3.7 la parte entera, 3, indica el capítulo o parte

de la obra en donde se encuentra ubicada la tabla y la parte decimal 7, indica que es la

séptima tabla de ese capítulo.

El título de la tabla: La tabla se explicará por si misma por tanto se debe dar

suficiente información en el título, es decir, el título debe ser conciso y completo puesto que

es una descripción del contenido. Para que un título sea completo, éste debe responder a

cuatro preguntas claves: ¿Qué? Qué se estudia, es decir, cuál es la población que se está

estudiando?; ¿Cómo?, es decir, ¿cómo se clasifican los datos en la tabla, o sea, de acuerdo a

qué características?; ¿Dónde?, es decir, a qué institución o lugar geográfico pertenecen los

datos?; ¿Cuándo?, es decir, el período de tiempo o fecha en la que se realizó la

investigación.

Fila de los encabezamientos o de los subtítulos. En esta fila se escriben los

nombres de las variables y sus categorías o niveles. Cuando la variable es cuantitativa se

anota sus unidades de medida.

Columna matriz: es la primera columna del margen izquierdo. En esta columna se

anota las categorías o niveles de la variable que está considerada en la fila de los

encabezamientos.

Page 2: CONCEPTOS BÁSICOS DE ESTADÍSTICA - … · Es la presentación de datos ordenados en filas y columnas. ... Histogramas y polígonos. ... mediante el par de valores de marca de clase

CONCEPTOS BÁSICOS DE ESTADÍSTICA Curso: Estadística con aplicaciones de Excel Prof: Willer David Chanduví Puicón

2

Cuerpo de la tabla: son las casillas o celdas en donde se consignan los datos.

Fuente: Cuando los datos corresponden a investigaciones realizadas con objetivos

diferentes, es conveniente mencionar la fuente no solo como un reconocimiento al autor

sino también para orientar al lector y pueda consultar la fuente primaria.

2. Distribuciones de frecuencias

¿Qué es una distribución de frecuencias?

Es la organización de los datos obtenidos en grupos o clases llamados intervalos de clase,

los cuales son mutuamente excluyentes y colectivamente exhaustivos

¿Cuál es el objetivo al organizar los datos en una distribución de frecuencias?

Detectar la tendencia de la variable de estudio y hacer un análisis preliminar.

Se dice también que una distribución de frecuencias es una primera forma de resumir la

información.

3. Representaciones gráficas

La mayoría son figuras geométricas que se utilizan para visualizar el comportamiento o la

tendencia de la variable (s) de estudio.

Tipos de gráficos según la naturaleza de la variable de estudio:

Para variables cuantitativas: Histogramas y polígonos.

Para variables cualitativas: Gráficos de barras y gráficos circulares

Page 3: CONCEPTOS BÁSICOS DE ESTADÍSTICA - … · Es la presentación de datos ordenados en filas y columnas. ... Histogramas y polígonos. ... mediante el par de valores de marca de clase

CONCEPTOS BÁSICOS DE ESTADÍSTICA Curso: Estadística con aplicaciones de Excel Prof: Willer David Chanduví Puicón

3

DISTRIBUCIÓN DE FRECUENCIAS

Decíamos que una distribución de frecuencias es la organización de los datos en intervalos de clase,

mutuamente excluyentes y colectivamente exhaustivos. Ejemplo. La tabla Nº 2.6

Para variables nominales y ordinales, una distribución de frecuencias consiste en un conjunto de

categorías o clases con cantidades numéricas correspondientes a cada categoría que toman el

nombre de frecuencias. Ejemplo, la tabla Nº 2.4

Para presentar las observaciones correspondientes a una variable discreta o continua en forma de

una distribución de frecuencias debemos proceder de la siguiente manera:

a) Determinar el rango o recorrido, éste se define como la distancia entre el dato máximo y

el dato mínimo. Se denota por R.

b) Determinar el número el número de intervalos a considerar. En principio, ni pocos ni

demasiados intervalos. Si hay demasiados intervalos el resumen no tiene grandes

ventajas respecto de los datos a procesar. Si se consideran pocos, se sintetiza demasiado

de manera que se pierde gran cantidad de información. Una regla que se usa para

determinar el número de intervalos a considerar, se conoce con el nombre de regla de

Sturges, que consiste en calcular k

k = 1 + 3.322log N

siendo N el número de observaciones y k el número de intervalos. Se recomienda que el

número de intervalos no debe ser menor de 5 ni mayor de 20.

c) Se determina la amplitud del intervalo, para ello se divide el rango o recorrido entre k, y

de esa manera obtenemos la longitud de cada intervalo.

d) Se calculan los límites inferior y superior de cada intervalo de clase.

Page 4: CONCEPTOS BÁSICOS DE ESTADÍSTICA - … · Es la presentación de datos ordenados en filas y columnas. ... Histogramas y polígonos. ... mediante el par de valores de marca de clase

CONCEPTOS BÁSICOS DE ESTADÍSTICA Curso: Estadística con aplicaciones de Excel Prof: Willer David Chanduví Puicón

4

Frecuencia Absoluta Simple

Es el número de veces que se repiten los valores dentro de los diferentes intervalos en que se ha

dividido la información.

Frecuencia Absoluta Acumulada

Se obtiene sumando y acumulando los valores absolutos clase por clase en orden ascendente.

Frecuencia Relativa Simple

Es el valor que resulta de dividir cada una de las frecuencias absolutas simples entre el total de

frecuencias o datos. Así se tiene:

Frecuencia Relativa Acumulada

Se obtiene sumando y acumulando los valores relativos clase por clase en orden ascendente.

Ejemplo:

Un investigador social desea determinar en la comunidad “X”, el número de horas semanales que

dedican los niños menores de 6 años de edad, a ver televisión. Una muestra de 25 años, arrojó los

siguientes resultados (en número de horas semanales).

10 19 25 19 26

16 19 27 27 25

23 22 17 12 20

15 21 23 26 14

18 25 23 24 21

a) Ordenar la información en una tabla de distribución de frecuencias.

b) Interpretar algunos valores de las frecuencias halladas.

Page 5: CONCEPTOS BÁSICOS DE ESTADÍSTICA - … · Es la presentación de datos ordenados en filas y columnas. ... Histogramas y polígonos. ... mediante el par de valores de marca de clase

CONCEPTOS BÁSICOS DE ESTADÍSTICA Curso: Estadística con aplicaciones de Excel Prof: Willer David Chanduví Puicón

5

Representaciones Gráficas

Existen diversidad de gráficos estadísticos; éstos se eligen de acuerdo al tipo de variable y al

propósito para el cual se construye. Los gráficos más importantes y de mayor uso son:

A. Cuando los datos son medidos a nivel Nominal u Ordinal

1. Gráfico de Barras

2. Gráfico Circular

B. Cuando los datos son medidos a nivel de Intervalo o razón

1. Histograma

Es un gráfico que se utiliza para representar la distribución de frecuencias absolutas o

relativas simples. Consiste en un grupo de rectángulos adyacentes que tienen sus bases en el

eje de las abscisas (donde se representan los intervalos de clase de la variable) y altura igual

a las frecuencias de cada clase.

2. Polígono de frecuencias

También es un gráfico que se utiliza para representar la distribución de frecuencias

absolutas o relativas simples. Consiste en un gráfico que se obtiene uniendo los puntos

hallados, mediante el par de valores de marca de clase y frecuencia correspondiente. Para

Page 6: CONCEPTOS BÁSICOS DE ESTADÍSTICA - … · Es la presentación de datos ordenados en filas y columnas. ... Histogramas y polígonos. ... mediante el par de valores de marca de clase

CONCEPTOS BÁSICOS DE ESTADÍSTICA Curso: Estadística con aplicaciones de Excel Prof: Willer David Chanduví Puicón

6

fines del gráfico se hace necesario incrementar un intervalo de clase en cada extremo, con

frecuencias cero.

3. Ojivas

Son gráficos que se utilizan para representar las frecuencias acumuladas absolutas o

relativas, y consiste en un gráfico lineal que nos permite observar la cantidad de elementos

que quedan por encima o por debajo de determinados valores.

Ejercicios:

1. Los siguientes datos corresponden al índice de rendimiento en una prueba de aptitud.

1.51 1.53 1.47 1.58 1.46 1.69 1.66 1.61

1.23 1.56 1.09 1.63 1.60 1.89 1.37 2.29

1.65 1.69 2.01 1.73 1.22 1.46 1.51 1.47

1.61 1.65 1.6 2.18 1.54 1.33 1.65 1.50

2.29 1.56 1.67 1.81 1.67 1.38 1.68 1.83

a) Elaborar una tabla completa de distribución de frecuencias.

b) Interpretar algunos valores de las frecuencias halladas.

Page 7: CONCEPTOS BÁSICOS DE ESTADÍSTICA - … · Es la presentación de datos ordenados en filas y columnas. ... Histogramas y polígonos. ... mediante el par de valores de marca de clase

CONCEPTOS BÁSICOS DE ESTADÍSTICA Curso: Estadística con aplicaciones de Excel Prof: Willer David Chanduví Puicón

7

2. Los siguientes datos corresponden al número de viajes que realizan por día, 80 personas

encuestadas, para ir y regresar de su centro de trabajo:

3 6 5 7 4 4 3 6 7 4 5 4 4

5 4 3 4 3 5 6 6 4 4 5 7 4

6 2 5 7 6 3 2 5 4 4 6 5 6

5 6 4 5 2 5 3 6 2 2 3 3 5

3 5 4 2 6 3 3 3 6 5 7 4 5

4 2 3 4 2 3 6 5 4 5 5 5 4

a) Ordenar los datos agrupándolos en un cuadro de distribución de frecuencias.

b) ¿Cuántas personas viajan 4 veces por día?

c) ¿Qué porcentaje de personas viajan 3 veces por día?

d) ¿Cuántas personas viajan 5 veces por día?

e) ¿Cuántas personas viajan a lo más veces por día?

3. Los siguientes datos corresponden a las lecturas de la presión sanguínea sistólica que se

hicieron a 58 adultos que se presentaron para un examen físico

104 112 128 139 118 132 132 112 106

126 126 115 118 117 116 113 122 123

116 114 129 117 106 124 115 118 123

105 120 146 121 120 102 138 106 113

114 122 116 108 122 112 112 123 116

124 111 121 111 114 123 107 120 120

124 122 134 131

a) Construir un cuadro de distribución de frecuencias

b) Analizar algunos valores de las frecuencias hallada.

4. Se muestra a continuación la estatura en centímetros de un grupo de niños y niñas normales,

de 0 a 12 años, residentes en las regiones de 4900 m. sobre el nivel del mar.

45 48 115 112 95 98 145 115 96 90

51 38 52 132 96 89 112 51 63 104

55 36 98 134 87 63 109 91 109 103

60 45 120 105 78 54 53 61 46 56

62 48 125 108 69 49 57 71 63 139

Page 8: CONCEPTOS BÁSICOS DE ESTADÍSTICA - … · Es la presentación de datos ordenados en filas y columnas. ... Histogramas y polígonos. ... mediante el par de valores de marca de clase

CONCEPTOS BÁSICOS DE ESTADÍSTICA Curso: Estadística con aplicaciones de Excel Prof: Willer David Chanduví Puicón

8

a) Construir una tabla de frecuencias

b) Analizar los datos agrupados.

Resumen de la Información

Las distribuciones de frecuencias y las tablas estadísticas son una primera forma de resumir la

información para hacer un análisis preliminar, pero no es suficiente. Se trata ahora de sustituir a

toda la serie de datos o distribución de frecuencias por unos pocos índices. Para elegir a esos índices

o parámetros debemos considerar tres aspectos básicos, y ellos son: la localización o ubicación,

dispersión o variación, y la forma, de la distribución

Localización o ubicación de la distribución. Se trata de la ubicación de la masa de

datos en el eje real. Los indicadores o índices de la localización se conocen con el

nombre de medidas de tendencia central, y son: media aritmética, mediana, moda o

modo, media geométrica y la media armónica. En la Figura Nº 1 Se observan dos

poblaciones ubicadas en diferentes puntos del eje real

Población I Población II

µ1 µ2 X

Fig. Nº 1

Page 9: CONCEPTOS BÁSICOS DE ESTADÍSTICA - … · Es la presentación de datos ordenados en filas y columnas. ... Histogramas y polígonos. ... mediante el par de valores de marca de clase

CONCEPTOS BÁSICOS DE ESTADÍSTICA Curso: Estadística con aplicaciones de Excel Prof: Willer David Chanduví Puicón

9

Dispersión o variación. Se refiere a la variabilidad de los datos que constituyen la

distribución. Los índices de la dispersión se conocen con el nombre de medidas de

dispersión, y estos son: la varianza, desviación estándar, coeficiente de variación,

recorrido intercuartílico y el recorrido o rango o amplitud total. En la Fig. Nº 2 se

observan poblaciones con diferente dispersión y también diferente ubicación

Población I Población II

σ1 σ2

µ1 µ2 X

Fig. Nº 2

Forma de la distribución. La distribución puede ser simétrica, asimétrica o sesgada,

esta última puede ser de sesgo positivo o de sesgo negativo. El índice de la forma de la

distribución es el coeficiente de asimetría. En la Figura Nº3 se observan tres

distribuciones con diferente forma

Población I Población II Población III

Distribución con Distribución simétrica Distribución con

asimetría negativa asimetría positiva

Fig. Nº 3

Page 10: CONCEPTOS BÁSICOS DE ESTADÍSTICA - … · Es la presentación de datos ordenados en filas y columnas. ... Histogramas y polígonos. ... mediante el par de valores de marca de clase

CONCEPTOS BÁSICOS DE ESTADÍSTICA Curso: Estadística con aplicaciones de Excel Prof: Willer David Chanduví Puicón

10

Vamos a describir a cada uno de estos índices.

3.1 MEDIDAS DE TENDENCIA CENTRAL

A este conjunto de medidas de resumen se les conoce como medidas de tendencia central, porque

tienden a ubicarse en el centro de la distribución. Estas medidas son: la media aritmética, mediana,

moda, media geométrica y también podemos considerar a las medidas de posición conocidos con el

nombre de percentiles

Media aritmética

Es la medida de tendencia central más conocida y de mayor uso, comúnmente la llaman promedio

aritmético o simplemente promedio, pero todas las tendencia central son promedios. Se define como

la suma de todas las observaciones dividida entre el número de observaciones, es decir,

n

Xx

i

Ejemplo 1

Se han obtenido la cantidad de fósforo (en mg / g de hoja) en hojas secas:

Xi: 8.15, 8.26, 8.40, 8.58 y 8.60

La media aritmética es:

X = gmgn

X i/ 398.8

5

91.41

Page 11: CONCEPTOS BÁSICOS DE ESTADÍSTICA - … · Es la presentación de datos ordenados en filas y columnas. ... Histogramas y polígonos. ... mediante el par de valores de marca de clase

CONCEPTOS BÁSICOS DE ESTADÍSTICA Curso: Estadística con aplicaciones de Excel Prof: Willer David Chanduví Puicón

11

Ejemplo 2

Se dispone del tiempo de vida (en meses) de dos especies de pájaros en cautiverio:

Especie A

Xi (meses) : 34 36 37 39 40 41 42 43 59

Especie B

Xi (meses) : 35 36 39 41 39 43 45 44 46 45

Se observa que la especie A tiene menor esperanza de vida en cautiverio. No olvide que la media

aritmética tiene la misma unidad de medida como la tienen las observaciones individuales.

Observaciones

a) La media aritmética se emplea en datos cuantitativos o numéricos; en cambio no debe

usarse en datos ordinales debido a la naturaleza arbitraria de la escala.

b) La media es sensible a valores extremos o discordantes y la presencia de ellos en un

conjunto de datos hacen que la media pierda su condición de ser representativa del

conjunto

c) Es la medida de tendencia central que mejor describe a un conjunto de datos cuando la

distribución es simétrica.

d) Se expresa en las mismas unidades de medida en que están dados los datos originales

Page 12: CONCEPTOS BÁSICOS DE ESTADÍSTICA - … · Es la presentación de datos ordenados en filas y columnas. ... Histogramas y polígonos. ... mediante el par de valores de marca de clase

CONCEPTOS BÁSICOS DE ESTADÍSTICA Curso: Estadística con aplicaciones de Excel Prof: Willer David Chanduví Puicón

12

La Mediana

La mediana de un conjunto de datos es la observación central, es decir, la mitad de las

observaciones son menores o iguales que la mediana y la otra mitad son mayor o iguales.

Cálculo de la mediana

a) Se ordenan los datos de menor a mayor (o viceversa)

b) Encontrar el valor que está ocupando el centro. Casos:

1º) En un número impar de observaciones la mediana es el valor que ocupa el centro.

En el ejemplo 2, especie A, la mediana es Md = 40 meses.

2º) En un número par de observaciones se define como mediana a la media aritmética

de los dos valores centrales, por ejemplo en la especie B de aves en cautiverio la

mediana es la semisuma de la quinta y sexta observación, es decir, Md = 2

4140

= 40.5 meses.

Observaciones

a) La mediana no es sensible a los valores extremos, es decir, éstos no tienen efectos

importantes sobre la mediana ( no la modifican).

b) La mediana puede usarse con valores ordinales debido a que para su cálculo no se

usa los valores reales de las observaciones si no se ubica el valor central.

c) Se recomienda como representativa del conjunto de datos cuando existen valores

extremos (distribución asimétrica o sesgada).

d) Al igual que la media aritmética, se expresa en las mismas unidades de medida en

que están dados los datos originales.

Page 13: CONCEPTOS BÁSICOS DE ESTADÍSTICA - … · Es la presentación de datos ordenados en filas y columnas. ... Histogramas y polígonos. ... mediante el par de valores de marca de clase

CONCEPTOS BÁSICOS DE ESTADÍSTICA Curso: Estadística con aplicaciones de Excel Prof: Willer David Chanduví Puicón

13

La Moda

La moda o modo de un conjunto de observaciones se define como la observación que ocurre con

mayor frecuencia. Tal vez es mejor definir a la moda como una medición de mayor concentración.

En algunas distribuciones de frecuencia puede haber más de uno de esos puntos de mayor

concentración (moda), sin embargo esos puntos pueden no tener la misma frecuencia. Así por

ejemplo, una muestra consiste de los siguientes datos en mm.

4, 4, 5, 7,7, 8, 8, 9, 9, 9, 9, 10, 11, 12, 12, 12, 12, 12, 13, 13, 14.

En este conjunto de datos observamos dos modas locales 9 y 12.

La Media Geométrica

Es otra medida de tendencia central, no se usa tan a menudo como las anteriores. En general se usa

cuando los datos están medidos en una escala logarítmica. Se emplea en microbiología para calcular

títulos desilusión promedio y para promediar cantidades en forma de progresiones y tasas de

crecimiento.

La media geométrica cuyo símbolo que utilizaremos es Xg se define como la raíz enésima del

producto de las observaciones positivas. En símbolos:

Sean Xi > 0 ; X1, X2, ….., Xn

n observaciones positivas, entonces la media geométrica es:

Xg = nnxxx )).......()(( 21

Page 14: CONCEPTOS BÁSICOS DE ESTADÍSTICA - … · Es la presentación de datos ordenados en filas y columnas. ... Histogramas y polígonos. ... mediante el par de valores de marca de clase

CONCEPTOS BÁSICOS DE ESTADÍSTICA Curso: Estadística con aplicaciones de Excel Prof: Willer David Chanduví Puicón

14

¿Qué medida de tendencia central usar?

Obtenida la información, (las observaciones) la pregunta es qué medida de tendencia central es

mejor para usar con los datos obtenidos. La respuesta está condicionada a dos factores: la escala de

medición (numérica u ordinal) y la forma de la distribución de las observaciones (simétrica o

asimétrica). Esta información ayuda a elegir la medida de tendencia central apropiada.

Si existen valores discrepantes o discordantes en una distribución se dice que la distribución es

asimétrica o sesgada, así tenemos: si los valores discordantes son pequeños la asimetría es o la

izquierda o negativa. Si sólo existen unos cuantos valores muy grandes comparados con el resto de

los datos, la asimetría es a la derecha o positiva. Una regla para deducir la asimetría de la

distribución es comparando la media y la median, como sigue:

a) Si la media y la mediana son iguales, la distribución es simétrica.

b) Si la media es mayor que la mediana, la distribución está sesgada o asimétrica a la

derecha.

c) Si la media es menor que la mediana, entonces la distribución está sesgada o

asimétrica a la izquierda.

Las siguientes recomendaciones para elegir la medida de tendencia central más adecuada:

i) La media se usa para datos numéricos y distribuciones simétricas (no sesgadas).

ii) La mediana se usa en datos ordinales o si la distribución es sesgada.

iii) El modo se usa cuando se desea resaltar el dato más frecuente.

iv) La media geométrica se usa en observaciones medidas en una escala logarítmica.

Page 15: CONCEPTOS BÁSICOS DE ESTADÍSTICA - … · Es la presentación de datos ordenados en filas y columnas. ... Histogramas y polígonos. ... mediante el par de valores de marca de clase

CONCEPTOS BÁSICOS DE ESTADÍSTICA Curso: Estadística con aplicaciones de Excel Prof: Willer David Chanduví Puicón

15

MEDIDAS DE DISPERSIÓN O VARIABILIDAD

Las medidas de dispersión permiten estimar la representatividad de un promedio (media o

mediana), en ese sentido es necesario cuantificar la dispersión o variabilidad de los datos

alrededor del promedio correspondiente. Las principales medidas que calculan la dispersión son:

la varianza, la desviación estándar y el coeficiente de variación. Todas ellas miden desviaciones

respecto a la media, pero en tanto que, las dos primeras proporcionan desviaciones absolutas, la

última proporciona desviaciones en términos relativos a la media.

Varianza

La varianza muestral (s2) se define como:

s2 =

1

)( 2

n

Xxi

donde xi son los valores de la variable X, X es la media aritmética muestral y n es el tamaño de la

muestra. Como vemos, la varianza viene a ser la media aritmética de las distancias de cada uno de

los datos con respecto a la media X ; pero elevados al cuadrado, en ese sentido, la magnitud de s2

medirá la mayor o menor dispersión de los valores de la variable respecto a la media aritmética; es

decir, mostrará el grado de representatividad de dicho promedio, de tal forma que a mayor valor de

s2 la dispersión será mayor y la media aritmética no será representativa (lo contrario sucederá

cuando s2 sea pequeña).

Page 16: CONCEPTOS BÁSICOS DE ESTADÍSTICA - … · Es la presentación de datos ordenados en filas y columnas. ... Histogramas y polígonos. ... mediante el par de valores de marca de clase

CONCEPTOS BÁSICOS DE ESTADÍSTICA Curso: Estadística con aplicaciones de Excel Prof: Willer David Chanduví Puicón

16

Ejemplo: En el ejemplo 2, la varianza del tiempo de vida de la especie A es 2

As = 186.2760 meses2

y de la especie B es 2

Bs = 12.96 meses2. Con estos resultados deducimos que hay menor dispersión

en los datos del tiempo de vida correspondiente a la especie B comparada con la especie A, y por lo

tanto su media aritmética (tiempo medio de vida) será mejor representativa. Además, en la especie

A existe un valor atípico que es el dato 79 meses, es por eso que la varianza aumenta.

Desviación Estándar o Típica (s)

Un inconveniente de la varianza radica en que sus unidades de medida corresponde al de la variable

pero, elevadas al cuadrado, lo cual puede dificultar su interpretación. Por esta razón se define una

medida de dispersión la cuál si está expresada en las mismas unidades de medida que la variable

que se está analizando. Esta medida de dispersión se conoce con el nombre de desviación estándar,

es decir:

1

)( 2

2

n

Xxss

i

En el ejemplo del tiempo de vida en cautiverio de las dos especies, las correspondientes

desviaciones estándar son:

SA = 13.65 meses y SB = 3.60 meses.

Page 17: CONCEPTOS BÁSICOS DE ESTADÍSTICA - … · Es la presentación de datos ordenados en filas y columnas. ... Histogramas y polígonos. ... mediante el par de valores de marca de clase

CONCEPTOS BÁSICOS DE ESTADÍSTICA Curso: Estadística con aplicaciones de Excel Prof: Willer David Chanduví Puicón

17

No obstante la ventaja de interpretación que la desviación estándar supone respecto a la varianza,

sin embargo, es imposible efectuar comparaciones entre distribuciones de frecuencia cuando las

dimensiones de las variables no coinciden debido precisamente a que las distribuciones no poseen

idénticas unidades de medida. Este inconveniente da lugar a nuevas medidas de dispersión o

variabilidad relativa (adimensionales), entre ellas, el coeficiente de variación.

Coeficiente de Variación (C.V.)

Se define como la relación por cociente entre la desviación estándar y la media aritmética,

expresado en porcentaje, es decir:

x

sVC .. 100%

Como, tanto s como x están expresadas en las mismas unidades de medida, el C.V. resulta un

indicador adimensional. Además expresa qué tanto por ciento es la desviación estándar de la media

aritmética.

Ejemplo 1

En un grupo de personas, el peso promedio fue de 145 libras con una desviación estándar de 7

libras; la estatura promedio fue 67 pulgadas con desviación estándar de 5 pulgadas. La pregunta es:

¿en cuál característica el grupo es más variable (heterogéneo)?. En este caso no podemos comparar

paso y estatura (características expresadas en diferentes unidades de medida). Para dar respuesta a

la pregunta calculamos el coeficiente de variación:

Peso Estatura

C.V. = %8.4145

7 C.V. = %5.7

67

5

Page 18: CONCEPTOS BÁSICOS DE ESTADÍSTICA - … · Es la presentación de datos ordenados en filas y columnas. ... Histogramas y polígonos. ... mediante el par de valores de marca de clase

CONCEPTOS BÁSICOS DE ESTADÍSTICA Curso: Estadística con aplicaciones de Excel Prof: Willer David Chanduví Puicón

18

Por tanto decimos que en estatura el grupo es más heterogéneo.

Ejemplo 2

Consideremos las siguientes muestras de los pesos de hombres de 25 años y de niños de 11 años

Si observamos las desviaciones estándar, aparentemente los dos grupos tienen la misma dispersión

o variabilidad en peso, sin embargo:

C.VHombres = %82.6)100(66

5.4

C.VNiños = %5.12)100(36

5.4

Los pesos de los niños son relativamente más variables (heterogéneos) que los pesos de los adultos.

Cuartiles

La mediana de una distribución divide los datos en dos partes iguales.

Media Desviación

Aritmética Estándar

Hombres 66 4.5

Mujeres 36 4.5

Peso (Kg)

Muestra

Page 19: CONCEPTOS BÁSICOS DE ESTADÍSTICA - … · Es la presentación de datos ordenados en filas y columnas. ... Histogramas y polígonos. ... mediante el par de valores de marca de clase

CONCEPTOS BÁSICOS DE ESTADÍSTICA Curso: Estadística con aplicaciones de Excel Prof: Willer David Chanduví Puicón

19

También es posible dividir los datos en más de dos partes. Cuando se divide un conjunto ordenado

de datos en cuatro partes iguales, los puntos de división se conocen como cuartiles y los

representamos por Q1, Q2 y Q3

Recorrido Intercuartílico

Cuando la distribución es asimétrica se utiliza como indicador de la dispersión de los datos el

recorrido intercuartílico que se define como la diferencia entre el tercer y primer cuartil, en

símbolos:

3 1RIQ Q Q

Recorrido, Rango o Amplitud Total

Es la medida de dispersión que muy poco se usa porque no usa toda la información proporcionada

por la muestra para calcular su valor, por lo tanto puede inducir a error. Se define como la

diferencia entre el máximo y el mínimo valor de la distribución de datos.

max minR X X

Forma de la distribución

Una vez iniciado el análisis estadístico de sinterización de la información, para lo cual hemos

estudiado las medidas de posición y dispersión de la distribución de una variable, necesitamos

conocer más sobre el comportamiento de la misma. No podemos basar nuestras conclusiones

únicamente en expresiones que vengan dadas en términos de medidas de posición y dispersión. Si

bien intentamos globalizar el comportamiento del colectivo que sea objeto de nuestro estudio,

Page 20: CONCEPTOS BÁSICOS DE ESTADÍSTICA - … · Es la presentación de datos ordenados en filas y columnas. ... Histogramas y polígonos. ... mediante el par de valores de marca de clase

CONCEPTOS BÁSICOS DE ESTADÍSTICA Curso: Estadística con aplicaciones de Excel Prof: Willer David Chanduví Puicón

20

para lo cual las medidas de posición son nuestro mejor instrumento, no debemos proceder a una

intrepretación que implique un comportamiento de todos los elementos del colectivo

uniformemente constante e igual a la medida de posición en cuestión con un error dado por la

correspondiente medida de dispersión. Este error o disparidad se hace más ostensible al analizar

la representación gráfica de la distribución. Pues bien, las medidas de forma de una distribución

se basan en su representación grafica, sin llegar a realizar la misma.

Las medidas de forma se clasifican en medidas de asimetría y medidas de curtosis o

apuntamiento.

Las medidas de asimetría tienen como finalidad el elaborar un indicador que permita establecer el

grado de simetría (o asimetría) que presenta una distribución, sin necesidad de llevar a cabo su

representación grafica.

Supongamos que hemos representado gráficamente una distribución de frecuencias. Si trazamos

una perpendicular al eje de abscisas por x y tomamos esta perpendicular como eje de simetría,

diremos que una distribución es simétrica si existe el mismo numero de valores a ambos lados de

dicho eje, equidistantes de x dos a dos y tales que cada par de valores equidistantes a x tengan la

misma frecuencia. En caso contrario, las distribuciones serán asimétricas.

Las medidas de curtosis estudian la distribución de frecuencias en la zona central de la misma. La

mayor o menor concentración de frecuencias alrededor de la media y en la zona central de la

distribución dará lugar a una distribución más o menos apuntada. Por esta razón a las medidas de

curtosis se les llama también de apuntamiento o concentración central. Las medidas de curtosis se

aplican a distribuciones campaniformes, es decir, unimodales simétricas o con ligera asimetría Para

estudiar la curtosis de una distribución es necesario definir previamente una distribución tipo, que

vamos a tomar como modelo de referencia. Esta distribución es la Normal, que corresponde a

fenómenos muy corrientes en la naturaleza, y cuya representación grafica es una campana de Gauss.

Tomando la normal como referencia, diremos que una distribución puede ser mas apuntada que la

normal (es decir, leptocurtica) o menos apuntada (es decir, platicúrtica).

A la distribución normal, desde el punto de vista de la curtosis, se le llama mesocúrtica.

Con la curtosis se estudia la deformación, en sentido vertical, respecto a la normal, de una

distribución.

Page 21: CONCEPTOS BÁSICOS DE ESTADÍSTICA - … · Es la presentación de datos ordenados en filas y columnas. ... Histogramas y polígonos. ... mediante el par de valores de marca de clase

CONCEPTOS BÁSICOS DE ESTADÍSTICA Curso: Estadística con aplicaciones de Excel Prof: Willer David Chanduví Puicón

21

A continuación se definen las medidas de asimetría más comunes, entre las que destacan las

siguientes:

Coeficiente de asimetría de Fisher: Ahora se intenta buscar una medida que recoja la simetría o

asimetría de una distribución. Si la distribución es simétrica, el eje de simetría de su representación

grafica será una recta paralela al eje de ordenadas, que pasa por el punto cuya abscisa es la media

aritmética. Por ello, cuando la distribución es asimétrica, referiremos los valores de la distribución a

este promedio. Si una distribución es simétrica. existe el mismo numero de valores a la derecha que

a la izquierda de x , y por tanto el mismo número de desviaciones con signo positivo que con signo

negativo, siendo la suma de desviaciones positivas igual a la suma de las negativas. Podemos partir.

pues, de las desviaciones (xi- x ) elevadas a una potencia impar para no perder los signos de las

desviaciones.

Lo más sencillo sería tomar como medida de asimetría el promedio de estas desviaciones, elevadas

a la potencia impar más simple (que es tres), es decir, tomaríamos como medida de asimetría el

momento de orden tres centrado en la media. Pero, de hacer esto, esta medida vendría expresada en

las mismas unidades que las de la variable. pero elevadas al cubo, por lo que no es invariante ante

un cambio de escala. Para conseguir un indicador adimensional, debemos dividir la expresión

anterior por una cantidad que venga en sus mismas unidades de medida. Esta cantidad es el cubo de

la desviación típica, obteniéndose así el coeficiente de asimetría de R. A. Fisher, cuya expresión es:

2/3

1

2

1

3

3

3

1

)(1

)(1

k

i

ij

k

i

ij

nxxN

nxxNm

g

Si g 1 =0 la distribución es simétrica, si g 1 >0 la distribución es asimétrica positiva (a derecha), y si g

1 < 0 la distribución es asimétrica negativa (a izquierda). La distribución es asimétrica a derecha o

positiva cuando la suma de las desviaciones positivas de sus valores respecto de la media es mayor

que la suma de las desviaciones con signo negativo (la grafica de la distribución tiene mas densidad

a la derecha de la media). En caso contrario, la distribución es asimétrica a la izquierda o negativa.

Page 22: CONCEPTOS BÁSICOS DE ESTADÍSTICA - … · Es la presentación de datos ordenados en filas y columnas. ... Histogramas y polígonos. ... mediante el par de valores de marca de clase

CONCEPTOS BÁSICOS DE ESTADÍSTICA Curso: Estadística con aplicaciones de Excel Prof: Willer David Chanduví Puicón

22

Coeficiente de asimetría de Fisher estandarizado: Para N >150 el coeficiente de asimetría es

asintóticamente normal de media cero y varianza 6/N. Este hecho nos lleva a considerar el

coeficiente de asimetría estandarizado cuya expresión es:

N

gg s

6

1

Este coeficiente es asintóticamente normal (0,1).

Coeficiente de asimetría de Pearson: Karl Pearson propuso para distribuciones campaniformes,

unimodales y moderadamente asimétricas el coeficiente definido como Ap = ( x - Mo) / , donde

Mo es la moda. Como en una distribución campaniforme simétrica. x = Mo = Me, si la

distribución es asimétrica positiva o a derechas . x se desplaza a la derecha de la moda, y por tanto,

x - Mo > 0. En el caso de distribución asimétrica negativa la media se sitúa por debajo de Mo, por

lo que el valor x - Mo < 0. La desviación típica que aparece en el denominador no modifica el

signo de la diferencia x - Mo y sirve para eliminar las unidades de medida de dicha diferencia.

Así tendremos que si Ap = 0 la distribución es simétrica, si Ap > 0 la distribución es asimétrica

positiva y si Ap < 0 la distribución es asimétrica negativa. También Pearson comprobó

empíricamente para este tipo de distribuciones que se cumple 3(x - Me) .r - Mo (la mediana

siempre se situa entre la media y la moda en las distribuciones moderadamente asimétricas). Por

esta razón,algunos autores utilizan como coeficiente de asimetría de Pearson el valor:

Ap 3( x - Me)

Coeficiente de asimetría de Bowley: Está basado en la posición de los cuartiles y la mediana, y

viene dado por la expresión Ab = (C3 + C 1 - 2Me) / (C3 + C1). Se cumple que si Ab = 0 la

distribución es simétrica, si Ab > 0 la distribuci6n es asimétrica positiva y si Ab < 0 la

distribución es asimétrica negativa. Cl y C3 son el primer y tercer cuartil respectivamente.

El coeficiente absoluto de asimetría: Está basado también en la posición de los cuartiles y la

mediana, y viene dado por la expresión:

A = [(C3 -C2) - (C2 -C 1)] / S = (C3 + C 1 - 2C2) / S = C3 + C 1 - 2Me /S

Si A=0 la distribución es simétrica, si A >0 la distribución es asimétrica positiva y si A<0 la

distribución es asimétrica negativa. C1, C2 y C3 son los cuartiles de la distribución.

Page 23: CONCEPTOS BÁSICOS DE ESTADÍSTICA - … · Es la presentación de datos ordenados en filas y columnas. ... Histogramas y polígonos. ... mediante el par de valores de marca de clase

CONCEPTOS BÁSICOS DE ESTADÍSTICA Curso: Estadística con aplicaciones de Excel Prof: Willer David Chanduví Puicón

23

Una vez presentadas las medidas de asimetría, a continuación se definen las medidas de curtosis

más comunes, entre las que destacan las siguientes:

Coeficiente de curtosis: En la distribución normal se verifica que m 4 = 34 siendo m 4 el

momento de orden 4 respecto a la media y la desviación típica. Si consideramos la expresi6n g 2

= m 4 /4 - 3, su valor será cero para la distribución normal. Por ello, como coeficiente de

apuntamiento o curtosis se utiliza la expresión:

3

)(1

)(1

32

1

2

1

4

4

42

k

i

ij

k

i

ij

nxxN

nxxNm

g

Una distribución es:

mesocúrtica (apuntamiento igual al de la normal) cuando g2 = 0,

leptocúrtica (apuntamiento mayor que el de la normal) si g2 > 0,

platicúrtica (apuntamiento menor que el de la normal) si g2 < 0.

El coeficiente de curtosis estandarizado: Para N > 150 el coeficiente de curtosis es

asintóticamente normal de media cero y varianza 24/N. Este hecho nos lleva a considerar el

coeficiente de curtosis estandarizado cuya expresión es:

N

gg ks

6

2

Este coeficiente es asintóticamente normal (0,1).

Page 24: CONCEPTOS BÁSICOS DE ESTADÍSTICA - … · Es la presentación de datos ordenados en filas y columnas. ... Histogramas y polígonos. ... mediante el par de valores de marca de clase

CONCEPTOS BÁSICOS DE ESTADÍSTICA Curso: Estadística con aplicaciones de Excel Prof: Willer David Chanduví Puicón

24

Valores extremos

Son valores que se alejan del conjunto de datos.

Regla para identificar valores o datos extremos

Vamos a definir una observación como extrema si:

ó