DESCRIPTIVA
• Medidas de tendencia central• Media • Mediana• Moda
• Medidas de dispersión• Rango• Varianza• Desviación estándar• Coeficiente de variación • Cuantiles ( cuartiles, percentiles)
Media aritmética • Propiedades de la Media aritmética
– En la mayoría de los casos, de todas las medidas utilizadas para calcular la tendencia central, la media es la menos susceptible a la variaciones debidas al muestreo.
– Una desventaja es que a pesar de que es confiable, porque toma en cuenta todos los valores del conjunto de datos, puede verse afectada por los valores extremos que no son representativos del resto de los datos• No nos da información de la variabilidad del conjunto de datos lo que hace difícil
su empleo para la toma de decisiones
Media aritmética • Propiedades de la Media aritmética
– Es el promedio de un conjunto de datos
– Todo conjunto de datos de intervalo o de nivel de razón poseen una media
– La suma de las desviaciones de los valores con respecto a la media es igual a cero , esto es, la ∑ ( x – x media) = 0
valores Media Diferencia
9 9 0
8 9 -1
9 9 0
8 9 -1
7 9 -2
10 9 1
9 9 0
11 9 2
10 9 1
9 9 0
SUMA 90
Media = 9 ∑= 0
Una propiedad
muy importante de
la media es que la
suma algebraica
de las
desviaciones de
los valores
respecto a la
media es igual a
cero
Medidas de tendencia central
• Mediana Md
– Es el valor que se encuentra a la mitad de una serie ordenada de datos
– La mitad de los elementos están por arriba de este punto y la otra mitad está por debajo.
– Una de las ventajas es que los términos extremos no afectan tan intensamente como en el caso de la media
– Una de las desventajas es que no considera a todos los datos de una serie, sino únicamente a los valores centrales empleados para su cálculo
Medidas de tendencia central
• Moda Mo
• La moda es aquel valor que más se repite en el conjunto de datos y normalmente lo podemos observar gráficamente cuando se elabora un histograma o una gráfica de barras
• Se puede definir como el dato más frecuente en una distribución de datos
• Su determinación nos permite conocer la categoría o dato que más se repite y que términos de probabilidad nos puede permitir pronosticar eventos.
Calcular media, mediana y moda
• El director de relaciones humanas de una empresa determino el número de horas extras en el departamento de inspección en el último mes. Una muestra de 15 trabajadores reveló que éstos trabajaron la siguiente cantidad de horas extras.
t Horas
1 13
2 13
3 12
4 15
5 7
6 15
7 5
8 12
9 6
10 7
11 12
12 10
13 9
14 13
15 12
Problema uno• El jefe de producción está interesado en conocer la calidad que se tiene en
la materia prima que recibe de dos proveedores diferentes ya que pronto iniciara la producción de un nuevo medicamento. La tabla siguiente muestra un análisis de los gramos de principio activo en cada una de 10 muestras analizadas
Cepamex 6.6 6.5 6.7 6.8 7.1 7.3 7.4 7.7 7.7 7.7
Pronal 4.2 5.4 5.8 6.2 6.7 7.7 7.7 8.5 9.3 10
1.- Calcule la media , la moda y la mediana para ambos casos2.- Con los datos obtenidos , cuál de los dos proveedores seleccionaría para su
empresa?
Calcular media moda y mediana
37 30 23 46 42
18 40 58 43 39
55 64 42 28 21
57 40 57 59 42
35 26 13 42 38
Tarea Calcular media moda y mediana
142 128 163 108 124
132 135 130 140 128
136 133 146 137 149
136 133 137 129 144
139 137 139 137 146
137 125 156 115 119
Media agrupada
• TABLA DE FRECUENCIAS
PISA 2006 PRUEBA DE CIENCIAS
Los valores medios nos sirven para comparar diferentes muestras o
poblaciones , sin embargo no nos indican como se encuentra la distribución
de los datos, no nos dice nada acerca de la forma en que se distribuyen o
dispersan los datos
7.15 7.15
0
1
2
3
4
5
6
7
8
1
CEPAMEX PRONAL
En el caso de las dos compañías, los resultados
nos dieron valores idénticos en media, mediana
y moda.
0
1
2
3
4
5
6
7
4.1 A 5 5.1 A 6 6.1 A 7 7.1 A 8 8.1 A 9 9.1 A 10
CEPAMEX
CEPAMEX
0
0.5
1
1.5
2
2.5
4.1 A 5 5.1 A 6 6.1 A 7 7.1 A 8 8.1 A 9 9.1 A 10
PRONAL
PRONAL
Medidas de variabilidad o dispersión
• Las medidas de variabilidad de una serie de datos, muestra o población, permiten identificar que tan dispersos o concentrados se encuentran los datos respecto a una medida de tendencia central.
– Una medida de variabilidad pequeña indica que los datos están agrupados muy cerca, digamos, de la media. La media, por lo tanto es considerada bastante representativa de la serie de datos.
– Inversamente, una gran medida de variabilidad indica que la media no es muy representativa de los datos.
Banco 1 Banco 2
9 9
8 12
9 6
8 5
7 13
10 9
9 11
11 7
10 10
9 8
media= 9 Media = 9
S= 1.15 S= 2.58
Por ejemplo si examinamos el
tiempo de atención en cajas en
dos bancos
Nos damos cuenta que ambos
bancos presentan un nivel de
atención promedio por persona
de 9 minutos, pero en el banco
dos se encuentran valores que
van desde los 5 minutos hasta
los 13 minutos
Si consideramos solo el valor
promedio no podríamos tomar
decisiones sobre la eficiencia
en que trabajan los dos
diferentes bancos
• 1.-Rango ( alcance)–Es la diferencia entre el valor
más alto y el valor más pequeño
• R = Vmax – Vmin
• De manera general podemos decir que cuando más grande sea el rango, mayor será la dispersión de los datos de una distribución de datos
• Sólo nos es útil cuando se desea determinar la extensión de las variaciones en los extremos
Banco 1 Banco 2
9 9
8 12
9 6
8 5
7 13
10 9
9 11
11 7
10 10
9 8
R = 4 R= 8
• Desviación media• Es la medida aritmética de los
valores absolutos de las desviaciones de los datos respecto a su media
En este caso los signos de las diferencias no se toman en cuenta, lo cual hace que
el método no sea algebraicamente correcto
valores Media DiferenciaEn valores absolutos
9 9 0
8 9 1
9 9 0
8 9 1
7 9 2
10 9 1
9 9 0
11 9 2
10 9 1
9 9 0
X = 9 DM= 8
Medidas de dispersión
• 3.-¿ Cómo podemos eliminar los signos negativos en una operación?
• Multiplicándolos por si mismos
• Multiplicándolos por otro número negativo
• Desviación estándar valores Media DiferenciaX- µ
Cuadrado de la diferencia(X-µ)2
9 9 0 0
8 9 -1 1
9 9 0 0
8 9 -1 1
7 9 -2 4
10 9 +1 1
9 9 0 0
11 9 +2 4
10 9 +1 1
9 9 0 0
µ = 9 D= 0 ∑ =12
1.09
1.15
Medidas de dispersión
• 3.-Desviación estándar es el promedio de la desviación de las puntaciones con respecto a su valor medio
• La desviación estándar nos permite determinar, dónde están localizados los valores de una distribución de frecuencias con relación a la media
1 2 3 4 5 6 7 8 9 10
banco 1 9 8 9 8 7 10 9 11 10 9
banco 2 9 12 6 5 13 9 11 7 10 8
0
2
4
6
8
10
12
14
min
uto
s
tiempo de atención en cajas
La desviación estándar se interpreta como “cuánto se desvía, en promedio,
de la media un conjunto de puntaciones”
s1 = 1.15 s2 = 2.58
Variancia de la población
La varianza de una población de N mediciones es el promedio de los cuadrados de las desviaciones de las mediciones respecto a su media
Desviación estándar
Y cuál es su utilidad?1.- La desviación estándar se usa al emplear la media con datos numéricos simétricos
2.- Los percentiles se usan cuando el objetivos es comparar las observaciones individuales con un grupo de valores normales
3.- La variación intercuartil se usa para describir el 50% central de una distribución sin importar su forma
Problema uno• El jefe de producción está interesado en conocer la calidad que se tiene en
la materia prima que recibe de dos proveedores diferentes ya que pronto iniciara la producción de un nuevo medicamento. La tabla siguiente muestra un análisis de los gramos de principio activo en cada una de 10 muestras analizadas
Cepamex 6.6 6.5 6.7 6.8 7.1 7.3 7.4 7.7 7.7 7.7
Pronal 4.2 5.4 5.8 6.2 6.7 7.7 7.7 8.5 9.3 10
1.- Emplee el rango., la desviación estándar y la varianza para determinar sus conclusiones?
• Una casa de bolsa desea realizar un comparativo entre los rendimientos anuales y los riesgos de los instrumentos financieros que han estado operando durante los últimos años. Los rendimientos anules , expresados en porcentajes son los siguientes
• Calcule rango, varianza y desviación estándar
• Cuál es su interpretación a los resultados ?
A 12 14. 19. 14. 26. 37. 23. 17. 15
B 6 5 4 7 8 9 6 5 6
Utilidad de la desviación estándar
• Nos permite medir la variación y la posibilidad de encontrar un valor en términos de probabilidad de un conjunto de datos y para ello podemos emplear tres reglas:
• 1.- La regla práctica del intervalo
• 2.- Teorema de Chebyshev
• 3.- Regla empírica
Utilidad de la desviación estándar
• 1.- La regla práctica del intervalo
– De manera general podemos decir que el 95% de los valores muestrales se ubican dentro de dos desviaciones estándar respecto al valor de la media
– Si continuamos con el ejercicio de los bancos y consideramos los datos del banco uno y la desviación estándar de la muestra
– Entonces podríamos considerar que entre el valor de 6.70 ( media - dos desviaciones estándar) y el valor de 11.30 ( media + dos desviaciones estándar) tendríamos al 95% de los datos
Banco 1
9
8
9
8
7
10
9
11
10
9
media= 9
S= 1.15
Banco 2
9
12
6
5
13
9
11
7
10
8
Media = 9
S= 2.58
• Calcule el intervalo para el 95% de los datos de acuerdo a la regla practica
2.- El Teorema de Chebyshev se aplica a cualquier distribución de un
conjunto de datos, aunque sus resultados son muy aproximados
• “La proporción ( o fracción) de cualquier conjunto de datos que está dentro de k desviaciones estándar de la media es siempre al menos:
• Donde K es cualquier número positivo mayor que 1
• Para calcular porcentaje , la fracción la multiplicamos por 100.
• Por ejemplo cuando se tiene k con un valor de 2, nos indica que es probable encontrar al menos al 75% la proporción de las mediciones en el intervalo de 2 desviaciones estándar por encima y por debajo del valor medio.
• En resumen el teorema de Chebyshev nos dice la proporción de datos que se encuentran en el intervalo de k desviciones estándar de separación respecto a la media
Límites de intervalo
• Valor inferior• µ - kσ población
• x - ks muestra
• Valor superior• µ + kσ población
• x + ks muestra
• Si en una distribución cuya media es 2000 y la desviación estándar de 300, calcula el porcentaje mínimo que se encuentra dentro del rango de 1.2 veces (k veces) la desviación estándar por encima y por debajo de la media, así como sus respectivos valores que delimitan este rango
En la tabla siguiente se expone la participación mensual de la inversión extranjera en el mercado accionario de la Bolsa Mexicana de Valores en el año 2000.
Empleando el teorema de Chebyshev:
Calcula el porcentaje mínimo que se encuentra dentro del rango de 2.5 desviaciones estándar por encima y por debajo de la media
Encuentra los valores superior e inferior que determinan este rango
Repita el punto (1) y (2) empleando valores de K 1.5 y de 3.0
mes
Enero 44.
Febrero 46.5
Marzo 44.8
Abril 47.3
Mayo 45
Junio 46.7
Julio 44
Agosto 45
Septiembre 44.7
Octubre 44.6
Noviembre 43.
Diciembre 41.3
mes % (x) x2
Enero 44 1936
Febrero 46.5 2162.25
Marzo 44.8 2007.04
Abril 47.3 2237.29
Mayo 45 2025
Junio 46.7 2180.89
Julio 44 1936
Agosto 45 2025
Septiembre 44.7 1998.09
Octubre 44.6 1989.16
Noviembre 43 1849
Diciembre 41.3 1705.69536.9 24051.41
S =1.6406
mes Tipo de cambio
Enero 5.7
Febrero 5.8
Marzo 6.8
Abril 5.8
Mayo 6.2
Junio 6.3
Julio 6.1
Agosto 6.3
Septiembre 6.4
Octubre 7.2
Noviembre 7.7
Diciembre 6.6
Los siguientes son los datos de la
variación del tipo de cambio en 1995
Calcula el porcentaje mínimo que se
encuentra dentro del rango de 2.0
desviaciones estándar por encima y por
debajo de la media
2.-Encuentra los valores superior e inferior
que determinan este INTERVALO
Repita el punto (1) y (2) empleando
valores de k de 1.8 y de 3.0
mes Tipo de cambio x2
Enero 5.7 32.49
Febrero 5.8 33.64
Marzo 6.8 46.24
Abril 5.8 33.64
Mayo 6.2 38.44
Junio 6.3 39.69
Julio 6.1 37.21
Agosto 6.3 39.69
Septiembre 6.4 40.96
Octubre 7.2 51.84
Noviembre 7.7 59.29
Diciembre 6.6 43.56
76.9 496.69
S= 0.59460962
• Los datos de un grupo de piezas de acero muestran que tienen un media de 300 kg. Y una desviación estándar de 40 kg. De acuerdo al teorema de Chebyshev, ¿ por lo menos qué porcentaje de ingresos se encontrará entre 220 y 380 kg?
• Una compañía vende un producto cuya media es 95 unidades y tiene una desviación estándar de 25, de acuerdo al teorema de Chebyshev, ¿ que porcentaje mínimo se encuentra entre 60 y 130 unidades ?
• 3.- Regla empírica para datos con una distribución normal• Nos dice que el 68% de todos los valores están dentro de una
desviación estándar de la media
• El 95% de todos los valores están dentro de 2 desviaciones estándar de la media
• y el 99.7% de todos los valores están dentro de 3 desviaciones estándar de la media
• Una muestra de tarifas de renta de departamentos se asemeja a una distribución simétrica en forma de campana. La media de la muestra es de 5000 y la desviación estándar es de $200. De acuerdo a la regla empírica :• Entre qué intervalo ( limite inferior y límite superior) se encuentran:
• EL 68% de los datos
• El 95% de los datos
• El 99.7% de los datos
• La distribución de pesos ( en toneladas) de una muestra de 1400 contenedores de carga es simétrica y tiene una forma de campana. De acuerdo a la regla empírica, ¿ qué porcentaje de pesos se encontrará entre:• χ - 2s y x + 2s
• x -1s y x +2s
• x y x +2s
• debajo de x -2s
• Pipe Company es uno de los fabricantes nacionales de tubos de PVC. El departamento de control de calidad tomó una muestra de 600 tubos y encontró que el promedio del diámetro externo es de 14.0 pulgadas y una desviación de 0.1 pulgadas• Si no se conoce la distribución, ¿ ´por lo menos que porcentaje de las
observaciones se encontrarán entre 13.85 y 14. 15 pulgadas?
• Si se supone que la distribución de los diámetros es simétrica y tiene forma de campana¿ entre qué dos valores se encontrará aproximadamente 95 % de las observaciones?
• Un estudio sobre el ingreso medio de un jardinero mostro que los datos tienen una media de 500 pesos diarios y una desviación estándar de 40 pesos. De acuerdo con el teorema de Chebyshev, ¿ por lo menos qué porcentaje de ingresos se encontrará entre 400 y 600 pesos?• Y entre 625 pesos y 375 pesos?
En una recta podemos colocar los diferentes valores que nos da sumar o restar ciertos valores de la desviación
estándar a la media de los datos
Asimismo podemos calcular el porcentaje de los datos que se encuentran en un determinado intervalo en términos
de probabilidad
Puntuación estándar (z)
• Puntuación estándar ( z) :• Nos indica a qué distancia se encuentra un valor alejado de la media en
términos de desviación estándar
Si el valor de Z es
negativo, no dice que
se encuentra debajo de
la media, por otro lado
si es positivo nos dice
que se encuentra por
encima del valor media
EJERCICIO
• Si tenemos una población cuya media es 300 y su desviación estándar es de 100 y se desea conocer a qué distancia de la media se encuentra el valor de Z si los valores de x son:• 450
• 500
• 250
Puntuación estándar (z) • Michel Jordan mide 78 pulgadas, mientras que la
jugadora de la WNBA Rebeca Lobo mide 76 pulgadas. ¿Cuál de los dos jugadores es relativamente más alto? ¿ la estatura de Jordan, entre los hombres, excede la estatura de Lobo entre las mujeres?• La estatura promedio de los hombre es de 69.o pulgadas
con una desviación estándar de 2.8
• La estatura promedio de las mujeres es de 63.6 pulgadas con una desviación estándar de 2.5
• Las calificaciones de un grupo en la prueba de psicología tienen una media de 90 y una desviación estándar de 10
• Las calificaciones de un grupo en la prueba de economía tienen una media de 70 y una desviación estándar de 5• ¿ Respecto al grupo en cuál salió mejor evaluado
• una calificación de 85 en una prueba de psicología o una calificación de 63 en una prueba de economía?
Coeficiente de variación
• Esta medida de dispersión nos dice que tan grande es la magnitud de la desviación estándar respecto a la media del conjunto de datos que se está examinando
• CV = ( σ/ µ) 100% para la población
• CV= ( s/ xmedia ) 100% para la muestra
Coeficiente de variaciónEs muy útil al comparar dos o más conjuntos de datos medidos con unidades distintas
mes 2000 % xEnero 44Febrero 46.5Marzo 44.8Abril 47.3Mayo 45Junio 46.7Julio 44Agosto 45Septiembre 44.7Octubre 44.6Noviembre 43Diciembre 41.3
2000
MES
Tipo de cambio
Enero 9.5Febrero 9.5Marzo 9.3Abril 9.4Mayo 9.5Junio 9.8Julio 9.5Agosto 9.3Septiembre 9.3Octubre 9.5Noviembre 9.5Diciembre 9.4
mes 2000 % x x2
Enero 44 1936
Febrero 46.5 2162.25
Marzo 44.8 2007.04
Abril 47.3 2237.29
Mayo 45 2025
Junio 46.7 2180.89
Julio 44 1936
Agosto 45 2025
Septiembre
44.71998.09
Octubre 44.6 1989.16
Noviembre 43 1849
Diciembre 41.3 1705.69536.9 24051.41
2000
MES
Tipo de cambio
Enero 9.5 90.25
Febrero 9.5 90.25
Marzo 9.3 86.49
Abril 9.4 88.36
Mayo 9.5 90.25
Junio 9.8 96.04
Julio 9.5 90.25
Agosto 9.3 86.49
Septiembre 9.3 86.49
Octubre 9.5 90.25
Noviembre 9.5 90.25
Diciembre 9.4 88.36
113.5 1073.73
0.137895441.64065305
• Calcular • Media, mediana
• Desviación estándar, varianza, rango, coeficiente de variación
• Primer cuartil, tercer cuartil, Decil 7, p40, P84
• ¿Existe un valor atípico?
• Entre que valores se encuentra el 80% de los datos ( de acuerdo a Chebyshev)• ¿ qué porcentaje de la población se encuentra 180 entre y 580
de contenido de CALORIAS?
PRODUCTO CALORÍAS GRASA
Batido Dunkin Donuts 240 8
Capuchino Starbucks 260 3.5
Café Coolata Donuts 350 22
Café moka exprésStarbucks
350 20
Café normal Starbucks 420 16
Café Brrownie Starbucks 510 22
Crema de chocolate 530 19
• Calcular • Media, mediana
• Desviación estándar, varianza, rango, coeficiente de variación
• Primer cuartil, tercer cuartil, Decil 3, p60, P64
• ¿Existe un valor atípico?
• Entre que valores se encuentra el 75% de los datos ( de acuerdo a Chebyshev)
•• ¿ qué porcentaje de la población se encuentra entre 250 y 650 en
el costo del automóvil?
• Qué valores se encuentran en los extremos ( por arriba y debajo) de 2 desviaciones estándar• Interprete los resultados
• en términos de desviación estándar a qué distancia se encuentra el valor de 500 respecto a su media?