formulas estadisticas

23
Desviación respecto a la media La desviación respecto a la media es la diferencia en valor absoluto entre cada valor de la variable estadística y la media aritmética. D i = |x - x| Desviación media La desviación media es la media aritmética de los valores absolutos de las desviaciones respecto a la media. La desviación media se representa por Ejemplo: Calcular la desviación media de la distribución: 9, 3, 8, 8, 9, 8, 9, 18 Desviación media para datos agrupados Si los datos vienen agrupados en una tabla de frecuencias, la expresión de la desviación media es:

Upload: abe-mcen

Post on 03-Jul-2015

449 views

Category:

Documents


1 download

TRANSCRIPT

Page 1: Formulas estadisticas

Desviación respecto a la media

La desviación respecto a la media es la diferencia en valor absoluto entre

cada valor de la variable estadística y la media aritmética.

Di = |x - x|

Desviación media

La desviación media es la media aritmética de los valores absolutos de las

desviaciones respecto a la media.

La desviación media se representa por

Ejemplo:

Calcular la desviación media de la distribución:

9, 3, 8, 8, 9, 8, 9, 18

Desviación media para datos agrupados

Si los datos vienen agrupados en una tabla de frecuencias, la expresión de

la desviación media es:

Page 2: Formulas estadisticas

Ejemplo:

Calcular la desviación media de la distribución:

xi fi xi · fi |x -x| |x - x| · fi

[10, 15) 12.5 3 37.5 9.286 27.858

[15, 20) 17.5 5 87.5 4.286 21.43

[20, 25) 22.5 7 157.5 0.714 4.998

[25, 30) 27.5 4 110 5.714 22.856

[30, 35) 32.5 2 65 10.714 21.428

21 457.5 98.57

Page 3: Formulas estadisticas

En Excel:

5.1 DESVIACIÓN MEDIA

Para conocer con un solo indicador que tan disperso se encuentran un conjunto de datos a un punto de concentración, debemos como primera medida, calcular la distancia de cada dato respecto a una medida de tendencia central. Por ejemplo:

4 5 3

5 3 2

2 2 2

3 5 1

4 1 4

Tenemos que la media aritmética es de aproximadamente 3,0667 (indicador de tendencia central

por excelencia). El primer dato (4), se aleja de la media en 0,9333 hacia la derecha. Gráficamente tendríamos:

Para el segundo dato (5) la distancia es de 1,9333 respecto a la media aritmética:

Note que el tercer dato (3) posee una distancia de 0,0667 hacia la izquierda de la media. Para indicar las distancias de estos puntos, agregaremos el signo negativo, por tanto, la distancia del

tercer dato sería –0,0667. La representación gráfica de todos los puntos quedaría:

El total de las distancias de los puntos que están a la izquierda respecto a la media es de -8,6

(empleando todos los decimales), que es igual a la sumatoria de las distancias de los puntos que

están a la derecha respecto a la media 8,6. Concluimos que la sumatoria de todas las distancias de cada punto respecto a la media aritmética es igual a cero (las distancias se anulan):

Para responder a la pregunta de ¿qué tan disperso están los datos respecto a la media aritmética?, recurriremos nuevamente al promedio simple. Para llegar a una fórmula básica de dispersión, en que las distancias positivas y negativas no se eliminen, modificaremos la fórmula anterior para

trabajar solo con distancias positivas mediante el valor absoluto:

La distancia promedio sería de aproximadamente 1,15 (resultado de la división entre la distancia total absoluta y el total de datos). A esta distancia promedio se le conoce con el nombre de desviación media y significa que en promedio, los datos se separan de la media en 1,15.

Desviación media (Dm): Equivale a la división de la sumatoria del valor absoluto de las distancias existentes entre cada dato y su media

Page 4: Formulas estadisticas

aritmética y el número total de datos.

Se debe hacer la distinción que para datos poblacionales (no agrupados), la fórmula quedaría:

La variación para los datos agrupados en tablas tipo B radica en cambiar el valor de X i por la marca de clase correspondiente, multiplicando esa distancia por su frecuencia:

Para las tablas tipo A solo cambiaremos la marca de clase por su respectivo valor de clase

(representada por Xi):

5.1.1 Ejemplo: Desviación media para datos no agrupados

Tres alumnos son sometidos a una competencia para probar sus conocimientos en 10 materias diferentes, cada una sustentada con 10 preguntas. La idea del concurso es encontrar al alumno más idóneo para representar al colegio en un torneo a nivel nacional.

El número de preguntas buenas por materia se muestra a continuación:

Materia Carlos Pedro Juan

1 2 7 5

2 9 2 6

3 10 2 5

4 2 6 5

5 3 6 5

6 1 3 5

7 9 6 4

8 9 7 5

9 1 6 6

10 4 5 4

Page 5: Formulas estadisticas

SOLUCIÓN

Lo primero que analizaremos es la media de los puntajes para cada uno de los alumnos, con el fin de determinar el alumno con mayor promedio de preguntas buenas.

Las medias para los resultados de los alumnos coinciden: los tres alumnos tienen responden en promedio 5 preguntas correctas por prueba. ¿Cuál sería entonces el indicador diferenciador entre los alumnos?.

Complementemos el análisis anterior calculando la desviación media:

Carlos muestra una desviación media de 3,9 indicando que los datos se alejan en promedio de la media en 3,9 preguntas buenas. Pedro disminuye su variación (2,9), siendo Juan el que menos variación presenta con 0,9 preguntas tanto por arriba como por debajo de la media aritmética. Se recomienda al colegio elegir como ganador en este caso a Juan, presenta resultados más constantes que los otros dos alumnos, Juan en promedio acierta 5 preguntas buenas con una variación muy baja (rondando entre 4 y 6).

5.1.2 Ejemplo: Desviación media para datos agrupados

Una maquina dispensadora de gaseosas esta programada para llenar un envase con 350 c.c. de un refresco popular. A partir de una muestra de prueba realizada sobre 30 envases se realizó la siguiente tabla de frecuencia:

Ni Lm Ls F Mc

1 130.0 140.1 2 135.1

2 140.1 150.1 5 145.1

3 150.1 160.1 14 155.1

4 160.1 170.1 4 165.1

5 170.1 180.1 4 175.1

6 180.1 190.0 1 185.1

Total 30

Calcular e interpretar la desviación media.

SOLUCIÓN

PASO 1: Calcular la media aritmética.

PASO 2: Calcular la desviación media.

La desviación media es de aproximadamente 8,8 c.c. Concluimos que con datos suministrados de una muestra, el dispensador llenó los 30 envases con un promedio de 157,095 c.c. con una desviación media de 8,8 c.c.

Page 6: Formulas estadisticas

La desviación media describe un rango de dispersión promedio de llenado del dispensador, ubicándolo entre 148,295 c.c. (equivale a restar la media a la desviación media) y 165,895 c.c. (sumar una desviación media a la media aritmética).

5.1.3 Cálculos de la desviación media en Excel

Presentaremos el cálculo de la desviación media en Excel tanto para datos sin agrupar, como para los datos agrupados en tablas de frecuencias. Copiemos los siguientes datos a partir de la celda B2.

Excel cuenta con la función DESVPROM para el cálculo de la desviación media para datos sin agrupar.

DESVPROM: Calcula la desviación media de un conjunto de datos numéricos.

Formato: DESVPROM(número1;número2;…)

Categoría: Estadísticas

Activemos esta función en la celda B9, señalando el rango de celdas B2:F7 en el campo número1.

Al pulsar en el botón Aceptar, se mostrará la desviación media.

Para el cálculo de la desviación media en tablas de frecuencia debemos calcular de antemano la media aritmética y el valor absoluto de las distancias.

Copiemos la siguiente tabla de frecuencia en una hoja nueva en Excel (es la misma utilizada en el ejemplo 5.1.2).

El primer paso es calcular la media aritmética para datos agrupados con ayuda de la función SUMAPRODUCTO (ver el ejemplo dado en el punto 4.1.7), aplicado sobre las frecuencias y marcas de clases.

Luego hallaremos las distancias de cada marca de clase respecto a la media, convirtiéndolas a su valor absoluto con la función ABS.

Page 7: Formulas estadisticas

ABS: Devuelve el valor absoluto de un número.

Formato: ABS (número)

Categoría: Matemáticas y trigonométricas

Esta función posee un único campo (número) el cual contendrá, la distancia entre la marca de clase y la media. Para el primer intervalo de clase tendríamos:

Donde F3 representa la primera marca de clase y B11 la media aritmética. Para completar el cálculo, multiplicaremos esta función por la frecuencia respectiva:

Para poder arrastrar la fórmula, debemos recordar que la celda B11 no varía (la media aritmética es una sola), ubicándonos sobre las letras B11 en modo de edición y luego pulsando la tecla F4.

El resultado final, después de haber arrastrado la fórmula, debería verse como sigue:

El total de las distancias se muestra en la celda G9. La desviación (que ubicaremos en la celda

B12), es el resulta de la división de la distancia total sobre el número de datos empleados en el

ejercic

Moda

La moda , Mo, es el valor que tiene mayor frecuencia absoluta.

1º Todos los intervalos tienen la misma amplitud.

L i -1 es el l ímite inferior de la clase modal.

f i es la frecuencia absoluta de la clase modal.

Page 8: Formulas estadisticas

f i --1 es la frecuencia absoluta inmediatamente inferior a la en clase modal.

f i -+1 es la frecuencia absoluta inmediatamente posterior a la clase modal.

a i es la amplitud de la clase.

También se util iza otra fórmula de la moda que da un valor

aproximado de ésta:

2º Los intervalos tienen amplitudes distintas.

En primer lugar tenemos que hallar las alturas.

La clase modal es la que tiene mayor altura.

La fórmula de la moda aproximada cuando existen distintas amplitudes

es:

Mediana

Es el valor que ocupa el lugar central de todos los datos cuando éstos

están ordenados de menor a mayor.

Page 9: Formulas estadisticas

1 Si la serie tiene un número impar de medidas la mediana es

la puntuación central de la misma.

2 Si la serie tiene un número par de puntuaciones la mediana es

la media entre las dos puntuaciones centrales .

Mediana para datos agrupados

es la semisuma de las frecuencias absolutas.

L i -1 es el l ímite inferior de la clase donde se encuentra .

F i -1 es la frecuencia acumulada anterior a la clase mediana.

a i es la amplitud de la clase.

Media aritmética

La media aritmética es el valor obtenido al sumar todos

los datos y dividir el resultado entre el número total de datos.

Cuartiles

Los cuartiles son los tres valores de la variable dividen a

un conjunto de datos ordenados en cuatro partes iguales.

Page 10: Formulas estadisticas

Cálculo de los cuartiles

1 Ordenamos los datos de menor a mayor.

2 Buscamos el lugar que ocupa cada cuartil mediante la

expresión .

Cálculo de los cuartiles para datos agrupados

En primer lugar buscamos la clase donde se encuentra ,

en la tabla de las frecuencias acumuladas .

Deciles

Los deciles son los nueve valores que dividen la serie de datos en diez

partes iguales.

Cálculo de deciles

Ordenamos los datos de menor a mayor.

Buscamos la puntuación, en la serie, o la clase, en la tabla de las

frecuencias acumuladas, donde se encuentra , .

Page 11: Formulas estadisticas

Percentiles

Los percentiles son los 99 valores que dividen la serie de datos en 100

partes iguales.

Cálculo de percentiles

Ordenamos los datos de menor a mayor.

Buscamos la puntuación, en la serie, o la clase, en la tabla de las

frecuencias acumuladas, donde se encuentra ,.

Desviación media

La desviación media es la media aritmética de los valores absolutos

de las desviaciones respecto a la media .

Desviación media para datos agrupados

Page 12: Formulas estadisticas

Varianza

La varianza es la media aritmética del cuadrado de las desviaciones

respecto a la media de una distribución estadística.

Varianza para datos agrupados

Para simplificar el cálculo de la varianza vamos o util izar las siguientes

expresiones que son equivalentes a las anteriores.

Varianza para datos agrupados

Desviación típica

La desviación típica es la raíz cuadrada de la varianza.

Page 13: Formulas estadisticas

Desviación típica para datos agrupados

Para simplif icar el cálculo vamos o utilizar las siguientes expresiones que

son equivalentes a las anteriores.

Desviación típica para datos agrupados

Coeficiente de variación

El coeficiente de variación es la relación entre la desviación típica de

una muestra y su media.

Coeficiente de variación en tanto por ciento

Puntuaciones diferenciales

Las puntuaciones diferenciales resultan de restarles a

las puntuaciones directas la media aritmética .

x i = X i − X

Page 14: Formulas estadisticas

Puntuaciones típicas

Las puntuaciones típicas son el resultado de dividir las puntuaciones

diferenciales entre la desviación típica. Este proceso se llama tipificación.

Distribuciones bidimensionales

Covarianza

Coeficiente de correlación lineal

Recta de regresión de Y sobre X

Page 15: Formulas estadisticas

Recta de regresión de X sobre Y

Correlación estadística

La correlación estadística determina la relación o dependencia que existe

entre las dos variables que intervienen en una distribución bidimensional.

Es decir, determinar si los cambios en una de las variables influyen en los

cambios de la otra. En caso de que suceda, diremos que las variables están

correlacionadas o que hay correlación entre ellas.

Coeficiente de correlación

El coeficiente de correlación lineal se expresa mediante la letra r.

Propiedades

1. El coeficiente de correlación no varía al hacerlo la escala de

medición.

Es decir, si expresamos la altura en metros o en centímetros el coeficiente

de correlación no varía.

2. El signo del coeficiente de correlación es el mismo que el de

la covarianza.

Page 16: Formulas estadisticas

Si la covarianza es positiva, la correlación es directa .

Si la covarianza es negativa, la correlación es inversa.

Si la covarianza es nula, no existe correlación.

3. El coeficiente de correlación lineal es un número real comprendido

entre menos −1 y 1.

−1 ≤ r ≤ 1

4. Si el coeficiente de correlación lineal toma valores cercanos a −1 la

correlación es fuerte e inversa, y será tanto más fuerte cuanto más se aproxime

r a −1.

5. Si el coeficiente de correlación lineal toma valores cercanos a 1 la

correlación es fuerte y directa, y será tanto más fuerte cuanto más se aproxime

r a 1.

6. Si el coeficiente de correlación lineal toma valores cercanos a 0, la

correlación es débil.

7. Si r = 1 ó −1, los puntos de la nube están sobre la recta creciente o

decreciente. Entre ambas variables hay dependencia funcional.

Ejercicios

Las estaturas y pesos de 10 jugadores de baloncesto de un equipo son:

Estatura (X) 186 189 190 192 193 193 198 201 203 205

Pesos (Y) 85 85 86 90 87 91 93 103 100 101

Page 17: Formulas estadisticas

Calcular el coeficiente de correlación .

x i y i x i2 y i

2 x i ·y i

186 85 34

596

7

225

15

810

189 85 35

721

7

225

16

065

190 86 36

100

7

396

16

340

192 90 36

864

8

100

17

280

193 87 37

249

7

569

16

791

193 91 37

249

8

281 17563

198 93 39

204

8

649

18

414

201 103 40

401

10

609

20

703

203 100 41

209

10

000

20

300

Page 18: Formulas estadisticas

205 101 42

025

10

201

20

705

1

950 921

380

618

85

255

179

971

Correlación positiva muy fuerte .

Los valores de dos variables X e Y se distribuyen según la tabla siguiente:

Y/X 100 50 25

14 1 1 0

18 2 3 0

22 0 1 2

Obtener e interpretar el coeficiente de correlación lineal .

Page 19: Formulas estadisticas

Convertimos la tabla de doble entrada en una tabla simple.

x i y i f i x i ·

f i

x i2 ·

f i

y i ·

f i

y i2

·

f i

x i ·

y i · f i

100 14 1 100 10

000 14 196 1 400

100 18 2 200 20

000 36 648 3 600

50 14 1 50 2

500 14 196 700

50 18 3 150 7

500 54 972 2 700

50 22 1 50 2

500 22 484 1 100

25 22 2 50 1

250 44 968 1 100

10 600 43

750 184

3

464

10

600

Page 20: Formulas estadisticas

Es una correlación negativa débil.

CAPÍTULO 6.- MANUAL DE CONTROL ESTADÍSTICO DE PROCESOS

Introducción. Definición de Proceso

Control Estadístico de Procesos (C.E.P)

El CEP es una herramienta estadística que se utiliza en el puesto de trabajo para

conseguir el productoadecuado y a la primera. Los gráficos de control constituyen el

procedimiento básico del C.E.P. Con dicho procedimiento se pretende cubrir 3 objetivos

- Seguimiento y vigilancia del proceso

- Reducción de la variación

- Menos costo por unidad

En cualquier proceso productivo, por muy bien que se diseñe y por muy cuidadosamente

que se controle, siempre existirá una cierta variabilidad inherente, natural, que no se

puede evitar. Esta variabilidad natural, este “ruido de fondo”, es el efecto acumulado de

muchas pequeñas causas de carácter, esencialmente, incontrolable. Cuando el “ruido de

fondo” sea relativamente pequeño consideraremos aceptable el nivel de funcionamiento

del proceso y diremos que la variabilidad natural es originada por un „sistema estable de

causas de azar”. Un proceso sobre el que solo actúan causas de azar se dice que está

bajo control estadístico.

Por el contrario, existen otras causas de variabilidad que pueden estar, ocasionalmente,

presentes y que actuarán sobre el proceso. Estas causas se derivan, fundamentalmente,

de tres fuentes:

Ajuste inadecuado de las máquinas Errores de las personas que manejan las máquinas Materia prima defectuosa.

Page 21: Formulas estadisticas

La variabilidad producida por estas causas suele ser grande en comparación con el “ruido de fondo” y habitualmente sitúa al proceso en un nivel inaceptable de funcionamiento. Denominaremos a estas causas “ causas asignables‟‟ y diremos que un proceso funcionando bajo “causas asignables” está fuera de control. Un objetivo fundamental del C.E.P. es detectar rápidamente la presencia de “causas asignables” para emprender acciones correctoras que eviten la fabricación de productos defectuosos. Alcanzar un estado de control estadístico de proceso puede requerir un gran esfuerzo pero es sólo el primer paso. Una vez alcanzado, podremos utilizar la información de dicho control como base para estudiar el efecto de cambios

planificados en el proceso de producción con el objetivo de mejorar la calidad del

mismo. La Operación Evolutiva es un tipo de Diseño de Experimentos en línea (aplicado al proceso productivo) que sirve como herramienta para acercarnos a las condiciones óptimas de funcionamiento del proceso. Gráficos CEP. Generalidades Los gráficos de control o cartas de control son una importante herramienta utilizada en control de calidad de procesos. Básicamente, una Carta de Control es

un gráfico en el cual se representan los valores de algún tipo de medición

realizada durante el funcionamiento de un proceso continuo, y que sirve para controlar dicho proceso. Vamos a tratar de entenderlo con un ejemplo. Supongamos que tenemos una máquina de inyección que produce piezas de plástico, por ejemplo de PVC. Una característica de calidad importante es el peso de la pieza de plástico, porque indica la cantidad de PVC que la máquina inyectó en la matriz. Si la cantidad de PVC es poca la pieza de plástico será deficiente; si la cantidad es excesiva, la producción se encarece porque se consume

más materia prima.

En el lugar de salida de las piezas, hay un operario que cada 30 minutos toma una, la pesa en una balanza y registra la observación. Supongamos que estos datos se registran en un gráfico de líneas en función del tiempo:

Page 22: Formulas estadisticas

Observamos una línea quebrada irregular, que nos muestra las fluctuaciones del peso de las piezas a lo largo del tiempo. Esta es la fluctuación esperable y natural del proceso. Los valores se mueven alrededor de un valor central (El promedio de los datos), la mayor parte del tiempo cerca del mismo. Pero en algún momento puede ocurrir que aparezca uno o más valores demasiado alejados del promedio. ¿Cómo podemos distinguir si esto se produce por la fluctuación natural del proceso o porque el mismo ya no está funcionando bien? El control estadístico de procesos provee la respuesta a la anterior pregunta y a continuación veremos como lo hace. Todo proceso de fabricación funciona bajo ciertas condiciones o variables que son establecidas por las personas que lo manejan para lograr una producción satisfactoria.

Cada uno de estos factores está sujeto a variaciones que realizan aportes más o menos significativos a la fluctuación de las características del producto, durante el proceso de fabricación. Los responsables del funcionamiento del proceso de fabricación fijan los valores de algunas de estas variables, que se denominan variables controlables. Por ejemplo, en el caso de la inyectora se fija la

Page 23: Formulas estadisticas

temperatura de fusión del plástico, la velocidad de trabajo, la presión del pistón, la materia prima que se utiliza (Proveedor del plástico), etc.