la estadistica en la simulación

33
José A. González, MSIE Recolección y Análisis de Datos Introducción La importancia de esta etapa del proyecto es que da las bases conceptuales o mentales de cómo se va a modelar el sistema real. Da las pautas de cómo esta configurado y como funciona el sistema. Esta es la etapa que mayor cantidad de tiempo consume. Cuando se trata de un sistema nuevo se puede esperar que exista muy poca información. En el caso de un sistema existente el problema consiste en identificar que datos son los que realmente sirven. Por lo general los datos que se encuentran deben ser manipulados (ordenados, filtrados) hasta obtener la información que realmente sirva.

Upload: jgonza2326

Post on 13-Jul-2015

328 views

Category:

Business


0 download

TRANSCRIPT

Page 1: La Estadistica en la Simulación

José A. González, MSIE

Recolección y Análisis de Datos

Introducción

La importancia de esta etapa del proyecto es que da las bases conceptuales o mentales de cómo se va a modelar el sistema real. Da las pautas de cómo esta configurado y como funciona el sistema.

Esta es la etapa que mayor cantidad de tiempo consume.

Cuando se trata de un sistema nuevo se puede esperar que exista muy poca información. En el caso de un sistema existente el problema consiste en identificar que datos son los que realmente sirven.

Por lo general los datos que se encuentran deben ser manipulados (ordenados, filtrados) hasta obtener la información que realmente sirva.

Page 2: La Estadistica en la Simulación

Recolección y Análisis de Datos

Guía para la Recolección de Datos

La recolección de datos se debe hacer en forma sistemática. Es decir se debe seguir un procedimiento.

En el momento de recolectar datos se debe concentrar en lo que realmente se necesita. A continuación se encuentra una guía que se debe tener presente en el momento de recolectar datos.

1. Cuando se esta definiendo las actividades que ocurren en el sistema, es muy importante identificar los eventos que causan la iniciación de dichas actividades.

2. Solo se debe concentrar en recolectar información que realmente tenga un impacto sobre el sistema según el objetivo del proyecto de simulación. Esto ayudará a ahorra tiempo en el desarrollo del modelo.

Ejemplo: Heladería ------> Sabores.

José A. González, MSIE

Page 3: La Estadistica en la Simulación

Recolección y Análisis de Datos

Guía para la Recolección de Datos

3. Cuando se esta determinando el tiempo de una actividad, se debe tener cuidado en aislar el tiempo real que toma hacer dicha actividad. Se trata de no agregar el tiempo gastado en espera de material o en espera de algún recurso. Ejemplo: Tiempo de Reparación.

4. Cuando existe mucha variedad en los datos de entrada se puede pensar en agrupar dichos datos por alguno de sus atributos. Luego a cada grupo se le puede asignar una probabilidad de que ocurran. “El secreto de identificar grupos comunes es el pensar en probabilidades”.

5. Lo importante en la definición del sistema esta en identificar y abstraer todas las relaciones causa-efecto. Lo que nos interesa es la esencia y no la sustancia. Realmente no nos interesa lo que sucede en una actividad en particular, lo que nos interesa es el impacto de esta actividad sobre el uso de recursos y el atraso en el flujo de entidades.

José A. González, MSIE

Page 4: La Estadistica en la Simulación

Recolección y Análisis de Datos

Guía para la Recolección de Datos

6. Se debe tener cuidado de no confundir las variables independientes (de entrada) con las variables dependientes (de resultado).

Cualquier esfuerzo de recolectar datos debe seguir los siguientes pasos:

1. Determinar los requerimientos de datos.

2. Identificar fuentes de información.

3. Recolección de datos.

4. Haga los supuestos necesarios.

5. Análisis de los datos.

6. Documentación y aprobación de los datos.

José A. González, MSIE

Page 5: La Estadistica en la Simulación

Recolección y Análisis de Datos

Determinar los Requerimientos de Datos

El primer paso en la recolección de datos es el de determinar con exactitud que datos son necesarios para la construcción del modelo.

Datos Estructurales: Este tipo de dato describe la distribución/configuración del sistema a modelar. Debe incluir datos acerca de los diferentes elementos del sistema; entidades, recursos, localizaciones.

Datos Operacionales: Este tipo de dato explica el como opera/funciona el sistema. Especifica cuando, donde y como suceden los eventos y actividades de interés. Suministra datos acerca de la lógica y comportamiento del sistema, incluye; rutas, horarios, asignación de recursos y el comportamiento de downtime.

José A. González, MSIE

Page 6: La Estadistica en la Simulación

Recolección y Análisis de Datos

Determinar los Requerimientos de Datos

Datos Numéricos: Este tipo de dato nos da información cuantitativa del sistema.

Ejemplos incluyen:

- Capacidades.

- Tasa de llegadas.

- Tiempo de actividades.

- Tiempo entre fallas.

Estos datos se convertirán en distribuciones empíricas o teóricas.

José A. González, MSIE

Page 7: La Estadistica en la Simulación

Recolección y Análisis de Datos

Identificar Fuentes de Información

Raramente toda la información necesaria para la construcción de un modelo de simulación se encontrará en un solo sitio. Por lo general involucra la revisión de informes, llevar acabo entrevistas, observaciones personales y hacer muchos supuestos.

Es en esta etapa que el individuo recolectando datos debe ser o debe aprender a ser paciente y tener muchas persistencia.

Para sistemas existentes por lo general se encuentra buena cantidad de información disponible. En contraste, para sistemas nuevos las fuentes de información son pocas y muy limitadas, muchas veces solo se cuenta con la opinión de algún supuesto experto.

Cuando se selecciona una fuente de información siempre se debe tener presente si es confiable y si es de fácil acceso.

Siempre se debe buscar fuentes con la mayor objetividad.

José A. González, MSIE

Page 8: La Estadistica en la Simulación

Recolección y Análisis de Datos

Recolectando los Datos

El levantamiento de datos debería seguir el siguiente orden:

1. Definir el flujo general de las entidades.

2. Elaborar una descripción de la operación.

3. Refinar detalles y fortalecer valores.

Lo anterior no quiere decir que la información aparecerá en este orden sino que el esfuerzo de encontrarla debería ser este.

Definir el Flujo General de las Entidades

La determinación del flujo de entidades sirve para la construcción de la estructura del modelo, permitirá ver como las diferentes entidades fluyen a través del sistema. A medida que mas información este disponible esta se puede añadir.

Diagrama de Flujo de Procesos vs. Diagrama de Flujo de Entidades

José A. González, MSIE

Page 9: La Estadistica en la Simulación

Recolección y Análisis de Datos

Elaborar una descripción de la operación

Teniendo el diagrama de flujo de entidades se procede a crear una descripción de cómo funciona el sistema, es en este momento que se describe como cada tipo de entidad es procesada a través del sistema.

Para cada ubicación/estación y cada tipo de entidad se debe obtener información pertinente a:

- Tiempo y requerimientos de recursos de la actividad o operación.

- Donde, cuando y en que cantidades se moverán las entidades.

- Tiempo y requerimientos de recursos necesarios para el movimiento

hacia la siguiente ubicación.

La suma de la descripción del funcionamiento + el flujo de entidades dan como resultado la estructura necesaria para definir el modelo de simulación. Posteriormente se le puede agregar mas información.

Es una buena idea realizar un tour del sistema para verificar toda la información obtenida hasta el momento.

José A. González, MSIE

Page 10: La Estadistica en la Simulación

Recolección y Análisis de Datos

Elaborar una descripción de la operación (Cont.)

Es importante poner a funcionar la primera versión del modelo lo antes posible, ya que esto tiene las siguientes ventajas.

1. Mantiene vivo el interés en el proyecto.

2. Ayuda a determinar si hace falta información.

3. Ayuda en el proceso de validación del modelo.

Refinar Detalles y Fortalecer Valores

Teniendo una versión funcional del modelo el siguiente paso es el de agregar mas información (detalle) y refinar los datos ya contenidos en el modelo.

Esta etapa es importante para obtener una representación del sistema lo mas real posible.

José A. González, MSIE

Page 11: La Estadistica en la Simulación

Recolección y Análisis de Datos

Los Supuestos Son Necesarios?

“OJO” Un modelo de simulación puede correr con datos incorrectos, pero no lo puede hacer con datos incompletos.

Una vez se haya iniciado la tarea de recolectar datos no se tarda en descubrir que algunos nunca se van a poder conseguir o que la fuente no es confiable. Es en estos momentos que se hace necesario hacer supuestos del entorno del sistema o del funcionamiento del mismo.

En el caso de sistemas nuevos, se debe recordar que la simulación se va hacer con respecto a ciertas condiciones futuras que por lo general no se conocen con un alto grado de certeza. Aquí también es necesario hacer supuestos acerca del modelo y de su entorno.

Por ultimo es importante no olvidar que no deberíamos de confiar mas en los resultados de la simulación que en los supuestos que fueron utilizados.

José A. González, MSIE

Page 12: La Estadistica en la Simulación

Recolección y Análisis de Datos

Análisis Estadístico de Datos Numéricos

Antes de ser utilizados en un modelo de simulación los datos recolectados deben ser analizados e interpretados, solo así se podrá tener confianza de que dichos datos permiten generar una representación real del sistema.

Antes de desarrollar una representación (distribución) de los datos estos deben de poseer ciertas características tales como: independencia (aleatoriedad), homogeneidad (que los datos provengan de una misma distribución) y que sean estacionarios (que la distribución no cambie con el tiempo). Sin conocer estas características no se podrán ajustar los datos a una distribución teórica.

Pruebas de Independencia:

- Scatter Plot

- Autocorrelation Plot

- Runs Tests

José A. González, MSIE

Page 13: La Estadistica en la Simulación

Recolección y Análisis de Datos

Análisis Estadístico de Datos Numéricos

Pruebas de Homogeneidad: Este tipo de prueba es utilizado para determinar si los datos de una muestra provienen de una misma población o si representan múltiples poblaciones.

Tiempo de Reparación

Fre

cu

en

cia

Parte Atorada

Falla Mecánica

José A. González, MSIE

Page 14: La Estadistica en la Simulación

Recolección y Análisis de Datos

Análisis Estadístico de Datos Numéricos

Este tipo de prueba tienen dos fines. El primer caso es cuando necesitamos comprobar si los datos son homogéneos. Ejemplos de datos que tienden a no ser homogéneos por naturaleza incluyen:

1. Tiempos de actividad que toman mas o menos tiempo dependiendo del tipo de entidad siendo procesada.

2. Tiempos entre llegadas que fluctúen dependiendo de la hora del día o del día de la semana.

En el segundo caso se quiere saber si dos muestras de datos que hayan sido recolectadas provienen de una misma población o si son idénticamente distribuidos. Ejemplos donde este tipo de pruebas pueden ser útil son:

1. Tiempos entre llegadas han sido recolectados para diferentes días y se desea saber si los datos de cada día proviene de la misma distribución.

2. Tiempos de actividad de dos diferentes operarios han sido recolectados y se desea saber si la misma distribución se puede utilizar para representar a ambos operarios.

José A. González, MSIE

Page 15: La Estadistica en la Simulación

Recolección y Análisis de Datos

Repaso Rápido de Estadística

Método Gráficos Usados Para Describir Datos Cuantitativos.

El Histograma, es el método mas popular y tradicional usado cuando se quiere describir un conjunto de datos cuantitativos. A continuación se describe los paso a seguir para la construcción de un histograma.

Paso 1. Calculo del intervalo de los datos.

Intervalo = Dato más grande – Dato más pequeño

Paso 2. Divida el intervalo calculado en el primer paso entre 5 y 20 clases de igual ancho. El numero de clases es arbitrario, sin embargo, para tener una buena descripción gráfica se recomienda que si se esta trabajando con un numero pequeño de datos usar pocas clases y si se esta trabajando con un gran numero de datos usar un mayor numero de clases. Es importante tener en cuenta que la frontera de la clase mas baja debe estar situada por debajo del datos mas pequeño y el ancho de la clase debe ser lo suficientemente ancho de tal manera que ningún dato coincida con la frontera de una clase.

José A. González, MSIE

Page 16: La Estadistica en la Simulación

Recolección y Análisis de Datos

Repaso Rápido de Estadística

Regla empírica para calcular el numero de clases de un histograma:

Número de Datos Observados Número de Clases

Menos de 25 5 ó 6

25 a 50 7 a 14

Más de 50 15 a 20

Paso 3. Contar el numero de observaciones que caen en cada una de las clases. Este número se conoce como la frecuencia de clase.

Paso 4. Determinar la frecuencia relativa de cada clase, así:

Frecuencia Relativa de Clase = Frecuencia de Clase/Número de Observaciones

Paso 5. Básicamente un histograma es una grafica de barras, donde las clases son representadas por las categorías y la altura de las barras esta determinada por la frecuencia de clase. En el caso de un histograma de frecuencia relativa, la altura de las barras esta determinada por la frecuencia relativa de las diferentes clases.

José A. González, MSIE

Page 17: La Estadistica en la Simulación

Recolección y Análisis de Datos Repaso Rápido de Estadística

Ejercicio No.1 (Datos):

9.98 10.12 9.84

10.26 10.05 10.15

10.05 9.80 10.02

10.29 10.15 9.80

10.03 10.00 9.73

8.05 9.87 10.01

10.55 9.55 9.98

10.26 9.95 8.72

9.97 9.70 8.80

9.87 8.72 9.84

9.19 10.01 8.82

9.63 8.82 8.65

10.10 9.43 8.51

9.70 10.03 9.14

10.09 9.85 9.75

9.60 9.27 8.78

10.05 8.83 9.35

10.12 9.39 9.54

9.49 9.48 9.36

9.37 9.64 8.68

Ubicación Antigua Ubicación Nueva

1. Construya un histograma de frecuencia para la ubicación antigua. 2. Construya un histograma de frecuencia para la ubicación nueva.

José A. González, MSIE

Page 18: La Estadistica en la Simulación

Recolección y Análisis de Datos

Repaso Rápido de Estadística

Medidas de Tendencia Central.

La Media Aritmética (Media), de las tres medidas de tendencia central la media es la mas utilizada en la practica. Se define la media aritmética de un conjunto de n observaciones y1, y2,……, yn como el promedio de la observaciones:

José A. González, MSIE

Page 19: La Estadistica en la Simulación

Recolección y Análisis de Datos

Repaso Rápido de Estadística

Medidas de Tendencia Central.

La Mediana, de un conjunto de n observaciones y1, y2,……, yn es el número de la mitad del conjunto cuando este se ordena en forma ascendente, es decir el valor m es la posición tal que la mitad del área bajo el histograma de frecuencia relativa se encuentra a la derecha de esta posición y la otra mitad a su izquierda. Para obtener la mediana primero es necesario ordenar el conjunto de valores observados en forma ascendente, luego se calcula de la siguiente forma:

par esn si 2

yy

impar esn si

1)(n/2 (n/2)

2/)1(ny

m

José A. González, MSIE

Page 20: La Estadistica en la Simulación

Recolección y Análisis de Datos

Repaso Rápido de Estadística

Medidas de Tendencia Central.

La Moda, de un conjunto de n observaciones y1, y2,……, yn es el valor y del conjunto que ocurre con mayor frecuencia.

Medidas de Variación.

El Intervalo es igual a la diferencia entre la observación mas grande y la mas pequeña del conjunto de datos observados.

Intervalo = Observación más grande – Observación más pequeño

José A. González, MSIE

Page 21: La Estadistica en la Simulación

Recolección y Análisis de Datos Repaso Rápido de Estadística

Ejercicio No.2 (Datos):

9.98 10.12 9.84

10.26 10.05 10.15

10.05 9.80 10.02

10.29 10.15 9.80

10.03 10.00 9.73

8.05 9.87 10.01

10.55 9.55 9.98

10.26 9.95 8.72

9.97 9.70 8.80

9.87 8.72 9.84

9.19 10.01 8.82

9.63 8.82 8.65

10.10 9.43 8.51

9.70 10.03 9.14

10.09 9.85 9.75

9.60 9.27 8.78

10.05 8.83 9.35

10.12 9.39 9.54

9.49 9.48 9.36

9.37 9.64 8.68

Ubicación Antigua Ubicación Nueva

1. Calcule la media, la mediana y la moda para la ubicación antigua. 2. Calcule la media, la mediana y la moda para la ubicación nueva.

José A. González, MSIE

Page 22: La Estadistica en la Simulación

Recolección y Análisis de Datos

Repaso Rápido de Estadística

Medidas de Variación.

El Intervalo es igual a la diferencia entre la observación mas grande y la mas pequeña del conjunto de datos observados.

Intervalo = Observación más grande – Observación más pequeño

La Varianza de una muestra de n observaciones y1, y2,……, yn se define como: 2

1

12

1

2

2

11

)(

n

n

y

y

n

yy

s

n

i

n

i

i

i

n

i

i

José A. González, MSIE

Page 23: La Estadistica en la Simulación

Recolección y Análisis de Datos

Repaso Rápido de Estadística

Medidas de Variación.

La Varianza de la población se define a continuación:

para una población finita con n observaciones.

n

yn

i

i

1

2

2

)(

José A. González, MSIE

Page 24: La Estadistica en la Simulación

Recolección y Análisis de Datos

Repaso Rápido de Estadística

Medidas de Variación.

La Desviación Estándar de una muestra de n observaciones es igual a la raíz cuadrada de la varianza, se define a continuación:

La Desviación Estándar de la población es:

1

)(1

2

2

n

yy

ss

n

i

i

2

José A. González, MSIE

Page 25: La Estadistica en la Simulación

Recolección y Análisis de Datos Repaso Rápido de Estadística

Ejercicio No.3 (Datos):

9.98 10.12 9.84

10.26 10.05 10.15

10.05 9.80 10.02

10.29 10.15 9.80

10.03 10.00 9.73

8.05 9.87 10.01

10.55 9.55 9.98

10.26 9.95 8.72

9.97 9.70 8.80

9.87 8.72 9.84

9.19 10.01 8.82

9.63 8.82 8.65

10.10 9.43 8.51

9.70 10.03 9.14

10.09 9.85 9.75

9.60 9.27 8.78

10.05 8.83 9.35

10.12 9.39 9.54

9.49 9.48 9.36

9.37 9.64 8.68

Ubicación Antigua Ubicación Nueva

1. Calcule la varianza y la desviación estándar para la ubicación antigua. 2. Calcule la varianza y la desviación estándar para la ubicación nueva.

José A. González, MSIE

Page 26: La Estadistica en la Simulación

Recolección y Análisis de Datos

Repaso Rápido de Estadística

Medidas de Posición Relativa.

Definición: El 100p-ésimo percentil de un conjunto de observaciones es el valor de y situado de manera que 100p% del área bajo la distribución de frecuencia relativa de las observaciones queda a la izquierda del 100p-ésimo percentil, el restante 100(1-p)% del área quedaría a la derecha.

Así el Cuartil Inferior (QL), de un conjunto dado de observaciones es el 25o percentil. El Cuartil Medio (m), del mismo conjunto de observaciones seria el 50o percentil. Finalmente, el Cuartil Superior (QU), sería el 75o percentil.

Pasos para obtener los percentiles de un conjunto pequeño de datos:

Paso 1. Ordene el conjunto de observaciones en forma ascendente, así obteniendo y(1) , y(2) , …… , y(n).

Paso 2. Calcule l = ¼(n+1) y redondéela al entero mas cercano. La observación que ocupa esta posición denotada y(l) representa el cuatril inferior o 25o percentil. En caso que l caiga entre los enteros, redondee hacia arriba.

José A. González, MSIE

Page 27: La Estadistica en la Simulación

Recolección y Análisis de Datos

Repaso Rápido de Estadística

Medidas de Posición Relativa.

Paso 3. Calcule u = 3/4(n+1) y redondéela al entero mas cercano. La observación que ocupa esta posición denotada y(u) representa el cuatril superior o 75o percentil. En caso que u caiga entre los enteros, redondee hacia abajo.

En General, para obtener el p-ésimo percentil, calcule la cantidad i = p(n+1)/100 y redondee al entero más cercano. La observación que ocupa esta posición, denotada por y(i) es el p-ésimo percentil.

José A. González, MSIE

Page 28: La Estadistica en la Simulación

Recolección y Análisis de Datos

Repaso Rápido de Estadística

Métodos Para Detectar Datos Fuera De Intervalo.

Definición: Una observación y que es inusualmente grande o pequeña en relación con las demás observaciones de un conjunto de datos se denomina valor fuera de intervalo o dato atípico. Estos valores por lo general son atribuibles a una de los siguientes causas:

1. La observación se observa, registra o digita en el computador

incorrectamente.

2. La observación proviene de una población distinta.

3. La observación es correcta pero representa un suceso poco común.

Definición: El intervalo intercuartiles (IQR), es la distancia entre los cuartiles superior e inferior:

IQR = QU – QL

José A. González, MSIE

Page 29: La Estadistica en la Simulación

Recolección y Análisis de Datos

Repaso Rápido de Estadística

Métodos Para Detectar Datos Fuera De Intervalo.

Pasos a seguir para construir una gráfica de cuadro:

1. Calcule la mediana, m, los cuartiles inferior y superior, QL y QU y el intervalo intercuartiles, IQR, para los valores y de un conjunto de datos.

2. Construya un cuadro sobre el eje y con QL y QU situados en las esquinas inferiores. Entonces, el ancho de la base será igual a IQR. Dibuje una línea vertical dentro del cuadro para ubicar la mediana, m.

3. Establezca dos conjuntos de límites en la gráfica de cuadro. Las cotas interiores se localizan a una distancia de 1.5(IQR) por debajo de QL y por arriba de QU; las cotas exteriores se encuentran a una distancia de 3(IQR) por debajo de QL y por arriba de QU.

José A. González, MSIE

Page 30: La Estadistica en la Simulación

Recolección y Análisis de Datos

Repaso Rápido de Estadística

Métodos Para Detectar Datos Fuera De Intervalo.

Pasos a seguir para construir una gráfica de cuadro:

4. Las observaciones que caen entre las cotas interiores y exteriores se denominan posibles valores fuera de intervalo. Marque los posibles valores fuera de intervalo en la gráfica de cuadro utilizando asteriscos (*). Las observaciones que caen fuera de las cotas exteriores se denominan valores fuera de intervalo muy probables. Utilice círculos pequeños (o) para marcar los valores fuera de intervalo muy probables.

5. A fin de destacar aún más los valores extremos, se añaden “bigotes” a la gráfica de cuadro. Marque el valor de y dentro de la región entre QL y la cota inferior que esté más cercano a la cota interior con una cruz (x) y una x al cuadro con una línea punteada: un “bigote”. De forma similar, utilice una x y su “bigote” para ubicar el valor más extremo entre QU y la cota interior superior.

Algoritmo extraído de: Mendenhall W., Sincich T., “Probabilidad y Estadistica para ingeniería y ciencias”, 4ta. Edición,

Prentice Hall

José A. González, MSIE

Page 31: La Estadistica en la Simulación

Recolección y Análisis de Datos Repaso Rápido de Estadística

Ejercicio No.4 (Datos):

9.98 10.12 9.84

10.26 10.05 10.15

10.05 9.80 10.02

10.29 10.15 9.80

10.03 10.00 9.73

8.05 9.87 10.01

10.55 9.55 9.98

10.26 9.95 8.72

9.97 9.70 8.80

9.87 8.72 9.84

9.19 10.01 8.82

9.63 8.82 8.65

10.10 9.43 8.51

9.70 10.03 9.14

10.09 9.85 9.75

9.60 9.27 8.78

10.05 8.83 9.35

10.12 9.39 9.54

9.49 9.48 9.36

9.37 9.64 8.68

Ubicación Antigua Ubicación Nueva

1. Construya una gráfica de cuadro para la ubicación antigua. ¿Detecta valores atípicos?

2. Construya una gráfica de cuadro para la ubicación nueva. ¿Detecta valores atípicos?

José A. González, MSIE

Page 32: La Estadistica en la Simulación

Recolección y Análisis de Datos

SPSS 1. Introducción de datos.

2. Comando, Analyze\Descriptive Statistics\Frequencies, medidas de

tendencia central, medidas de posicionamiento, histogramas.

3. Comando, Graphs\Interactive\Boxplot, se recuerdan del diagrama de cuadro?

José A. González, MSIE

Page 33: La Estadistica en la Simulación

Recolección y Análisis de Datos

Stat:Fit 1. Comando, Input.

2. Comando, Statistics\Independence. Comprobación de la independencia

de los datos.

3. Comando, Fit\Auto::Fit. Ajuste de una distribución de probabilidad teórica a los datos recolectados.

4. Métodos para la selección de la distribución de probabilidad teórica que va a representar un fenómeno estocástico.

José A. González, MSIE