herramientas para la calidad-10 virginia completo

Upload: djcaf

Post on 14-Jan-2016

221 views

Category:

Documents


0 download

DESCRIPTION

Control estadistico de procesosIngenieria quimicacontrol de calidad

TRANSCRIPT

ASIGNATURA

CONTROL ESTADSTICO DE PROCESOSUTN

FRM

DPTO. ING. QUMICA

2.010

UNIDAD 5. HERRAMIENTAS PARA LA CALIDAD

5.1Grfico de Pareto. Diagrama de Causa-Efecto.

5.2Histogramas. Diagramas de dispersin

5.3Diseo de experimentos.

5.4Regresin lineal.

5.4.1Ajuste de curvas por el mtodo de los mnimos cuadrados. Coeficiente de correlacin.

5.4.2Errores en la pendiente y ordenada en el origen de la recta de regresin.

5.4.3Pruebas de Hiptesis para la pendiente y la ordenada al origen.

5.5Mtodos de regresin no lineal.

5.1. INTRODUCCIN

Los programas de garanta de calidad, en particular los que estn basados en la estrategia de calidad total/mejora continua, ofrecen un conjunto de tcnicas que, si se aplican adecuadamente para analizar problemas y proponer soluciones, pueden ser la base para tomar decisiones importantes orientadas a mejorar la calidad haciendo un uso ms eficiente de los recursos y, en consecuencia, reduciendo los costos.

Entre las tcnicas ms utilizadas estn las "herramientas estadsticas bsicas" (HEB). Por el momento solo se mencionan:

Diagrama de Pareto

Diagrama causa-efecto

Hoja de datos

Grficos de control

Histograma y diagramas de dispersin

Grficas de tendencias

Diseo de experimentos Lista de verificacin

Hay otras tcnicas tambin bastante utilizadas. Entre ellas estn las siguientes:

Lluvia de ideas

Diagramas de flujo

Grficas circulares (de pastel)

5.2. EMPLEO DE LAS HERRAMIENTAS.

Como utilizar estas herramientas? El proceso de utilizacin se muestra en la figura 5-1. Cabe sealar que este proceso es cclico, por lo tanto el ltimo paso es el primer paso del siguiente ciclo, lo que nos lleva a establecer un proceso de mejora continua.

5.3. GRFICAS DE PARETO

Se basan en los estudios de Alfredo Pareto (economista del siglo XIX).

Estas grficas son un mtodo de organizacin de errores problemas o defectos, para ayudar a enfocar los esfuerzos en la resolucin de problemas.

A veces, es til hacer un anlisis de Pareto a altos niveles como resumen de los hechos a niveles inferiores. En una gran corporacin, cada fbrica preparaba rutinariamente anlisis de Pareto de los problemas de servicio y utilizaba los resultados para orientar los programas de mejora de la calidad de la planta. En un estudio especial, fueron integrados los datos de todas las plantas. El anlisis de Pareto mostr que 3 tipos de piezas entre 200 provocaban una aplastante parte de los problemas de la corporacin. Estos tres mismos tipos de pieza estaban entre los pocos y vitales de cada una de las fbricas. ste anlisis permiti redireccionar los esfuerzos de la corporacin.

Una vez encontrado el defecto, tratar de hacer el anlisis de las posibles causas del defecto (material, mquina, especificacin, etc.) o de una de las otras posibles fuentes de contribuyentes previamente mencionadas.

5.3.1. APLICACIONES DEL ANLISIS DE PARETO:

1. El anlisis de Pareto de los costos relacionados con la calidad.

2. El anlisis de Pareto de las quejas de servicio, reclamaciones de las devoluciones, cargos de garanta, etc.

3. Anlisis de otros datos de servicio por ejemplo, informes del personal de ventas o acciones realizadas por la competencia.

4. Desarrollos que han aparecido como consecuencia del impacto de la calidad del producto en la sociedad; por ejemplo, nueva legislacin, ampliacin de las disposiciones del gobierno, aumento de los pleitos por responsabilidad del producto.

5. Necesidades relacionadas con el proceso de direccin y las relaciones industriales; por ejemplo, organizacin para la calidad, programas de formacin, motivacin hacia la calidad.

6. La jerarqua de direccin, es decir, directivos, supervisores, especialistas profesionales, equipos de proyecto.

7. Procesos de fijacin de objetivos; por ejemplo, el presupuesto anual, la direccin por objetivos.

8. El mercado, en su relacin con Ventas, Servicio Posventa, Servicio Tcnico y otros.

9. El personal, a travs de ideas informales presentadas a los supervisores, sugerencias formales, ideas de los crculos de la calidad, etc. Un sistema estructurado para obtener la participacin de los operarios es el sistema de remocin de causas de error.

10. Haciendo la ronda, es decir, de las visitas hechas por especialistas (ingenieros de la calidad, ingenieros de la produccin) para solicitar propuestas de distintos departamentos.

En una industria de Mendoza se observ que en la temporada alta de produccin se producan cancelaciones de contratos de fabricacin. Se comenz a evaluar la posibilidad de no fabricacin relativo a la cancelacin de contratos de venta. Se descubri que el 20 por 100 de todos los contratos de venta acababan siendo cancelados. Los motivos eran diversos:

entregas fuera de tiempo,

envases inadecuados,

productos que no cumplan el rendimiento especificado en el contrato,

variacin en las concentraciones de los componentes,

etc.

Todas estas razones seguan el principio de Pareto: unas pocas acumulaban la mayor parte de las cancelaciones. Esto llev a una revisin del proceso de produccin y hubo una drstica disminucin de las anulaciones.

Cuando Joseph M. Juran sugiri que el 80% de los problemas de una empresa son resultado de nicamente 20% de las causas, populariz el trabajo de Pareto.

Esta es una herramienta que permite al servicio de calidad determinar las prioridades. Se trata igualmente de un indicador de la mejora de una tcnica. En este caso, se presenta fundamentalmente en el marco de la calidad de produccin, por lo que se encuentra relacionada con los rechazos, pero su empleo es mucho ms general.5.3.2. METODOLOGA

Consiste en clasificar los tipos de rechazos por orden decreciente.

A continuacin, se establece un grfico que relaciona los porcentajes de costos acumulado con los porcentajes de tipos de rechazos.

Zona A: En la mayor parte de los casos, se comprueba que un 20% de los rechazos representan un 80% de los costos; esto constituye la zona A, zona de prioridades.

Zona B: En esta franja, el 30% siguiente de las piezas rechazadas cuesta solo un 15% suplementario.

Zona C: Finalmente, en este sector, el 50% restante de piezas rechazadas cuesta solo un 5% de los costos.

5.3.2.1. Etapas de las curvas ABC

Se pueden determinar bsicamente tres etapas segn el grado de calidad logrado en el proceso:

1) Iniciacin: Seleccin extrema, la categora A es preponderante desde el punto de vista de los costos.

2) Trayectoria: La clasificacin es menos significativa.

3) Refinamiento: No hay prioridades. Igual orden de importancia en cuanto al control de las fallas o defectos.

En la figura 5-4 se observa que en una primera instancia de mejora la curva 1) presenta una pendiente inicial muy alta, luego de eliminar las causas de la mayor peso en por ejemplo: la cantidad de defectos se pasa a la curva 2) y lograne una gran mejora en la calidad. El paso de la etapa 2) a la 3) cuesta ms, dado que la importancia de los aportes de calidad de cada tem, son similares. En cuanto a la mejora despus de 3), es lenta y con pequeos pasos. Es un camino continuo y sin pausa con logros pequeos, pero no por ello menos importante. NUNCA SE LLEGA A LA PERFECCIN. El camino tiene como objetivo la perfeccin y el slo hecho de estar en l, es mrito suficiente.

EJEMPLO 1) : En una unidad de produccin, las piezas rechazadas se han evaluado y clasificado por mquinas; se quieren hallar las prioridades. (En funcin de costos)

Tabla 51

Nmero de mquinasCosto de piezas rechazadas

Mquina N 130

Mquina N 2248

Mquina N 335

Mquina N 4237

Mquina N 5193

Mquina N 650

Mquina N 780

Mquina N 846

Mquina N 925

Mquina N 1010

Mquina N 1119

Mquina N 125

Mquina N 134

Mquina N 1418

Solucin Se llena la siguiente tabla:

Tabla 52

Nmero de MquinaClasificacin CostoCostos acumulados% de los Costos acumulados

224824824,8

423748548,5

519367867,8

78075875,8

65080880,8

84685485,4

33588988,9

13091991,9

92594494,4

111996396,2

141898198,1

101099199,1

12599699,6

1341000100

DIAGRAMA DE BARRAS

EJEMPLO 2) Ejemplo con cantidad de defectos y costos: En una unidad de produccin, las piezas rechazadas son:

Tabla 53

Nmero de mquinasCantidad de piezas rechazadasCosto de pieza rechazada

Mquina N 11508,87

Mquina N 2824,88

Mquina N 31006,62

Mquina N 4693,62

Mquina N 5541,85

Mquina N 6805,00

Mquina N 7905,78

Mquina N 81308,15

Mquina N 91056,93

Mquina N 102009,90

Mquina N 1121010,10

Mquina N 12550,36

Mquina N 13602,17

Mquina N 14704,29

Solucin Se llena la siguiente tabla:

Tabla 54

Nmero de Mquina% temCostoCosto acumulado% de los Costos acumulados

1172120212021,20

10141980410041,00

1211330543054,30

8291060649064,90

936728721872,18

343662788078,80

750520840084,00

257400880088,00

664400920092,00

1471300950095,00

479250975097,50

1386130988098,80

593100998099,80

121002010000100,00

DIAGRAMA DE BARRAS

EJEMPLO 3) Ejemplo de aplicacin en una empresa.

Los valores que se van a utilizar fueron tomados del historial de una industria vitivincola de Mendoza.Los datos suministrados por dicha empresa fueron tomados de una lnea de fraccionamiento durante un lapso de 5 aos (1991 a 1996). En este perodo las mquinas dispuestas provocaron una parada en esta lnea ya sea por fallas de la mquinas como fallas en el sensor de nivel, velocidad de entrada de las botellas, etc. Tambin se presentaban fallas de las botellas, goma de las etiquetas, calidad de los corchos, y varios insumos ms que afectaban el buen funcionamiento de dicha lnea.

Tabla 55

Nmero de MquinaNmero de Paradas

1333

2673

3537

4708

5960

6689

7552

8364

9418

10302

11284

12946

13762

14693

Ordenando por grado de incidencia

Tabla 56

Nmero de

MquinaNmero de

Paradas

5960

12946

13762

4708

14693

6689

2673

7552

3537

9418

8364

1333

10302

11284

DIAGRAMA DE BARRAS

Analizaremos ahora el grfico acumulado:

Tabla 57

N de

MquinaClasif. De

ParadasParadas

Acumul.% Paradas

Acum.

596096011.7

12946190623.2

13762266832.5

4708337641.1

14693406949.5

6689475857.9

2673543166.1

7552598372.8

3537652079.3

9418693884.4

8364730288.8

1333763592.9

10302793796.5

112848221100

CURVA ABC

Tabla de valores de la CURVA ABC

Tabla 58

00

7.1411.7

14.2823.2

*** 21.42 ****** 32.5 ***

28.5741.1

35.7149.5

42.8557.9

*** 50 ****** 66.1 ***

57.1472.8

64.2879.3

71.4284.4

78.5788.8

85.7192.9

92.8596.5

*** 100 ****** 100 ***

Si se observa la curva anterior se deduce que la misma no es tan significativa, por lo que se deberan tomar con la misma prioridad a la mayora de las mquinas, si es necesario reducir el nmero de paradas.

Al analizar la zona A, observamos que un control del 21.4% de las mquinas correspondera el manejo de 32.5% de las paradas, siempre y cuando este control regule tiempos de parada.

La zona B, para un 30% de las mquinas se domina un 33.6% de las paradas.

Si se analiza el 50% restante, zona C, se tendr una visin del 33.9% que restan del nmero total de paradas.

En qu etapa de mejora est la empresa? Segn su punto de vista qu tipo de grfico hara, en funcin de los costos de fallos?

........................................................................................................................................

........................................................................................................................................

........................................................................................................................................

........................................................................................................................................

5.4. DIAGRAMA CAUSA-EFECTO

El diagrama causa-efecto tambin es conocido como diagrama de espina de pescado, por la forma en que al final queda dibujado, o como diagrama de Ishikawa pues fue este ingeniero japons el primero en utilizarlo para analizar los factores que afectan la calidad de diversos procesos fabriles.

El diagrama causa-efecto es en realidad una lluvia de ideas organizada a partir de ciertos criterios. En ese sentido, son necesarios los mismos materiales y se deben tener las mismas precauciones para su aplicacin.

Esta es otra de las herramientas disponibles para identificar los problemas de calidad y los puntos de inspeccin.

Por lo general, existen algunas caractersticas que son crticas para establecer la calidad del producto. Normalmente se realizan mediciones de estas caractersticas y se obtienen datos numricos. Si se mide cualquier caracterstica de calidad de un producto, se observar que los valores numricos presentan una fluctuacin o variabilidad entre las distintas unidades del producto fabricado. Por ejemplo, si la salida del proceso son frascos de mayonesa y la caracterstica de calidad fuera el peso del frasco y su contenido, veramos que a medida que se fabrica el producto las mediciones de peso varan al azar, aunque mantenindose cerca de un valor central.

El peso de los frascos llenos flucta alrededor de los 250 grs. Si la caracterstica de calidad fuera otra, como el contenido de aceite, el color de la mayonesa o el aspecto de la etiqueta tambin observaramos que las sucesivas mediciones fluctan alrededor de un valor central.

El valor de una caracterstica de calidad es un resultado que depende de una combinacin de variables y factores que condicionan el proceso productivo. Por ejemplo, en el caso de la produccin de mayonesa es necesario establecer que cantidades de aceite, huevos y otras materias primas se van a usar. Hay que establecer a que velocidad se va a agitar la mezcla y cuanto tiempo. Se debe fijar el tipo y tamao de equipo que se va a utilizar, y la temperatura de trabajo. Y como stas se deben fijar muchas otras variables del proceso.

La variabilidad o fluctuacin de las mediciones es una consecuencia de la fluctuacin de todos los factores y variables que afectan el proceso. Por ejemplo, cada vez que se hace un lote de mayonesa hay que pesar el aceite segn lo que indica la frmula. Es imposible que la cantidad pesada sea exactamente igual para todos los lotes. Tambin se producirn fluctuaciones en la velocidad de agitacin, porque la corriente elctrica de la lnea que alimenta el agitador tambin flucta. Y de la misma manera, de lote a lote cambiar la cantidad pesada de los dems componentes, el tiempo de agitacin, la temperatura, etc. Todos estos factores y muchos otros condicionan y determinan las caractersticas de calidad del producto.

5.4.1. Usos

Uno de los usos ms frecuentes de esta herramienta es el anlisis de problemas.

Tambin sirve para identificar los aspectos que se deben controlar para obtener determinado resultado de calidad. Por ejemplo, se puede hacer un diagrama causa efecto para cada uno de los requisitos de calidad identificados para un producto.

Facilita la participacin del personal que tiene relacin con el asunto analizado. Si se pregunta a la gente cul crees que sea la causa de este problema?, o qu crees que determine este resultado de calidad?, seguramente dirn lo que piensa al respecto. De este modo es posible obtener ideas que de otra manera hubieran permanecido "guardadas" en la mente de los integrantes del equipo. Adems, puede ser que entre dichas ideas est la clave para encontrar la solucin a un problema o garantizar algn resultado de calidad.

Sirve para guiar la discusin al evitar que los participantes se aparten del tema pues todos saben de qu se est hablando y hasta dnde se ha avanzado en el tratamiento del problema.

Puede ser un instrumento bsico para elaborar un plan de trabajo orientado a solucionar el problema o a mejorar la calidad. En vista de que en el diagrama se muestran todas las causas que originan un problema o determinan un efecto de calidad, es posible establecer objetivos para las ms importantes, asignar tareas y responsabilidades y fechas de cumplimiento.

5.4.2. Pasos a seguir para elaborar un diagrama causa-efecto

Primer paso: Seleccionar el problema o la caracterstica de calidad que desea ser analizada. Supongamos que, despus de haber aplicado una encuesta a las personas que consumen la mayonesa, se ha seleccionado una de las quejas ms frecuentes: el frasco con poco contenido.

Segundo paso: Organizar una lluvia de ideas sobre las causas que los participantes suponen que originan el problema o determinan la caracterstica de calidad analizada. Realizar un inventario de causas.

Tercer paso: Agrupar las ideas en categoras y subcategoras. Cuando esto se dificulta se recomienda usar las cinco emes como gua (ver figura 5-12). Recordando el ejemplo de la mayonesa, en el proceso de fabricacin intervienen equipos donde hacer la mezcla, materias primas (aceite, huevos, condimentos, etc.), procedimientos de trabajo, personas que los equipos, equipos de medicin, etc

Dentro de cada categora se encuentran la subcategoras. Por ejemplo para la mano de obra tendramos:

1. Turnos

2. Tardanzas e inasistencias

3. Capacitacin

4. Motivacin

5. reas de trabajo

6. etc.

Cuarto paso: Escribir el problema a la derecha de la hoja de rotafolio y trazar una flecha de izquierda a derecha.

Quinto paso: Dibujar flechas secundarias, unas por arriba y otras por debajo de la flecha principal, para cada una de las principales categoras identificadas, y escribir el nombre cada categora en el extremo de la flecha que corresponda.

Sexto paso: Dibujar las flechas para las subcategoras y escribir las causas correspondientes y as sucesivamente.

La estructura del diagrama en general queda:

El diagrama de flujo puede esclarecer el panorama acerca del asunto tratado, de modo que, al ver las ideas representadas y relacionadas por el diagrama, pueden surgir nuevas ideas, categoras y relaciones que modifiquen el diagrama original y lo hagan ms claro.

Otro aspecto que cabe aclarar es que el diagrama causa-efecto elaborado por un equipo puede ser completamente distinto del elaborado por otro aun cuando se trate del mismo asunto. Esto se debe a que cada grupo analizar el tema desde su propia perspectiva. El criterio para decidir si un diagrama causa-efecto est bien hecho es la lgica que se establece entre las categoras y las causas.

Una vez situada cada causa en el diagrama, solo queda por comprobar la validez y la importancia de cada una. El uso de un voto ponderado ayuda a resolver este problema. Cada participante atribuye una calificacin a las diferentes causas y aquellas que reciben una mayor puntuacin son las que se examinan en 1 lugar (puntuacin de 0 a 20 con cinco participantes). Otra herramienta a usar en este caso para ponderar es el diagrama de Pareto visto en el tema anterior.

. Un ejemplo de la aplicacin de un diagrama espina de pescado se ve en la figura 5.14Para el ejemplo referido antes, sobre el peso final de los frascos, complete el diagrama causa efecto.

figura 5.15 Ejemplo de diagrama causa-efecto.

5.5. HISTOGRAMAS Y DISTRIBUCIN DE FRECUENCIAS

Los histogramas se usan para presentar rpidamente la frecuencia con que algo sucede, aunando y presentando los datos de acuerdo a su ocurrencia, con lo cual se puede apreciar el conjunto y su variabilidad. Tambin es conocido como diagrama de distribucin de frecuencias.

Se utiliza para mostrar la tendencia de los datos medidos de un factor relevante. Ver figura 5.13.

En los histogramas se analizan tres caractersticas bsicas:

1. Forma

El histograma es una representacin visual de datos. La forma de esta representacin puede sugerir una forma de distribucin.

2. Medidas de tendencia central

Dentro de un conjunto de datos, son aquellos valores que, como su nombre lo indica, tienden hacia el centro del grupo de datos. Como lo son: Media (promedio de datos)

Moda (el valor que ms se repite)

Mediana (el valor intermedio con datos ordenados)

3. Medidas de dispersin

Dentro de un grupo de datos, son aquellos valores que tienden a colocarse alrededor de una medida de tendencia central. Como lo son: Rango (valor mayor valor menor)

Desviacin estndar (medida de dsipersin)

Coeficiente de variacin (Desv. Est. / media * 100) para comparar variacin de dos grupos de datos diferentes

5.5.1. Distribucin de frecuencia

La distribucin de frecuencia es la representacin estructurada, en forma de tabla, de toda la informacin que se ha recogido sobre la variable que se estudia.

Donde la frecuencia se define como el grado en el que un dato u observacin se presenta. Por decirlo de otra forma es el nmero de veces que un fenmeno se repite.

Tabla 59

VariableFrecuencias absolutasFrecuencias relativas

(Valor)SimpleAcumuladaSimpleAcumulada

X1n1n1f1 = n1 / nf1

X2n2n1 + n2f2 = n2 / nf1 + f2

...............

Xn-1nn-1n1 + n2 +..+ nn-1fn-1 = nn-1 / nf1 + f2 +..+fn-1

Xnnn nifn = nn / n fi

Siendo X los distintos valores que puede tomar la variable.

Siendo n el nmero de veces que se repite cada valor.

Siendo f el porcentaje que la repeticin de cada valor supone sobre el total Si los valores que toma la variable son muy diversos y cada uno de ellos se repite muy pocas veces, entonces conviene agruparlos por intervalos, ya que de otra manera se obtendra una tabla de frecuencia muy extensa que aportara muy poco valor a efectos de sntesis.

5.5.1.1. Distribuciones de frecuencia agrupada N1

Se muestrea a la salida de un proceso el pH del producto y se obtienen los siguientes resultados:

Si se presenta esta informacin en una tabla de frecuencia se obtendra una tabla de 30 lneas (una para cada valor), cada uno de ellos con una frecuencia absoluta de 1 y con una frecuencia relativa del 3,3%. Esta tabla aportara escasa informacin

Tabla 510

MuestrapHMuestrapHMuestrapH

Muestra 11,25Muestra 111,23Muestra 211,21

Muestra 21,28Muestra 121,26Muestra 221,29

Muestra 31,27Muestra 131,30Muestra 231,26

Muestra 41,21Muestra 141,21Muestra 241,22

Muestra 51,22Muestra 151,28Muestra 251,28

Muestra 61,29Muestra 161,30Muestra 261,27

Muestra 71,3Muestra 171,22Muestra 271,26

Muestra 81,24Muestra 181,25Muestra 281,23

Muestra 91,27Muestra 191,20Muestra 291,22

Muestra 101,29Muestra 201,28Muestra 301,21

5.5.1.2. Distribuciones de frecuencia agrupada N2

Por ello se recurre a los histogramas:

La distribucin de frecuencias se puede representar en forma grfica. Esta grfica recibe el nombre de histograma.

Eje horizontal: representa la escala de medicin o las clases

Eje Vertical: representa la escala de frecuenciasTabla 511

VariableFrecuencia AbsolutaFrecuencia Relativa

pHSimpleAcumuladaSimple Acumulada

1,20113,33%3,33%

1,214513,33%16,67%

1,224913,33%30,00%

1,232116,67%36,67%

1,241123,33%40,00%

1,252146,67%46,67%

1,2631710,00%56,67%

1,2732010,00%66,67%

1,2842413,33%80,00%

1,2932710,00%90,00%

1,333010,00%100,00%

5.5.1.3. Distribuciones de frecuencia agrupada N3

Consiste en agrupar los datos por intervalos, con lo que la informacin queda ms resumida (se pierde, por tanto, algo de informacin), pero es ms manejable e informativa.

EJEMPLO 4) En el siguiente ejemplo se ve el control de la concentracin de manganeso en el agua de riego en 30 fincas de Mendoza:

Tabla 512

MuestraConcentracin (ppm)MuestraConcentracin (ppm)MuestraConcentracin (ppm)

Muestra 11,15Muestra 111,53Muestra 211,21

Muestra 21,48Muestra 121,16Muestra 221,59

Muestra 31,57Muestra 131,60Muestra 231,86

Muestra 41,71Muestra 141,81Muestra 241,52

Muestra 51,92Muestra 151,98Muestra 251,48

Muestra 61,39Muestra 161,20Muestra 261,37

Muestra 71,402Muestra 171,42Muestra 271,16

Muestra 81,64Muestra 181,45Muestra 281,73

Muestra 91,77Muestra 191,20Muestra 291,62

Muestra 101,49Muestra 201,98Muestra 301,01

Agrupando los datos:

Tabla 513

Concentracin Marca deFrecuencias absolutasFrecuencias relativas

ppmclaseSimpleAcumuladaSimpleAcumulada

1,010a1,1071,059113,33%3,33%

1,108a1,2041,1565616,67%20,00%

1,205a1,3011,253173,33%23,33%

1,302a1,3981,350296,67%30,00%

1,399a1,4951,44761520,00%50,00%

1,496a1,5921,54441913,33%63,33%

1,593a1,6891,64132210,00%73,33%

1,690a1,7861,7382246,67%80,00%

1,787a1,8831,83532710,00%90,00%

1,884a1,9801,93233010,00%100,00%

5.5.2. Forma de trabajo con la distribucin de frecuencias.

Es bsicamente la presentacin de una serie de medidas clasificadas y ordenadas, es necesario colocar las medidas de manera que formen filas y columnas, en este caso colocamos las medidas en diez filas y cinco columnas. Las manera ms sencilla es determinar y sealar el nmero mximo y mnimo por cada columna y posteriormente agregar dos columnas en donde se colocan los nmeros mximos y mnimos por fila de los ya sealados. Tomamos el valor mximo de la columna XMAX (medidas maximas) y el valor mnimo de las columnas Xmin (medidas mnimas) y tendremos el valor mximo y el valor mnimo.

Volviendo al ejemplo 6) recordamos la tabla 5.12.

Tabla 514

MuestraConcentracin (ppm)MuestraConcentracin (ppm)MuestraConcentracin (ppm)

Muestra 11,15Muestra 111,53Muestra 211,21

Muestra 21,48Muestra 121,16Muestra 221,59

Muestra 31,57Muestra 131,60Muestra 231,86

Muestra 41,71Muestra 141,81Muestra 241,52

Muestra 51,92Muestra 151,98Muestra 251,48

Muestra 61,39Muestra 161,20Muestra 261,37

Muestra 71,40Muestra 171,42Muestra 271,16

Muestra 81,64Muestra 181,45Muestra 281,73

Muestra 91,77Muestra 191,20Muestra 291,62

Muestra 101,49Muestra 201,98Muestra 301,01

Teniendo los valores mximos y mnimos, podemos determinar el rango de la serie de medidas, el rango no es ms que la diferencia entre los valores mximos y mnimos.

Rango = valor mximo valor mnimo

Rango = (1,98 1,01) ppm

Rango = 0.97

N = nmero de medidas que conforman la serie N = 30 n = nmero de intervalos de clase, n = 10 L = longitud de cada intervalo de clase, L

L = 0,97/10 =0,097

Tabla 515

Concentracin Marca deFrecuencias absolutasFrecuencias relativas

ppmclaseSimpleAcumuladaSimpleAcumulada

1,010a1,1071,059113,33%3,33%

1,108a1,2041,1565616,67%20,00%

1,205a1,3011,253173,33%23,33%

1,302a1,3981,350296,67%30,00%

1,399a1,4951,44761520,00%50,00%

1,496a1,5921,54441913,33%63,33%

1,593a1,6891,64132210,00%73,33%

1,690a1,7861,7382246,67%80,00%

1,787a1,8831,83532710,00%90,00%

1,884a1,9801,93233010,00%100,00%

El nmero de tramos en los que se agrupa la informacin es una decisin que debe tomar el analista: la regla es que mientras ms tramos se utilicen menos informacin se pierde, pero puede que menos representativa e informativa sea la tabla.

Las agrupaciones 1,010 a 1,107, etc., se llaman clases. Los nmeros situados a la izquierda de las cuales es el limite inferior de la clase,(li), y los nmeros situados a la derecha, lmite superior de la clase,(ls). El punto medio entre los lmites de cada clase se marca de clase, y se representa por mi.

La marca se usa como "valor tpico" de los datos de dicha clase. Este supuesto de punto medio es necesario por el hecho de que al formar la distribucin por frecuencias se pierden los valores de las observaciones individuales. Su justificacin es la creencia de que el error que introduce suele ser tan pequeo que no es tomado en cuenta.

El valor entre los lmites de una clase se llama intervalo de clase, que se representan por c, cuya longitud se representa por L. Cuando el mismo intervalo es usado para todas las clases, se tiene una distribucin con intervalos uniformes de clase. El nmero de ocurrencias de cada clase se llama frecuencia de clase, , y

Resumen del procedimiento de elaboracin:

1. Reunir datos para localizar por lo menos 50 puntos de referencia

2. Calcular la variacin de los puntos de referencia, restando el dato del mnimo valor del dato de mximo valor

3. Calcular el nmero de barras que se usaran en el histograma (un mtodo consiste en extraer la raz cuadrada del nmero de puntos de referencia)

4. Determinar el ancho de cada barra, dividiendo la variacin entre el nmero de barras por dibujar

5. Calcule el intervalo o sea la localizacin sobre el eje X de las dos lneas verticales que sirven de fronteras para cada barrera

6. Construya una tabla de frecuencias que organice los puntos de referencia desde el ms bajo hasta el ms alto de acuerdo con las fronteras establecidas por cada barra.

7. Elabore el histograma respectivo.

Reglas a seguir:

1. Una regla emprica es que el nmero de clases vare entre 5 y 15. Obviamente, el nmero real de clases que debe emplearse depende del nmero de unidades de la muestra y de la amplitud de los valores observados. Si se desea gran precisin en clculos posteriores de la tabla de frecuencias, deben usarse muchas clases. Cuando el nmero es muy grande conviene elegir un nmero de clases igual a la raiz cuadrada del tamao de la muestra:

2. A veces puede formarse una distribucin sin el lmite inferior para la primera clase o sin el lmite superior para la ltima clase, o sin ambos lmites. Se dice entonces que esas clases son de extremo abierto. El intervalo para una clase de extremo abierto es el infinito y su punto medio es .

3. Aunque se recomienda que las amplitudes de las clases sean uniforme no es absolutamete necesario que todos sean uniformes. Pueden usarse con ventaja clases de extremo abierto y distintos intervalos de clase en situaciones en las que hay unos pocos valores extraordinariamente pequeos o extraordinariamente grandes, o todos ellos juntos, en los que los datos poseen grandes vacos, y cuando el nmero de observaciones llega a ser de millares o aun millones.

4. Cuando se usan intervalos de clase no uniformes, se calcula lo que se conoce como densidad de frecuencias. Se estiman cules seran las frecuencias de clase si se usaran intervalos de clase uniformes. Cuando se emplean clases de extremo abierto, es buena prctica dar los valores mnimo o mximo, o ambos, y el valor o los valores totales en tal clase o clases en una nota al pie. Otra solucin es asegurarse de que todas las clases que tienen por lo menos una observacin sean cerradas; es decir, asegurarse de que todas las clases de extremo abierto estn vacas de observaciones. Si se hace as, el supuesto de punto medio puede aplicarse a todos los datos, y los problemas causados por las clases de extremo abierto podrn evitarse.

5. Observando de nuevo a la cuarta y la quinta lnea del cuadro, si no se hubieran usado tres decimales surgira un problema en el clculo del intervalo de clase. El valor de la muestra 7 se colocara en el intervalo de clase n 4. Este problema es causado por no usar clases que sean exactas. Una forma de corregirlo es especificando que va desde sin incluir el valor... hasta ... incluyendo el valor. Otra forma, es la que se us, agregando un tercer dgito a los lmites de las clases.

5.5.3. Caractersticas especiales de la construccin de un histograma:

1. Las frecuencias de clase suelen representarse grficamente en funcin del eje Y, y la escala de los intervalos de clase se representa en el eje X. Los ejes X e Y deben comenzar en cero, con interrupciones de la escala si son necesarias. Esta recomendacin no es precisa para el eje X. Pero ambos ejes deben ser rotulados clara y completamente.

2. Un espacio, de la mitad al tamao completo del intervalo de clase, se deja en cada extremo del eje X.

3. Las designaciones de escala X suelen ser colocadas como los verdaderos lmites de clase. Las barras deben tocarse unas a otras, sin brechas, excepto para clases vacas. A veces, se rotula la escala X colocando el valor medio de cada clase en el centro de la base de la barra.

4. La escala X es igualmente espaciada cuando los intervalos de clase son uniformes. En una distribucin variable de intervalos de clase, la escala X debe ser ajustada en forma apropiada.

5. El eje Y debe ser completamente rotulado para mostrar si representa frecuencia o densidad de frecuencia. Si los intervalos de Clase son uniformes, como en el cuadro visto, el patrn visual del grfico ser igual, tanto si se representan grficamente frecuencias como densidades de frecuencia. Sin embargo, en este caso es conveniente rotular el eje Y de modo que el lector conozca cul est siendo representado. Si los intervalos de clase no son uniformes, el patrn visual del grfico diferir, segn si se representan grficamente frecuencias o densidades de frecuencia; en este caso es esencial rotular el eje Y.

6. Un histograma se representa siempre como compuesto de barras, tanto si se muestran explcitamente, o no se muestran.

Densidad de frecuencias es el nmero de casos por unidad de tamao de clase. Es un promedio -la frecuencia de clases dividido por el ancho del verdadero intervalo de clases. El ancho del verdadero intervalo de clases puede medirse usando cualquier unidad deseada.

La altura de la barra de un histograma tiene un diferente significado, que depende de si representa frecuencia (que es simplemente una cuenta de cuntas unidades hay en dicha clase) o una densidad de frecuencia (que es el promedio de cada clase de cuntas unidades hay por unidad de ancho del intervalo de clase).

Aritmticamente, se multiplica la densidad por la anchura del intervalo para obtener la frecuencia. Geomtricamente, se multiplica la altura por la anchura para obtener el rea. As, el hecho aritmtico "frecuencia" es descrito como el hecho geomtrico "rea". Diciendo lo mismo en otra forma, frecuencia se representa grficamente en dos formas diferentes en histogramas, que dependen de si el eje Y muestra frecuencia o densidad. La frecuencia en una clase se representa por la altura de la barra en histogramas no usando densidad, y por el rea de la barra en histogramas usando densidad.

Otra forma de representar grficamente una distribucin de frecuencias es dibujar un polgono de frecuencias. Se lo obtiene cuando se dispone de un histograma (usando frecuencia, no densidad de frecuencia), uniendo los puntos medio de la parte superior de cada barra del histograma por lneas rectas. Pero, con mucha frecuencia, se construye un polgono sin trazar los rectngulos.

El histograma es una presentacin grfica eficaz, pero el polgono no representa muy bien los datos bsicos. La diferencia ms notable del polgono es que las reas situadas debajo de l generalmente no son proporcionales a las frecuencias. Un remedio es cerrar el polgono en la base prolongando ambos extremos de la curva hasta los puntos medios de dos clases hipotticas situadas en los extremos de la distribucin que tienen cero frecuencias. Los dos polgonos de la figura han sido dibujados de esta manera.

5.5.4. Distribucin De Frecuencias

Una de las ventajas de los polgonos es que si la escala vertical, que mide la frecuencia, es reducida de modo que el rea del histograma para esta muestra extraordinariamente grande sea igual al rea de la pequea muestra original, el histograma de la muestra grande formar prcticamente una curva suave. Se puede asociar as a las curvas de distribucin conocidas.

La curva suave adquiere importancia porque se considera que representa la verdadera distribucin de la poblacin de la que se extrae la muestra. Pero la derivacin de una curva suave ampliando la muestra es generalmente una imposibilidad prctica. Lo que solemos hacer es aproximar la distribucin de la poblacin sobre la base de los datos de la muestra. Esto podemos hacerlo suavizando las puntas del polgono de frecuencias dibujando a mano o introduciendo una curva suave a los datos de la muestra con alguna frmula matemtica. Con uno u otro mtodo hay mucha libertad para suavizar la curva.

Las curvas suaves son llamadas alternativamente modelos de poblacin. Se las llama as porque describen las caractersticas importantes de las distribuciones de poblacin. El trmino "modelo de poblacin" tambin sugiere generalizaciones de las formas de distribuciones de poblacin -simtrica, asimtrica, en forma de U, etc. Estas generalizaciones son de gran utilidad en el anlisis estadstico porque proporcionan mtodos simplificados de describir las caractersticas bsicas de las poblaciones. Hay otras razones de inters por los modelos de poblacin. Una es que una distribucin de poblacin es necesaria a veces para la toma de decisiones. Otra, es que las inferencias estadsticas a menudo requieren conocer modelos de poblacin. Una tercera razn es que un modelo de poblacin, estando representado por una curva suave, a veces se presta ms fcilmente a un tratamiento matemtico.

La curva a de la figura 5.24-a es un modelo de poblacin de especial inters e importancia en estadstica. Obsrvese que esta curva de distribucin tiene forma de campana. Las densidades de frecuencias ms grandes estn en el centro. Las densidades menores se encuentran junto al centro. Hay densidades muy pequeas en ambos extremos. Es realmente extrao que si se mide una caracterstica que ocurre al azar, la curva de la distribucin resultante no sea la curva a. Tanto si medimos la resistencia a la traccin de barras de acero producidas por un proceso determinado como los errores de repetidas mediciones de una caracterstica dada, la curva de distribucin a menudo tiene forma: de campana. El modelo en forma de campana se llama comnmente curva de distribucin normal o simplemente curva normal.

La curva b de la figura 5.24 representa lo que se conoce como distribucin bimodal, lo que significa que tiene dos picos, en contraste con una distribucin unimodal, que solo tiene un pico. Este tipo de distribucin aparece cuando una poblacin contiene elementos que pueden ser divididos en dos clases que difieren entre s en las caractersticas que se miden. Podemos decir tambin que la poblacin no es homognea.

Las curvas c y d de la figura 5.24 son modelos de distribuciones asimtricas. Generalmente, una distribucin asimtrica solo tiene un pico, situado en el extremo inferior o superior de la curva. Es asimtrica. Cuando la cola ms larga de la curva est a la derecha, la distribucin es asimtrica a la derecha o positivamente asimtrica. Cuando la cola ms larga de la curva est a la izquierda, la distribucin es asimtrica a la izquierda o negativamente asimtrica. El modelo negativamente asimtrico describe bien una poblacin cuyas variables tienen un lmite superior.

La curva en forma de U, como se ilustra por la curva e, describe una distribucin que contiene predominantemente valores bajos y altos, siendo relativamente escasos los valores intermedios. El modelo en forma de U es bastante raro.

Una poblacin tambin puede adoptar la curva en forma de J o J invertida, tal como la curva f, en la que las frecuencias de ocurrencia aumentan o disminuyen continuamente a lo largo de la escala horizontal.

As, aunque la distribucin normal ocupa un lugar muy importante en la prctica estadstica, hay variables que no estn normalmente distribuidas.

5.5.5. Usos del histograma

Se usa para:

Obtener una comunicacin clara y efectiva de la variabilidad del sistema

Mostrar el resultado de un cambio en el sistema

Identificar anormalidades examinando la forma

Comparar la variabilidad con los lmites de especificacin

5.6. ANALISIS DE REGRESION Y CORRELACION

Muchos problemas de control de la calidad requieren la estimacin de las relaciones existentes entre dos o ms variables. El inters se centra, a menudo, en hallar una ecuacin que relacione una variable determinada con otro conjunto de una o ms variables. Por ejemplo, cmo vara la duracin de una herramienta segn la velocidad de corte? o cmo vara el nmero de octanos de una gasolina segn su porcentaje de pureza?

El anlisis de regresin es una tcnica estadstica para la estimacin de los parmetros de una ecuacin que relaciona una determinada variable con un conjunto de variables.

Cuando cada elemento de una poblacin puede dar tres o ms mediciones, cada una de ellas de una caracterstica especfica, tenemos lo que se llama datos multivariables. Por ejemplo, longitudes, dimetros y resistencias a la rotura de barras de acero producidas por cierto proceso nos dan tres variables con las cuales trabajar. En primer lugar se estudiarn las relaciones bivariables.

El principal problema al analizar datos bivariables o multivariables es descubrir y medir la asociacin o covariacin entre las variables, es decir, determinar cmo varan juntas las variables. Se observa que a mayor tiempo de residencia en la decantacin para la potabilizacin del agua, menor ser el contenido de impurezas slidas, y los tiempos menores producirn un resultado menos noble. Esto, por supuesto, solo es cierto en promedio, porque hay excepciones, tales como despus de una intensa lluvia hay arrastre de lodos y el proceso no resulta eficiente, y otras ocasiones se est en presencia de aguas lmpidas en las que un breve tiempo da el resultado correcto. Pero si puede establecerse esta relacin media en cierta forma matemticamente funcional y estimar con mucha precisin, en promedio, la calidad del agua en funcin del tiempo de residencia. A tal procedimiento se le ha llamado estimacin por asociacin.

La estimacin por asociacin es muy compleja y muy til. Este procedimiento es realmente de prediccin, y la prediccin es la funcin central de las ciencias.

Tabla 516 Duracin de una herramienta (y en minutos)

en funcin de la velocidad de corte (x en pies por minutos)

yx

4190

4390

3590

3290

22100

35100

29100

18100

21105

13105

18105

20105

15110

11110

6110

10110

Cuando la relacin entre variables es clara y precisa, de ordinario bastan los mtodos matemticos. Cuando la relacin es imprecisa, los mtodos matemticos ordinarios no son muy tiles, pero s los mtodos estadsticos. Se puede medir si la imprecisin es tan grande que no hay relacin til alguna. Si solo hay un grado moderado de imprecisin, podemos calcular cul sera la mejor prediccin y calificar tambin la prediccin para tomar en cuenta la imprecisin de la relacin.

Algunos datos experimentales para el ejemplo bivariable de la duracin de una herramienta se dan en la

Tabla 5-16 y representados en la Figura 5-24.

La duracin de la herramienta es la variable de respuesta (llamada tambin variable dependiente) y la velocidad de corte es la variable independiente.

En este caso, la variable independiente es controlable, es decir, que la fija el investigador o el operario de la mquina.

En el segundo ejemplo, tanto el nmero de octanos como el porcentaje de pureza son aleatorios. Los datos correspondientes a este ejemplo se dan en la Tabla 5.17 y estn representados en la Figura 5.25. Como el objetivo es predecir el nmero de octanos, ste se considera la variable dependiente, y el porcentaje de pureza se considera la independiente. (En muchos problemas hay, por supuesto, varias variables independientes y, en algunos casos, este conjunto de variables independientes incluye tanto variables aleatorias como variables controlables.)

Tabla 517 Nmero de octanos y en funcin del porcentaje de pureza x

yx

88.699.8

86.499.7

87.299.6

88.499.5

87.299.4

86.899.3

86.199.2

87.399.1

86.499.0

86.698.9

87.198.8

En la lista siguiente se incluyen varias aplicaciones de las ecuaciones de regresin:

1. Proyecto y prediccin.

2. Descripcin cuantitativa de las relaciones existentes entre una variable dada y un conjunto de variables.

3. Interpolacin entre valores de una funcin.

4. Determinacin de las variables independientes importantes.

5. Descubrimiento de las condiciones de funcionamiento ptimas.

6. Seleccin entre modelos alternativos.

7. Estimacin de coeficientes de regresin particulares.

Para alcanzar cualquiera de los objetivos que acabamos de citar, los pasos bsicos a seguir en un estudio de regresin son los siguientes:

1. Obtener una exposicin clara de los objetivos del estudio.

2. Determinar cul ha de ser la variable de respuesta y qu variables pueden incluirse como variables independientes.

3. Obtener, adems, alguna medida de la precisin de los resultados requeridos, no necesariamente en terminologa estadstica. (Es importante conocer a fondo el uso que se har de la ecuacin de regresin, ya que este puede ser un impedimento para incluir ciertas variables en la ecuacin, pero tambin puede ayudar a evaluar el esfuerzo y el dinero que hay que dedicar al proyecto).

4. Especificar los procedimientos de recopilacin de los datos.

5. Recoger los datos. (Los resultados finales slo pueden ser tan buenos como los datos en los que se han basado. Una cuidadosa planificacin de esta etapa es de considerable importancia y puede, adems, simplificar el anlisis de los datos).

6. Preparar grficos cruzados de los datos (grficos de una variable en funcin de otra) para obtener informacin acerca de la relacin entre las variables;

7. Filtrar los datos;

8. Calcular la ecuacin de regresin;

9. Evaluar el ajuste (incluyendo la consideracin de una transformacin de las variables para un mejor ajuste, o la eliminacin de variables de una ecuacin sino mejoran la prediccin).

10. Dar medidas de la precisin de la ecuacin y cualquier procedimiento para su utilizacin.

11. Especificar, tambin, procedimientos para la puesta al da de la ecuacin y controles para determinar si todava son aplicables, incluidas fichas de control para valores residuales (valores observados - valores previstos). (Las fichas de control se estudian ms adelante).

5.7. Representacin grfica de los datos.

El primer paso en un estudio de relaciones entre variables consiste en trazar una grfica de los datos (corrientemente llamada diagrama de dispersin).

Una grfica puede facilitar mucha informacin sobre la relacin existente entre las variables y sugiere a menudo modelos posibles para los datos. Los representados en la Figura 5-26 sugieren que la y est relacionada linealmente con la x, en el intervalo de variacin de este experimento. (Si no fuera ese el caso, se podra pensar en realizar diversas transformaciones con los datos y tambin se podran considerar relaciones curvilneas. Con frecuencia, la relacin puede linealizarse, tomando el logaritmo de una o varias variables).

Una grfica puede sealar, tambin, si alguna de las observaciones es extempornea, es decir, si se trata de una observacin que se aparta substancialmente del resto de los datos. Estas observaciones pueden ser debidas a eventos circunstanciales, errores de medicin, o de registro, en cuyo caso hay que corregirlas o eliminarlas. Tambin pueden deberse a cambios en el proceso o a otras causas y es posible que la investigacin de estos cambios o causas proporcione ms informacin que el anlisis del resto de los datos).

Un examen minucioso de la grfica puede dar un indicio de la variabilidad de y para x fija. Adems, puede mostrar que esa variabilidad permanece constante para todos los valores de x0 que cambia con x. En este ltimo caso, el mtodo de los mnimos cuadrados ponderados puede ser preferible a la tcnica de los mnimos cuadrados estndar que se menciona aqu.

Hay dos aspectos relacionados, pero distintos, en la asociacin entre variables. El primero, anlisis de regresin, trata de establecer la "naturaleza de la relacin" entre variables es decir, estudiar la relacin funcional entre las variables y, por tanto, proporcionar un mecanismo de prediccin, o pronstico. El segundo, anlisis de correlacin, tiene como objetivo determinar el "grado de la relacin" entre variables.

El anlisis de asociacin tambin puede distinguirse como simple y mltiple: el primero se ocupa solo de dos variables; el segundo, de tres o ms variables. Adems, existe tambin la diferenciacin entre anlisis de asociacin lineal y no lineal, segn el tipo de relacin que tienen las variables.

Hasta el momento las lneas de regresin se colocaron al ajustar las lneas visualmente entre los puntos de datos, pero para graficar estas lneas de una forma ms precisa se puede utilizar una ecuacin que relaciona las dos variables matemticamente.

5.8. MODELO DE REGRESIN BIVARIABLE LINEAL

En el modelo de regresin bivariable lineal, una variable Y dependiente, se relaciona con una variable X independiente, por la siguiente expresin:

, (5. 1)

donde ( y ( son los parmetros de regresin desconocidos llamados coeficientes de regresin de poblacin, y ui es el "trastorno" al azar o residual.

Dos observaciones deben hacerse en este momento:

1. Designar las variables como dependientes o independientes. Se refiere al significado matemtico o funcional de dependencia; no implica dependencia estadstica, ni causa y efecto. Solo se considera Y como una funcin de X, y quiz de algunas otras cosas, adems de X, en el sentido del lgebra ordinaria.2. La relacin de dependencia lineal simple definida por (5.1) consta de dos partes: la parte sistemtica identificada por y la parte estocstica identificada por . Esta descomposicin nos recuerda que (5.1) es un modelo probabilstico, en vez de determinstico.

La naturaleza estocstica del modelo de regresin implica que el valor de Y nunca puede ser predicho exactamente como en un caso determinista. La incertidumbre relativa a Y es atribuible a la presencia de , que, siendo una variable aleatoria, imparte aleatoriedad a Y. Por ejemplo, no puede esperarse que los vinos malbec (xi),de la misma bodega y de los mismos viedos pero de distintos aos tengan exactamente las mismas caractersticas (yi), debido a la influencia de fuerzas "casuales". Adems de esta interpretacin del trmino casual como una aleatoriedad inherente a la conducta, tienen mrito otros dos puntos de vista. A veces, surge por la exclusin de otras variables explicativas importantes y relevantes en el modelo. Esto conduce al anlisis de regresin mltiple. En ocasiones, el error de medicin en Y es la causa de . En una aplicacin particular del anlisis de regresin, cualquiera de estas razones podra ser una interpretacin razonable de , o cualquier par de estas razones, o las tres razones juntas.

Cmo se maneja el error de medicin en X, ahora que el error de medicin en Y ya se ha mencionado? La respuesta es que (5.1) no permite error de medicin en X. Pero hay otros modelos que s lo permiten. A pesar de esta limitacin en (5.1), sigue siendo un modelo muy til.

La completa especificacin del modelo de regresin incluye no solo la forma de la ecuacin de regresin, sino tambin una expresin de cmo son determinados los valores de la variable independiente y una especificacin de la distribucin de ; por probabilidades. La especificacin completa de lo que se llama modelo clsico de regresin lineal simple la hace el siguiente conjunto de supuestos:

1. La variable independiente X es fija. La expresin "valores fijos de X" significa que X tiene valores que son fijados (es decir, escogidos o predeterminados) por el investigador. El supuesto independientevariablefijo implica que para cada valor fijo de X, xi, hay una distribucin de valores Y por probabilidades, llamada subpoblacin de Y. Ver la figura 5.27.

2. El trmino "error", , asociado con cada valor de X, xi, es una variable aleatoria cuya distribucin de probabilidades se supone que es normal con E() = 0. Este supuesto implica que, en promedio, la parte sistemtica de y; en (5.1) es . En realidad, la expectativa condicional de yi dada xi es simplemente:

(5. 2)El resultado obtenido se llama ecuacin de regresin de poblacin de Y sobre X, que nos da el valor medio de dado un valor fijo de X, y de ah la notacin . En esta expresin, ( es el valor medio de cuando X = 0; ( mide el cambio en el valor medio de por cambio unitario en el valor de X. El grfico de la ecuacin (5.2) se conoce por lnea de regresin de poblacin. Ver la figura 5.27. Grficamente, ( es la ordenada en el origen Y y ( es la pendiente de la lnea de regresin.

3. La varianza condicional de Y dada X se llama varianza de la regresin, representada por . Se supone que esta medida es constante, cualquiera que sea el valor de X, y es igual a la varianza de , es decir, . Esto es muy fcil de comprobar. Ver expresin (5.1), y para cualquier valor de X, se tiene:

(5. 3)El supuesto de constancia de la varianza condicional es ilustrado por la figura 5.28 (a) donde cada xi corresponde a una subpoblacin de yi y donde para cualquier i. La varianza constante se representa por el ancho constante entre las lneas de trazos. Esta propiedad se llama a veces homoscedasticidad, cuyo significado se comprende mejor por la nocin de heteroscedasticidad cuando vara segn la escala de valores de X. Heteroscedasticidad es observada a menudo en datos en los que, por ejemplo, las variaciones en las alturas de rboles podran disminuir con aumentos en las edades de los rboles [figura 5.28 (b)], o donde las variaciones en el gasto para consumo son mayores al aumentar el nivel del ingreso [figura 5.28 (c)].

4. es estadsticamente independiente de xi, como podra esperarse, porque cada valor de ui es una muestra al azar simple de tamao uno y de una poblacin normal con media cero y desviacin estndar (. El subndice de ui puede eliminarse si se desea.

Con los supuestos anteriores, pueden derivarse estimadores para los parmetros de regresin desconocidos y pueden hacerse inferencias con estos estimadores. Sin embargo suele suceder que uno o ms de estos supuestos son violados en la prctica. En particular, el primer supuesto. No es crucial que X sea no estocstica; pueden obtenerse tiles resultados an cuando X es una variable aleatoria. Si no es independiente de s misma, se dice que los trminos de error estn autocorrelacionados. Si el supuesto de varianza constante es violado, se dice que los trminos de error son heteroscedsticos. Si E() 0 para algunos valores de X, la regresin es no lineal, la lnea de regresin de la poblacin no es una lnea recta, sino una lnea curva o una lnea recta cortada o algo diferente de una lnea recta ordinaria. Si no est normalmente distribuida, los estimadores derivados del supuesto de normalidad no tendrn necesariamente las propiedades que tienen cuando est normalmente distribuida, y puede ser muy difcil descubrir qu propiedades tienen los estimadores cuando no es normal. Las faltas leves en satisfacer todos estos supuestos no son particularmente importantes, pero las faltas fuertes s lo son.

El modelo clsico de regresin lineal normal se representa visualmente en la figura 5.30, y contiene todos los supuestos mencionados.

5.9. ESTIMACIN DE PARMETROS DE REGRESIN

Supongamos que se ha extrado una muestra simple al azar de una poblacin bivariable de inters, en la que el investigador ha determinado previamente cada valor de X, dando observaciones (xi; yi) para i =1, 2, . . . , n; entonces, el modelo de regresin lineal de la muestra puede darse como:

(5. 4)y la ecuacin de regresin de la muestra de Y sobre X como:

(5. 5)

En estas dos ecuaciones, yi e i designa el valor individual de Y, y el valor calculado de , respectivamente. De (5.4) se tiene:

donde ei son los "residuales" o estimadores calculados de con .

En (5.5), a es la ordenada en el origen; y de la muestra, el valor medio de Y dado que X = 0. En cuanto a b es la pendiente de regresin de la muestra, el cambio en el valor medio de Y por cambio unitario en el valor de X. Obviamente que a y b son estimadores de ( (y (, respectivamente.

Debido al supuesto de linealidad del modelo (a+bxi) se llama estimador lineal de ((+(xi). El estimador lineal ideal que se busca aqu es el MEIL(mejor estimador insesgado lineal). El mtodo para obtener el MEIL se llama mtodo de mnimos cuadrados. Hay amplia motivacin y justificacin para el uso de este mtodo. En primer lugar, cuando las Y son variables aleatorias con varianzas iguales y cuando las X son fijas, entonces, por el Teorema GaussMarkov, el MEIL de ( y ( puede obtenerse por el mtodo de mnimos cuadrados. Segundo, cuando las Y estn normalmente distribuidas, los estimadores obtenidos por el mtodo de mnimos cuadrados sern idnticos a los obtenidos por el mtodo de probabilidad mxima. Finalmente, est el hecho de que el mtodo de mnimos cuadrados tiene tratabilidad matemtica razonable.

El mtodo de mnimos cuadrados tiene la naturaleza de ajuste de curvas. Dada la dependencia lineal entre Y y X y los n pares de observaciones (yi; xi), este mtodo produce estimadores paramtricos a y b en tal forma que:

es un mnimo.

es ilustrada en la figura 5.30.

La razn del criterio de mnimos cuadrados es que escoge valores para a y b que minimizan la suma de cuadrados de las diferencias entre los valores realmente observados y; y los valores estimados yi. Puede demostrarse que los estimadores de mnimos cuadrados, EMC, de a y b pueden obtenerse resolviendo el siguiente conjunto de "ecuaciones normales":

(1) ;

(2) .Ahora se divide (1) por n y se reagrupa trminos, se obtiene:

.

(5. 6)A continuacin, se multiplica (1) por x; y (2) por n, restando luego el primer resultado del segundo se tiene:

(5. 7a) Por razones de comodidad en el clculo y la notacin, varias medidas en anlisis de regresin pueden calcularse sobre las desviaciones de las medias de las muestras, en vez de datos brutos.

Otra forma de expresar a b segn (5.7a) es:

(5.7b)Ejemplo de obtener los EMC a y b en (5.5).

Un ingeniero desea estudiar el efecto del ingreso disponible por suministro de vapor a un complejo industrial, X, en el gasto de combustible para produccin de dicho vapor, Y. Para esta investigacin ha determinado previamente doce valores de X, que se muestran en la tercera columna del cuadro 4.1, y de cada subpoblacin de todas las familias que tienen un valor especfico de X ha escogido una industria al azar para obtener un valor Y. Las observaciones son las mostradas en la tabla 5-18.

GASTO PRODUCCIN DE VAPOR COMBUSTIBLEINGRESOS POR SUMINISTROTabla 518

yixi

65

66

87

78

89

1010

1011

1312

1113

1214

1515

1416

Con los datos de la muestra disponibles, el primer paso en el anlisis de regresin es trazar un diagrama de dispersin de los datos de la muestra para ver si la variable dependiente depende o no en cierto grado de la variable independiente, si la relacin media entre ellas puede ser expresada razonablemente por una lnea recta y si se cumplen razonablemente los supuestos de regresin lineal. En un diagrama de dispersin, cada punto corresponde a un par de valores (xi, yi). El diagrama de dispersin aparece en la figura 5.31.

Examinando esta figura, se observa claramente que:

Primero, hay una clara relacin positiva entre gasto de combustible por produccin de vapor e ingreso disponible por suministro. El primero, en promedio, aumenta con un incremento en el segundo.

Segundo, los puntos se dispersan algo de uno a otro, pero tambin parece que tienen aproximadamente una relacin lineal; es decir, la relacin media puede describirse adecuadamente por una lnea recta.

Tercero, el supuesto de homoscedasticidad parece razonablemente cumplido, porque solo hay una impresin muy leve de creciente dispersin vertical entre los puntos al aumentar X. Por lo menos, los datos no son obviamente heteroscedsticos.

Cuarto, el supuesto de subpoblaciones normales para Y no puede ser examinado, porque solo se tiene un valor Y por cada valor X; lo mejor que se puede hacer es especular que, para cualquier ingreso disponible fijo, es razonable tener distribucin aproximadamente normal de gastos de consumo de combustible en la produccin de vapor. Estas observaciones refuerzan la creencia de que el anlisis de regresin lineal podra ser aplicado fructferamente a los datos de esta muestra.

El siguiente paso es trazar una lnea recta que una los puntos del diagrama de dispersin es decir, para calcular los valores de los coeficientes de regresin de la muestra. Para hacer esto, y para clculos posteriores, se necesitan las sumas acumuladas en las columnas (1), (2) y (3) del cuadro:

Tabla 519 GASTO E INGRESOS POR GENERADOR DE VAPOR PARA CALEFACCIN

OBSERV.GASTO CONSUMO COMBUSTIBLEINGRESOS POR SUMINISTRO1234

iyixixi yiyi2xi2i

1653036255,54

2663636366,35

3875664497,16

4785649647,97

5897264818,78

610101001001009,59

7101111010012110,41

8131215616914411,22

9111314312116912,03

10121416814419612,84

11151522522522513,65

12141622419625614,46

total120126137613041466120,00

Con estas sumas, las correspondientes sumas de desviaciones de las medias de la muestra permiten estimar los valores a y b.

b = 0,811188811 miles de dlares

a = 1,482517483 miles de dlares

Se debe tener sumo cuidado con los errores de redondeo, dado que puede dar otra recta que no cumple con la condicin de tener el mnimo error y puede arruinar todo el clculo.

As queda la siguiente estimacin:

5.10. VARIANZA DE LA REGRESIN EN LA MUESTRA

La ecuacin de regresin de la muestra se llama ecuacin predictiva porque su funcin principal es predecir o y; asociadas con un valor dado de x. Es conveniente como medio de prediccin en parte por la variabilidad de yi obtenida de asociada con xi. Para comprender tal dispersin hay que trazar la lnea de regresin en el diagrama de dispersin y unir esta lnea con los puntos por lneas verticales, como se describe en la figura 5.33 (a). Para trazar la lnea de regresin, se necesita representar grficamente solo dos valores con, quiz, un tercero como comprobacin.

Estudiando la figura 5.33(a), se halla que la lnea parece ajustarse bastante bien a los puntos, pero stos todava se desvan algo de ella. El valor de tales desviaciones es el estimador insesgado de la varianza de la regresin de poblacin, (trmino trastorno) que se define como:

(5. 8)

Aqu (n 2) grados de libertad son usados como denominador. La prdida de dos grados de libertad corresponde al nmero de coeficientes de regresin. La raz cuadrada del estimador es la desviacin estndar de la regresin para la muestra, que a veces se conoce errneamente como error estndar de estimacin.

Para nuestros datos ilustrativos y por (5.8),

0.99

miles de dlares

Una interpretacin precisa de se dar despus en relacin con el "coeficiente de determinacin". Por ahora, se puede observar que simplemente es una medida de grado de ajuste el grado de la relacin lineal entre y y x. Cuanto menor es una u otra, tanto ms precisa es la ecuacin de regresin de la muestra como un instrumento de prediccin. Recordar tambin que muestras mayores ayudarn a localizar la lnea de regresin ms precisamente, pero no reducirn mucho la desviacin estndar de la regresin.

Una interesante indicacin de la utilidad del anlisis de regresin puede verse aqu en una comparacin entre , siendo esta ltima la desviacin estndar de y que no toma en consideracin x. Estudiando primero las figuras 5.33 (a) y 5.33 (b); ambas se obtienen con los datos del presente ejemplo. La parte (a) muestra las desviaciones verticales de con relacin a la lnea de regresin; la parte (b), las desviaciones verticales de con relacin a la media de y,(. Estas figuras muestran claramente que es mucho mayor que . Expresando esta diferencia en trminos numricos:

= 3.075 miles de dlaresEste resultado es ms de tres veces mayor que la desviacin estndar de la regresin calculada antes. Esta reduccin muy grande en las variaciones, de y por regresin de y sobre x sugiere que un conocimiento del ingreso por suministro de vapor disponible ayuda considerablemente a estimar el gasto por suministro de vapor por consumo. En otras palabras informa que la relacin entre consumo e ingreso es muy estrecha, o que el gasto medio por consumo cambia uniformemente con los aumentos del ingreso.

5.11. INFERENCIAS ACERCA DE LOS COEFICIENTES DE REGRESIN DE LA POBLACIN

Una vez obtenida la ecuacin de regresin de la muestra y deducido que la ecuacin de regresin puede ser til sobre la base de la desviacin estndar de la regresin de la muestra, se puede llegar a la conclusin de que ahora la ecuacin de regresin de la muestra puede ser usada fcilmente como un instrumento de prediccin. Pero, en realidad, aun si la ecuacin de regresin de la muestra es idntica a la ecuacin de regresin de la poblacin, la prediccin todava puede contener cierto error porque la relacin entre Y y X en la poblacin bivariable puede que no sea perfecta. La magnitud de este error se mide por . Adems, al predecir con la ecuacin de regresin de la muestra hay otro error debido a variaciones casuales en el muestreo. Es decir, para muestreo repetido con el mismo tamao de muestra, el estimador lineal de tendera a variar de una muestra a otra. Los errores de muestreo de a y b, como es usual, son evaluados desde el punto de vista de sus respectivas distribuciones por muestreo.

Las distribuciones de a y b por muestreo, que son EMC, son muy fciles de deducir. Primero, puesto que a y b son insesgadas, se debe tener E(a) = ( y E(b) = (. Segundo, puesto que a y b son combinaciones lineales de variables normales independientes y deben estar normalmente distribuidas. Finalmente, como puede demostrarse, debido a las propiedades MEIL, los estimadores insesgados para las varianzas de a y b deben ser definidos como sigue:

(5. 9)

(5. 10)Las estadsticas de prueba para las hiptesis acerca de ( y ( son las razones z ordinarias:

(5. 11a)

(5. 11b)

Cuando n < 30 y cuando ( es desconocida, a y b estn distribuidas aproximadamente como t de Student con ( = n 2. La estadstica de prueba apropiada es ahora:

(5. 12a)

(5. 12b)

respectivamente.

Para los datos ilustrativos, al probar ( = 0 contra a > 0:

As, la hiptesis nula no puede ser rechazada en ( = 0.05. Por supuesto, a tiene dos significados diferentes aqu. Entonces, para probar ( = 0 contra ( > 0, se tiene:

As, b es significativa en ( = 0.01.

En general, la ecuacin de regresin de la muestra debe ser conservada como un instrumento de prediccin si se encuentra que b es significativa; en otro caso, debe ser desechada. Los intervalos de confianza para coeficientes de regresin pueden ser calculados en la forma usual. Si, por ejemplo, se desea para los datos ilustrativos una estimacin de intervalo de confianza de 99 por 100 para (, se tiene:

o

El valor positivo del lmite inferior de confianza indica que se estableci con una probabilidad de confianza 0.99 que la pendiente de poblacin es positiva. La estimacin del intervalo para ( es simplemente .

5.12. PREDICCIN Y PRONOSTICACIN

Se ha dicho repetidamente que el objeto final del anlisis de regresin es la estimacin por asociacin. A este fin, se distinguen dos casos: el del valor medio de Y y el de una observacin individual de Y. Por falta de mejor terminologa y por comodidad para la distincin, se llamar al caso de estimar la media de Y, , prediccin, y se designar por ( al estimador de asociado con una especfica. Se llamar tambin arbitrariamente predictor a( y se escribir:

.

(5. 13 a)Se denominar pronosticacin a la proyeccin de un solo valor de Y, , correspondiente a . Al estimador se le llama ahora pronosticador, que ser designado por , y puede expresarse como:

(5. 13 b)Es importante hacer constar que las frmulas empleadas para "prediccin" y "pronosticacin" son idnticas la ecuacin de regresin de la muestra establecida- pero los valores que se proyectan son muy diferentes tericamente, como se revela por la figura 5.34.

5.12.1. Prediccin

El trmino Prediccin, al ser un procedimiento para estimar , se relaciona con la precisin de toda la lnea de regresin de la muestra. Puesto que () es un estimador insesgado de () entonces E() =. Adems (), siendo una combinacin lineal de variables aleatorias distribuidas normalmente, debe estar tambin normalmente distribuida. Finalmente, para determinar el intervalo de confianza para cualquier punto de la lnea de regresin de la poblacin, se debe tener el error estndar del predictor. Para obtener esta medida, el error, al determinar el valor de Y condicional a x0, surge de dos fuentes: variaciones casuales en a y variaciones casuales en b. As, dado que ( y ( son los parmetros verdaderos, el error en la prediccin representado por ep, es:

Elevando al cuadrado y tomando la expectativa de esta expresin, se obtenie la varianza del predictor, representada por (2p como sigue:

La raz cuadrada de este resultado es el error estndar de 0. Usando el estimador insesgado para (2, se obtiene el estimador (ligeramente sesgado) del error estndar de 0 como:

(5. 14)En conclusin, la razn

es aproximadamente n (0, 1) y n > 30 o si es desconocida. En otro caso, tiene una distribucin t con ( = n - 2. Esto conduce a la construccin de un intervalo de confianza para (Yxo sobre la base del predictor como sigue:

(5. 15)Volviendo a nuestro ejemplo numrico, supongamos que queremos construir un intervalo de confianza de 98 por 100 para (yx cuando x0 =12.5; tenemos entonces:

0 = 1.50 + 0.81 (12.5) = 11.625;

= 0.332

(= 11.625 ( 2.764 (0.332);

10.707 ( (Y(12.5) ( 12.543.

La interpretacin de este resultado es: Si 100 muestras del mismo tamao son escogidas y se construyen intervalos de confianza de 98 por 100, podemos esperar que 98 de ellas contengan (xy = E (Y / X = 1.5). Este intervalo de confianza acabado de obtener es uno de los 100 intervalos.

Tabla 520 Estimaciones de intervalo para (yx para la construccin de una banda de confianza de 98 por 100 para la lnea de regresin

x0y0(x0-10.5)2(^p0 ( 2.764 (^p

5.55,955250.5064.556- 7.354

6.56,765160.4445.548- 7.992

8.58,38540.3327.467- 9.303

10.510,00500.2879.212-10.798

12.511,62540.33210.707-12.543

14.513,245160.44412.018-14.472

15.514,055250.506

Las estimaciones de intervalos para (yx construidas con varios valores de x0 en un nivel de confianza dado forman lo que se llama la banda de confianza para (yx. Una banda de confianza del 98% para los datos consumoingreso, como la sugerida por las pocas estimaciones de intervalo obtenidas en el cuadro 5-20, se refleja por las lneas continuas de la figura 5.36. Observe la forma general de la banda de confianza y recuerde que esta banda de confianza es para la lnea de regresin de la poblacin, no para los valores individuales de Y. En este caso, el resultado debe ser interpretado as: tenemos una confianza del 98 % de que la lnea de regresin de la poblacin caer dentro de esta banda.

5.12.2. Pronosticacin

Muy a menudo podemos interesarnos por estimar un valor individual de Y, y0 asociado con x0. Por ejemplo, dado que la concentracin de una solucin salina es, por ejemplo, de 20% en masa a 1 atm de presin cul es su concentracin pronosticada para una presin superior? Aqu, no pedimos la concentracin media de todas las presiones cuyo valor sea de 20% en masa. Precisamente, dado que X = x0 nuestra tarea es ahora determinar el valor del pronosticador, yo, que es una variable aleatoria con sus valores dispersos alrededor del punto de la lnea de regresin correspondiente a x0. Como tal, nunca podemos conocer su valor antes del experimento. Aqu, la diferencia entre el valor real yo y el valor pronosticado yo se llama error de Pronosticacin, que es una combinacin lineal de variables aleatorias normalmente distribuidas, los trastornos residuales. Observemos que:

y0 0 = (( + (x0 + u0) (a + bx0)

Esto indica que el error de pronosticacin es tambin una variable normalmente distribuida cuya distribucin se define completamente por su expectativa y su varianza. La expectativa del error de pronosticacin puede determinarse fcilmente de su definicin anterior:

E (y0 0) = E [(( + (x0 + u0) (a bx0)]

= ( + (x0 + E (u0) E (a) E (b) x0= 0.

La varianza del error de pronosticacin, representada por (2F , como se sugiere por la figura 4.8, consta de dos partes: 1) el error de prediccin, o variacin debida a muestreo, (2F , y 2) variacin debida a trastornos casuales medida por (2. As,

(2F = V(ep) + V(u) = (p + (2

Como es usual, la raz cuadrada de esta medida es el error estndar para el error de pronosticacin. Ahora, usando los estimadores insesgados de (2p y (2, tenemos el estimador (ligeramente sesgado) del error estndar para el error de pronosticacin como:

(5. 16)

Como para el caso del predictor, el error de pronosticacin est normalmente distribuido y la razn:

es aproximadamente n (0, 1) cuando n > 30 o si ( es desconocida. Cuando n ( 30 y ( es desconocido, est distribuido como tn-2. Este resultado nos permite escribir:

P(-t(;1(/2 ( (0 y0)/ ( +t(;1(/2) = 1(,

que, reagrupando trminos, resulta:

0 - t(;1(/2 ( y0 ( 0 + t(;1(/2

Los lmites de confianza para y0 -el valor individual pronosticado de Y son:

(5. 17)Nuevamente, suponiendo que deseamos construir un intervalo de confianza de 98 por 100 para el error de pronosticacin correspondiente a x0 = 12.5 para nuestros datos ilustrativos, tenemos

0 = 1.50 + 0.81(12.5) = 11.625;

= 0.995 ( 1 + 1/12 + (12.5 10.5)2/143)1/2

= 1.049

0 t10; 0.99 = 11.625 2.764(1.049) , o

8.728 ( y12.5 ( 14.522.

Una banda de confianza de 98 por 100 para y0 es representada por las curvas de trazos de la figura 5.35. Esta banda se obtiene con las estimaciones del intervalo para y0 correspondientes a distintos valores de x0 calculados en la Tabla 521 La banda de confianza de 98 por 100 para y0 significa que, en promedio, 98 por 100 de yi caer dentro de la banda.

Es interesante observar que las bandas de confianza para (XY e y0 siguen la misma forma general con y (y, por tanto, los correspondientes lmites de confianza de (xy e y0 ) aumentando cuando x0 se aleja de la media de X para la muestra. Es decir, cuando x0 se aleja de (x, nuestra estimacin resulta ms incierta.

Obsrvese tambin que, en la estimacin con el anlisis de regresin clsico, generalmente no debe fijarse el valor de X fuera de la escala de valores X empleada para establecer la ecuacin de regresin de la muestra. Una razn para ello es que la relacin entre las dos variables abajo o arriba de la escala de valores X de la muestra puede que no sea la misma que la observada dentro de la escala. Otra razn reside en el hecho de que la prediccin y la pronosticacin se vuelven muy imprecisas cuando x0 se aleja demasiado de (x en virtud de los grandes errores de prediccin y pronosticacin. Pero debe hacerse constar que en los estudios de economa o pronosticacin de negocios o variables de produccin, especialmente cuando se emplean datos de series de tiempo en el anlisis de regresin, nos interesamos por los valores de variables del modelo fuera de la amplitud de la muestra. Esta prctica se justifica muchas veces en el supuesto de que la relacin establecida, a juicio del usuario, se producir ms all de la amplitud de los valores de la muestra.

Tabla 522 Estimaciones de intervalo de valores individuales de Y para la construccin de una banda de confianza de 98 por 100 para yi

x00(x0 - 10.5)2(^F0 2.764(^F

5.55.955251.1162.870- 9.040

6.56.765161.0883.758- 9.772

8.58.38541.0495.486-11.284

10.510.00501.0367.141-12.869

12.511.62541.0498.726-14.524

14.513.245161.08810.238-16.252

15.514.055251.11610.970-17.140

5.13. ANLISIS DE CORRELACIN

5.13.1. Coeficiente de correlacin de la poblacin

Hasta ahora, hemos tratado el tipo y el grado de relacin que existe entre dos variables. Pero, en algunas situaciones, podemos interesarnos solo por el grado de relacin entre dos variables. Por ejemplo, el centro de produccin de una industria, al decidir sobre ayuda econmica a una empresa satlite para financiar la produccin anual, puede considerar el ingreso mensual como una medida de la capacidad de esta ltima empresa para financiar su produccin. As, el centro de produccin de una industria puede decidir que el ingreso mensual es un criterio apropiado para la decisin, porque hay un alto grado de relacin entre el ingreso mensual y los gastos por produccin. De otro modo, debe escogerse otro criterio para llegar a una decisin.

La medida del grado de relacin entre dos variables se llama coeficiente de correlacin, representado universalmente por (. Los supuestos que constituyen un modelo de poblacin por correlacin lineal bivariable, para el cual se calcula o estima (, se describen brevemente a continuacin:

1. Y y X son variables aleatorias. Como tales, no deben ser designadas como dependiente e independiente; cualquier designacin dar el mismo resultarlo.

2. La poblacin bivariable es normal. Una poblacin normal bivariable es, entre otras cosas, aquella en la que Y y X estn normalmente distribuidas. La expectativa y la varianza de X son E (X) = (X y V (X) = (2X, respectivamente, y la expectativa y la varianza de Y son E (Y) = (Y y V (Y) = (2X3. La relacin entre Y y X es, en cierto sentido, lineal. Este supuesto implica que todas las medias de Y asociadas con valores X, (YX, caen sobre una lnea recta, que es la lnea de regresin de Y sobre X: (YX = Igualmente, todas las medias de X asociadas con valores Y, (XY, caen sobre una lnea recta, que es la lnea de regresin de X sobre Y: (XY = ( +(yi. Adems, las lneas de regresin de poblacin en las dos ecuaciones son iguales si, y solo si, la relacin entre Y y X es perfecta es decir, ( = 1. En otro caso, con Y dependiente, las ordenadas en el origen y las pendientes diferirn de la ecuacin de regresin con X dependiente.

Segn los supuestos anteriores, e1 coeficiente de correlacin de la poblacin se define como la covarianza entre Y y X, as:

(5. 18)

Pueden observarse algunas cosas acerca de la definicin anterior. Primera, es una ecuacin que contiene los cinco parmetros de la poblacin normal bivariable: (X, (X, (Y, (Y y (. El ltimo, como se mencion antes, es el coeficiente de correlacin para la poblacin normal bivariable. Segunda, ( es simtrico con respecto a Y y X; es decir, intercambia X y Y no cambia (. En otras palabras, ( es un nmero puro, porque se define como la razn de la covarianza entre Y y X al producto de sus respectivas desviaciones estndares. Como tal, cuando COV (Y, X) = 0, ( sera 0, indicando que no hay relacin entre las dos variables. Cuando hay covariabilidad perfecta entre Y y X, y X y X varan en la misma direccin, ( = 1. Anlogamente, cuando hay covariabilidad perfecta, pero Y y X varan en sentidos opuestos, ( = 1. Cuando existe cierto grado de covariabilidad entre Y y X, tenemos 1 < ( < 0 0 < ( < 1.

Es conveniente considerar la distribucin normal bivariable como una superficie tridimensional. La figura 5.37 es una descripcin generalizada de la densidad de una distribucin normal bivariable. Esta figura revela que nuestra superficie normal bivariable tiene cierto grado de covariabilidad, porque la superficie en forma de montaa semeja una larga cordillera que no es paralela al eje Y ni al eje X. Si cortamos esta superficie de poblacin en una valor X dado, tenemos una curva de densidad que da la densidad de Y en dicho valor X, es decir, tenemos la distribucin de la subpoblacin Y que corresponde al valor X escogido. Similarmente, si cortamos la superficie de poblacin en un valor Y escogido, obtenemos una subpoblacin de X asociada con este valor Y particular. Ahora, si tomamos cualquier seccin transversal de la superficie paralela al plano XY, esta seccin transversal ser una elipse. Adems, esta seccin transversal ser un crculo cuando ( = 0 (indicando no correlacin), una lnea recta cuando ( = 1 (indicando correlacin perfecta), y cierta forma intermedia cuando existe correlacin imperfecta. Estos casos son ilustrados por las formas de la figura 5.38.

5.13.2. Coeficiente de correlacin de la muestra

Cuando se extrae una muestra de n pares de valores, cada valor Y es una observacin al azar de la poblacin Y, y cada valor de X es una observacin al azar de la poblacin X; pero las dos no son necesariamente independientes. Adems, cuando se cumple el supuesto de una poblacin normal bivariable, el estimador de probabilidad mxima de (, representado generalmente por r, se obtiene por la siguiente expresin:

(5. 19)

que puede variar, como (, de 1 a 0 a +1. Tambin como para (, cuando r = 1 o +1, se dice que Y y X estn perfectamente correlacionadas negativa o positivamente. Cuando r = 0, se dice que las dos variables son independientes o no correlacionadas; hablando en sentido riguroso, X y Y son independientes si, y solo si, ( = 0, en vez de r = 0, y es bueno tener presente esto. Tambin, si a X y Y se les permite tener cualquier distribucin conjunta, su independencia implica que su varianza es cero y, por tanto, su coeficiente de correlacin es cero, pero lo inverso no es cierto, porque las variables dependientes pueden tener covarianzas cero. Sin embargo, si X y Y se restringen a la distribucin normal bivariable, entonces su independencia significa que su covarianza es cero, y, por consiguiente, su coeficiente de correlacin (poblacin) es cero; y lo inverso es cierto, porque las variables normales bivariables dependientes no pueden tener covarianzas cero. Otros valores de r son interpretados en funcin del coeficiente de determinacin que se tratar despus.

Puede sealarse que r es un estimador sesgado de (, excepto que si ( = 0, entonces r es insesgado, pero se usa generalmente debido a su relativa sencillez y porque el sesgo es despreciable para muestras grandes. Para el ejemplo de datos consumoingreso, no podemos calcular r porque X no es una variable aleatoria y, por tanto, no encaja el modelo normal bivariable. Sin embargo, si imaginamos un procedimiento diferente de compilacin de datos, entonces tiene sentido calcular r. El procedimiento diferente de compilacin de datos no es para predeterminar cualesquiera valores de X, sino simplemente para tomar una muestra al azar de doce familias y observar si los valores de X y Y corresponden a cada una de las doce familias. Suponiendo que todos los supuestos del modelo normal bivariable son cumplidos, por lo menos aproximadamente, podemos proceder entonces a calcular r e interpretar los resultados como sigue. Suponiendo que los valores numricos de los datos son exactamente como los mostrados en el ejemplo dado, tenemos:

que indica un alto grado de correlacin entre Y y X.

Para hacer inferencias de r, debemos empezar con algunas observaciones acerca de su distribucin por muestreo. Como se ilustra en la figura 5.39, la distribucin de r es simtrica cuando ( = 0 y es asimtrica cuando ( ( 0.

Para una poblacin bivariable normal, la distribucin de r se aproxima a una distribucin normal cuando n se aproxima al infinito. Cuando ( = 0, hay una transformacin por la cual los valores transformados de r son distribuidos como tn2:

(5. 20)Puesto que esta transformacin solo se aplica al caso en el que ( = 0, no puede ser empleada para estimacin del intervalo. Pero puede ser usada como la estadstica de prueba para la hiptesis nula de que ( = 0 contra tina alternativa apropiada.

Aplicando tal prueba a nuestro presente ejemplo,

que conduce al rechazo de ( = 0 en ( = 0.01 para Hl: ( ( 0 o H1: ( < 0. As, la correlacin entre consumo e ingreso es altamente significativa.

Obsrvese que las hiptesis nulas ( = 0 y (= 0 son equivalentes, porque, como puede demostrarse, ( = (((Y/(X). Como resultado, las pruebas t en ambos casos deben dar el mismo valor. Los valores t son diferentes en nuestro ejemplo debido al redondeo.

Con la prueba t recin introducida, no podemos enunciar explcitamente la relacin entre las dos variables cuando la hiptesis nula es rechazada. Si deseamos probar una hiptesis de que ( tiene cierto valor distinto de 0, o si queremos construir un intervalo de confianza para (, podemos emplear lo que se llama transformacin z. Es decir, podemos hacer una transformacin de la distribucin de r en una distribucin aproximadamente normal como sigue:

(5. 21)

Puede demostrarse que z est aproximada y normalmente distribuida con E(zr) = z(, y el error estndar estimado es:

(5. 22)

Para probar la hiptesis acerca de ( por r, tenemos ahora la estadstica de prueba

(5. 23)

que es aproximadamente n (0, 1).

Para evitar los clculos con logaritmos, empleamos una tabla de valores para z,. correspondientes a varios valores de r como los dados por el ANEXO I del apndice A.

Ahora, supongamos que queremos probar H0: ( = 0.90 contra H1: ( ( 0.90 para nuestro ejemplo ilustrativo; consultamos el ANEXO I y hallamos:

z( = 1.472 para ( = 0.90,

zr = 1.832 para r = 0.95.

Por tanto,

Puesto que el valor z calculado es menor que 2.58, H0 es aceptado en ( = 0.01.

Los lmites de confianza pueden calcularse para z( como sigue:

P(zr z1(/2 (z < z( < zr + z1(/2 (z) = 1 (

(5. 24)

Podemos convertir zr de esta expresin en r examinando los datos del ANEXO I para el valor de zr y luego cotejando el taln y los encabezados de las columnas para hallar el valor correspondiente de r. Debido al redondeo o a los limitados datos del ANEXO, o a ambas cosas, la conversin solo puede ser una aproximacin.

Construyamos ahora un intervalo de confianza de 99 % para ( con el problema que tenemos entre manos, observando que (z = 0.333.

1.832 2.58(0.333) ( z( ( 1.832 + 2.58(0.333),

0.973 ( z( ( 2.691

Del ANEXO I hallamos:

z( o zr( o r

0.973

2.6910.750

0.991

Por tanto, el intervalo de confianza de 99 % para ( se convierte en

0.750 ( ( ( 0.991

que comprende ( = 0.90.

Puede sealarse, antes de concluir esta seccin, que la significacin de una diferencia entre dos coeficientes de correlacin de muestra obtenidos de dos muestras independientes puede probarse por la estadstica

(5. 25)

donde:

= 1/((n1 - 3)

= 1/((n2 - 3)TRABAJO PRCTICO N 2

REGRESIN LINEAL

1) En un reactor qumico se tiene un material poroso que contiene un 10% de un catalizador que permite que la reaccin:

A + B ( C + D

tenga un rendimiento de produccin de C del 6%. Se investiga el tema, por que se piensa que aumentando la concentracin de catalizador se variar el rendimiento. Se obtienen as los siguientes datos:

% de catalizador% en masa de concentracin de C% de catalizador% en masa de concentracin de C

13,29,410,95,7

14,912,217,412,3

8,16,013,89,2

16,411,410,27,0

13,19,615,89,0

10,87,512,07,0

2) Los siguientes datos de muestra dan la cantidad de fertilizante, x, en porcentaje de disolucin en el agua de regado, y el rendimiento de produccin de papas en un cultivo, y, en pesos.

x1,52,02,53,03,54,04,55,05,5

y10912141315171414

3) La resistencia a la flexin en una viga sometida a presin hidrulica no uniforme est dada por la siguiente tabla:

Resistencia xPresin hidrulica y

650110

620120

620140

580130

680140

590130

720150

700140

680130

700140

660150

550120

620160

600130

Determinar qu relacin existe entre la presin y la resistencia.

ANEXO I

Valores de z = (1/2) ln [(1+r)/(1-r)]

r(tercer decimal)r(tercer decimal)

r.000.002.004.006.008r.000.002.004.006.008

.00

1

2

3

4.0000

.0100

.0200

.0300

.0400.0020

.0120

.0220

.0320

.0420.0040

.0140

.0240

.0340

.0440.0060

.0160

.0260

.0360

.0460.0080

.0180

.0280

.0380

.0480.50

1

2

3

4.5493

.5627

.5763

.5901

.6042.5520

.5654

.5791

.5929

.6070.5547

.