3. relacion entre dos conjuntos de datos. · en la búsqueda de mejoras o en la solución de...
TRANSCRIPT
29
3. RELACION ENTRE DOS CONJUNTOS DE DATOS.
3. 1 Introducción
En la búsqueda de mejoras o en la solución de problemas es
necesario, frecuentemente, investigar la relación entre variables. Para lo
cual existen varias herramientas estadísticas, entre los que se encuentran
el diagrama de dispersión, el análisis de correlación y el análisis de
regresión.
En este capitulo veremos el análisis de regresión el cual tiene como
objetivo modelar matemáticamente el comportamiento de una variable
en función de otra variable. Por ejemplo, supongamos que el
rendimiento de un proceso químico está relacionado con la
temperatura de operación. Si mediante un modelo matemático se
puede describir tal relación, entonces este modelo puede ser usado para
propósitos de predicción, optimización o control.
El análisis de regresión puede usarse para explicar la relación de
una variable con otra. Para ello, son necesarios los datos, y estos
pueden obtenerse de experimentos planeados, de observaciones de
fenómenos no controlados o de registros históricos.
3.2 Diagrama de dispersión.
Un diagrama de dispersión es un tipo de diagrama matemático que se
utiliza para mostrar la relación entre dos variables. Sea ( ) ( ) ,
( ) el conjunto de n puntos que representan las mediciones de un
fenómeno o que son el derivado de una investigación. Dichos puntos
son graficados en una grafica tipo x-y, a la cual se le conoce como diagrama
de dispersión (ver figura 3.1).
En el diagrama de dispersión al conjunto de puntos es posible
trazar una línea que pase cerca de la mayoría de los puntos, a dicha
línea se le conoce como recta de regresión.
30
Figura 3.1 Diagrama de dispersión.
3.3 Coeficiente de correlación.
El coeficiente de correlación lineal es el cociente entre la
covarianza y el producto de las desviaciones estándar de
ambas variables .
La covarianza de las variables X e Y, se define
matemáticamente como,
∑
(∑ )(∑
)
( )
La desviación estándar de la variable X matemáticamente se define
como,
√∑
(∑
)
( )
31
La desviación estándar de la variable Y matemáticamente se define
como,
√∑
(∑
)
( )
El coeficiente de correlación lineal se expresa mediante la
letra r y matemáticamente es,
( )
Propiedades del coeficiente de correlación
1. El coeficiente de correlación no varía al hacerlo la escala de
medición.
Es decir, si expresamos la altura en metros o en centímetros
el coeficiente de correlación no varía.
2. El signo del coeficiente de correlación es el mismo que el de
la covarianza.
Si la covarianza es positiva, la correlación es directa.
Si la covarianza es negativa, la correlación es inversa.
Si la covarianza es nula, no existe correlación.
3. El coeficiente de correlación lineal es un número real
comprendido entre −1 y 1.
−1 ≤ r ≤ 1
4. Si el coeficiente de correlación lineal toma valores cercanos
a −1 la correlación es fuerte e inversa, y será tanto más
fuerte cuanto más se aproxime a −1.
32
5. Si el coeficiente de correlación lineal toma valores cercanos
a 1 la correlación es fuerte y directa, y será tanto más
fuerte cuanto más se aproxime a 1.
6. Si el coeficiente de correlación lineal toma valores cercanos
a 0, la correlación es débil o nula.
7. Si r = 1 ó −1, los puntos de la nube están sobre la recta
creciente o decreciente. Entre ambas variables hay
dependencia funcional.
Tipos de Correlación
1. Correlación directa
En la figura 3.2. Existe tendencia lineal de las variables, la nube de puntos de la distribución es una recta creciente, donde las
dos variables se encuentran relacionadas de manera positiva.
Figura 3.2 Correlación positiva.
2. Correlación inversa
En la figura 3.3. Existe una tendencia negativa, ya que la nube
de puntos de la distribución se encuentran en sentido opuesto, por
lo cual se argumenta en éste caso que las dos variables están
negativamente relacionadas.
33
Figura 3.3 Correlación negativa.
3. Correlación nula
Figura 3.4. No existe tendencia hacia arriba ni hacia abajo,
por lo que, en este caso se dice que las variables son no
relacionadas y la nube de puntos tiene una forma redondeada.
Figura 3.4 Correlación nula.
4. Correlación no lineal
Figura 3.5. Existe relación entre las variables, pero no lineal,
por lo que, en este caso se dice que las variables están
relacionadas de forma cuadrática.
Figura 3.5 Relación parabólica.
X (d) Relación paraboólica
Y
34
Grado de correlación
El grado de correlación indica la proximidad que hay entre
los puntos de la nube de puntos. Se pueden dar tres tipos:
1. Correlación fuerte
En la figura 3.6, existe una tendencia fuertemente positiva ya
que los puntos dibujados forman una línea casi recta, por cual se
argumenta en éste caso que las dos variables están positiva y
fuertemente relacionadas.
Figura 3.6 Correlación fuerte.
2. Correlación débil
En la figura 3.7. Existe una tendencia de correlación, la cual
será débil, cuanto más separados estén los puntos de la recta.
Figura 3.7 Correlación débil.
35
3.4 Recta de regresión.
En estadística la regresión lineal o ajuste lineal es un método
matemático que modela la relación entre una variable dependiente , las
variables independientes y un término aleatorio . Este modelo puede ser
expresado como:
( )
Donde:
: Es la variable dependiente.
: Variable explicativa o independiente.
: Error aleatorio.
: Ordenada al origen, es decir, punto donde intersecta la recta a
: Pendiente de la recta.
La estimación de la recta de regresión es estimada por el el método de
mínimos cuadrados.
Métodos de mínimos cuadrados.
El procedimiento mas utilizado para ajustar una línea recta a un
conjunto de datos en un diagrama de dispersión se conoce como "el método
de los mínimos cuadrados”. Para encontrar la línea de regresión se requiere
conocer las características de la recta, como son, su pendiente y su ordenada
al origen, de la cual necesitamos estimar los valores de y de la siguiente
ecuación:
( )
Las ecuaciones para los estimadores y son:
( )
∑
(∑ )(∑
)
∑
(∑
)
( )
36
Ejemplo 3.1. En un laboratorio se investiga la relación entre la cantidad de
asistentes al restaurante y el número de quejas del servicio (tabla 3.1).
Calcule la ecuación de la recta estimada para los datos que se muestran en la
siguiente tabla:
134 4 17956 536
145 6 21025 870
142 8 20164 1136
149 10 22201 1490
144 12 20736 1728
160 14 25600 2240
156 16 24336 2496
157 18 24649 2826
168 20 28224 3360
166 22 27556 3652
167 24 27889 4008
171 26 29241 4446
174 28 30276 4872
183 30 33489 5490
∑ ∑ ∑ ∑
2216 238 353342 39150
Para estimar valor de , se usa la ecuación 3.8 y tomando en cuenta los
valores calculados de la tabla 3.1, se tiene que,
∑
(∑ )(∑
)
∑
(∑
)
( )
( )( )
( ) ( )
37
El promedio de los valores de Y es,
El promedio de los valores de X es,
Usando la ecuacion 3.7, se estima el valor de , como se ilustra a continuación
( )( )
Por lo que el modelo de regresión lineal ajustado es:
Y su gráfico lo podemos ver en la figura 3.8
El valor de la covarianza de , es
( )( )
El valor de la desviación estándar de la variable , es
√
( )
El valor de la desviación estándar de , es √
( )
El valor de la correlación de , es
( )( )
Figura 3.8 Gráfico y modelo de regresión lineal
Gráfico del Modelo Ajustado
Y = -73.6467 + 0.572678*X
130 140 150 160 170 180 190
X
0
5
10
15
20
25
30
Y
38
Ejercicios de la unidad 3
Problema 1.- En una fábrica de pintura se desea investigar la relación
entre la velocidad de agitación X y el porcentaje de impurezas en
la pintura Y. Mediante un diseño experimental se obtienen los
siguientes datos.
Problema 2.-La resistencia a la tensión de un producto de papel está
relacionada con la cantidad de fibra (madera dura) en la pulpa. En una planta
piloto se producen las diez muestras que aparecen en la siguiente tabla.
Usando estos datos ajusta un modelo de regresión lineal simple expresando la
resistencia como función de la concentración de madera dura.
Resistencia 160 171 175 182 184 181 188 193 195 200
% de fibra 10 15 15 20 20 20 25 25 28 30
a) Prueba el modelo con un nivel de significación del 5%.
b) ¿Cuál es el coeficiente de correlación?
c) Determina los valores esperados de Y para todas las
observaciones de X y construye los intervalos de confianza del
95% para todos los valores de Y.
Problema 3.- Se desea investigar la relación entre el peso de un
individuo y su presión sanguínea sistólica. Para ello se seleccionan
aleatoriamente 26 hombres cuyas edades fluctúan entre 25 y 30 años.
Velocidad 20 22 24 26 28 30 32 34 36 38 40 42
Impurezas 8.4 9.5 11.8 10.4 13.3 14.8 13.2 14.7 16.4 16.5 18.9 18.5
39
(a) Mediante un diagrama de dispersión
describa la relación entre ambas variables.
¿Qué tipo de relación observa?
(b) Obtenga el coeficiente de correlación e
interprételo.
(c) Obtenga la mejor recta que modela la
relación peso - presión sanguínea.
(d) Si un hombre de entre 25 y 30 años de
edad pesa 150 libras, según el modelo,
¿cuál sería su peso medio? ¿La estimación
es confiable? Argumente.
(e) ¿El modelo obtenido sería útil para estimar
la presión sanguínea de otro tipo de
individuos, por ejemplo, mujeres, niños,
ancianos, etc.?
X Y X Y
165
167
180
155
212
175
190
210
200
149
158
169
170
130
133
150
128
151
146
150
140
148
125
133
135
150
172
159
168
174
183
215
195
180
143
240
235
192
187
153
128
132
149
158
150
163
156
124
170
165
160
159
40
Problema 4.- En una empresa es usual pagar horas extras, ya sea a los
obreros o a los empleados, para cumplir con los plazos de entrega. Un
grupo de mejora de la calidad analiza la relación semanal entre la
cantidad de horas extras pagadas y el porcentaje de artículos defectuosos.
Los datos de las últimas 22 semanas se muestran a continuación.
HORAS
PAGADAS % DEFECTUOSOS
340 5
95 3
210 6
809 15
80 4
438 10
107 4
180 6
100 3
550 13
220 7
50 3
193 6
290 8
340 2
115 4
362 10
300 9
75 2
93 2
320 10
154 7
a) Analice estos datos mediante
un diagrama de dispersión.
b) ¿Qué tipo de relación
observa?
c) Obtenga el coeficiente de
correlación e interprételo.
d) Encuentre el modelo de
regresión