3. relacion entre dos conjuntos de datos. · en la búsqueda de mejoras o en la solución de...

12
29 3. RELACION ENTRE DOS CONJUNTOS DE DATOS. 3. 1 Introducción En la búsqueda de mejoras o en la solución de problemas es necesario, frecuentemente, investigar la relación entre variables. Para lo cual existen varias herramientas estadísticas, entre los que se encuentran el diagrama de dispersión, el análisis de correlación y el análisis de regresión. En este capitulo veremos el análisis de regresión el cual tiene como objetivo modelar matemáticamente el comportamiento de una variable en función de otra variable. Por ejemplo, supongamos que el rendimiento de un proceso químico está relacionado con la temperatura de operación. Si mediante un modelo matemático se puede describir tal relación, entonces este modelo puede ser usado para propósitos de predicción, optimización o control. El análisis de regresión puede usarse para explicar la relación de una variable con otra. Para ello, son necesarios los datos, y estos pueden obtenerse de experimentos planeados, de observaciones de fenómenos no controlados o de registros históricos. 3.2 Diagrama de dispersión. Un diagrama de dispersión es un tipo de diagrama matemático que se utiliza para mostrar la relación entre dos variables. Sea ( ) ( ) , ( ) el conjunto de n puntos que representan las mediciones de un fenómeno o que son el derivado de una investigación. Dichos puntos son graficados en una grafica tipo x-y, a la cual se le conoce como diagrama de dispersión (ver figura 3.1). En el diagrama de dispersión al conjunto de puntos es posible trazar una línea que pase cerca de la mayoría de los puntos, a dicha línea se le conoce como recta de regresión .

Upload: others

Post on 10-Mar-2020

8 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: 3. RELACION ENTRE DOS CONJUNTOS DE DATOS. · En la búsqueda de mejoras o en la solución de problemas es necesario, frecuentemente, investigar la relación entre variables. Para

29

3. RELACION ENTRE DOS CONJUNTOS DE DATOS.

3. 1 Introducción

En la búsqueda de mejoras o en la solución de problemas es

necesario, frecuentemente, investigar la relación entre variables. Para lo

cual existen varias herramientas estadísticas, entre los que se encuentran

el diagrama de dispersión, el análisis de correlación y el análisis de

regresión.

En este capitulo veremos el análisis de regresión el cual tiene como

objetivo modelar matemáticamente el comportamiento de una variable

en función de otra variable. Por ejemplo, supongamos que el

rendimiento de un proceso químico está relacionado con la

temperatura de operación. Si mediante un modelo matemático se

puede describir tal relación, entonces este modelo puede ser usado para

propósitos de predicción, optimización o control.

El análisis de regresión puede usarse para explicar la relación de

una variable con otra. Para ello, son necesarios los datos, y estos

pueden obtenerse de experimentos planeados, de observaciones de

fenómenos no controlados o de registros históricos.

3.2 Diagrama de dispersión.

Un diagrama de dispersión es un tipo de diagrama matemático que se

utiliza para mostrar la relación entre dos variables. Sea ( ) ( ) ,

( ) el conjunto de n puntos que representan las mediciones de un

fenómeno o que son el derivado de una investigación. Dichos puntos

son graficados en una grafica tipo x-y, a la cual se le conoce como diagrama

de dispersión (ver figura 3.1).

En el diagrama de dispersión al conjunto de puntos es posible

trazar una línea que pase cerca de la mayoría de los puntos, a dicha

línea se le conoce como recta de regresión.

Page 2: 3. RELACION ENTRE DOS CONJUNTOS DE DATOS. · En la búsqueda de mejoras o en la solución de problemas es necesario, frecuentemente, investigar la relación entre variables. Para

30

Figura 3.1 Diagrama de dispersión.

3.3 Coeficiente de correlación.

El coeficiente de correlación lineal es el cociente entre la

covarianza y el producto de las desviaciones estándar de

ambas variables .

La covarianza de las variables X e Y, se define

matemáticamente como,

(∑ )(∑

)

( )

La desviación estándar de la variable X matemáticamente se define

como,

√∑

(∑

)

( )

Page 3: 3. RELACION ENTRE DOS CONJUNTOS DE DATOS. · En la búsqueda de mejoras o en la solución de problemas es necesario, frecuentemente, investigar la relación entre variables. Para

31

La desviación estándar de la variable Y matemáticamente se define

como,

√∑

(∑

)

( )

El coeficiente de correlación lineal se expresa mediante la

letra r y matemáticamente es,

( )

Propiedades del coeficiente de correlación

1. El coeficiente de correlación no varía al hacerlo la escala de

medición.

Es decir, si expresamos la altura en metros o en centímetros

el coeficiente de correlación no varía.

2. El signo del coeficiente de correlación es el mismo que el de

la covarianza.

Si la covarianza es positiva, la correlación es directa.

Si la covarianza es negativa, la correlación es inversa.

Si la covarianza es nula, no existe correlación.

3. El coeficiente de correlación lineal es un número real

comprendido entre −1 y 1.

−1 ≤ r ≤ 1

4. Si el coeficiente de correlación lineal toma valores cercanos

a −1 la correlación es fuerte e inversa, y será tanto más

fuerte cuanto más se aproxime a −1.

Page 4: 3. RELACION ENTRE DOS CONJUNTOS DE DATOS. · En la búsqueda de mejoras o en la solución de problemas es necesario, frecuentemente, investigar la relación entre variables. Para

32

5. Si el coeficiente de correlación lineal toma valores cercanos

a 1 la correlación es fuerte y directa, y será tanto más

fuerte cuanto más se aproxime a 1.

6. Si el coeficiente de correlación lineal toma valores cercanos

a 0, la correlación es débil o nula.

7. Si r = 1 ó −1, los puntos de la nube están sobre la recta

creciente o decreciente. Entre ambas variables hay

dependencia funcional.

Tipos de Correlación

1. Correlación directa

En la figura 3.2. Existe tendencia lineal de las variables, la nube de puntos de la distribución es una recta creciente, donde las

dos variables se encuentran relacionadas de manera positiva.

Figura 3.2 Correlación positiva.

2. Correlación inversa

En la figura 3.3. Existe una tendencia negativa, ya que la nube

de puntos de la distribución se encuentran en sentido opuesto, por

lo cual se argumenta en éste caso que las dos variables están

negativamente relacionadas.

Page 5: 3. RELACION ENTRE DOS CONJUNTOS DE DATOS. · En la búsqueda de mejoras o en la solución de problemas es necesario, frecuentemente, investigar la relación entre variables. Para

33

Figura 3.3 Correlación negativa.

3. Correlación nula

Figura 3.4. No existe tendencia hacia arriba ni hacia abajo,

por lo que, en este caso se dice que las variables son no

relacionadas y la nube de puntos tiene una forma redondeada.

Figura 3.4 Correlación nula.

4. Correlación no lineal

Figura 3.5. Existe relación entre las variables, pero no lineal,

por lo que, en este caso se dice que las variables están

relacionadas de forma cuadrática.

Figura 3.5 Relación parabólica.

X (d) Relación paraboólica

Y

Page 6: 3. RELACION ENTRE DOS CONJUNTOS DE DATOS. · En la búsqueda de mejoras o en la solución de problemas es necesario, frecuentemente, investigar la relación entre variables. Para

34

Grado de correlación

El grado de correlación indica la proximidad que hay entre

los puntos de la nube de puntos. Se pueden dar tres tipos:

1. Correlación fuerte

En la figura 3.6, existe una tendencia fuertemente positiva ya

que los puntos dibujados forman una línea casi recta, por cual se

argumenta en éste caso que las dos variables están positiva y

fuertemente relacionadas.

Figura 3.6 Correlación fuerte.

2. Correlación débil

En la figura 3.7. Existe una tendencia de correlación, la cual

será débil, cuanto más separados estén los puntos de la recta.

Figura 3.7 Correlación débil.

Page 7: 3. RELACION ENTRE DOS CONJUNTOS DE DATOS. · En la búsqueda de mejoras o en la solución de problemas es necesario, frecuentemente, investigar la relación entre variables. Para

35

3.4 Recta de regresión.

En estadística la regresión lineal o ajuste lineal es un método

matemático que modela la relación entre una variable dependiente , las

variables independientes y un término aleatorio . Este modelo puede ser

expresado como:

( )

Donde:

: Es la variable dependiente.

: Variable explicativa o independiente.

: Error aleatorio.

: Ordenada al origen, es decir, punto donde intersecta la recta a

: Pendiente de la recta.

La estimación de la recta de regresión es estimada por el el método de

mínimos cuadrados.

Métodos de mínimos cuadrados.

El procedimiento mas utilizado para ajustar una línea recta a un

conjunto de datos en un diagrama de dispersión se conoce como "el método

de los mínimos cuadrados”. Para encontrar la línea de regresión se requiere

conocer las características de la recta, como son, su pendiente y su ordenada

al origen, de la cual necesitamos estimar los valores de y de la siguiente

ecuación:

( )

Las ecuaciones para los estimadores y son:

( )

(∑ )(∑

)

(∑

)

( )

Page 8: 3. RELACION ENTRE DOS CONJUNTOS DE DATOS. · En la búsqueda de mejoras o en la solución de problemas es necesario, frecuentemente, investigar la relación entre variables. Para

36

Ejemplo 3.1. En un laboratorio se investiga la relación entre la cantidad de

asistentes al restaurante y el número de quejas del servicio (tabla 3.1).

Calcule la ecuación de la recta estimada para los datos que se muestran en la

siguiente tabla:

134 4 17956 536

145 6 21025 870

142 8 20164 1136

149 10 22201 1490

144 12 20736 1728

160 14 25600 2240

156 16 24336 2496

157 18 24649 2826

168 20 28224 3360

166 22 27556 3652

167 24 27889 4008

171 26 29241 4446

174 28 30276 4872

183 30 33489 5490

∑ ∑ ∑ ∑

2216 238 353342 39150

Para estimar valor de , se usa la ecuación 3.8 y tomando en cuenta los

valores calculados de la tabla 3.1, se tiene que,

(∑ )(∑

)

(∑

)

( )

( )( )

( ) ( )

Page 9: 3. RELACION ENTRE DOS CONJUNTOS DE DATOS. · En la búsqueda de mejoras o en la solución de problemas es necesario, frecuentemente, investigar la relación entre variables. Para

37

El promedio de los valores de Y es,

El promedio de los valores de X es,

Usando la ecuacion 3.7, se estima el valor de , como se ilustra a continuación

( )( )

Por lo que el modelo de regresión lineal ajustado es:

Y su gráfico lo podemos ver en la figura 3.8

El valor de la covarianza de , es

( )( )

El valor de la desviación estándar de la variable , es

( )

El valor de la desviación estándar de , es √

( )

El valor de la correlación de , es

( )( )

Figura 3.8 Gráfico y modelo de regresión lineal

Gráfico del Modelo Ajustado

Y = -73.6467 + 0.572678*X

130 140 150 160 170 180 190

X

0

5

10

15

20

25

30

Y

Page 10: 3. RELACION ENTRE DOS CONJUNTOS DE DATOS. · En la búsqueda de mejoras o en la solución de problemas es necesario, frecuentemente, investigar la relación entre variables. Para

38

Ejercicios de la unidad 3

Problema 1.- En una fábrica de pintura se desea investigar la relación

entre la velocidad de agitación X y el porcentaje de impurezas en

la pintura Y. Mediante un diseño experimental se obtienen los

siguientes datos.

Problema 2.-La resistencia a la tensión de un producto de papel está

relacionada con la cantidad de fibra (madera dura) en la pulpa. En una planta

piloto se producen las diez muestras que aparecen en la siguiente tabla.

Usando estos datos ajusta un modelo de regresión lineal simple expresando la

resistencia como función de la concentración de madera dura.

Resistencia 160 171 175 182 184 181 188 193 195 200

% de fibra 10 15 15 20 20 20 25 25 28 30

a) Prueba el modelo con un nivel de significación del 5%.

b) ¿Cuál es el coeficiente de correlación?

c) Determina los valores esperados de Y para todas las

observaciones de X y construye los intervalos de confianza del

95% para todos los valores de Y.

Problema 3.- Se desea investigar la relación entre el peso de un

individuo y su presión sanguínea sistólica. Para ello se seleccionan

aleatoriamente 26 hombres cuyas edades fluctúan entre 25 y 30 años.

Velocidad 20 22 24 26 28 30 32 34 36 38 40 42

Impurezas 8.4 9.5 11.8 10.4 13.3 14.8 13.2 14.7 16.4 16.5 18.9 18.5

Page 11: 3. RELACION ENTRE DOS CONJUNTOS DE DATOS. · En la búsqueda de mejoras o en la solución de problemas es necesario, frecuentemente, investigar la relación entre variables. Para

39

(a) Mediante un diagrama de dispersión

describa la relación entre ambas variables.

¿Qué tipo de relación observa?

(b) Obtenga el coeficiente de correlación e

interprételo.

(c) Obtenga la mejor recta que modela la

relación peso - presión sanguínea.

(d) Si un hombre de entre 25 y 30 años de

edad pesa 150 libras, según el modelo,

¿cuál sería su peso medio? ¿La estimación

es confiable? Argumente.

(e) ¿El modelo obtenido sería útil para estimar

la presión sanguínea de otro tipo de

individuos, por ejemplo, mujeres, niños,

ancianos, etc.?

X Y X Y

165

167

180

155

212

175

190

210

200

149

158

169

170

130

133

150

128

151

146

150

140

148

125

133

135

150

172

159

168

174

183

215

195

180

143

240

235

192

187

153

128

132

149

158

150

163

156

124

170

165

160

159

Page 12: 3. RELACION ENTRE DOS CONJUNTOS DE DATOS. · En la búsqueda de mejoras o en la solución de problemas es necesario, frecuentemente, investigar la relación entre variables. Para

40

Problema 4.- En una empresa es usual pagar horas extras, ya sea a los

obreros o a los empleados, para cumplir con los plazos de entrega. Un

grupo de mejora de la calidad analiza la relación semanal entre la

cantidad de horas extras pagadas y el porcentaje de artículos defectuosos.

Los datos de las últimas 22 semanas se muestran a continuación.

HORAS

PAGADAS % DEFECTUOSOS

340 5

95 3

210 6

809 15

80 4

438 10

107 4

180 6

100 3

550 13

220 7

50 3

193 6

290 8

340 2

115 4

362 10

300 9

75 2

93 2

320 10

154 7

a) Analice estos datos mediante

un diagrama de dispersión.

b) ¿Qué tipo de relación

observa?

c) Obtenga el coeficiente de

correlación e interprételo.

d) Encuentre el modelo de

regresión