linear correlation and regression analysis - 7 basic tools

79
Seven Basic Tools of Quality: Linear Correlation and Regression Analysis . G. Edgar Mata Ortiz

Upload: matematica-de-samos

Post on 30-Jul-2015

450 views

Category:

Engineering


2 download

TRANSCRIPT

Seven Basic Tools of Quality: Linear Correlation and Regression Analysis.

G. Edgar Mata Ortiz

• El análisis de correlación es una herramienta que tiene por objetivo determinar si dos variables, una de ellas llamada independiente (x), y la otra dependiente(y), están relacionadas.

• Se dice que la variable “y” depende de la variable “x” cuando existe una buena correlación entre ellas.

• El análisis de correlación es útil porque, una vez establecida la existencia de una buena correlación es posible efectuar predicciones del valor de la variable dependiente de acuerdo al valor de la variable independiente utilizando la función de regresión.

• Naturalmente estas predicciones son solamente aproximadas.

• Cuando la correlación entre las variables es “lineal”, es decir, se relacionan proporcionalmente, entonces se llama correlación y regresión lineal.

• Si solamente existe una variable independiente recibe el nombre de correlación lineal simple.

• Si son dos o más variables independientes recibe el nombre de correlación lineal múltiple.

• El consumo de agua en una casa habitación “depende” del número de personas que viven en ella.

• Está claro que esta dependencia o correlación no es absoluta; seguramente habrá situaciones en las que alguna casa habitada por una o dos personas tenga un mayor consumo que otra en la que viva una familia de 5 o más personas.

• Existen muchas otras variables que presentan esta “dependencia”:

• La estatura y el peso de diversas personas; generalmente un hombre más alto tendrá un peso mayor que uno más bajo, aunque seguramente podremos encontrar contraejemplos de esta información, casi siempre la afirmación es cierta.

• Se desea estimar el consumo promedio de agua en cierta área habitacional que se construirá próximamente, para elaborar un plan de abastecimiento hacia dicha zona.

• Se dispone de información acerca del precio de las casas de modo que se conoce el nivel socioeconómico promedio de las familias que habitarán el lugar.

• Se ha decidido determinar el consumo promedio de acuerdo al número de personas que habitan cada casa.

• Se toma una muestra en un área con características socioeconómicas similares al fraccionamiento que se estudia. Los resultados se encuentran en la siguiente tabla.

Número de personas

que habitan la casa (x)1 1 1 1 1 2 2 2 2

Consumo de agua por

semana en m3 (y)2.2 3.1 4.9 4.6 3.5 4.8 5.8 6.2 7.4

Número de personas

que habitan la casa (x)3 3 3 3 4 4 4 4 5

Consumo de agua por

semana en m3 (y)7.3 6.1 8.5 9.2 8.5 8.3 9.1 8.7 8.6

Número de personas

que habitan la casa (x)5 5 5 6 6 6 7 7 7

Consumo de agua por

semana en m3 (y)8.8 9.5 9.9 9.7 10.1 9.9 10.2 11.5 10.1

• El primer paso consiste en observar los datos y extraer una interpretación preliminar.

• El primer paso consiste en observar los datos y extraer una interpretación preliminar.

El mínimo número de habitantes en la muestra (uno) consume entre 2.2 y 4.9 m3, mientras el máximo número de habitantes en la

muestra (siete), consume entre 10.1 y 11.5 m3. Esto parece indicar que, efectivamente existe correlación entre las variables.

• El primer paso consiste en observar los datos y extraer una interpretación preliminar.

El consumo mínimo en viviendas con dos habitantes (4.8) es menor que el consumo máximo en viviendas con un habitante (4.9), lo cuál parece contradecir

la idea de que existe correlación entre las variables.

• El primer paso consiste en observar los datos y extraer una interpretación preliminar.

El consumo mínimo en viviendas con dos habitantes (4.8) es menor que el consumo máximo en viviendas con un habitante (4.9), esto mismo ocurre con el consumo mínimo en viviendas con 3 habitantes (6.1) y el consumo máximo en

viviendas con 2 habitantes (7.4). Se incrementan las dudas acerca de la existencia de correlación entre las dos variables.

• El primer paso consiste en observar los datos y extraer una interpretación preliminar.

El consumo mínimo en viviendas con dos habitantes (4.8) es menor que el consumo máximo en viviendas con un habitante (4.9), esto mismo ocurre con el consumo mínimo en viviendas con 3 habitantes (6.1) y el consumo máximo en viviendas con 2 habitantes (7.4), y así en viviendas con 3 y 4, 4 y 5, 5 y 6, 6 y 7

habitantes. Es posible que no exista correlación entre las variables.

• El segundo paso consiste en representar los datos en un plano cartesiano.

• Dentro del segundo paso, después de trazar la gráfica, se obtiene una nueva interpretación.

• Dentro del segundo paso, después de trazar la gráfica, se obtiene una nueva interpretación.

Se observa cierta “tendencia” ascendente

• Dentro del segundo paso, después de trazar la gráfica, se obtiene una nueva interpretación.

Se observa cierta “tendencia” ascendente

• Dentro del segundo paso, después de trazar la gráfica, se obtiene una nueva interpretación.

Se observa cierta “tendencia”

ascendente, es decir, aunque los puntos de la

gráfica no están perfectamente

alineados, si se puede afirmar que, al

aumentar el número de habitantes por casa, se incrementa el consumo

de agua.

• Dentro del segundo paso, después de trazar la gráfica, se obtiene una nueva interpretación.

Se observa cierta “tendencia” ascendente,

es decir, aunque los puntos de la gráfica no están perfectamente

alineados, si se puede afirmar que, al aumentar el número de habitantes por casa, se incrementa

el consumo de agua.

Este comportamiento de la gráfica parece indicar la existencia de correlación positiva.

• Dentro del segundo paso, después de trazar la gráfica, se obtiene una nueva interpretación.

La interpretación a partir de los datos y, posteriormente, la

interpretación de la gráfica son subjetivas y, por lo tanto,

cuestionables.Es necesario determinar si existe

o no correlación entre las variables en forma más objetiva.

• Dentro del segundo paso, después de trazar la gráfica, se obtiene una nueva interpretación.

La interpretación a partir de los datos y, posteriormente, la

interpretación de la gráfica son subjetivas y, por lo tanto,

cuestionables.Es necesario determinar si existe

o no correlación entre las variables en forma más objetiva.

Entre las herramientas estadísticas se encuentra una que se emplea precisamente para cuantificar la correlación entre dos

variables, específicamente la correlación lineal entre ellas.

• Coeficiente de correlación lineal:

r de Pearson (para una muestra)

r de Pearson (para una población)

• Es una medida de la fuerza y dirección de la correlación lineal entre dos variables cuantitativas.

• La variable independiente o explicativa se representa en el eje “x” y la variable dependiente o variable de respuesta se representa en el eje “y”.

• La fórmula para obtener la r de Pearson es:

2 2

2 2

x yxy

nr

x yx y

n n

• La fórmula para obtener la r de Pearson es:

• Esta es la presentación usual de la fórmula, sin embargo, es posible simplificarla al darnos cuenta que el denominador es la raíz cuadrada del producto; suma de cuadrados en x por suma de cuadrados en y.

2 2

2 2

x yxy

nr

x yx y

n n

• La fórmula para obtener la r de Pearson es:

• Esta es la presentación usual de la fórmula, sin embargo, es posible simplificarla. Observa que el denominador es el producto de la suma de cuadrados en x, por la suma de cuadrados en y.

• Y el numerador, aunque no es una suma de cuadrados, podemos anotarlo como tal para simplificar la fórmula.

2 2

2 2

x yxy

nr

x yx y

n n

• La fórmula para obtener la r de Pearson es:

• Suma de cuadrados:

2 2

2 2

x yxy

nr

x yx y

n n

2

2

2

2

x

y

xy

xSC x

n

ySC y

n

x ySC xy

n

• La fórmula simplificada para obtener la r de Pearson es:

• Para calcular las sumas de cuadrados necesitamos completar la siguiente tabla.

xy

x y

SCr

SC SC

Número de dato

Personas que habitan la casa

x

Consumo de agua

yx2 y2 xy

1 1 2.2 (1)2 = 1 (2.2)2 = 4.84 (1)(2.2) = 2.2

2 1 3.1 (1)2 = 1

3 1 4.9 (1)2 = 1

… … … … … …

25 7 10.2 (7)2 = 49

26 7 11.5 (7)2 = 49

27 7 10.1 (7)2 = 49 (10.1)2 = 102.01 (7)(10.1) = 70.7

S

Número de dato

Personas que habitan la casa

x

Consumo de agua

yx2 y2 xy

1 1 2.2 (1)2 = 1 (2.2)2 = 4.84 (1)(2.2) = 2.2

2 1 3.1 (1)2 = 1

3 1 4.9 (1)2 = 1

… … … … … …

25 7 10.2 (7)2 = 49

26 7 11.5 (7)2 = 49

27 7 10.1 (7)2 = 49 (10.1)2 = 102.01 (7)(10.1) = 70.7

S 100 206.5 476 1740.85 883.2

Número de dato

Personas que habitan la casa

x

Consumo de agua

yx2 y2 xy

1 1 2.2 (1)2 = 1 (2.2)2 = 4.84 (1)(2.2) = 2.2

2 1 3.1 (1)2 = 1

3 1 4.9 (1)2 = 1

… … … … … …

25 7 10.2 (7)2 = 49

26 7 11.5 (7)2 = 49

27 7 10.1 (7)2 = 49 (10.1)2 = 102.01 (7)(10.1) = 70.7

S Sx = 100 Sy = 206.5 Sx2 = 476 Sy2 = 1740.85 Sxy = 883.2

• Con los resultados de la tabla se calculan las sumas de cuadrados:

2 2

2

2 2

2

100476 ___________

27

206.51740.85 __________

27

100 206.5883.2 _______

27

x

y

xy

xSC x

n

ySC y

n

x ySC xy

n

• Con los resultados de la tabla se calculan las sumas de cuadrados:

• Estos resultados se sustituyen en la fórmula de r

2 2

2

2 2

2

100476

27

206

105.6296

161.5074.5

1740.8527

100 206118.3

.5883.2

28

751

x

y

xy

xSC x

n

ySC y

n

x ySC xy

n

• Sustitución en la fórmula del Coeficiente de Correlación Lineal r de Pearson

105.6296

161.5074

118.3851

x

y

xy

SC

SC

SC

xy

x y

SCr

SC SC

• Sustitución en la fórmula del Coeficiente de Correlación Lineal r de Pearson

105.6296

161.5074

118.3851

x

y

xy

SC

SC

SC

xy

x y

SCr

SC SC

118.3851

105.6296 161.5074r

Sustitución

• Sustitución en la fórmula del Coeficiente de Correlación Lineal r de Pearson

105.6296

161.5074

118.3851

x

y

xy

SC

SC

SC

xy

x y

SCr

SC SC

118.3851

105.6296 161.5074

0.906376

r

r

Sustitución

• El valor del Coeficiente de Correlación Lineal r de Pearson es:

• ¿Qué significa este número?

0.906376r

• El valor del Coeficiente de Correlación Lineal r de Pearson es:

• El signo indica la dirección de la correlación y la magnitud, la fuerza de dicha correlación.

0.906376r

• El valor del Coeficiente de Correlación Lineal r de Pearson es:

• El signo indica la dirección de la correlación y la magnitud, la fuerza de dicha correlación.

• El signo es positivo, lo cuál significa que al aumentar x,

aumenta y, es decir, entre más personas habitan una vivienda, mayor es el consumo de agua.

0.906376r

• El valor del Coeficiente de Correlación Lineal r de Pearson es:

• El signo indica la dirección de la correlación y la magnitud, la fuerza de dicha correlación.

• El signo es positivo, lo cuál significa que al aumentar x,

aumenta y, es decir, entre más personas habitan una vivienda, mayor es el consumo de agua.

• La magnitud indica la fuerza de la correlación, cuanto más cerca está de uno, mayor es la fuerza. En este caso la correlación es fuerte.

0.906376r

• El valor del Coeficiente de Correlación Lineal r de Pearson es:

• Existe una fuerte correlación lineal, positiva, entre el número de habitantes en una vivienda (x) y su consumo de agua (y).

0.906376r

• El valor del Coeficiente de Correlación Lineal r de Pearson es:

• Existe una fuerte correlación lineal, positiva, entre el número de habitantes en una vivienda (x) y su consumo de agua (y).

• No existe una regla matemática para matizar la interpretación del valor de r, depende del estudio que se realiza.

• Solamente existen reglas empíricas que se aplican en casos específicos.

0.906376r

• El valor del Coeficiente de Correlación Lineal r de Pearson es:

• Existe una fuerte correlación lineal, positiva, entre el número de habitantes en una vivienda (x) y su consumo de agua (y).

• A pesar de que no tenemos reglas para matizar la interpretación de r, este valor nos permite comparar la fuerza de la correlación de una muestra con otra y de una población con otra.

0.906376r

• El valor del Coeficiente de Correlación Lineal r de Pearson tiene ventajas sobre las interpretaciones subjetivas, pero todavía no resulta claro cómo interpretar variaciones en su valor.

• Existe una fuerte correlación lineal, positiva, entre el número de habitantes en una vivienda (x) y su consumo de agua (y).

• Un valor que contribuye a comprender mejor la dependencia entre las variables es el:

Coeficiente de Determinación.

0.906376r

• A pesar de que este valor se calcula simplemente elevando el Coeficiente de Correlación Lineal al cuadrado, es más informativo que el Coeficiente de Correlación Lineal.

Coeficiente de determinación: r2

• Se interpreta como la proporción de la

variabilidad de yque puede ser

explicada por x.

Coeficiente de determinación: r2

• Este valor significa que existen otros factores que explican los cambios en y; si la casa tiene jardín, el tamaño del mismo, los hábitos de la familia, entre otros.

• Pero una proporción de 0.8215 de los cambios en el consumo de agua pueden explicarse por el número de personas que habitan la casa.

r2 = 0.8215

• Cuando existe fuerte correlación entre las variables, como en este caso:

• Es posible encontrar una ecuación:

• Que puede emplearse para predecir el valor de y, dado

cualquier valor de x.

• Esta recta se llama:

Recta de regresión Lineal.

r2 = 0.8215

0 1y a a x

• Para encontrar la ecuación de la recta de regresión es necesario determinar los valores de a0 y a1.

• Las fórmulas son:

20

2

2

x y x xy

n x xa

21 2

n xy x

n x xa

y

• Sustituyendo:

2

0 22

20

(476)(206.5) (100)(883.2)

27(476) (100)

x y x xy

na

a

x x

21 2

21

27(883.2) (100)(206.5)

27(476) (100)

n xy x y

n

a

x xa

• Sustituyendo:

20

2

2

20

(476)(206.5) (100)(883.2) 9974

27(476) (100)3.4

2 529719

8

x y x xy

n x xa

a

22

2

1

1

27(883.2) (100)(206.5) 3196.4

27(476) (1001.120

) 28527

n xy x y

n x

a

xa

• Una vez calculados los valores de a0 y a1 se sustituyen para obtener la ecuación de la recta:

0 1y a a x

0 3.49719a 1 1.1207a

3.49719 1.1207y x

1.1207 3.49719y x

• Con esta ecuación es posible predecir cuánta agua se consumirá en una casa teniendo como dato el número de personas que la habitan.

• ¿Cuánta agua debería consumirse en una casa habitada

por una persona? x = 1

1.1207 3.49719y x

• Con esta ecuación es posible predecir cuánta agua se consumirá en una casa teniendo como dato el número de personas que la habitan.

• ¿Cuánta agua debería consumirse en una casa habitada

por una persona? x = 1• Se sustituye el valor de x = 1 en la ecuación de la recta de

regresión lineal.

1.1207 3.49719y x

1.1207 3.49719y x

• Con esta ecuación es posible predecir cuánta agua se consumirá en una casa teniendo como dato el número de personas que la habitan.

• ¿Cuánta agua debería consumirse en una casa habitada

por una persona? x = 1

1.1207 3.49719y x

1.1207 3.49719

1.1207

(

3.497

1

19

)y

y

• Con esta ecuación es posible predecir cuánta agua se consumirá en una casa teniendo como dato el número de personas que la habitan.

• ¿Cuánta agua debería consumirse en una casa habitada

por una persona? x = 1

1.1207 3.49719y x

1.1207 3.49719

1.1207 3.49719

4.617

)

8

(

9

1y

y

y

El consumo de agua en una casa habitada por una

persona será de:4.61789 m3.

• Con esta ecuación es posible predecir cuánta agua se consumirá en una casa teniendo como dato el número de personas que la habitan.

• ¿Cuánta agua debería consumirse en una casa habitada

por ocho personas? x = 8

1.1207 3.49719y x

1.1207 3.49719

8.9656

(

3.497

8

19

)y

y

• Con esta ecuación es posible predecir cuánta agua se consumirá en una casa teniendo como dato el número de personas que la habitan.

• ¿Cuánta agua debería consumirse en una casa habitada

por una persona? x = 8

1.1207 3.49719y x

1.1207 3.49719

8.9656 3.49719

12.46

)

2

(

7

8y

y

y

El consumo de agua en una casa habitada por ocho

personas será de:12.4627 m3.

• Estos valores (se corrigen los resultados utilizando todos los decimales) son las coordenadas de dos puntos:

• Que podemos representar sobre la gráfica de dispersión.

x y

1 4.617952

8 12.463253

• Gráfica de dispersión

• Estos valores (se corrigen los resultados utilizando todos los decimales) son las coordenadas de dos puntos que podemos representar sobre la gráfica de dispersión:

• Y uniendo esos puntos se traza la recta de regresión lineal.

• Gráfica de dispersión con la recta de regresión lineal.

• Esta gráfica nos permite estimar, a simple vista, el consumo de agua cuando, por ejemplo, la habitan 3 personas.

• Esta gráfica nos permite estimar, a simple vista, el consumo de agua cuando, por ejemplo, la habitan 3 personas.

• Esta gráfica nos permite estimar, a simple vista, el consumo de agua cuando, por ejemplo, la habitan 3 personas.

• Esta gráfica nos permite estimar, a simple vista, el consumo de agua cuando, por ejemplo, la habitan 3 personas.

• Esta gráfica nos permite estimar, a simple vista, el consumo de agua cuando, por ejemplo, la habitan 3 personas.

• Esta gráfica nos permite estimar, a simple vista, el consumo de agua cuando, por ejemplo, la habitan 3 personas.

Poco menos de 7

• Esta gráfica nos permite estimar, a simple vista, el consumo aproximado de agua cuando, por ejemplo, la habitan 3 personas.

El consumo de agua en una casa habitada por 3 personas será de aproximadamente 7 metros cúbicos.

• Esta gráfica nos permite estimar, a simple vista, el consumo aproximado de agua cuando, por ejemplo, la habitan 3 personas.

El consumo de agua en una casa habitada por 3 personas será de aproximadamente 7 metros cúbicos.

El consumo de agua en una casa habitada por 3 personas será de aproximadamente 7 metros cúbicos.

Aproximadamente.

El uso de esta palabra nos indica que el valor estimado tiene un cierto error o tolerancia.

El consumo de agua en una casa habitada por 3 personas será de aproximadamente 7 metros cúbicos.

Una pregunta válida es: ¿Cuál es la magnitud de ese error?

Aproximadamente.

El uso de esta palabra nos indica que el valor estimado tiene un cierto error o tolerancia.

• Error estándar al calcular y para un valor de x.

• La fórmula para calcular el error estándar es:

2

2

y

x

y x

x yxy

nSC

SCS

n

• Error estándar al calcular y para un valor de x.

• La fórmula puede simplificarse empleando SCxy:

2

2

xy

y

x

y x

SCSC

SCS

n

• Error estándar al calcular y para un valor de x.

• Sustitución:2

2

xy

y

x

y x

SCSC

SCS

n

2

118.3851161.5074

105.6296

27 2y x

S

105.6296

161.5074

118.3851

x

y

xy

SC

SC

SC

• Error estándar al calcular y para un valor de x.

• Sustitución:2

2

xy

y

x

y x

SCSC

SCS

n

2

118.3851161.5074

105.6296

27 2y x

S

105.6296

161.5074

118.3851

x

y

xy

SC

SC

SC

1.0738y x

S

• El error estándar al calcular y para un valor de x se interpreta como una tolerancia en los valores calculados de y.

1.0738y x

S

x y ± 𝑆𝑦|𝑥

1 4.617952 ± 1.0738

8 12.463253 ± 1.0738

• Cuando en una casa habita una persona el consumo de agua debe ser: 4.617952 ± 1.0738, es decir, debe estar entre 3.544 y 5.691 m3.

• Cuando en una casa habitan ocho personas el consumo de agua debe ser: 12.463 ± 1.0738, es decir, debe estar entre 11.389 y 13.537 m3.

1.0738y x

S

• Referencias:

http://www.scoop.it/t/mathematics-learning

https://sites.google.com/site/mataspc/home

http://licmata-math.blogspot.com/

http://www.slideshare.net/licmata/

http://www.facebook.com/licemata

[email protected]

Twitter: @licemata