linear correlation and regression analysis - 7 basic tools
TRANSCRIPT
• El análisis de correlación es una herramienta que tiene por objetivo determinar si dos variables, una de ellas llamada independiente (x), y la otra dependiente(y), están relacionadas.
• Se dice que la variable “y” depende de la variable “x” cuando existe una buena correlación entre ellas.
• El análisis de correlación es útil porque, una vez establecida la existencia de una buena correlación es posible efectuar predicciones del valor de la variable dependiente de acuerdo al valor de la variable independiente utilizando la función de regresión.
• Naturalmente estas predicciones son solamente aproximadas.
• Cuando la correlación entre las variables es “lineal”, es decir, se relacionan proporcionalmente, entonces se llama correlación y regresión lineal.
• Si solamente existe una variable independiente recibe el nombre de correlación lineal simple.
• Si son dos o más variables independientes recibe el nombre de correlación lineal múltiple.
• El consumo de agua en una casa habitación “depende” del número de personas que viven en ella.
• Está claro que esta dependencia o correlación no es absoluta; seguramente habrá situaciones en las que alguna casa habitada por una o dos personas tenga un mayor consumo que otra en la que viva una familia de 5 o más personas.
• Existen muchas otras variables que presentan esta “dependencia”:
• La estatura y el peso de diversas personas; generalmente un hombre más alto tendrá un peso mayor que uno más bajo, aunque seguramente podremos encontrar contraejemplos de esta información, casi siempre la afirmación es cierta.
• Se desea estimar el consumo promedio de agua en cierta área habitacional que se construirá próximamente, para elaborar un plan de abastecimiento hacia dicha zona.
• Se dispone de información acerca del precio de las casas de modo que se conoce el nivel socioeconómico promedio de las familias que habitarán el lugar.
• Se ha decidido determinar el consumo promedio de acuerdo al número de personas que habitan cada casa.
• Se toma una muestra en un área con características socioeconómicas similares al fraccionamiento que se estudia. Los resultados se encuentran en la siguiente tabla.
Número de personas
que habitan la casa (x)1 1 1 1 1 2 2 2 2
Consumo de agua por
semana en m3 (y)2.2 3.1 4.9 4.6 3.5 4.8 5.8 6.2 7.4
Número de personas
que habitan la casa (x)3 3 3 3 4 4 4 4 5
Consumo de agua por
semana en m3 (y)7.3 6.1 8.5 9.2 8.5 8.3 9.1 8.7 8.6
Número de personas
que habitan la casa (x)5 5 5 6 6 6 7 7 7
Consumo de agua por
semana en m3 (y)8.8 9.5 9.9 9.7 10.1 9.9 10.2 11.5 10.1
• El primer paso consiste en observar los datos y extraer una interpretación preliminar.
El mínimo número de habitantes en la muestra (uno) consume entre 2.2 y 4.9 m3, mientras el máximo número de habitantes en la
muestra (siete), consume entre 10.1 y 11.5 m3. Esto parece indicar que, efectivamente existe correlación entre las variables.
• El primer paso consiste en observar los datos y extraer una interpretación preliminar.
El consumo mínimo en viviendas con dos habitantes (4.8) es menor que el consumo máximo en viviendas con un habitante (4.9), lo cuál parece contradecir
la idea de que existe correlación entre las variables.
• El primer paso consiste en observar los datos y extraer una interpretación preliminar.
El consumo mínimo en viviendas con dos habitantes (4.8) es menor que el consumo máximo en viviendas con un habitante (4.9), esto mismo ocurre con el consumo mínimo en viviendas con 3 habitantes (6.1) y el consumo máximo en
viviendas con 2 habitantes (7.4). Se incrementan las dudas acerca de la existencia de correlación entre las dos variables.
• El primer paso consiste en observar los datos y extraer una interpretación preliminar.
El consumo mínimo en viviendas con dos habitantes (4.8) es menor que el consumo máximo en viviendas con un habitante (4.9), esto mismo ocurre con el consumo mínimo en viviendas con 3 habitantes (6.1) y el consumo máximo en viviendas con 2 habitantes (7.4), y así en viviendas con 3 y 4, 4 y 5, 5 y 6, 6 y 7
habitantes. Es posible que no exista correlación entre las variables.
• Dentro del segundo paso, después de trazar la gráfica, se obtiene una nueva interpretación.
Se observa cierta “tendencia” ascendente
• Dentro del segundo paso, después de trazar la gráfica, se obtiene una nueva interpretación.
Se observa cierta “tendencia” ascendente
• Dentro del segundo paso, después de trazar la gráfica, se obtiene una nueva interpretación.
Se observa cierta “tendencia”
ascendente, es decir, aunque los puntos de la
gráfica no están perfectamente
alineados, si se puede afirmar que, al
aumentar el número de habitantes por casa, se incrementa el consumo
de agua.
• Dentro del segundo paso, después de trazar la gráfica, se obtiene una nueva interpretación.
Se observa cierta “tendencia” ascendente,
es decir, aunque los puntos de la gráfica no están perfectamente
alineados, si se puede afirmar que, al aumentar el número de habitantes por casa, se incrementa
el consumo de agua.
Este comportamiento de la gráfica parece indicar la existencia de correlación positiva.
• Dentro del segundo paso, después de trazar la gráfica, se obtiene una nueva interpretación.
La interpretación a partir de los datos y, posteriormente, la
interpretación de la gráfica son subjetivas y, por lo tanto,
cuestionables.Es necesario determinar si existe
o no correlación entre las variables en forma más objetiva.
• Dentro del segundo paso, después de trazar la gráfica, se obtiene una nueva interpretación.
La interpretación a partir de los datos y, posteriormente, la
interpretación de la gráfica son subjetivas y, por lo tanto,
cuestionables.Es necesario determinar si existe
o no correlación entre las variables en forma más objetiva.
Entre las herramientas estadísticas se encuentra una que se emplea precisamente para cuantificar la correlación entre dos
variables, específicamente la correlación lineal entre ellas.
• Coeficiente de correlación lineal:
r de Pearson (para una muestra)
r de Pearson (para una población)
• Es una medida de la fuerza y dirección de la correlación lineal entre dos variables cuantitativas.
• La variable independiente o explicativa se representa en el eje “x” y la variable dependiente o variable de respuesta se representa en el eje “y”.
• La fórmula para obtener la r de Pearson es:
• Esta es la presentación usual de la fórmula, sin embargo, es posible simplificarla al darnos cuenta que el denominador es la raíz cuadrada del producto; suma de cuadrados en x por suma de cuadrados en y.
2 2
2 2
x yxy
nr
x yx y
n n
• La fórmula para obtener la r de Pearson es:
• Esta es la presentación usual de la fórmula, sin embargo, es posible simplificarla. Observa que el denominador es el producto de la suma de cuadrados en x, por la suma de cuadrados en y.
• Y el numerador, aunque no es una suma de cuadrados, podemos anotarlo como tal para simplificar la fórmula.
2 2
2 2
x yxy
nr
x yx y
n n
• La fórmula para obtener la r de Pearson es:
• Suma de cuadrados:
2 2
2 2
x yxy
nr
x yx y
n n
2
2
2
2
x
y
xy
xSC x
n
ySC y
n
x ySC xy
n
• La fórmula simplificada para obtener la r de Pearson es:
• Para calcular las sumas de cuadrados necesitamos completar la siguiente tabla.
xy
x y
SCr
SC SC
Número de dato
Personas que habitan la casa
x
Consumo de agua
yx2 y2 xy
1 1 2.2 (1)2 = 1 (2.2)2 = 4.84 (1)(2.2) = 2.2
2 1 3.1 (1)2 = 1
3 1 4.9 (1)2 = 1
… … … … … …
25 7 10.2 (7)2 = 49
26 7 11.5 (7)2 = 49
27 7 10.1 (7)2 = 49 (10.1)2 = 102.01 (7)(10.1) = 70.7
S
Número de dato
Personas que habitan la casa
x
Consumo de agua
yx2 y2 xy
1 1 2.2 (1)2 = 1 (2.2)2 = 4.84 (1)(2.2) = 2.2
2 1 3.1 (1)2 = 1
3 1 4.9 (1)2 = 1
… … … … … …
25 7 10.2 (7)2 = 49
26 7 11.5 (7)2 = 49
27 7 10.1 (7)2 = 49 (10.1)2 = 102.01 (7)(10.1) = 70.7
S 100 206.5 476 1740.85 883.2
Número de dato
Personas que habitan la casa
x
Consumo de agua
yx2 y2 xy
1 1 2.2 (1)2 = 1 (2.2)2 = 4.84 (1)(2.2) = 2.2
2 1 3.1 (1)2 = 1
3 1 4.9 (1)2 = 1
… … … … … …
25 7 10.2 (7)2 = 49
26 7 11.5 (7)2 = 49
27 7 10.1 (7)2 = 49 (10.1)2 = 102.01 (7)(10.1) = 70.7
S Sx = 100 Sy = 206.5 Sx2 = 476 Sy2 = 1740.85 Sxy = 883.2
• Con los resultados de la tabla se calculan las sumas de cuadrados:
2 2
2
2 2
2
100476 ___________
27
206.51740.85 __________
27
100 206.5883.2 _______
27
x
y
xy
xSC x
n
ySC y
n
x ySC xy
n
• Con los resultados de la tabla se calculan las sumas de cuadrados:
• Estos resultados se sustituyen en la fórmula de r
2 2
2
2 2
2
100476
27
206
105.6296
161.5074.5
1740.8527
100 206118.3
.5883.2
28
751
x
y
xy
xSC x
n
ySC y
n
x ySC xy
n
• Sustitución en la fórmula del Coeficiente de Correlación Lineal r de Pearson
105.6296
161.5074
118.3851
x
y
xy
SC
SC
SC
xy
x y
SCr
SC SC
• Sustitución en la fórmula del Coeficiente de Correlación Lineal r de Pearson
105.6296
161.5074
118.3851
x
y
xy
SC
SC
SC
xy
x y
SCr
SC SC
118.3851
105.6296 161.5074r
Sustitución
• Sustitución en la fórmula del Coeficiente de Correlación Lineal r de Pearson
105.6296
161.5074
118.3851
x
y
xy
SC
SC
SC
xy
x y
SCr
SC SC
118.3851
105.6296 161.5074
0.906376
r
r
Sustitución
• El valor del Coeficiente de Correlación Lineal r de Pearson es:
• ¿Qué significa este número?
0.906376r
• El valor del Coeficiente de Correlación Lineal r de Pearson es:
• El signo indica la dirección de la correlación y la magnitud, la fuerza de dicha correlación.
0.906376r
• El valor del Coeficiente de Correlación Lineal r de Pearson es:
• El signo indica la dirección de la correlación y la magnitud, la fuerza de dicha correlación.
• El signo es positivo, lo cuál significa que al aumentar x,
aumenta y, es decir, entre más personas habitan una vivienda, mayor es el consumo de agua.
0.906376r
• El valor del Coeficiente de Correlación Lineal r de Pearson es:
• El signo indica la dirección de la correlación y la magnitud, la fuerza de dicha correlación.
• El signo es positivo, lo cuál significa que al aumentar x,
aumenta y, es decir, entre más personas habitan una vivienda, mayor es el consumo de agua.
• La magnitud indica la fuerza de la correlación, cuanto más cerca está de uno, mayor es la fuerza. En este caso la correlación es fuerte.
0.906376r
• El valor del Coeficiente de Correlación Lineal r de Pearson es:
• Existe una fuerte correlación lineal, positiva, entre el número de habitantes en una vivienda (x) y su consumo de agua (y).
0.906376r
• El valor del Coeficiente de Correlación Lineal r de Pearson es:
• Existe una fuerte correlación lineal, positiva, entre el número de habitantes en una vivienda (x) y su consumo de agua (y).
• No existe una regla matemática para matizar la interpretación del valor de r, depende del estudio que se realiza.
• Solamente existen reglas empíricas que se aplican en casos específicos.
0.906376r
• El valor del Coeficiente de Correlación Lineal r de Pearson es:
• Existe una fuerte correlación lineal, positiva, entre el número de habitantes en una vivienda (x) y su consumo de agua (y).
• A pesar de que no tenemos reglas para matizar la interpretación de r, este valor nos permite comparar la fuerza de la correlación de una muestra con otra y de una población con otra.
0.906376r
• El valor del Coeficiente de Correlación Lineal r de Pearson tiene ventajas sobre las interpretaciones subjetivas, pero todavía no resulta claro cómo interpretar variaciones en su valor.
• Existe una fuerte correlación lineal, positiva, entre el número de habitantes en una vivienda (x) y su consumo de agua (y).
• Un valor que contribuye a comprender mejor la dependencia entre las variables es el:
Coeficiente de Determinación.
0.906376r
• A pesar de que este valor se calcula simplemente elevando el Coeficiente de Correlación Lineal al cuadrado, es más informativo que el Coeficiente de Correlación Lineal.
Coeficiente de determinación: r2
• Se interpreta como la proporción de la
variabilidad de yque puede ser
explicada por x.
Coeficiente de determinación: r2
• Este valor significa que existen otros factores que explican los cambios en y; si la casa tiene jardín, el tamaño del mismo, los hábitos de la familia, entre otros.
• Pero una proporción de 0.8215 de los cambios en el consumo de agua pueden explicarse por el número de personas que habitan la casa.
r2 = 0.8215
• Cuando existe fuerte correlación entre las variables, como en este caso:
• Es posible encontrar una ecuación:
• Que puede emplearse para predecir el valor de y, dado
cualquier valor de x.
• Esta recta se llama:
Recta de regresión Lineal.
r2 = 0.8215
0 1y a a x
• Para encontrar la ecuación de la recta de regresión es necesario determinar los valores de a0 y a1.
• Las fórmulas son:
20
2
2
x y x xy
n x xa
21 2
n xy x
n x xa
y
• Sustituyendo:
2
0 22
20
(476)(206.5) (100)(883.2)
27(476) (100)
x y x xy
na
a
x x
21 2
21
27(883.2) (100)(206.5)
27(476) (100)
n xy x y
n
a
x xa
• Sustituyendo:
20
2
2
20
(476)(206.5) (100)(883.2) 9974
27(476) (100)3.4
2 529719
8
x y x xy
n x xa
a
22
2
1
1
27(883.2) (100)(206.5) 3196.4
27(476) (1001.120
) 28527
n xy x y
n x
a
xa
• Una vez calculados los valores de a0 y a1 se sustituyen para obtener la ecuación de la recta:
0 1y a a x
0 3.49719a 1 1.1207a
3.49719 1.1207y x
1.1207 3.49719y x
• Con esta ecuación es posible predecir cuánta agua se consumirá en una casa teniendo como dato el número de personas que la habitan.
• ¿Cuánta agua debería consumirse en una casa habitada
por una persona? x = 1
1.1207 3.49719y x
• Con esta ecuación es posible predecir cuánta agua se consumirá en una casa teniendo como dato el número de personas que la habitan.
• ¿Cuánta agua debería consumirse en una casa habitada
por una persona? x = 1• Se sustituye el valor de x = 1 en la ecuación de la recta de
regresión lineal.
1.1207 3.49719y x
1.1207 3.49719y x
• Con esta ecuación es posible predecir cuánta agua se consumirá en una casa teniendo como dato el número de personas que la habitan.
• ¿Cuánta agua debería consumirse en una casa habitada
por una persona? x = 1
1.1207 3.49719y x
1.1207 3.49719
1.1207
(
3.497
1
19
)y
y
• Con esta ecuación es posible predecir cuánta agua se consumirá en una casa teniendo como dato el número de personas que la habitan.
• ¿Cuánta agua debería consumirse en una casa habitada
por una persona? x = 1
1.1207 3.49719y x
1.1207 3.49719
1.1207 3.49719
4.617
)
8
(
9
1y
y
y
El consumo de agua en una casa habitada por una
persona será de:4.61789 m3.
• Con esta ecuación es posible predecir cuánta agua se consumirá en una casa teniendo como dato el número de personas que la habitan.
• ¿Cuánta agua debería consumirse en una casa habitada
por ocho personas? x = 8
1.1207 3.49719y x
1.1207 3.49719
8.9656
(
3.497
8
19
)y
y
• Con esta ecuación es posible predecir cuánta agua se consumirá en una casa teniendo como dato el número de personas que la habitan.
• ¿Cuánta agua debería consumirse en una casa habitada
por una persona? x = 8
1.1207 3.49719y x
1.1207 3.49719
8.9656 3.49719
12.46
)
2
(
7
8y
y
y
El consumo de agua en una casa habitada por ocho
personas será de:12.4627 m3.
• Estos valores (se corrigen los resultados utilizando todos los decimales) son las coordenadas de dos puntos:
• Que podemos representar sobre la gráfica de dispersión.
x y
1 4.617952
8 12.463253
• Estos valores (se corrigen los resultados utilizando todos los decimales) son las coordenadas de dos puntos que podemos representar sobre la gráfica de dispersión:
• Y uniendo esos puntos se traza la recta de regresión lineal.
• Esta gráfica nos permite estimar, a simple vista, el consumo de agua cuando, por ejemplo, la habitan 3 personas.
• Esta gráfica nos permite estimar, a simple vista, el consumo de agua cuando, por ejemplo, la habitan 3 personas.
• Esta gráfica nos permite estimar, a simple vista, el consumo de agua cuando, por ejemplo, la habitan 3 personas.
• Esta gráfica nos permite estimar, a simple vista, el consumo de agua cuando, por ejemplo, la habitan 3 personas.
• Esta gráfica nos permite estimar, a simple vista, el consumo de agua cuando, por ejemplo, la habitan 3 personas.
• Esta gráfica nos permite estimar, a simple vista, el consumo de agua cuando, por ejemplo, la habitan 3 personas.
Poco menos de 7
• Esta gráfica nos permite estimar, a simple vista, el consumo aproximado de agua cuando, por ejemplo, la habitan 3 personas.
El consumo de agua en una casa habitada por 3 personas será de aproximadamente 7 metros cúbicos.
• Esta gráfica nos permite estimar, a simple vista, el consumo aproximado de agua cuando, por ejemplo, la habitan 3 personas.
El consumo de agua en una casa habitada por 3 personas será de aproximadamente 7 metros cúbicos.
El consumo de agua en una casa habitada por 3 personas será de aproximadamente 7 metros cúbicos.
Aproximadamente.
El uso de esta palabra nos indica que el valor estimado tiene un cierto error o tolerancia.
El consumo de agua en una casa habitada por 3 personas será de aproximadamente 7 metros cúbicos.
Una pregunta válida es: ¿Cuál es la magnitud de ese error?
Aproximadamente.
El uso de esta palabra nos indica que el valor estimado tiene un cierto error o tolerancia.
• Error estándar al calcular y para un valor de x.
• La fórmula para calcular el error estándar es:
2
2
y
x
y x
x yxy
nSC
SCS
n
• Error estándar al calcular y para un valor de x.
• La fórmula puede simplificarse empleando SCxy:
2
2
xy
y
x
y x
SCSC
SCS
n
• Error estándar al calcular y para un valor de x.
• Sustitución:2
2
xy
y
x
y x
SCSC
SCS
n
2
118.3851161.5074
105.6296
27 2y x
S
105.6296
161.5074
118.3851
x
y
xy
SC
SC
SC
• Error estándar al calcular y para un valor de x.
• Sustitución:2
2
xy
y
x
y x
SCSC
SCS
n
2
118.3851161.5074
105.6296
27 2y x
S
105.6296
161.5074
118.3851
x
y
xy
SC
SC
SC
1.0738y x
S
• El error estándar al calcular y para un valor de x se interpreta como una tolerancia en los valores calculados de y.
1.0738y x
S
x y ± 𝑆𝑦|𝑥
1 4.617952 ± 1.0738
8 12.463253 ± 1.0738
• Cuando en una casa habita una persona el consumo de agua debe ser: 4.617952 ± 1.0738, es decir, debe estar entre 3.544 y 5.691 m3.
• Cuando en una casa habitan ocho personas el consumo de agua debe ser: 12.463 ± 1.0738, es decir, debe estar entre 11.389 y 13.537 m3.
1.0738y x
S
• Referencias:
http://www.scoop.it/t/mathematics-learning
https://sites.google.com/site/mataspc/home
http://licmata-math.blogspot.com/
http://www.slideshare.net/licmata/
http://www.facebook.com/licemata
Twitter: @licemata