7btoq linear correlation and regression analysis

79
Seven Basic Tools of Quality: Linear Correlation and Regression Analysis . G. Edgar Mata Ortiz

Upload: matematica-educativa

Post on 12-Sep-2015

295 views

Category:

Documents


7 download

DESCRIPTION

7BTOQ Linear Correlation and Regression Analysis

TRANSCRIPT

  • Seven Basic Tools of Quality: Linear Correlation and Regression Analysis.

    G. Edgar Mata Ortiz

  • El anlisis de correlacin es una herramienta que tiene por objetivo determinar si dos variables, una de ellas llamada independiente (x), y la otra dependiente(y), estn relacionadas.

    Se dice que la variable y depende de la variable x cuando existe una buena correlacin entre ellas.

  • El anlisis de correlacin es til porque, una vez establecida la existencia de una buena correlacin es posible efectuar predicciones del valor de la variable dependiente de acuerdo al valor de la variable independiente utilizando la funcin de regresin.

    Naturalmente estas predicciones son solamente aproximadas.

  • Cuando la correlacin entre las variables es lineal, es decir, se relacionan proporcionalmente, entonces se llama correlacin y regresin lineal.

    Si solamente existe una variable independiente recibe el nombre de correlacin lineal simple.

    Si son dos o ms variables independientes recibe el nombre de correlacin lineal mltiple.

  • El consumo de agua en una casa habitacin depende del nmero de personas que viven en ella.

    Est claro que esta dependencia o correlacin no es absoluta; seguramente habr situaciones en las que alguna casa habitada por una o dos personas tenga un mayor consumo que otra en la que viva una familia de 5 o ms personas.

  • Existen muchas otras variables que presentan esta dependencia:

    La estatura y el peso de diversas personas; generalmente un hombre ms alto tendr un peso mayor que uno ms bajo, aunque seguramente podremos encontrar contraejemplos de esta informacin, casi siempre la afirmacin es cierta.

  • Se desea estimar el consumo promedio de agua en cierta rea habitacional que se construir prximamente, para elaborar un plan de abastecimiento hacia dicha zona.

  • Se dispone de informacin acerca del precio de las casas de modo que se conoce el nivel socioeconmico promedio de las familias que habitarn el lugar.

    Se ha decidido determinar el consumo promedio de acuerdo al nmero de personas que habitan cada casa.

  • Se toma una muestra en un rea con caractersticas socioeconmicas similares al fraccionamiento que se estudia. Los resultados se encuentran en la siguiente tabla.

    Nmero de personas

    que habitan la casa (x)1 1 1 1 1 2 2 2 2

    Consumo de agua por

    semana en m3 (y)2.2 3.1 4.9 4.6 3.5 4.8 5.8 6.2 7.4

    Nmero de personas

    que habitan la casa (x)3 3 3 3 4 4 4 4 5

    Consumo de agua por

    semana en m3 (y)7.3 6.1 8.5 9.2 8.5 8.3 9.1 8.7 8.6

    Nmero de personas

    que habitan la casa (x)5 5 5 6 6 6 7 7 7

    Consumo de agua por

    semana en m3 (y)8.8 9.5 9.9 9.7 10.1 9.9 10.2 11.5 10.1

  • El primer paso consiste en observar los datos y extraer una interpretacin preliminar.

  • El primer paso consiste en observar los datos y extraer una interpretacin preliminar.

    El mnimo nmero de habitantes en la muestra (uno) consume entre 2.2 y 4.9 m3, mientras el mximo nmero de habitantes en la

    muestra (siete), consume entre 10.1 y 11.5 m3. Esto parece indicar que, efectivamente existe correlacin entre las variables.

  • El primer paso consiste en observar los datos y extraer una interpretacin preliminar.

    El consumo mnimo en viviendas con dos habitantes (4.8) es menor que el consumo mximo en viviendas con un habitante (4.9), lo cul parece contradecir

    la idea de que existe correlacin entre las variables.

  • El primer paso consiste en observar los datos y extraer una interpretacin preliminar.

    El consumo mnimo en viviendas con dos habitantes (4.8) es menor que el consumo mximo en viviendas con un habitante (4.9), esto mismo ocurre con el consumo mnimo en viviendas con 3 habitantes (6.1) y el consumo mximo en

    viviendas con 2 habitantes (7.4). Se incrementan las dudas acerca de la existencia de correlacin entre las dos variables.

  • El primer paso consiste en observar los datos y extraer una interpretacin preliminar.

    El consumo mnimo en viviendas con dos habitantes (4.8) es menor que el consumo mximo en viviendas con un habitante (4.9), esto mismo ocurre con el consumo mnimo en viviendas con 3 habitantes (6.1) y el consumo mximo en viviendas con 2 habitantes (7.4), y as en viviendas con 3 y 4, 4 y 5, 5 y 6, 6 y 7

    habitantes. Es posible que no exista correlacin entre las variables.

  • El segundo paso consiste en representar los datos en un plano cartesiano.

  • Dentro del segundo paso, despus de trazar la grfica, se obtiene una nueva interpretacin.

  • Dentro del segundo paso, despus de trazar la grfica, se obtiene una nueva interpretacin.

    Se observa cierta tendencia ascendente

  • Dentro del segundo paso, despus de trazar la grfica, se obtiene una nueva interpretacin.

    Se observa cierta tendencia ascendente

  • Dentro del segundo paso, despus de trazar la grfica, se obtiene una nueva interpretacin.

    Se observa cierta tendencia

    ascendente, es decir, aunque los puntos de la

    grfica no estn perfectamente

    alineados, si se puede afirmar que, al

    aumentar el nmero de habitantes por casa, se incrementa el consumo

    de agua.

  • Dentro del segundo paso, despus de trazar la grfica, se obtiene una nueva interpretacin.

    Se observa cierta tendencia ascendente,

    es decir, aunque los puntos de la grfica no estn perfectamente

    alineados, si se puede afirmar que, al aumentar el nmero de habitantes por casa, se incrementa

    el consumo de agua.

    Este comportamiento de la grfica parece indicar la existencia de correlacin positiva.

  • Dentro del segundo paso, despus de trazar la grfica, se obtiene una nueva interpretacin.

    La interpretacin a partir de los datos y, posteriormente, la

    interpretacin de la grfica son subjetivas y, por lo tanto,

    cuestionables.Es necesario determinar si existe

    o no correlacin entre las variables en forma ms objetiva.

  • Dentro del segundo paso, despus de trazar la grfica, se obtiene una nueva interpretacin.

    La interpretacin a partir de los datos y, posteriormente, la

    interpretacin de la grfica son subjetivas y, por lo tanto,

    cuestionables.Es necesario determinar si existe

    o no correlacin entre las variables en forma ms objetiva.

    Entre las herramientas estadsticas se encuentra una que se emplea precisamente para cuantificar la correlacin entre dos

    variables, especficamente la correlacin lineal entre ellas.

  • Coeficiente de correlacin lineal:

    r de Pearson (para una muestra)

    r de Pearson (para una poblacin)

    Es una medida de la fuerza y direccin de la correlacin lineal entre dos variables cuantitativas.

    La variable independiente o explicativa se representa en el eje x y la variable dependiente o variable de respuesta se representa en el eje y.

  • La frmula para obtener la r de Pearson es:

    2 2

    2 2

    x yxy

    nr

    x yx y

    n n

  • La frmula para obtener la r de Pearson es:

    Esta es la presentacin usual de la frmula, sin embargo, es posible simplificarla al darnos cuenta que el denominador es la raz cuadrada del producto; suma de cuadrados en x por suma de cuadrados en y.

    2 2

    2 2

    x yxy

    nr

    x yx y

    n n

  • La frmula para obtener la r de Pearson es:

    Esta es la presentacin usual de la frmula, sin embargo, es posible simplificarla. Observa que el denominador es el producto de la suma de cuadrados en x, por la suma de cuadrados en y.

    Y el numerador, aunque no es una suma de cuadrados, podemos anotarlo como tal para simplificar la frmula.

    2 2

    2 2

    x yxy

    nr

    x yx y

    n n

  • La frmula para obtener la r de Pearson es:

    Suma de cuadrados:

    2 2

    2 2

    x yxy

    nr

    x yx y

    n n

    2

    2

    2

    2

    x

    y

    xy

    xSC x

    n

    ySC y

    n

    x ySC xy

    n

  • La frmula simplificada para obtener la r de Pearson es:

    Para calcular las sumas de cuadrados necesitamos completar la siguiente tabla.

    xy

    x y

    SCr

    SC SC

  • Nmero de dato

    Personas que habitan la casa

    x

    Consumo de agua

    yx2 y2 xy

    1 1 2.2 (1)2 = 1 (2.2)2 = 4.84 (1)(2.2) = 2.2

    2 1 3.1 (1)2 = 1

    3 1 4.9 (1)2 = 1

    25 7 10.2 (7)2 = 49

    26 7 11.5 (7)2 = 49

    27 7 10.1 (7)2 = 49 (10.1)2 = 102.01 (7)(10.1) = 70.7

    S

  • Nmero de dato

    Personas que habitan la casa

    x

    Consumo de agua

    yx2 y2 xy

    1 1 2.2 (1)2 = 1 (2.2)2 = 4.84 (1)(2.2) = 2.2

    2 1 3.1 (1)2 = 1

    3 1 4.9 (1)2 = 1

    25 7 10.2 (7)2 = 49

    26 7 11.5 (7)2 = 49

    27 7 10.1 (7)2 = 49 (10.1)2 = 102.01 (7)(10.1) = 70.7

    S 100 206.5 476 1740.85 883.2

  • Nmero de dato

    Personas que habitan la casa

    x

    Consumo de agua

    yx2 y2 xy

    1 1 2.2 (1)2 = 1 (2.2)2 = 4.84 (1)(2.2) = 2.2

    2 1 3.1 (1)2 = 1

    3 1 4.9 (1)2 = 1

    25 7 10.2 (7)2 = 49

    26 7 11.5 (7)2 = 49

    27 7 10.1 (7)2 = 49 (10.1)2 = 102.01 (7)(10.1) = 70.7

    S Sx = 100 Sy = 206.5 Sx2 = 476 Sy2 = 1740.85 Sxy = 883.2

  • Con los resultados de la tabla se calculan las sumas de cuadrados:

    2 2

    2

    2 2

    2

    100476 ___________

    27

    206.51740.85 __________

    27

    100 206.5883.2 _______

    27

    x

    y

    xy

    xSC x

    n

    ySC y

    n

    x ySC xy

    n

  • Con los resultados de la tabla se calculan las sumas de cuadrados:

    Estos resultados se sustituyen en la frmula de r

    2 2

    2

    2 2

    2

    100476

    27

    206

    105.6296

    161.5074.5

    1740.8527

    100 206118.3

    .5883.2

    28

    751

    x

    y

    xy

    xSC x

    n

    ySC y

    n

    x ySC xy

    n

  • Sustitucin en la frmula del Coeficiente de Correlacin Lineal r de Pearson

    105.6296

    161.5074

    118.3851

    x

    y

    xy

    SC

    SC

    SC

    xy

    x y

    SCr

    SC SC

  • Sustitucin en la frmula del Coeficiente de Correlacin Lineal r de Pearson

    105.6296

    161.5074

    118.3851

    x

    y

    xy

    SC

    SC

    SC

    xy

    x y

    SCr

    SC SC

    118.3851

    105.6296 161.5074r

    Sustitucin

  • Sustitucin en la frmula del Coeficiente de Correlacin Lineal r de Pearson

    105.6296

    161.5074

    118.3851

    x

    y

    xy

    SC

    SC

    SC

    xy

    x y

    SCr

    SC SC

    118.3851

    105.6296 161.5074

    0.906376

    r

    r

    Sustitucin

  • El valor del Coeficiente de Correlacin Lineal r de Pearson es:

    Qu significa este nmero?

    0.906376r

  • El valor del Coeficiente de Correlacin Lineal r de Pearson es:

    El signo indica la direccin de la correlacin y la magnitud, la fuerza de dicha correlacin.

    0.906376r

  • El valor del Coeficiente de Correlacin Lineal r de Pearson es:

    El signo indica la direccin de la correlacin y la magnitud, la fuerza de dicha correlacin.

    El signo es positivo, lo cul significa que al aumentar x, aumenta y, es decir, entre ms personas habitan una vivienda, mayor es el consumo de agua.

    0.906376r

  • El valor del Coeficiente de Correlacin Lineal r de Pearson es:

    El signo indica la direccin de la correlacin y la magnitud, la fuerza de dicha correlacin.

    El signo es positivo, lo cul significa que al aumentar x, aumenta y, es decir, entre ms personas habitan una vivienda, mayor es el consumo de agua.

    La magnitud indica la fuerza de la correlacin, cuanto ms cerca est de uno, mayor es la fuerza. En este caso la correlacin es fuerte.

    0.906376r

  • El valor del Coeficiente de Correlacin Lineal r de Pearson es:

    Existe una fuerte correlacin lineal, positiva, entre el nmero de habitantes en una vivienda (x) y su consumo de agua (y).

    0.906376r

  • El valor del Coeficiente de Correlacin Lineal r de Pearson es:

    Existe una fuerte correlacin lineal, positiva, entre el nmero de habitantes en una vivienda (x) y su consumo de agua (y).

    No existe una regla matemtica para matizar la interpretacin del valor de r, depende del estudio que se realiza.

    Solamente existen reglas empricas que se aplican en casos especficos.

    0.906376r

  • El valor del Coeficiente de Correlacin Lineal r de Pearson es:

    Existe una fuerte correlacin lineal, positiva, entre el nmero de habitantes en una vivienda (x) y su consumo de agua (y).

    A pesar de que no tenemos reglas para matizar la interpretacin de r, este valor nos permite comparar la fuerza de la correlacin de una muestra con otra y de una poblacin con otra.

    0.906376r

  • El valor del Coeficiente de Correlacin Lineal r de Pearson tiene ventajas sobre las interpretaciones subjetivas, pero todava no resulta claro cmo interpretar variaciones en su valor.

    Existe una fuerte correlacin lineal, positiva, entre el nmero de habitantes en una vivienda (x) y su consumo de agua (y).

    Un valor que contribuye a comprender mejor la dependencia entre las variables es el:

    Coeficiente de Determinacin.

    0.906376r

  • A pesar de que este valor se calcula simplemente elevando el Coeficiente de Correlacin Lineal al cuadrado, es ms informativo que el Coeficiente de Correlacin Lineal.

    Coeficiente de determinacin: r2

  • Se interpreta como la proporcin de la

    variabilidad de yque puede ser

    explicada por x.

    Coeficiente de determinacin: r2

  • Este valor significa que existen otros factores que explican los cambios en y; si la casa tiene jardn, el tamao del mismo, los hbitos de la familia, entre otros.

    Pero una proporcin de 0.8215 de los cambios en el consumo de agua pueden explicarse por el nmero de personas que habitan la casa.

    r2 = 0.8215

  • Cuando existe fuerte correlacin entre las variables, como en este caso:

    Es posible encontrar una ecuacin:

    Que puede emplearse para predecir el valor de y, dado cualquier valor de x.

    Esta recta se llama:

    Recta de regresin Lineal.

    r2 = 0.8215

    0 1y a a x

  • Para encontrar la ecuacin de la recta de regresin es necesario determinar los valores de a0 y a1.

    Las frmulas son:

    20

    2

    2

    x y x xy

    n x xa

    21 2

    n xy x

    n x xa

    y

  • Sustituyendo:

    2

    0 22

    20

    (476)(206.5) (100)(883.2)

    27(476) (100)

    x y x xy

    na

    a

    x x

    21 2

    21

    27(883.2) (100)(206.5)

    27(476) (100)

    n xy x y

    n

    a

    x xa

  • Sustituyendo:

    20

    2

    2

    20

    (476)(206.5) (100)(883.2) 9974

    27(476) (100)3.4

    2 529719

    8

    x y x xy

    n x xa

    a

    22

    2

    1

    1

    27(883.2) (100)(206.5) 3196.4

    27(476) (1001.120

    ) 28527

    n xy x y

    n x

    a

    xa

  • Una vez calculados los valores de a0 y a1 se sustituyen para obtener la ecuacin de la recta:

    0 1y a a x

    0 3.49719a 1 1.1207a

    3.49719 1.1207y x

    1.1207 3.49719y x

  • Con esta ecuacin es posible predecir cunta agua se consumir en una casa teniendo como dato el nmero de personas que la habitan.

    Cunta agua debera consumirse en una casa habitada

    por una persona? x = 1

    1.1207 3.49719y x

  • Con esta ecuacin es posible predecir cunta agua se consumir en una casa teniendo como dato el nmero de personas que la habitan.

    Cunta agua debera consumirse en una casa habitada

    por una persona? x = 1 Se sustituye el valor de x = 1 en la ecuacin de la recta de

    regresin lineal.

    1.1207 3.49719y x

    1.1207 3.49719y x

  • Con esta ecuacin es posible predecir cunta agua se consumir en una casa teniendo como dato el nmero de personas que la habitan.

    Cunta agua debera consumirse en una casa habitada

    por una persona? x = 1

    1.1207 3.49719y x

    1.1207 3.49719

    1.1207

    (

    3.497

    1

    19

    )y

    y

  • Con esta ecuacin es posible predecir cunta agua se consumir en una casa teniendo como dato el nmero de personas que la habitan.

    Cunta agua debera consumirse en una casa habitada

    por una persona? x = 1

    1.1207 3.49719y x

    1.1207 3.49719

    1.1207 3.49719

    4.617

    )

    8

    (

    9

    1y

    y

    y

    El consumo de agua en una casa habitada por una

    persona ser de:4.61789 m3.

  • Con esta ecuacin es posible predecir cunta agua se consumir en una casa teniendo como dato el nmero de personas que la habitan.

    Cunta agua debera consumirse en una casa habitada

    por ocho personas? x = 8

    1.1207 3.49719y x

    1.1207 3.49719

    8.9656

    (

    3.497

    8

    19

    )y

    y

  • Con esta ecuacin es posible predecir cunta agua se consumir en una casa teniendo como dato el nmero de personas que la habitan.

    Cunta agua debera consumirse en una casa habitada

    por una persona? x = 8

    1.1207 3.49719y x

    1.1207 3.49719

    8.9656 3.49719

    12.46

    )

    2

    (

    7

    8y

    y

    y

    El consumo de agua en una casa habitada por ocho

    personas ser de:12.4627 m3.

  • Estos valores (se corrigen los resultados utilizando todos los decimales) son las coordenadas de dos puntos:

    Que podemos representar sobre la grfica de dispersin.

    x y

    1 4.617952

    8 12.463253

  • Grfica de dispersin

  • Estos valores (se corrigen los resultados utilizando todos los decimales) son las coordenadas de dos puntos que podemos representar sobre la grfica de dispersin:

    Y uniendo esos puntos se traza la recta de regresin lineal.

  • Grfica de dispersin con la recta de regresin lineal.

  • Esta grfica nos permite estimar, a simple vista, el consumo de agua cuando, por ejemplo, la habitan 3 personas.

  • Esta grfica nos permite estimar, a simple vista, el consumo de agua cuando, por ejemplo, la habitan 3 personas.

  • Esta grfica nos permite estimar, a simple vista, el consumo de agua cuando, por ejemplo, la habitan 3 personas.

  • Esta grfica nos permite estimar, a simple vista, el consumo de agua cuando, por ejemplo, la habitan 3 personas.

  • Esta grfica nos permite estimar, a simple vista, el consumo de agua cuando, por ejemplo, la habitan 3 personas.

  • Esta grfica nos permite estimar, a simple vista, el consumo de agua cuando, por ejemplo, la habitan 3 personas.

    Poco menos de 7

  • Esta grfica nos permite estimar, a simple vista, el consumo aproximado de agua cuando, por ejemplo, la habitan 3 personas.

    El consumo de agua en una casa habitada por 3 personas ser de aproximadamente 7 metros cbicos.

  • Esta grfica nos permite estimar, a simple vista, el consumo aproximado de agua cuando, por ejemplo, la habitan 3 personas.

    El consumo de agua en una casa habitada por 3 personas ser de aproximadamente 7 metros cbicos.

  • El consumo de agua en una casa habitada por 3 personas ser de aproximadamente 7 metros cbicos.

    Aproximadamente.

    El uso de esta palabra nos indica que el valor estimado tiene un cierto error o tolerancia.

  • El consumo de agua en una casa habitada por 3 personas ser de aproximadamente 7 metros cbicos.

    Una pregunta vlida es: Cul es la magnitud de ese error?

    Aproximadamente.

    El uso de esta palabra nos indica que el valor estimado tiene un cierto error o tolerancia.

  • Error estndar al calcular y para un valor de x.

    La frmula para calcular el error estndar es:

    2

    2

    y

    x

    y x

    x yxy

    nSC

    SCS

    n

  • Error estndar al calcular y para un valor de x.

    La frmula puede simplificarse empleando SCxy:

    2

    2

    xy

    y

    x

    y x

    SCSC

    SCS

    n

  • Error estndar al calcular y para un valor de x.

    Sustitucin:2

    2

    xy

    y

    x

    y x

    SCSC

    SCS

    n

    2

    118.3851161.5074

    105.6296

    27 2y x

    S

    105.6296

    161.5074

    118.3851

    x

    y

    xy

    SC

    SC

    SC

  • Error estndar al calcular y para un valor de x.

    Sustitucin:2

    2

    xy

    y

    x

    y x

    SCSC

    SCS

    n

    2

    118.3851161.5074

    105.6296

    27 2y x

    S

    105.6296

    161.5074

    118.3851

    x

    y

    xy

    SC

    SC

    SC

    1.0738y x

    S

  • El error estndar al calcular y para un valor de x se interpreta como una tolerancia en los valores calculados de y.

    1.0738y x

    S

    x y |

    1 4.617952 1.0738

    8 12.463253 1.0738

  • Cuando en una casa habita una persona el consumo de agua debe ser: 4.617952 1.0738, es decir, debe estar entre 3.544 y 5.691 m3.

    Cuando en una casa habitan ocho personas el consumo de agua debe ser: 12.463 1.0738, es decir, debe estar entre 11.389 y 13.537 m3.

    1.0738y x

    S

  • Referencias:

    http://www.scoop.it/t/mathematics-learning

    https://sites.google.com/site/mataspc/home

    http://licmata-math.blogspot.com/

    http://www.slideshare.net/licmata/

    http://www.facebook.com/licemata

    [email protected]

    Twitter: @licemata