4. correlacin y regresin lineal - plataforma de ... en salud pblica 2. metodologa en salud pblica...

Download 4. Correlacin y Regresin lineal - Plataforma de ... en Salud Pblica 2. Metodologa en Salud Pblica 04. Correlacin y Regresin lineal 3 - 18 Hay dos coeficientes de correlacin que se

Post on 07-Feb-2018

227 views

Category:

Documents

4 download

Embed Size (px)

TRANSCRIPT

  • Diplomado en Salud Pblica

    2. Metodologa en Salud Pblica

    04. Correlacin y Regresin lineal 1 - 18

    CORRELACIN Y REGRESIN LINEAL

    Autor: Clara Laguna

    4.1 INTRODUCCIN Despus de estudiar cmo hay que organizar, representar grficamente y analizar un conjunto de datos a partir de algunos parmetros, nos proponemos estudiar las relaciones entre variables. Por ejemplo, podemos determinar si existe alguna relacin entre la variables peso y altura de un conjunto de personas. Pretendemos estudiar una situacin muy usual y por tanto de gran inters en la prctica: Si Y es una variable definida sobre la misma poblacin que X, ser posible determinar si existe alguna relacin entre las modalidades de X y de Y?

    Figura 4.1. Diagrama de dispersin o nube de puntos

    En este tema se presentan el coeficiente de correlacin y la regresin lineal simple como las dos tcnicas estadsticas ms utilizadas para investigar la relacin entre dos variables continuas X e Y. Grficamente el diagrama de dispersin o nube de puntos permite obtener informacin sobre el tipo de relacin existente entre X e Y, adems de ayudarnos a detectar posibles valores atpicos o extremos. En el diagrama de dispersin de la figura 4.1 tenemos representadas las alturas y los pesos de 30 individuos. Vemos como a medida que aumenta la variable X=altura va aumentando la variable Y=peso.

    Figura 4.2.

  • Diplomado en Salud Pblica

    2. Metodologa en Salud Pblica

    04. Correlacin y Regresin lineal 2 - 18

    Si nos fijamos en la figura 4.2 aparentemente el peso aumenta 10Kg por cada 10 cm de altura... es decir, el peso aumenta en una unidad por cada unidad de altura. El diagrama de dispersin se obtiene representando cada observacin (xi, yi) como un punto en el plano cartesiano XY. Las tcnicas de correlacin y las de regresin estn estrechamente relacionadas, aunque obedecen a estrategias de anlisis un tanto diferentes. Por un lado, el coeficiente de correlacin determina el grado de asociacin lineal entre X e Y, sin establecer a priori ninguna direccionalidad en la relacin entre ambas variables. Por el contrario, la regresin lineal simple permite cuantificar el cambio en el nivel medio de la variable Y conforme cambia la variable X, asumiendo implcitamente que X es la variable explicativa o independiente e Y es la variable respuesta o dependiente.

    4.2 CORRELACIN La finalidad de la correlacin es examinar la direccin y la fuerza de la asociacin entre dos variables cuantitativas. As conoceremos la intensidad de la relacin entre ellas y si, al aumentar el valor de una variable, aumenta o disminuye el valor de la otra variable. Para valorar la asociacin entre dos variables, la primera aproximacin suele hacerse mediante un diagrama de dispersin.

    Figura 4.3.

    En el diagrama de dispersin de la figura 4.3 parece existir una relacin lineal entre el peso y el ndice de masa corporal de los pacientes. Adems, si nos fijamos parece que existe un dato atpico que se aleja de la nube de puntos. Con la nube de puntos podemos apreciar si existe o no una tendencia entre las dos variables, pero si queremos cuantificar esta asociacin debemos calcular un coeficiente de correlacin.

  • Diplomado en Salud Pblica

    2. Metodologa en Salud Pblica

    04. Correlacin y Regresin lineal 3 - 18

    Hay dos coeficientes de correlacin que se usan frecuentemente: el de Pearson (paramtrico) y el de Spearman (no paramtrico, se utiliza en aquellos casos donde las variables examinadas no cumplen criterios de normalidad o cuando las variables son ordinales). El coeficiente de correlacin de Pearson evala especficamente la adecuacin a la recta lineal que defina la relacin entre dos variables cuantitativas. El coeficiente no paramtrico de Spearman mide cualquier tipo de asociacin, no necesariamente lineal. Si se desea medir o cuantificar el grado de asociacin entre dos variables cuantitativas se debe calcular un coeficiente de correlacin.

    4.2.1 Coeficiente de Correlacin lineal de Pearson El estimador muestral ms utilizado para evaluar la asociacin lineal entre dos variables X e Y es el coeficiente de correlacin de Pearson (r). Se trata de un ndice que mide si los puntos tienen tendencia a disponerse en una lnea recta. Puede tomar valores entre -1 y +1. Es un mtodo estadstico paramtrico, ya que utiliza la media, la varianza,y por tanto, requiere criterios de normalidad para las variables analizadas. Se define como la covarianza muestral entre X e Y dividida por el producto de las desviaciones tpicas de cada variable:

    La expresin matemtica para el coeficiente de correlacin de Pearson parece compleja, pero esconde un planteamiento que en el fondo, es sencillo: r estar prximo a 1 (en valor absoluto) cuando las dos variables X e Y estn intensamente relacionadas, es decir, al aumentar una aumenta otra y viceversa. A este concepto de variacin al unsono se le llama covarianza. Covarianza

    El numerador del coeficiente de correlacin es la covarianza muestral SXY entre X e Y, que nos indica si la posible relacin entre dos variables es directa o inversa. Es una medida que nos habla de la variabilidad conjunta de dos variables cuantitativas. As, si valores altos (o bajos) de X tienden a asociarse con valores altos (o bajos) de Y, el producto de las desviaciones tender a ser positivo y la covarianza ser positiva. Por el contrario, si valores altos de una variable se relacionan con valores bajos de la otra variable, el producto de las desviaciones tender a ser negativo y la covarianza ser negativa.

    yx

    xy

    SS

    Sr

    ))((1

    yyxxn

    S ii

    ixy

  • Diplomado en Salud Pblica

    2. Metodologa en Salud Pblica

    04. Correlacin y Regresin lineal 4 - 18

    De tal modo que:

    Si SXY >0 las dos variables crecen o decrecen a la vez (nube de puntos creciente).

    Si SXY

  • Diplomado en Salud Pblica

    2. Metodologa en Salud Pblica

    04. Correlacin y Regresin lineal 5 - 18

    Para entenderlo mejor, veamos los siguientes diagramas de dispersin:

    Figura 4.5.

    En la figura 4.5 vemos que r = 1 es lo mismo que decir que las observaciones de ambas variables estn perfectamente alineadas. El signo de r, es el mismo que el de SXY, por tanto nos indica el crecimiento o decrecimiento de la recta. La relacin lineal es tanto ms perfecta cuanto r est cercano a 1. En la correlacin no se distingue la variable dependiente de la independiente, la correlacin de X con respecto a Y es la misma que la correlacin de Y con respecto a X. Aunque la interpretacin de la magnitud del coeficiente de correlacin depende del contexto particular de aplicacin, en trminos generales se considera que una correlacin es baja por debajo de 0,30 en valor absoluto, que existe una asociacin moderada entre 0,30 y 0,70, y alta por encima de 0,70. Condiciones de aplicacin de la correlacin:

    Variables cuantitativas: Ambas variables examinadas han de ser cuantitativas. Para variables ordinales se puede usar el coeficiente de Spearman.

    Normalidad: La normalidad de ambas variables es un requisito en el caso del

    coeficiente de correlacin de Pearson, pero no en el de Spearman.

    Independencia: Las observaciones han de ser independientes, es decir, slo hay una observacin de cada variable para cada individuo. No tendra sentido, aplicar la correlacin en un estudio que relacionase la ingesta diaria de sal y la tensin intraocular si se tomaran mediciones en ambos ojos de cada individuo. En este caso hay dos observaciones por paciente que estn

  • Diplomado en Salud Pblica

    2. Metodologa en Salud Pblica

    04. Correlacin y Regresin lineal 6 - 18

    autocorrelacionadas, no son independientes; habra que considerar N como el nmero de pacientes y no el de ojos.

    Ejemplo 4.1 En la Figura 4.6 se presenta el diagrama de dispersin entre el ndice de masa corporal, medida de obesidad que se obtiene de dividir el peso en kilogramos por la altura en metros al cuadrado, y el colesterol HDL en un estudio realizado a 533 individuos.

    Figura 4.6.

    A simple vista, se aprecia un cierto grado de dependencia lineal negativa entre ambas variables; esto es, el colesterol HDL tiende a decrecer conforme aumenta el ndice de masa corporal. Esta apreciacin visual se confirma mediante el clculo del coeficiente de correlacin muestral de Pearson que indica una asociacin lineal negativa moderada entre el ndice de masa corporal y el colesterol HDL.

    4.3 REGRESIN LINEAL SIMPLE La regresin est dirigida a describir como es la relacin entre dos variables X e Y, de tal manera que incluso se pueden hacer predicciones sobre los valores de la variable Y, a partir de los de X. Cuando la asociacin entre ambas variables es fuerte,

  • Diplomado en Salud Pblica

    2. Metodologa en Salud Pblica

    04. Correlacin y Regresin lineal 7 - 18

    la regresin nos ofrece un modelo estadstico que puede alcanzar finalidades predictivas. La regresin supone que hay una variable fija, controlada por el investigador (es la variable independiente o predictora), y otra que no est controlada (variable respuesta o dependiente). La correlacin supone que ninguna es fija: las dos variables estn fuera del control de investigador. La regresin es su forma ms sencilla se llama regresin lineal simple. Se trata de una tcnica estadstica que analiza la relacin entre dos variables cuantitativas, tratando de verificar si dicha relacin es lineal. Si tenemos dos variables hablamos de regresin simple, si hay ms de dos variables regresin mltiple. Su objetivo es explicar el comportamiento de una variable Y, que denominaremos variable explicada (o dependiente o endgena), a partir de otra variable X, que llamaremos variable e

Recommended

View more >