correlacin lineal - los captulos anteriores hemos trabajado con variables tales como altura (h),...

Download CORRELACIN LINEAL -   los captulos anteriores hemos trabajado con variables tales como altura (h), dimetro (d) , ... utilizando los siguientes coeficientes de correlacin lineal:

Post on 11-May-2018

217 views

Category:

Documents

1 download

Embed Size (px)

TRANSCRIPT

  • i

    CORRELACIN LINEAL

    Midiendo la relacin entre dos variables

    Correlacin no es sinnimo de causa-efecto

    JORGE FALLAS

    2012

  • i

    ndice

    1. Introduccin ......................................................................................................................... 1

    2. Diagrama de dispersin ........................................................................................................ 1

    3. Coeficiente de correlacin lineal de Pearson ....................................................................... 2

    6. Interpretacin de r ................................................................................................................ 6

    4. Correlacin no es sinnimo de causa-efecto ........................................................................ 8

    5. De qu depende la intensidad de la correlacin? ................................................................ 9

    7. Significancia de r: Prueba de hiptesis .............................................................................. 11

    8. Coeficiente de correlacin de rdenes de Spearman .......................................................... 16

    8.1. Prueba de hiptesis .......................................................................................................... 18

    9. Coeficiente de correlacin de rdenes de Kendall's (Tau-a y Tau-b) ................................ 21

    9. Bibliografa ......................................................................................................................... 23

    10. Ejercicios .......................................................................................................................... 25

    El presente documento se distribuye bajo licencia reconocimiento-No comercial-Compartir bajo

    la misma licencia (CC BY-NC-SA de Creative Commons); la cual permite entremezclar,

    ajustar y construir con base en su trabajo para fines no comerciales, siempre y cuando se de

    crdito y licencia de sus nuevas creaciones, en trminos idnticos.

  • 1

    1. Introduccin

    En los captulos anteriores hemos trabajado con variables tales como altura (h), dimetro (d) ,

    precipitacin y peso en forma independiente; sin embargo son en el mundo real realmente

    independientes dichas variables? Si observamos un bosque, podemos apreciar que usualmente los

    rboles de mayor altura tambin tienen el mayor dimetro y viceversa. Sin embargo, es evidente

    que esta relacin no es perfecta, pues el rbol ms alto no necesariamente tiene el mayor dimetro,

    ni tampoco el rbol ms pequeo tiene el menor dimetro. Esto implica que las dos variables estn

    correlacionadas y que el grado o intensidad de la correlacin no es perfecto. Usted puede pensar en

    situaciones particulares de su quehacer profesional donde se presentan situaciones similares. Esto

    nos lleva a plantearnos las siguientes preguntas: dadas dos variables Existe algn tipo de correla-

    cin entre ellas? y en caso de existir, Cul es la direccin e intensidad de la misma?

    En el presente captulo aprenderemos a cuantificar la intensidad y direccin de la correlacin

    utilizando los siguientes coeficientes de correlacin lineal:

    R de Pearson Variables cuantitativas

    Rho de Spearman Variables ordinales

    Tau de Kendall Variables ordinales

    2. Diagrama de dispersin

    El diagrama de dispersin expresa grficamente la relacin entre dos variables cuantitativas

    utilizando un sistema de ejes cartesianos. Su uso, como medio para representar grficamente una

    distribucin bivariable, se atribuye a Sir Francis Galton. Por ejemplo, si estamos estudiando la

    relacin entre el dimetro y altura de un bosque, cada par de valores se grfica en un sistema de

    coordenadas X, Y. La figura 1 ilustra este concepto para 46 valores de dimetro (cm) y altura total

    (m) de Jal. La distribucin conjunta de dimetro y altura se denomina bivariable porque est

    formada por la interaccin tanto del dimetro como de la altura. Esta grfica nos permite hacer las

    siguientes observaciones:

    1. Existe un alto grado de correlacin lineal entre las dos variables. La naturaleza de la

    asociacin puede describirse adecuadamente por una recta como la trazada en la figura 1.

    2. La relacin es imperfecta; ya que no siempre los rboles de mayor dimetro corresponden a

    rboles de mayor altura. Existe una covariacin entre los dos sets de datos; sin embargo no

    es perfecta.

    El anlisis anterior permite apreciar la importancia de graficar y determinar, en forma preliminar,

    la presencia o ausencia de correlacin entre las variables en estudio. El prximo paso es cuantificar

    el grado y direccin de la correlacin. En 1896, Karl Pearson, colega de Galton, public un artculo

    titulado "Contribuciones matemticas a la teora de la evolucin, III. Regresin, herencia y

    panmixia"; en el cual analiz las caractersticas del coeficiente de correlacin. El ndice, aun cuando

    no fue desarrollado por Pearson, lleva su nombre debido a esta publicacin. El coeficiente de

  • 2

    correlacin de Pearson es apropiado nicamente para aquellos casos en que la asociacin es lineal y

    la escala de medicin cuantitativa (intervalo o razn).

    Con frecuencia, es necesario determinar la ausencia o presencia de correlacin entre

    observaciones a un nivel de medicin nominal u ordinal; por ejemplo la apariencia de un producto y

    su grado de aceptacin en el mercado o el color de las hojas y el grado de enraizamiento en estacas.

    Para estos casos debemos utilizar ndices de asociacin no paramtricos tales como Tau de Kendall,

    Rho de Spearman o Chi-cuadrado (X2) y sus variaciones.

    Figura 1: Diagrama de dispersin para dimetro (cm) y altura total (m) de jal. La recta indica la

    tendencia general de los datos.

    3. Coeficiente de correlacin lineal de Pearson

    El coeficiente de correlacin lineal de Pearson se define en trminos de la covarianza de las

    variables aleatorias X y Y. La covarianza es una medida que indica la forma en que X y Y varan

    conjuntamente. Dadas dos variables aleatorias X y Y, con medias x y y y varianzas 2

    x y 2y,

    respectivamente; la correlacin entre X y Y est dada por:

    (1)

    El estimador de es r y su frmula es:

    (2)

    El estadstico r posee las siguientes caractersticas (ver Fig. 2):

    1. El coeficiente mide la intensidad y direccin de la correlacin lineal y no excluye la

    posibilidad de que exista otra forma de correlacin no lineal.

    0

    5

    10

    15

    20

    25

    30

    35

    40

    45

    0 10 20 30 40 50 60 70 80

    alt

    ura

    tota

    l (m

    )

    d (cm)

  • 3

    2. Su valor flucta entre 1 y -1. Cuando la asociacin entre X y Y es perfecta r es igual a 1

    (todos los valores se ubican en una recta); cuando no existe correlacin lineal su valor es 0.

    3. El signo del coeficiente de correlacin indica la direccin de la asociacin. Cuando el valor

    de r es positivo se dice que existe una correlacin positiva o directa; o sea que valores

    grandes de X estn asociados con valores grandes de Y y viceversa. Por otra parte, si el

    signo es negativo la correlacin es negativa; valores grandes de X se asocian con valores

    pequeos de Y y viceversa.

    Figura 2: Relacin entre el valor y signo del coeficiente de correlacin lineal de Pearson y la

    tendencia de valores.

    La formula 2 facilita el clculo de r sin embargo no nos permite apreciar como los valores

    estandarizados de X y Y afectan su valor. Una expresin ms simple y que nos permite apreciar lo

    anterior es:

    (3)

    Donde:

    son valores estandarizados de X

    son valores estandarizados de Y

    la media de X

    la media de Y

    SX la desviacin estndar de X

    SY la desviacin estndar de X

  • 4

    La suma de productos determina la magnitud y signo del coeficiente. La figura 3 muestra el

    diagrama de dispersin para cuatro observaciones de dimetro y altura total. En los ejes X y Y se

    indican los valores originales as como las desviaciones con respecto a la media de cada

    observacin. El diagrama se ha dividido en cuatro cuadrantes: I, II, III, y IV. Las lneas que dividen

    los cuadrantes se originan en la media de cada una de las variables. Para cualquier punto, el

    producto X*Y ser positivo cuando las desviaciones de la media sean ambos positivos o ambos

    negativos; por otra parte el producto ser negativo cuando cualquiera de las desviaciones tenga un

    signo opuesto. Los productos X*Y sern positivos en los cuadrantes I y III y negativos en los

    cuadrantes II y IV.

    Figura 3: Diagrama de dispersin para cuatro pares de valores de dimetro (cm) y altura total (m).

    Las letras romanas indican los cuadrantes.

    El signo de r est dado por el signo de los valores estandarizados en la formula tres; ya que n,

    Sx y Sy son positivos. Adems cuanto mayor sea el nmero de casos que se ubiquen en los

    cuadrantes I y III o II y IV mayor ser la magnitud de la suma de productos XY y por ende de r. Para

    los puntos de la figura tres, el valor del r es 0,97.

    A continuacin se ilustra el uso de la frmula tres. El nmero de observaciones en muy reducido

    para un uso adecuado de r; sin embargo la simplicidad de la serie estadstica permite ilustrar el

    clculo de los diferentes componentes de la ecuacin.

    d (cm) Alt. tot (m)

    6 7

    7 10

    10 12

    13 15

    S

Recommended

View more >