bioestadistica r l

Upload: alejandro-pineiro-caro

Post on 05-Nov-2015

258 views

Category:

Documents


0 download

DESCRIPTION

Regresion Lineal

TRANSCRIPT

  • DIAGRAMA DE DISPERSIN

    1

    Utilcelo cuando necesite mostrar lo que sucede a una variable cuando otra cambia, con la finalidad de probar la teora de que las dos variables se relacionan.

    Este tipo de diagramas se usa para probar posibles relaciones entre

    causa y efecto; no puede probar que una variable causa la otra, pero

    s aclara si existe alguna relacin y la intensidad que pudiera tener la

    misma.

  • La direccin y la unin de la agrupacin le da idea sobre la fuerza de la

    relacin entre la variable 1 y la variable 2. Cuanto ms se asemeje a una

    lnea recta, ms fuerte ser la relacin entre las variables.

  • Tipos de Diagramas de Dispersin 3

  • 4

  • 5

  • Clculo de Covarianza y Coeficiente de Correlacin 6

    yx

    n

    yxS

    n

    yyxxSCov

    ii

    xy

    ii

    xyxy

    xyCov mediantebien o

    Covarianza: Es una medida de lo que se dispersan los valores de una muestra bidimensional tanto del valor medio de la x como del valor medio de la y. Se determina mediante la expresin:

    Cuando se trata de una distribucin bidimensional...

    La covarianza entre dos variables, Sxy, nos indica si la posible relacin entre dos variables es directa o

    inversa.

    Directa: Sxy >0 Inversa: Sxy

  • Coeficiente de Correlacin de Pearson R

    Bondad de los ajustes

    El coeficiente de correlacin de Pearson, r, nos permite saber si el ajuste de la nube de puntos a la recta de regresin obtenida es

    satisfactorio.

    Se define como el cociente entre la covarianza y el producto de las desviaciones tpicas (raz cuadrada de las varianzas)

    yx

    xy

    yx

    xy

    yx

    xy

    SS

    S

    SS

    S

    VV

    Vr

    22

    Teniendo en cuenta el valor de la covarianza y las varianzas, se puede evaluar mediante cualquiera de las dos expresiones siguientes:

    22

    22

    yn

    yx

    n

    x

    yxn

    yx

    r

    ii

    ii

    2222

    iiii

    iiii

    yynxxn

    yxyxnr

  • Grado de Correlacin El coeficiente de correlacin, r, presenta valores entre 1 y +1. Cuando r es prximo a 0, no hay correlacin lineal entre las variables. La nube de puntos est muy dispersa o bien no forma una lnea recta. No se

    puede trazar una recta de regresin.

    Cuando r es cercano a +1, hay una buena correlacin positiva entre las variables segn un modelo lineal y la recta de regresin que se determine

    tendr pendiente positiva, ser creciente.

    Cuando r es cercano a -1, hay una buena correlacin negativa entre las variables segn un modelo lineal y la recta de regresin que se determine

    tendr pendiente negativa: es decreciente.

    No hay

    correlacin 0r

    Correlacin

    lineal positiva 1r

    Correlacin

    lineal negativa 1r

    Hay correlacin

    no lineal 0r

  • Coeficiente de Determinacin, R2

    Para estimar la bondad de un ajuste frecuentemente se prefiere utilizar el Coeficiente de Determinacin, R2, que es el Coeficiente de

    Correlacin elevado al cuadrado.

    Se determina mediante cualquiera de las dos expresiones siguientes:

    22

    22

    2

    2

    yn

    yx

    n

    x

    yxn

    yx

    Rii

    ii

    2222

    2

    2

    iiii

    iiii

    yynxxn

    yxyxnR

    Su valor oscila entre 0 y +1. Cuando hay una buena correlacin lineal, R2 es muy cercano a +1. Normalmente se acepta para valores de R2 >= 099. Cuando no hay correlacin o bien sta no es lineal, R2 es bajo e incluso cercano a cero

  • 10

    Ejemplo 1 Una agencia de coches estudia la

    relacin entre el cuenta kilmetros y el precio de venta de coches usados.

    Se selecciona una muestra y se registran los datos.

    Hallar la lnea de regresin

    La Recta de Regresin Lineal

    Auto Cuenta Km Precio

    1 37388 14636

    2 44758 14122

    3 45833 14016

    4 30862 15590

    5 31705 15568

    6 34010 14718

    Variable Variable

    Independiente "x" Dependiente "y"

  • ;14775

    37426

    y

    x

    Kilmetros Precio USS

    Xi Yi Xi*Yi Xi Yi

    37388 14636 547210768 1397862544 214212496

    44758 14122 632072476 2003278564 199430884

    45833 14016 642395328 2100663889 196448256

    30862 15590 481138580 952463044 243048100

    31705 15568 493583440 1005207025 242362624

    34010 14718 500559180 1156680100 216619524

    Suma 224556 88650 3296959772 8616155166 1312121884

    Promedio 37426,00 14775,00 549493295,33 1436025861,00 218686980,67

    67,854.475.3))((

    ),cov(

    385.320.35)(

    2

    2

    n

    yyxxYX

    n

    xxs

    ii

    i

    x

    Solucin

    Solucin manual: Calcular varios estadsticos

  • 06,458.18)426.37)(09840,0(775.14

    09840,0385.320.35

    67,854.475.3

    ),cov(2

    xByA

    s

    YXB

    x

    xxBAy 09840,006,458.18

    La Recta de Regresin Lineal

    Modelo Lineal

    Parmetros del modelo lineal

    Es confiable el modelo ya que R : -0,9409

  • La Recta de Regresin Lineal Grafico de Dispersin

  • Ejercicio: 2

    En el ejemplo 2, supongamos que el nmero medio de horas-hombre

    depende linealmente del tamao del lote:

    De los datos tenemos:

    11001

    n

    i

    iy 5001

    n

    i

    ix 618001

    n

    i

    ii yx

    284001

    2

    n

    i

    ix 1346601

    2

    n

    i

    iy 10n

    La Recta de Regresin Lineal

  • 0,2501028400

    5011010618002

    B

    10502110 A

    B

    ii xy 210

    La Recta de Regresin Lineal

  • 20 30 40 50 60 70 80

    Tamao del Lote

    20

    70

    120

    170

    Hora

    s -

    Hom

    bre

    Si la cantidad de aditivo 55x , estimamos que la distribucin de probabilidades de Y

    tiene una media de HHY 12055210

    La Recta de Regresin Lineal

  • En el caso del ejemplo de horas hombre el coeficiente de determinacin es:

    9956060

    136002 ,R

    Esto significa que el 99,56% de la variabilidad en la variable de las horas hombre, es

    explicada por el tamao del lote, el modelo lineal parece satisfactorio en este caso.

    La Recta de Regresin Lineal

  • El Coeficiente de Correlacin creado por Karl Pearson alrededor de

    1900, describe la fuerza de la relacin entre dos conjuntos de variables en

    escala de intervalo o de razn. Se designa con la letra r, y con frecuencia se

    le conoce como r de Pearson y coeficiente de correlacin producto-

    momento. Puede adoptar cualquier valor de 1.00 a +1.00, inclusive. Un coeficiente de correlacin de 1.00 o bien de +1.00 indica una correlacin perfecta.

    COEFICIENTE DE CORRELACIN Medida de la fuerza de la relacin

    lineal entre dos variables.

  • CARACTERSTICAS DEL COEFICIENTE DE CORRELACIN

    1. El coeficiente de correlacin de la muestra se identifica por la letra

    minscula r.

    2. Muestra la direccin y fuerza de la relacin lineal (recta) entre dos

    variables en escala de intervalo o en escala de razn.

    3. Vara de 1 hasta +1, inclusive.

    4. Un valor cercano a 0 indica que hay poca asociacin entre las variables.

    5. Un valor cercano a 1 indica una asociacin directa o positiva entre las

    variables.

    6. Un valor cercano a 1 indica una asociacin inversa o negativa entre las variables.

  • COEFICIENTE DE DE DETERMINACIN

    Una medida cuyo significado se interpreta con ms facilidad es el

    Coeficiente de Determinacin. ste se calcula elevando al cuadrado el

    coeficiente de correlacin.

    COEFICIENTE DE DETERMINACIN Proporcin de la variacin total en la

    variable dependiente Y que se explica, o contabiliza, por la variacin en la

    variable dependiente X.

  • PRINCIPIO DE LOS MNIMOS CUADRADOS

    Al emplear la recta de regresin con un mtodo matemtico denominado

    Principio de los Mnimos Cuadrados este mtodo elimina el juicio subjetivo.

    Este mtodo proporciona lo que comnmente se conoce como recta del

    mejor ajuste.

    Con este mtodo se determina una ecuacin de regresin al minimizar la

    suma de los cuadrados de las distancias verticales entre los valores reales

    de Y y los valores pronosticados de Y.

    Forma general de la ecuacin de regresin lineal Y = A + BX

  • PRINCIPIO DE LOS MNIMOS CUADRADOS

    Como resultado, el procedimiento de los mnimos cuadrados genera una

    recta que minimiza la suma de los cuadrados de las desviaciones verticales

    entre los puntos y la recta.

  • PRINCIPIO DE LOS MNIMOS CUADRADOS

    Dada la siguiente tabla de datos:

    Determine:

    Modelo de Regresin Lineal

    Coeficiente de Correlacin Lineal

    Coeficiente de Determinacin

    Si un nio tiene 9 aos Cul seria su peso?

    Y 58 42 51 54 40 39 49 56

    X 12 8 10 11 7 7 10 14

  • PRINCIPIO DE LOS MNIMOS CUADRADOS

    Y X XY

    58 12 696 144 3364

    42 8 336 64 1764

    51 10 510 100 2601

    54 11 594 121 2916

    40 7 280 49 1600

    39 7 273 49 1521

    49 10 490 100 2401

    56 14 784 196 3136

    Promedios

    48,625 9,875 495,375 102,875 2412,875

  • PRINCIPIO DE LOS MNIMOS CUADRADOS

    Diagrama de Dispersin.-

  • 2

    2

    1

    2

    2

    n

    yy

    n

    SCE

    n

    i

    ii

  • X Y

    12 58 54,57 3,43 11,76

    8 42 43,25 -1,25 1,56

    10 51 48,91 2,09 4,37

    11 54 51,74 2,26 5,11

    7 40 40,42 -0,42 0,18

    7 39 40,42 -1,42 2,02

    10 49 48,91 0,09 0,01

    14 56 60,23 -4,23 17,89

    SCE 42,90

    Varianza

    Residual 7,15

  • Estimacin del modelo de regresin lineal simple.

    El mtodo de mnimos cuadrados.

    ERROR ESTNDAR DE ESTIMACIN Medida de la dispersin de los valores observados respecto de la recta de regresin.

    Si Syx es pequeo, significa que los datos estn relativamente cercanos a

    la recta de regresin, y la ecuacin de regresin sirve para predecir Y con

    poco error. Si Syx es grande, significa que los datos estn muy dispersos

    respecto de la recta de regresin, y la ecuacin de regresin no

    proporcionar una estimacin precisa de Y.

    2

    n

    SCES yx

  • n

    i

    i yySCT1

    2

  • Estimacin del modelo de regresin lineal simple.

    El mtodo de mnimos cuadrados.

    En esta particin de las sumas, la primera suma se denomina suma de

    cuadrados total (SCT), refleja la variacin de los valores de Y con respecto

    a la media y .

    La segunda suma se denomina, suma de cuadrados de los errores (SCE), y

    la tercera suma se denomina suma de cuadrados debido a la regresin

    (SCR), refleja la cantidad de variacin de los valores de Y explicada por la

    recta de regresin. Si se divide por n, (el tamao de la muestra), entonces,

    se dice que la varianza de los y es igual a la varianza no explicada o

    residual ms la varianza explicada por la recta de regresin

    SCT = SCE + SCR

  • Estimacin del modelo de regresin lineal simple.

    El mtodo de mnimos cuadrados.

    SCT = SCE + SCR

    n

    i

    n

    i

    iii

    n

    i

    i yyyyyy1 1

    22

    1

    2

  • Estimacin del modelo de regresin lineal simple.

    El mtodo de mnimos cuadrados.

    X Y

    12 58 54,57 9,38 3,43 5,95 87,98 11,76 35,40

    8 42 43,25 -6,62 -1,25 -5,37 43,82 1,56 28,84

    10 51 48,91 2,38 2,09 0,29 5,66 4,37 0,08

    11 54 51,74 5,38 2,26 3,12 28,94 5,11 9,73

    7 40 40,42 -8,62 -0,42 -8,2 74,30 0,18 67,24

    7 39 40,42 -9,62 -1,42 -8,2 92,54 2,02 67,24

    10 49 48,91 0,38 0,09 0,29 0,14 0,01 0,08

    14 56 60,23 7,38 -4,23 11,61 54,46 17,89 134,79

    387,88 =42,90 +343,41

  • 387,88 =42,90 +343,41

  • Estimacin del modelo de regresin lineal simple.

    El mtodo de mnimos cuadrados.

    Ejemplo: En una muestra de 5 obreros de una fbrica se han observado sus

    aos de experiencia (X) y el tiempo que tardan en realizar una determinada

    tarea (y). Los datos se muestran en la tabla que sigue:

    Determine el Modelo de Regresin Lineal

    Determine la covarianza y coeficiente de correlacin

    Verificar que la variacin total es igual a la variacin no explicada ms la variacin explicada por la regresin de Y en X.

    Y X

    8 1

    9 2

    4 3

    3 4

    3 5

  • Estimacin del modelo de regresin lineal simple.

    El mtodo de mnimos cuadrados.

    Promedios

    Y X XY X2 Y2

    8 1 8 1 64

    9 2 18 4 81

    4 3 12 9 16

    3 4 12 16 9

    3 5 15 25 9

    5,40 3,00 13,00 11,00 35,80

  • Estimacin del modelo de regresin lineal simple.

    El mtodo de mnimos cuadrados.

    SXY -3,2 SX 1,41421356

    RXY -0,87811408 Rxy2 0,77108434 SY 2,57681975

    Y= BX A

    -1,6 10,2

  • Estimacin del modelo de regresin lineal simple.

    El mtodo de mnimos cuadrados.

    X Y

    1 8 8,6 2,6 -0,6 3,2 6,76 0,36 10,24

    2 9 7 3,6 2 1,6 12,96 4,00 2,56

    3 4 5,4 -1,4 -1,4 0 1,96 1,96 0,00

    4 3 3,8 -2,4 -0,8 -1,6 5,76 0,64 2,56

    5 3 2,2 -2,4 0,8 -3,2 5,76 0,64 10,24

    33,20 7,60 25,60