estadistica_descriptiva_bivariada_y_regresion_lineal_3_ (1)

Upload: victor-fabian-uribe-olmos

Post on 06-Jul-2018

213 views

Category:

Documents


0 download

TRANSCRIPT

  • 8/18/2019 ESTADISTICA_DESCRIPTIVA_BIVARIADA_Y_REGRESION_LINEAL_3_ (1)

    1/33

    Tema 3: Estadística bivariante   1

    Probabilidades

    Tema 3: Estadística descriptivabivariante y regresión lineal.

  • 8/18/2019 ESTADISTICA_DESCRIPTIVA_BIVARIADA_Y_REGRESION_LINEAL_3_ (1)

    2/33

    Tema 3: Estadística bivariante 2

    Relaciones entre variables y regresión El término regresión fue introducido por alton en su libro

    !Natural inheritance" #$%%&' refiriéndose a la !ley de la regresión

    universal": !(ada peculiaridad en un )ombre es compartida por sus

    descendientes* pero en media* en un grado menor." Regresión a la media

    +u traba,o se centraba en la descripción de los rasgos físicos delos descendientes #una variable' a partir de los de sus padres #otravariable'.

    Pearson #un amigo suyo' reali-ó un estudio con ms de $///registros de grupos familiares observando una relación del tipo:

     0ltura del )i,o 1 %cm 0,5 altura del padre #apro4.'

     (onclusión: los padres muy altos tienen tendencia a tener )i,os 5ue)eredan parte de esta altura* aun5ue tienen tendencia a acercarse#regresar ' a la media. 6o mismo puede decirse de los padres muyba,os.

    7oy en día el sentido de regresión es el de predicción de unamedida basndonos en el conocimiento de otra.

    8rancis alton9Primo de ar;in9Estadístico y aventurero98undador #con otros' dela estadística modernapara e4plicar las teorías

    de ar;in.

  • 8/18/2019 ESTADISTICA_DESCRIPTIVA_BIVARIADA_Y_REGRESION_LINEAL_3_ (1)

    3/33

    Tema 3: Estadística bivariante 3

  • 8/18/2019 ESTADISTICA_DESCRIPTIVA_BIVARIADA_Y_REGRESION_LINEAL_3_ (1)

    4/33

    Tema 3: Estadística bivariante @

    Estudio con,unto de dos variables  0 la derec)a tenemos una posible manera de recoger los

    datos obtenido observando dos variables en varios

    individuos de una muestra.

    En cada fila tenemos los datos de un individuo

    (ada columna representa los valores 5ue toma una variablesobre los mismos.

    6as individuos no se muestran en ningAn orden particular.

    ic)as observaciones pueden ser representadas en undiagrama de dispersión #BscatterplotC'. En ellos* cadaindividuos es un punto cuyas coordenadas son los valoresde las variables.

    Duestro ob,etivo ser intentar reconocer  a partir delmismo si )ay relación entre las variables* de 5ué tipo* y sies posible predecir  el valor de una de ellas en función dela otra.

    Alturaen cm.

    Pesoen Kg.

    $2 $

    $@ /

    $%/ F%

    $% 2

    $F$

    $& /

    $ @

    $F %@

    $3 %

    ... ...

  • 8/18/2019 ESTADISTICA_DESCRIPTIVA_BIVARIADA_Y_REGRESION_LINEAL_3_ (1)

    5/33

    Tema 3: Estadística bivariante

    iagramas de dispersión o nube de puntos

       M   i   d  e   1   8   7  c  m .

    Mide 161 cm.

    Pesa 76 kg.

    Pesa 50 kg.

    Tenemos las alturas y los pesos de 3/ individuos representados en un diagrama dedispersión.

  • 8/18/2019 ESTADISTICA_DESCRIPTIVA_BIVARIADA_Y_REGRESION_LINEAL_3_ (1)

    6/33

    Tema 3: Estadística bivariante

    Relación entre variables.Tenemos las alturas y los pesos de 3/ individuos representados en un diagrama dedispersión.

     P a r e c

     e  5  u e 

     e  l  p e s o  a

     u m e n t

     a  c o n 

      l a  a  l t u r

     a

  • 8/18/2019 ESTADISTICA_DESCRIPTIVA_BIVARIADA_Y_REGRESION_LINEAL_3_ (1)

    7/33

    Tema 3: Estadística bivariante F

    Predicción de una variable en función de la otra. 0parentemente el peso aumenta $/Gg por cada $/ cm de altura... o sea*el peso aumenta en una unidad por cada unidad de altura.

    10 cm.

    10 kg.

  • 8/18/2019 ESTADISTICA_DESCRIPTIVA_BIVARIADA_Y_REGRESION_LINEAL_3_ (1)

    8/33

    Tema 3: Estadística bivariante %

    No correla

    cionadas

    3/

    %/

    $3/

    $%/

    23/

    2%/

    33/

    $@/ $/ $/ $F/ $%/ $&/ 2//

    (ómo reconocer relación directa e inversa.

    Para valores de ? por encima de la mediatenemos valores de H por encima y por deba,oen proporciones similares. Do correlacionadas.

    Para los valores de ? mayores 5ue la mediale corresponden valores de H menores. Estoes relación inversa o decreciente.

    9Para los valores de ? mayores 5ue la

    media le corresponden valores de Hmayores también.

    9Para los valores de ? menores 5ue lamedia le corresponden valores de Hmenores también.

    9Esto se llama relación directa o

    creciente entre ? e H.

  • 8/18/2019 ESTADISTICA_DESCRIPTIVA_BIVARIADA_Y_REGRESION_LINEAL_3_ (1)

    9/33

    Tema 3: Estadística bivariante &

    (ómo reconocer buena o mala relación

    ado un valor de ? no podemos decir grancosa sobre H. Iala relación. Jndependencia.

    9(onocido ? sabemos 5ue H se mueve poruna )or5uilla estrec)a. Kuena relación.

    96o de !)or5uilla estrec)a" )ay 5ueentenderlo con respecto a la dispersión 5uetiene la variable H por si sola* cuando no seconsidera ?.

    o

    o

    o

    oo

  • 8/18/2019 ESTADISTICA_DESCRIPTIVA_BIVARIADA_Y_REGRESION_LINEAL_3_ (1)

    10/33

    Tema 3: Estadística bivariante $/

    6a covarian-a entre dos variables* !"* nos indica si

    la posible relación entre dos variables es directa oinversa. irecta: +4yL/

    Jnversa: +4yM/

    Do correlacionada: +4y1/

    El signo de la covarian-a nos dice si el aspecto de lanube de puntos es creciente o no* pero no nos dice

    nada sobre el grado de relación entre las variables.

    (ovarian-a de dos variables ? e H

    ))((1

     y y x xn

    S i

    i

    i xy  −−=   ∑

  • 8/18/2019 ESTADISTICA_DESCRIPTIVA_BIVARIADA_Y_REGRESION_LINEAL_3_ (1)

    11/33

    Tema 3: Estadística bivariante $$

    (oef. de correlación lineal de Pearson

    6a coeficiente de correlación lineal de Pearson dedos variables* r * nos indica si los puntos tienen unatendencia a disponerse alineadamente #e4cluyendo rectas )ori-ontales y verticales'.

    tiene el mismo signo 5ue +4y por tanto de su signoobtenemos el 5ue la posible relación sea directa oinversa.

    r es Atil para determinar si )ay relación lineal entre

    dos variables* pero no servir para otro tipo derelaciones #cuadrtica* logarítmica*...' y x

     xy

    S S S r   =

  • 8/18/2019 ESTADISTICA_DESCRIPTIVA_BIVARIADA_Y_REGRESION_LINEAL_3_ (1)

    12/33

    Tema 3: Estadística bivariante $2

    Es adimensional +ólo toma valores en NO$*$ 6as variables son no correlacionadas  r1/ Relación lineal perfecta entre dos variables  r1$ o r1O$

    E4cluimos los casos de puntos alineados )ori-. o verticalmente. (uanto ms cerca esté r de $ o O$ me,or ser el grado de

    relación lineal. +iempre 5ue no e4istan observaciones anómalas.

    Propiedades de r 

    O$ $/

    Relacióninversaperfecta

    Relacióndirecta

    casiperfecta

    Qariables no

    correlacionadas

  • 8/18/2019 ESTADISTICA_DESCRIPTIVA_BIVARIADA_Y_REGRESION_LINEAL_3_ (1)

    13/33

    Tema 3: Estadística bivariante $3

    Entrenando el o,o: correlaciones positivas

  • 8/18/2019 ESTADISTICA_DESCRIPTIVA_BIVARIADA_Y_REGRESION_LINEAL_3_ (1)

    14/33

  • 8/18/2019 ESTADISTICA_DESCRIPTIVA_BIVARIADA_Y_REGRESION_LINEAL_3_ (1)

    15/33

    Tema 3: Estadística bivariante $

    Entrenando el o,o: correlaciones negativas

  • 8/18/2019 ESTADISTICA_DESCRIPTIVA_BIVARIADA_Y_REGRESION_LINEAL_3_ (1)

    16/33

    Tema 3: Estadística bivariante $

    Preguntas frecuentes #i r$0 eso %uiere decir %ue las &aria'les no son

    independientes(

    En la prctica* casi siempre sí* pero no tienepor 5ué ser cierto en todos los casos.

    6o contrario si es cierto: Jndependenciaimplica no e4iste correlación.

    Me )a salido r$1,* #la relación es +superlinealNsic(

    =+uper5ué> Eso es un error de clculo. +iempre debe tomar unvalor entre O$ y $.

    #A partir de %u- &alores se considera %ue )a" +'uena relaciónlineal(

    Es difícil dar un valor concreto #mirar los grficos anteriores'.

    Para este curso digamos 5ue si rL/*F )ay buena relación linealy 5ue si rL/*@ )ay cierta relación #por decir algo... la cosa esun poco ms complicada: observaciones anómalas*...'

  • 8/18/2019 ESTADISTICA_DESCRIPTIVA_BIVARIADA_Y_REGRESION_LINEAL_3_ (1)

    17/33

    Tema 3: Estadística bivariante $F

    Stros coeficientes de correlación

    (uando las variables en ve- de ser numéricas sonordinales* es posible preguntarse sobre si )ay algAntipo de correlación entre ellas.

    isponemos para estos casos de dos estadísticos*aun5ue no los usaremos en clase:

    #BroC' de +pearman U #BtauC' de Gendall

    Iaurice eorge Gendall

    ()arles Ed;ard +pearma

  • 8/18/2019 ESTADISTICA_DESCRIPTIVA_BIVARIADA_Y_REGRESION_LINEAL_3_ (1)

    18/33

    Tema 3: Estadística bivariante $%

    Regresión El anlisis de regresión sirve para predecir una

    medida en función de otra medida #o varias'. H 1 Qariable dependiente

    predic)a e4plicada

    ? 1 Qariable independiente predictora  e4plicativa

    =Es posible descubrir una relación>  H 1 f#?' error 

    f es una función de un tipo determinado el error es aleatorio* pe5ueVo* y no depende de ?

  • 8/18/2019 ESTADISTICA_DESCRIPTIVA_BIVARIADA_Y_REGRESION_LINEAL_3_ (1)

    19/33

    Tema 3: Estadística bivariante $&

    Regresión

    El e,emplo del estudio de la altura en grupos familiares de

    Pearson es del tipo 5ue desarrollaremos en el resto deltema.

     0ltura del )i,o 1 %cm 0,5 altura del padre #H 1 % /* ?'

    +i el padre mide 2//cm =cunto mide el )i,o> +e espera #predice' % /*42//1$% cm.

     0lto* pero no tanto como el padre. Regresa a la media.

    +i el padre mide $2/cm =cunto mide el )i,o> +e espera #predice' % /*4$2/1$@ cm.

    Ka,o* pero no tanto como el padre. Regresa a la media.

    Es decir* nos interesaremos por modelos de regresiónlineal simple.

  • 8/18/2019 ESTADISTICA_DESCRIPTIVA_BIVARIADA_Y_REGRESION_LINEAL_3_ (1)

    20/33

    Tema 3: Estadística bivariante 2/

    Iodelo de regresión lineal simple En el modelo de regresión lineal simple* dado dos

    variables H #dependiente' ? #independiente* e4plicativa'

    buscamos encontrar una función de ? muy simple (lineal) 

    5ue nos permita apro4imar H mediante W 1 b/  b$?

    b/ #ordenada en el origen* constante' b$ #pendiente de la recta'

    H e W rara ve- coincidirn por muy bueno 5ue sea elmodelo de regresión. 0 la cantidad  e1HOW se le denomina residuo o error residual.

  • 8/18/2019 ESTADISTICA_DESCRIPTIVA_BIVARIADA_Y_REGRESION_LINEAL_3_ (1)

    21/33

    Tema 3: Estadística bivariante 2$

    En el e,emplo de Pearson y las alturas* él encontró: W 1 b/  b$?

    b/1% cm #Do interpretar como altura de un )i,o cuyo padre mide

    / cm XE4trapolación salva,eY b$1/* #En media el )i,o gana /* cm por cada cm del padre.'

    b/1% cm

    b$1/*

  • 8/18/2019 ESTADISTICA_DESCRIPTIVA_BIVARIADA_Y_REGRESION_LINEAL_3_ (1)

    22/33

    Tema 3: Estadística bivariante 22

    6a relación entre las variables no es e4acta. Es naturalpreguntarse entonces:  (ul es la me,or recta 5ue sirve para predecir los valores de H

    en función de los de ?

  • 8/18/2019 ESTADISTICA_DESCRIPTIVA_BIVARIADA_Y_REGRESION_LINEAL_3_ (1)

    23/33

    Tema 3: Estadística bivariante 23

    El modelo lineal de regresión se construye utili-ando la técnica deestimación mínimo cuadrtica: Kuscar b/* b$ de tal manera 5ue se minimice la cantidad

    Zi ei2

    +e comprueba 5ue para lograr dic)o resultado basta con elegir:

    +e obtiene adems unas venta,as !de regalo" El error residual medio es nulo 6a varian-a del error residual es mínima para dic)a estimación.

    Traducido: En término medio no nos e5uivocamos. (ual5uier otraestimación 5ue no cometa error en término medio* si es de tipo lineal*ser peor por presentar mayor variabilidad con respecto al error medio#5ue es cero'.

     xb yb

    S r b

     X 

    Y 101

      −==

  • 8/18/2019 ESTADISTICA_DESCRIPTIVA_BIVARIADA_Y_REGRESION_LINEAL_3_ (1)

    24/33

    Tema 3: Estadística bivariante 2@

  • 8/18/2019 ESTADISTICA_DESCRIPTIVA_BIVARIADA_Y_REGRESION_LINEAL_3_ (1)

    25/33

    Tema 3: Estadística bivariante 2

    =(ómo medir la bondad de una regresión>

    Jmaginemos un diagrama de dispersión* y vamos

    a tratar de comprender en primer lugar 5ué esel error residual* su relación con la varian-a de H* y de a)í* cómo medir la bondad de un a,uste.

  • 8/18/2019 ESTADISTICA_DESCRIPTIVA_BIVARIADA_Y_REGRESION_LINEAL_3_ (1)

    26/33

    Tema 3: Estadística bivariante 2

    Jnterpretación de la variabilidad en HHEn primer lugar olvidemos 5ue e4iste la

    variable ?. Qeamos cul es la variabilidaden el e,e H.

    6a fran,a sombreada indica la -ona dondevarían los valores de H.

    Proyección sobre el e,e H 1 olvidar ?

  • 8/18/2019 ESTADISTICA_DESCRIPTIVA_BIVARIADA_Y_REGRESION_LINEAL_3_ (1)

    27/33

    Tema 3: Estadística bivariante 2F

    Jnterpretación del residuoH

    8i,émonos a)ora en los errores de predicción#líneas verticales'. 6os proyectamos sobre el e,e H.

    +e observa 5ue los errores de predicción*residuos* estn menos dispersos 5ue lavariable H original.

    (uanto menos dispersos sean los residuos*

    me,or ser la bondad del a,uste.

  • 8/18/2019 ESTADISTICA_DESCRIPTIVA_BIVARIADA_Y_REGRESION_LINEAL_3_ (1)

    28/33

    Tema 3: Estadística bivariante 2%

    Resumiendo:

    9 6a dispersión del error residual ser una fracciónde la dispersión original de H

    9(uanto menor sea la dispersión del error residualme,or ser el a,uste de regresión.

    Eso )ace 5ue definamos como medida de bondad de un a,uste de regresión* o coeficiente de determinación a:

    Kondad de un a,uste

    2

    2

    2

    1Y 

    e

     R   −=

    H

    22  Ye   S S    <

  • 8/18/2019 ESTADISTICA_DESCRIPTIVA_BIVARIADA_Y_REGRESION_LINEAL_3_ (1)

    29/33

    Tema 3: Estadística bivariante 2&

    Resumen sobre bondad de un a,uste 6a bondad de un a,uste de un modelo de regresión se mide usando el

    coeficiente de determinación R2

    R2 es una cantidad adimensional 5ue sólo puede tomar valores en N/* $ Para el alumno astuto: =por 5ué>

    (uando un a,uste es bueno* R2 ser cercano a uno. =por 5ué>

    (uando un a,uste es malo R2 ser cercano a cero.  =por 5ué>

     0 R2 también se le denomina porcenta,e de variabilidad e4plicado por elmodelo de regresión.  =por 5ué> ifícil.

    R2 puede ser pesado de calcular en modelos de regresión general* peroen el modelo lineal simple* la e4presión es de lo ms sencilla: *$r * =Es co)erente lo dic)o entonces sobre los valores de R2>

  • 8/18/2019 ESTADISTICA_DESCRIPTIVA_BIVARIADA_Y_REGRESION_LINEAL_3_ (1)

    30/33

    Tema 3: Estadística bivariante 3/

    Stros modelos de regresión

    +e pueden considerar otros

    tipos de modelos* en funcióndel aspecto 5ue presente eldiagrama de dispersión#regresión no lineal'

    Jncluso se puede considerar el5ue una variable dependa devarias #regresión mAltiple'.

  • 8/18/2019 ESTADISTICA_DESCRIPTIVA_BIVARIADA_Y_REGRESION_LINEAL_3_ (1)

    31/33

    Tema 3: Estadística bivariante 3$

    Iodelos de anlisis de regresión

    Iodelos de regresión

    +imple IAltiple

    2ineal Do lineal 6ineal Do lineal

    $ variable e4plicativa 2 variables e4plicativas

    En clase sólo tratamos el modelo de regresión lineal simple.En todos los dems la bondad del a,uste se mide usando R2 

    Do a,ustaremos modelos a mano. [saremos para ello +P++.

  • 8/18/2019 ESTADISTICA_DESCRIPTIVA_BIVARIADA_Y_REGRESION_LINEAL_3_ (1)

    32/33

  • 8/18/2019 ESTADISTICA_DESCRIPTIVA_BIVARIADA_Y_REGRESION_LINEAL_3_ (1)

    33/33