estadística con r. nivel avanzado - vanesa...

Post on 18-Aug-2020

1 Views

Category:

Documents

0 Downloads

Preview:

Click to see full reader

TRANSCRIPT

1

Estadística con R. Nivel Avanzado

Vanesa Jordá Departamento de Economía Universidad de Cantabria 15 de noviembre de 2018 jordav@unican.es

2 Índice

u Variabledependientecontinua:I.   ModeloderegresiónlinealsimpleII.   ModeloderegresiónlinealmúltipleIII.  DiagnosisdelmodeloIV. MulticolinealidadV.   Predicción

u Variabledependientebinaria

Índice

3

Conceptosprevios

Objetivo1:Estudiartécnicasquenospermitanpredecirelvalordeunadeterminadavariabledeinterés(variabledependiente)Objetivo 2: Realizar inferencia sobre la relación de la variabledependiente con las variables que explican su comportamiento,(variablesindependientes,regresoresocovariables).¿Cómo?Con modelos estadísticos, una representación simplificada de larealidadquenospermiteexplicarelprocesogeneradordelosdatos.Losmodelospuedenestar compuestosdeunaovarias ecuaciones conmúltiplesparámetros(Recuerda,poblacionales!!).

4

LacristaleríaGlassS.L.,conunalargatradiciónenelsector,sabequeelcostedeproduccióndesusproductostienedoscomponentes:uncostefijode30euros,yuncostede4euroselmetrocuadrado(m2)quevaríaenfuncióndelasdimensionesdeladelcristal.a)Calcularlafuncióndelcostetotaldecadacristal.b)Representarlarelaciónentreelcostetotalyeltamaño(enm2).

Ejemplosimple

5

Solución:a)Elcostetotaldelcristal(y)vienedadoporlasiguienteexpresión:

y=30+4x,dondexrepresentaeláreadelcristalenm2.Conociendo la función de costes podemos predecir el coste deproducción de un cristal para cualquier tamaño: un cristal de 6.75m2tendráuncostede30+4*6.75=57euros.Interpretacióndelapendiente:Nosindicaqueanteunincrementodeláreadelcristalenunm2elcostetotaldelcristalaumentará4euros.

Ejemplosimple

6

Solución:b)

Ejemplosimple

7

Regresiónlinealsimple

Práctica2

LacristaleríaGlassS.L.subcontrataelserviciodetransportedeloscristaleshastalosestablecimientos,porloquedesconocelarelaciónqueguardaeltamañodelcristalconelpreciodetransportedelmismo.Parapoderfijarelpreciodesusproductos,laempresaquiereconstruirunmodelolinealquepredigaelcostedeltransporteenfuncióndeltamañodelcristal.Paraello,sehanregistradolossiguientesdatosreferentesalpreciodeltransporteyeláreadelosúltimos10cristalesvendidos:

Obtenerunmodelolinealquepermitapredecirelpreciodeltransporteenfuncióndeltamañodelcristalyrepresentargráficamenteestarelación.

8

Regresiónlinealsimple

Solución:Laempresaquierepredecirelpreciodeltransporte(variabledependienteY)enfunción(X)deltamañodelcristal:

yi=β0+β1xi+εi,

dondeyidenotaelcostedeltransportedexi,queeseltamañodelcristaldelaobservacióni,i=1,…,10.β0eseltérminoconstanteyβ1eselcoeficienteasociadoalavariabletamaño,siendoambosparámetrosaestimar.Porúltimo,εeseltérminodeerror.

Unavariableindependiente:modeloderegresiónlinealsimple

9

Regresiónlinealsimple

¿Cómoestimamoselmodelo?Pormínimoscuadradosordinarios(MCO) Minimizaelerror!

sonlosvaloresajustados:predicciónqueelmodeloproporcionaacadaobservación:

-

10

Regresiónlinealsimple

Supuestosdelmodelo

1.  Lavariabledependienteguardaunarelaciónlinealconlosregresores.2.  Los n pares de observaciones (x1, y1), …, (xn, yn), son observaciones

independientes.3.  Loserroresε1,…,εn,estánidénticaeindependientementedistribuidos

deacuerdoaunadistribuciónnormaldemediaceroyvarianzaσε2.

Sinosecumplenlossupuestos,lasestimacionesnosonválidas

11

Regresiónlinealsimple

Práctica3

El conjunto de datos smoke disponible en el paquete wooldridge, contienedatossobreelconsumodiariodecigarrillosde807individuosydeterminadascaracterísticas socio-económicas de los mismos y de su lugar de residencia(Wooldridge, 2013). Una de las variables es si el estado en el que viven losindividuostieneonorestriccioneslegalesparafumarenlosrestaurantes.Construirunmodeloquepermitaanalizarelefectode imponerrestriccioneslegalesparafumarenlosrestaurantessobreelconsumodiariodecigarrillos.

12

Regresiónlinealsimple

Solución:

El modelo que queremos construir tiene como variable dependiente elconsumo diario de cigarrillos (cigs) y como variable explicativa lasrestricciones para fumar en los restaurantes (restaurn), que es una variablebinariaquevale1sielestadonopermitefumarenlosrestaurantesy0enotrocaso.Portanto,elmodeloderegresiónlinealsimplequevamosaestimareselsiguiente:

cigsi=β0+β1restaurni+εi. restaurnesbinaria,Porloquelainterpretacióndelcoeficientecambia!!

β0=9.37,eslamediadecigarrillosdiariosquefumanlosindividuosdeestadosdondesepermitefumarenlosrestaurantes.β1 = -2.77, es la diferencia del consumo diario medio de cigarrillos en losestadosconrestricciónyaquellosquepermitenfumarenlosrestaurantes.

13

Regresiónlinealsimple

Práctica4

UsandolosdatosdeAnscombe(1973),compararlosajustesdelmodeloderegresiónlinealsimpledelosparesdevariables:(X1,Y1),(X2,Y2),(X3,Y3),(X4,Y4).

14

Regresiónlinealsimple

15

Regresiónlinealsimple

LarelaciónentreY3yX3esparticularmenteinteresante,yaquelarelaciónentre ambasvariables esperfecta, exceptopor la existenciadeunvaloratípico.Usaremosunestimadorrobustoavaloresatípicos:mínimoscuadradosponderadositerativos.

16

Regresiónlinealmúltiple

Generalmente, queremos incluir varias covariables para modelizar lavariable dependiente. En ese caso emplearemos elmodelo de regresiónlinealmúltiple,cuyaespecificacióneslasiguiente:

yi=β0+β1x1i+…+βkxki+εi.

Por lo que en lugar de dos coeficientes, vamos a estimar los k+1coeficientesdelaskcovariablesyeltérminoconstante.Práctica5Con el conjunto de datos hprice1, disponible en el paquetewooldridge,estimarunmodeloderegresiónparaelpreciodelasviviendasenfuncióndel tamaño de la casa, las dimensiones de la parcela, el número dehabitacionesyelestilodelacasa(Wooldridge,2013).

17

Regresiónlinealmúltiple

Solución:

Lasvariablesdeinterésenelconjuntodedatoshprice1sonlassiguientes:

•  price:preciodelacasaenmilesdedólares.•  bdrms:númerodehabitaciones.•  lotsize:tamañodelaparcelaenpiescuadrados.•  sqrft:tamañodelacasaenpiescuadrados.•  colonial: variable binaria que toma valor 1 si la casa es de estilo

colonialy0enotrocaso.

Laespecificacióndelmodeloderegresiónlinealmúltipleseráenestecasolasiguiente:

pricei=β0+β1bdromsi+β2lotsizei+β3sqrfti+β4coloniali+εi.

18

Regresiónlinealmúltiple

Loscoeficientesobtenidossondistintosalosqueseobtendríanconunmodeloderegresiónsimple.

Lainterpretacióndelcoeficienteasociadoalotsize:

RLsimple:siseincrementaenunpiecuadradoeltamañodelaparcelaseincrementaelpreciodelacasademediaen2.08dólares.

RLmúltiple:manteniendolasdemásvariablesconstantes,elpreciodelacasa se incrementa en promedio 2.08 dólares ante incrementos deltamañodelaparceladeunpiecuadrado.

19

Sesgoporvariableomitida

Esesencialincorporarenelmodeloloscontrolesquepuedantenerunainfluenciasobrelavariabledependienteparaevitarelsesgoporvariableomitida.

PuedeinclusoinvalidarelanálisisrealizadoEjemplo:Imaginaqueunestudiodemuestrapormediodeunaregresiónlinealsimplequela venta de helados afecta positivamente al número de crímenes en unadeterminadaciudad.

¿Significaestoquecomerheladoincitaacometerdelitos?

20

Diagnosisdelmodelo

Una posible solución a los problemas encontrados en elmodelo anterior(outliersyheterocedasticidad)estomarlogarimos.Acontinuaciónvamosaestimarelsiguientemodelo:

log(pricei)=β0+β1bdromsi+β2log(lotsizei)+β3log(sqrfti)+β4coloniali+εi.Semantienen los signosy la significatividadpero…La interpretación deloscoeficientescambia:lotsize: Si se incrementa el tamaño de la parcela en un 1 por ciento elpreciodelacasaascenderá,enpromedio,un0.17porciento,manteniendoelrestodevariablesconstantes.

21

Diagnosisdelmodelo

22

Diagnosisdelmodelo

Losoutlierssiguenahí!

Lamulticolinealidadesun fenómenoquesedacuandodoscovariablespresentancorrelaciónelevada,loquehacequeloscoeficientesseanmuyinestables.Ejemplo:Unmodeloquetratadepredecirlaalturadeunadeunedificioporlacantidaddecemento empleada expresada en kilogramos (X1) y otra variable referente alcementoempleadoengramos(X2)empleainformaciónredundante:X2=1000X1Ejemplo:Imaginaquequieresanalizarelconsumo(Y)delasfamiliasenfuncióndesuingresoyademássielsexodelindividuoquepercibedichoingresoafectaalconsumo:

Yi=β0+β1X1i+β2X2i+β3X3i+eiDadoqueX1=X2+X3,nuestromodelopresentamulticolinealidadperfecta.

Generalmenteesteproblemanopuededetectarsedeformadirecta. 23

Multicolinealidad

Elfactordeinflacióndelavarianza(varianceinflationfactor-VIF)mideelgradoenelquelavarianzadeuncoeficienteseincrementadebidoalamulticolinealidad.

ParalacovariableX1,estamedidaseexpresacomo:

dondeeselcoeficientededeterminacióndelmodelolinealqueprediceX1enfuncióndelrestodecovariables.•  Valormínimo1.•  A medida que el coeficiente de determinación tiene a cero el VIF tiende a

infinito.•  Comoreglageneral,VIFmayoracuatroindicaquelavariablepuedeintroducir

esteproblemaenelmodelo,aunquenoesuncasograve.•  ParavaloresdelVIFsuperioresa10seríaaconsejableeliminar lavariabledel

modelodirectamente,yaqueelgradodemulticiolinalidadesmuyelevado.

24

Multicolinealidad

Práctica6

UsandoelmodeloestimadoenlaPráctica6.8,predecirelprecioquetendránenelmercadolassiguientescasas:

25

Predicción

Práctica7

El conjunto de datos alcohol disponible en el paquete wooldridge recoge datossobre el abuso en el consumo de bebidas alcohólicas de una muestra de 9822individuosjuntoconunaseriedecaracterísticassociodemográficasdelosmismos(Terza, 2002). En esta práctica vamos a investigar si el consumo excesivo debebidasalcohólicasafectaalaprobabilidaddetenerunempleo.

a)  Estimarunmodeloderegresiónlinealincluyendocomovariabledependientelavariable binaria employ y como independientes las variablesabuse,age, educ,marriedywhite.

employi=β0+β1abusei+β1agei+β1educi+β1marriedi+β1whitei+εi.

26

Variabledependientebinaria

•  La estimación del modelo de regresión lineal proporciona estimacionescontinuas para la variable dependiente, por lo que con la especificaciónanteriornopodemosestimarlavariablebinariatrabajaronotrabajar.

•  Loque sípodemospredecires laprobabilidaddequeun individuo tengatrabajo.

•  La interpretación de los coeficientes sería análoga a la de prácticasanteriores: respecto a la variable abuse, nos indica que la probabilidad detener trabajo disminuye un 0.02 en caso de abusar del consumo de alcohol,manteniendoconstanteselrestodefactores.

27

Variabledependientebinaria

b) Predecir la probabilidad de que un individuo de 30 años, que no abusa delalcohol,con18añosdeeducación,blancoycasadotrabaje.

La predicción obtenida indica que un individuo con las características anteriorestieneunaprobabilidadde1.03deestarempleado.LimitacionesdeestimarporMCOcuandolavariabledependienteesbinaria:•  Lasestimacionesnoestánacotadasentre0y1.•  El error ya no se distribuye normalmente, si no que sigue una distribución

binomial.Esta limitaciónpuedenoserunproblemaencasosconunamuestragrande, ya que, asintóticamente, la distribución de los errores tiende a ladistribuciónnormal.

•  Los errores son heterocedásticos, lo cual debe tenerse en cuenta en laestimacióncalculandoerroresestándarrobustos.

28

Variabledependientebinaria

c)Estimarelmodelodelprimerapartadopormedioderegresiónlogística.

Laregresión logísticaacota lasprediccionesde lavariabledependienteentrecero y uno, solucionando así la principal limitación del modelo de regresiónlinealcuandolavariabledependienteesbinaria.

En el modelo de regresión logística se modeliza la probabilidad de estarempleado(Pi)deacuerdoalasiguienteexpresión:

siendo,portanto,elmodeloestimadoelsiguiente:

Loscoeficientesmidenlavariacióndellogaritmodelcocientedeprobabilidadesanteuncambiounitarioenlasvariablesdependientes,manteniendoelrestodefactoresconstantes.

29

Variabledependientebinaria

d)Calcularelefectomarginalmediodelmodeloestimadoenelapartadoc.

Variable abuse: El efecto marginal nos indica que, evaluando el resto devariablesensumedia,laprobabilidaddeestarempleadodisminuyeen0.02sielindividuoabusadelalcohol.

Variable educación: aumentar en un año la educación incrementa en 0.01 laprobabilidaddeencontrartrabajo,sielrestodevariablesestánevaluadasen lamedia.

30

Variabledependientebinaria

e)Predecirconelmodeloderegresiónlogísticalaprobabilidaddequeunindividuode30años, quenoabusadel alcohol, con18añosdeeducación,blancoy casadotrabaje.

El comando predict predice el valor del logaritmo neperiano del ratio deprobabilidades,porloqueparaobtenerlapredicciónsobrelaprobabilidaddeestarempleado,debemosdespejarla.

Comoresultadoobtenemosqueparaelindividuoquebajoelmodeloderegresiónlinealteníaun103porcientodeprobabilidaddetrabajar,elmodeloderegresiónlogísticaprediceunaprobabilidaddel97.62porciento.

31

Variabledependientebinaria

top related