estadística con r. nivel avanzado - vanesa...

31
1 Estadística con R. Nivel Avanzado Vanesa Jordá Departamento de Economía Universidad de Cantabria 15 de noviembre de 2018 [email protected]

Upload: others

Post on 18-Aug-2020

1 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Estadística con R. Nivel Avanzado - Vanesa Jordavanesajorda.com/dir/wp-content/uploads/2018/11/Curso_Avanzado_… · 7 Regresión lineal simple Práctica 2 La cristalería Glass

1

Estadística con R. Nivel Avanzado

Vanesa Jordá Departamento de Economía Universidad de Cantabria 15 de noviembre de 2018 [email protected]

Page 2: Estadística con R. Nivel Avanzado - Vanesa Jordavanesajorda.com/dir/wp-content/uploads/2018/11/Curso_Avanzado_… · 7 Regresión lineal simple Práctica 2 La cristalería Glass

2 Índice

u Variabledependientecontinua:I.   ModeloderegresiónlinealsimpleII.   ModeloderegresiónlinealmúltipleIII.  DiagnosisdelmodeloIV. MulticolinealidadV.   Predicción

u Variabledependientebinaria

Índice

Page 3: Estadística con R. Nivel Avanzado - Vanesa Jordavanesajorda.com/dir/wp-content/uploads/2018/11/Curso_Avanzado_… · 7 Regresión lineal simple Práctica 2 La cristalería Glass

3

Conceptosprevios

Objetivo1:Estudiartécnicasquenospermitanpredecirelvalordeunadeterminadavariabledeinterés(variabledependiente)Objetivo 2: Realizar inferencia sobre la relación de la variabledependiente con las variables que explican su comportamiento,(variablesindependientes,regresoresocovariables).¿Cómo?Con modelos estadísticos, una representación simplificada de larealidadquenospermiteexplicarelprocesogeneradordelosdatos.Losmodelospuedenestar compuestosdeunaovarias ecuaciones conmúltiplesparámetros(Recuerda,poblacionales!!).

Page 4: Estadística con R. Nivel Avanzado - Vanesa Jordavanesajorda.com/dir/wp-content/uploads/2018/11/Curso_Avanzado_… · 7 Regresión lineal simple Práctica 2 La cristalería Glass

4

LacristaleríaGlassS.L.,conunalargatradiciónenelsector,sabequeelcostedeproduccióndesusproductostienedoscomponentes:uncostefijode30euros,yuncostede4euroselmetrocuadrado(m2)quevaríaenfuncióndelasdimensionesdeladelcristal.a)Calcularlafuncióndelcostetotaldecadacristal.b)Representarlarelaciónentreelcostetotalyeltamaño(enm2).

Ejemplosimple

Page 5: Estadística con R. Nivel Avanzado - Vanesa Jordavanesajorda.com/dir/wp-content/uploads/2018/11/Curso_Avanzado_… · 7 Regresión lineal simple Práctica 2 La cristalería Glass

5

Solución:a)Elcostetotaldelcristal(y)vienedadoporlasiguienteexpresión:

y=30+4x,dondexrepresentaeláreadelcristalenm2.Conociendo la función de costes podemos predecir el coste deproducción de un cristal para cualquier tamaño: un cristal de 6.75m2tendráuncostede30+4*6.75=57euros.Interpretacióndelapendiente:Nosindicaqueanteunincrementodeláreadelcristalenunm2elcostetotaldelcristalaumentará4euros.

Ejemplosimple

Page 6: Estadística con R. Nivel Avanzado - Vanesa Jordavanesajorda.com/dir/wp-content/uploads/2018/11/Curso_Avanzado_… · 7 Regresión lineal simple Práctica 2 La cristalería Glass

6

Solución:b)

Ejemplosimple

Page 7: Estadística con R. Nivel Avanzado - Vanesa Jordavanesajorda.com/dir/wp-content/uploads/2018/11/Curso_Avanzado_… · 7 Regresión lineal simple Práctica 2 La cristalería Glass

7

Regresiónlinealsimple

Práctica2

LacristaleríaGlassS.L.subcontrataelserviciodetransportedeloscristaleshastalosestablecimientos,porloquedesconocelarelaciónqueguardaeltamañodelcristalconelpreciodetransportedelmismo.Parapoderfijarelpreciodesusproductos,laempresaquiereconstruirunmodelolinealquepredigaelcostedeltransporteenfuncióndeltamañodelcristal.Paraello,sehanregistradolossiguientesdatosreferentesalpreciodeltransporteyeláreadelosúltimos10cristalesvendidos:

Obtenerunmodelolinealquepermitapredecirelpreciodeltransporteenfuncióndeltamañodelcristalyrepresentargráficamenteestarelación.

Page 8: Estadística con R. Nivel Avanzado - Vanesa Jordavanesajorda.com/dir/wp-content/uploads/2018/11/Curso_Avanzado_… · 7 Regresión lineal simple Práctica 2 La cristalería Glass

8

Regresiónlinealsimple

Solución:Laempresaquierepredecirelpreciodeltransporte(variabledependienteY)enfunción(X)deltamañodelcristal:

yi=β0+β1xi+εi,

dondeyidenotaelcostedeltransportedexi,queeseltamañodelcristaldelaobservacióni,i=1,…,10.β0eseltérminoconstanteyβ1eselcoeficienteasociadoalavariabletamaño,siendoambosparámetrosaestimar.Porúltimo,εeseltérminodeerror.

Unavariableindependiente:modeloderegresiónlinealsimple

Page 9: Estadística con R. Nivel Avanzado - Vanesa Jordavanesajorda.com/dir/wp-content/uploads/2018/11/Curso_Avanzado_… · 7 Regresión lineal simple Práctica 2 La cristalería Glass

9

Regresiónlinealsimple

¿Cómoestimamoselmodelo?Pormínimoscuadradosordinarios(MCO) Minimizaelerror!

sonlosvaloresajustados:predicciónqueelmodeloproporcionaacadaobservación:

-

Page 10: Estadística con R. Nivel Avanzado - Vanesa Jordavanesajorda.com/dir/wp-content/uploads/2018/11/Curso_Avanzado_… · 7 Regresión lineal simple Práctica 2 La cristalería Glass

10

Regresiónlinealsimple

Supuestosdelmodelo

1.  Lavariabledependienteguardaunarelaciónlinealconlosregresores.2.  Los n pares de observaciones (x1, y1), …, (xn, yn), son observaciones

independientes.3.  Loserroresε1,…,εn,estánidénticaeindependientementedistribuidos

deacuerdoaunadistribuciónnormaldemediaceroyvarianzaσε2.

Sinosecumplenlossupuestos,lasestimacionesnosonválidas

Page 11: Estadística con R. Nivel Avanzado - Vanesa Jordavanesajorda.com/dir/wp-content/uploads/2018/11/Curso_Avanzado_… · 7 Regresión lineal simple Práctica 2 La cristalería Glass

11

Regresiónlinealsimple

Práctica3

El conjunto de datos smoke disponible en el paquete wooldridge, contienedatossobreelconsumodiariodecigarrillosde807individuosydeterminadascaracterísticas socio-económicas de los mismos y de su lugar de residencia(Wooldridge, 2013). Una de las variables es si el estado en el que viven losindividuostieneonorestriccioneslegalesparafumarenlosrestaurantes.Construirunmodeloquepermitaanalizarelefectode imponerrestriccioneslegalesparafumarenlosrestaurantessobreelconsumodiariodecigarrillos.

Page 12: Estadística con R. Nivel Avanzado - Vanesa Jordavanesajorda.com/dir/wp-content/uploads/2018/11/Curso_Avanzado_… · 7 Regresión lineal simple Práctica 2 La cristalería Glass

12

Regresiónlinealsimple

Solución:

El modelo que queremos construir tiene como variable dependiente elconsumo diario de cigarrillos (cigs) y como variable explicativa lasrestricciones para fumar en los restaurantes (restaurn), que es una variablebinariaquevale1sielestadonopermitefumarenlosrestaurantesy0enotrocaso.Portanto,elmodeloderegresiónlinealsimplequevamosaestimareselsiguiente:

cigsi=β0+β1restaurni+εi. restaurnesbinaria,Porloquelainterpretacióndelcoeficientecambia!!

β0=9.37,eslamediadecigarrillosdiariosquefumanlosindividuosdeestadosdondesepermitefumarenlosrestaurantes.β1 = -2.77, es la diferencia del consumo diario medio de cigarrillos en losestadosconrestricciónyaquellosquepermitenfumarenlosrestaurantes.

Page 13: Estadística con R. Nivel Avanzado - Vanesa Jordavanesajorda.com/dir/wp-content/uploads/2018/11/Curso_Avanzado_… · 7 Regresión lineal simple Práctica 2 La cristalería Glass

13

Regresiónlinealsimple

Práctica4

UsandolosdatosdeAnscombe(1973),compararlosajustesdelmodeloderegresiónlinealsimpledelosparesdevariables:(X1,Y1),(X2,Y2),(X3,Y3),(X4,Y4).

Page 14: Estadística con R. Nivel Avanzado - Vanesa Jordavanesajorda.com/dir/wp-content/uploads/2018/11/Curso_Avanzado_… · 7 Regresión lineal simple Práctica 2 La cristalería Glass

14

Regresiónlinealsimple

Page 15: Estadística con R. Nivel Avanzado - Vanesa Jordavanesajorda.com/dir/wp-content/uploads/2018/11/Curso_Avanzado_… · 7 Regresión lineal simple Práctica 2 La cristalería Glass

15

Regresiónlinealsimple

LarelaciónentreY3yX3esparticularmenteinteresante,yaquelarelaciónentre ambasvariables esperfecta, exceptopor la existenciadeunvaloratípico.Usaremosunestimadorrobustoavaloresatípicos:mínimoscuadradosponderadositerativos.

Page 16: Estadística con R. Nivel Avanzado - Vanesa Jordavanesajorda.com/dir/wp-content/uploads/2018/11/Curso_Avanzado_… · 7 Regresión lineal simple Práctica 2 La cristalería Glass

16

Regresiónlinealmúltiple

Generalmente, queremos incluir varias covariables para modelizar lavariable dependiente. En ese caso emplearemos elmodelo de regresiónlinealmúltiple,cuyaespecificacióneslasiguiente:

yi=β0+β1x1i+…+βkxki+εi.

Por lo que en lugar de dos coeficientes, vamos a estimar los k+1coeficientesdelaskcovariablesyeltérminoconstante.Práctica5Con el conjunto de datos hprice1, disponible en el paquetewooldridge,estimarunmodeloderegresiónparaelpreciodelasviviendasenfuncióndel tamaño de la casa, las dimensiones de la parcela, el número dehabitacionesyelestilodelacasa(Wooldridge,2013).

Page 17: Estadística con R. Nivel Avanzado - Vanesa Jordavanesajorda.com/dir/wp-content/uploads/2018/11/Curso_Avanzado_… · 7 Regresión lineal simple Práctica 2 La cristalería Glass

17

Regresiónlinealmúltiple

Solución:

Lasvariablesdeinterésenelconjuntodedatoshprice1sonlassiguientes:

•  price:preciodelacasaenmilesdedólares.•  bdrms:númerodehabitaciones.•  lotsize:tamañodelaparcelaenpiescuadrados.•  sqrft:tamañodelacasaenpiescuadrados.•  colonial: variable binaria que toma valor 1 si la casa es de estilo

colonialy0enotrocaso.

Laespecificacióndelmodeloderegresiónlinealmúltipleseráenestecasolasiguiente:

pricei=β0+β1bdromsi+β2lotsizei+β3sqrfti+β4coloniali+εi.

Page 18: Estadística con R. Nivel Avanzado - Vanesa Jordavanesajorda.com/dir/wp-content/uploads/2018/11/Curso_Avanzado_… · 7 Regresión lineal simple Práctica 2 La cristalería Glass

18

Regresiónlinealmúltiple

Loscoeficientesobtenidossondistintosalosqueseobtendríanconunmodeloderegresiónsimple.

Lainterpretacióndelcoeficienteasociadoalotsize:

RLsimple:siseincrementaenunpiecuadradoeltamañodelaparcelaseincrementaelpreciodelacasademediaen2.08dólares.

RLmúltiple:manteniendolasdemásvariablesconstantes,elpreciodelacasa se incrementa en promedio 2.08 dólares ante incrementos deltamañodelaparceladeunpiecuadrado.

Page 19: Estadística con R. Nivel Avanzado - Vanesa Jordavanesajorda.com/dir/wp-content/uploads/2018/11/Curso_Avanzado_… · 7 Regresión lineal simple Práctica 2 La cristalería Glass

19

Sesgoporvariableomitida

Esesencialincorporarenelmodeloloscontrolesquepuedantenerunainfluenciasobrelavariabledependienteparaevitarelsesgoporvariableomitida.

PuedeinclusoinvalidarelanálisisrealizadoEjemplo:Imaginaqueunestudiodemuestrapormediodeunaregresiónlinealsimplequela venta de helados afecta positivamente al número de crímenes en unadeterminadaciudad.

¿Significaestoquecomerheladoincitaacometerdelitos?

Page 20: Estadística con R. Nivel Avanzado - Vanesa Jordavanesajorda.com/dir/wp-content/uploads/2018/11/Curso_Avanzado_… · 7 Regresión lineal simple Práctica 2 La cristalería Glass

20

Diagnosisdelmodelo

Page 21: Estadística con R. Nivel Avanzado - Vanesa Jordavanesajorda.com/dir/wp-content/uploads/2018/11/Curso_Avanzado_… · 7 Regresión lineal simple Práctica 2 La cristalería Glass

Una posible solución a los problemas encontrados en elmodelo anterior(outliersyheterocedasticidad)estomarlogarimos.Acontinuaciónvamosaestimarelsiguientemodelo:

log(pricei)=β0+β1bdromsi+β2log(lotsizei)+β3log(sqrfti)+β4coloniali+εi.Semantienen los signosy la significatividadpero…La interpretación deloscoeficientescambia:lotsize: Si se incrementa el tamaño de la parcela en un 1 por ciento elpreciodelacasaascenderá,enpromedio,un0.17porciento,manteniendoelrestodevariablesconstantes.

21

Diagnosisdelmodelo

Page 22: Estadística con R. Nivel Avanzado - Vanesa Jordavanesajorda.com/dir/wp-content/uploads/2018/11/Curso_Avanzado_… · 7 Regresión lineal simple Práctica 2 La cristalería Glass

22

Diagnosisdelmodelo

Losoutlierssiguenahí!

Page 23: Estadística con R. Nivel Avanzado - Vanesa Jordavanesajorda.com/dir/wp-content/uploads/2018/11/Curso_Avanzado_… · 7 Regresión lineal simple Práctica 2 La cristalería Glass

Lamulticolinealidadesun fenómenoquesedacuandodoscovariablespresentancorrelaciónelevada,loquehacequeloscoeficientesseanmuyinestables.Ejemplo:Unmodeloquetratadepredecirlaalturadeunadeunedificioporlacantidaddecemento empleada expresada en kilogramos (X1) y otra variable referente alcementoempleadoengramos(X2)empleainformaciónredundante:X2=1000X1Ejemplo:Imaginaquequieresanalizarelconsumo(Y)delasfamiliasenfuncióndesuingresoyademássielsexodelindividuoquepercibedichoingresoafectaalconsumo:

Yi=β0+β1X1i+β2X2i+β3X3i+eiDadoqueX1=X2+X3,nuestromodelopresentamulticolinealidadperfecta.

Generalmenteesteproblemanopuededetectarsedeformadirecta. 23

Multicolinealidad

Page 24: Estadística con R. Nivel Avanzado - Vanesa Jordavanesajorda.com/dir/wp-content/uploads/2018/11/Curso_Avanzado_… · 7 Regresión lineal simple Práctica 2 La cristalería Glass

Elfactordeinflacióndelavarianza(varianceinflationfactor-VIF)mideelgradoenelquelavarianzadeuncoeficienteseincrementadebidoalamulticolinealidad.

ParalacovariableX1,estamedidaseexpresacomo:

dondeeselcoeficientededeterminacióndelmodelolinealqueprediceX1enfuncióndelrestodecovariables.•  Valormínimo1.•  A medida que el coeficiente de determinación tiene a cero el VIF tiende a

infinito.•  Comoreglageneral,VIFmayoracuatroindicaquelavariablepuedeintroducir

esteproblemaenelmodelo,aunquenoesuncasograve.•  ParavaloresdelVIFsuperioresa10seríaaconsejableeliminar lavariabledel

modelodirectamente,yaqueelgradodemulticiolinalidadesmuyelevado.

24

Multicolinealidad

Page 25: Estadística con R. Nivel Avanzado - Vanesa Jordavanesajorda.com/dir/wp-content/uploads/2018/11/Curso_Avanzado_… · 7 Regresión lineal simple Práctica 2 La cristalería Glass

Práctica6

UsandoelmodeloestimadoenlaPráctica6.8,predecirelprecioquetendránenelmercadolassiguientescasas:

25

Predicción

Page 26: Estadística con R. Nivel Avanzado - Vanesa Jordavanesajorda.com/dir/wp-content/uploads/2018/11/Curso_Avanzado_… · 7 Regresión lineal simple Práctica 2 La cristalería Glass

Práctica7

El conjunto de datos alcohol disponible en el paquete wooldridge recoge datossobre el abuso en el consumo de bebidas alcohólicas de una muestra de 9822individuosjuntoconunaseriedecaracterísticassociodemográficasdelosmismos(Terza, 2002). En esta práctica vamos a investigar si el consumo excesivo debebidasalcohólicasafectaalaprobabilidaddetenerunempleo.

a)  Estimarunmodeloderegresiónlinealincluyendocomovariabledependientelavariable binaria employ y como independientes las variablesabuse,age, educ,marriedywhite.

employi=β0+β1abusei+β1agei+β1educi+β1marriedi+β1whitei+εi.

26

Variabledependientebinaria

Page 27: Estadística con R. Nivel Avanzado - Vanesa Jordavanesajorda.com/dir/wp-content/uploads/2018/11/Curso_Avanzado_… · 7 Regresión lineal simple Práctica 2 La cristalería Glass

•  La estimación del modelo de regresión lineal proporciona estimacionescontinuas para la variable dependiente, por lo que con la especificaciónanteriornopodemosestimarlavariablebinariatrabajaronotrabajar.

•  Loque sípodemospredecires laprobabilidaddequeun individuo tengatrabajo.

•  La interpretación de los coeficientes sería análoga a la de prácticasanteriores: respecto a la variable abuse, nos indica que la probabilidad detener trabajo disminuye un 0.02 en caso de abusar del consumo de alcohol,manteniendoconstanteselrestodefactores.

27

Variabledependientebinaria

Page 28: Estadística con R. Nivel Avanzado - Vanesa Jordavanesajorda.com/dir/wp-content/uploads/2018/11/Curso_Avanzado_… · 7 Regresión lineal simple Práctica 2 La cristalería Glass

b) Predecir la probabilidad de que un individuo de 30 años, que no abusa delalcohol,con18añosdeeducación,blancoycasadotrabaje.

La predicción obtenida indica que un individuo con las características anteriorestieneunaprobabilidadde1.03deestarempleado.LimitacionesdeestimarporMCOcuandolavariabledependienteesbinaria:•  Lasestimacionesnoestánacotadasentre0y1.•  El error ya no se distribuye normalmente, si no que sigue una distribución

binomial.Esta limitaciónpuedenoserunproblemaencasosconunamuestragrande, ya que, asintóticamente, la distribución de los errores tiende a ladistribuciónnormal.

•  Los errores son heterocedásticos, lo cual debe tenerse en cuenta en laestimacióncalculandoerroresestándarrobustos.

28

Variabledependientebinaria

Page 29: Estadística con R. Nivel Avanzado - Vanesa Jordavanesajorda.com/dir/wp-content/uploads/2018/11/Curso_Avanzado_… · 7 Regresión lineal simple Práctica 2 La cristalería Glass

c)Estimarelmodelodelprimerapartadopormedioderegresiónlogística.

Laregresión logísticaacota lasprediccionesde lavariabledependienteentrecero y uno, solucionando así la principal limitación del modelo de regresiónlinealcuandolavariabledependienteesbinaria.

En el modelo de regresión logística se modeliza la probabilidad de estarempleado(Pi)deacuerdoalasiguienteexpresión:

siendo,portanto,elmodeloestimadoelsiguiente:

Loscoeficientesmidenlavariacióndellogaritmodelcocientedeprobabilidadesanteuncambiounitarioenlasvariablesdependientes,manteniendoelrestodefactoresconstantes.

29

Variabledependientebinaria

Page 30: Estadística con R. Nivel Avanzado - Vanesa Jordavanesajorda.com/dir/wp-content/uploads/2018/11/Curso_Avanzado_… · 7 Regresión lineal simple Práctica 2 La cristalería Glass

d)Calcularelefectomarginalmediodelmodeloestimadoenelapartadoc.

Variable abuse: El efecto marginal nos indica que, evaluando el resto devariablesensumedia,laprobabilidaddeestarempleadodisminuyeen0.02sielindividuoabusadelalcohol.

Variable educación: aumentar en un año la educación incrementa en 0.01 laprobabilidaddeencontrartrabajo,sielrestodevariablesestánevaluadasen lamedia.

30

Variabledependientebinaria

Page 31: Estadística con R. Nivel Avanzado - Vanesa Jordavanesajorda.com/dir/wp-content/uploads/2018/11/Curso_Avanzado_… · 7 Regresión lineal simple Práctica 2 La cristalería Glass

e)Predecirconelmodeloderegresiónlogísticalaprobabilidaddequeunindividuode30años, quenoabusadel alcohol, con18añosdeeducación,blancoy casadotrabaje.

El comando predict predice el valor del logaritmo neperiano del ratio deprobabilidades,porloqueparaobtenerlapredicciónsobrelaprobabilidaddeestarempleado,debemosdespejarla.

Comoresultadoobtenemosqueparaelindividuoquebajoelmodeloderegresiónlinealteníaun103porcientodeprobabilidaddetrabajar,elmodeloderegresiónlogísticaprediceunaprobabilidaddel97.62porciento.

31

Variabledependientebinaria