estadística con r. nivel avanzado - vanesa...
TRANSCRIPT
1
Estadística con R. Nivel Avanzado
Vanesa Jordá Departamento de Economía Universidad de Cantabria 15 de noviembre de 2018 [email protected]
2 Índice
u Variabledependientecontinua:I. ModeloderegresiónlinealsimpleII. ModeloderegresiónlinealmúltipleIII. DiagnosisdelmodeloIV. MulticolinealidadV. Predicción
u Variabledependientebinaria
Índice
3
Conceptosprevios
Objetivo1:Estudiartécnicasquenospermitanpredecirelvalordeunadeterminadavariabledeinterés(variabledependiente)Objetivo 2: Realizar inferencia sobre la relación de la variabledependiente con las variables que explican su comportamiento,(variablesindependientes,regresoresocovariables).¿Cómo?Con modelos estadísticos, una representación simplificada de larealidadquenospermiteexplicarelprocesogeneradordelosdatos.Losmodelospuedenestar compuestosdeunaovarias ecuaciones conmúltiplesparámetros(Recuerda,poblacionales!!).
4
LacristaleríaGlassS.L.,conunalargatradiciónenelsector,sabequeelcostedeproduccióndesusproductostienedoscomponentes:uncostefijode30euros,yuncostede4euroselmetrocuadrado(m2)quevaríaenfuncióndelasdimensionesdeladelcristal.a)Calcularlafuncióndelcostetotaldecadacristal.b)Representarlarelaciónentreelcostetotalyeltamaño(enm2).
Ejemplosimple
5
Solución:a)Elcostetotaldelcristal(y)vienedadoporlasiguienteexpresión:
y=30+4x,dondexrepresentaeláreadelcristalenm2.Conociendo la función de costes podemos predecir el coste deproducción de un cristal para cualquier tamaño: un cristal de 6.75m2tendráuncostede30+4*6.75=57euros.Interpretacióndelapendiente:Nosindicaqueanteunincrementodeláreadelcristalenunm2elcostetotaldelcristalaumentará4euros.
Ejemplosimple
6
Solución:b)
Ejemplosimple
7
Regresiónlinealsimple
Práctica2
LacristaleríaGlassS.L.subcontrataelserviciodetransportedeloscristaleshastalosestablecimientos,porloquedesconocelarelaciónqueguardaeltamañodelcristalconelpreciodetransportedelmismo.Parapoderfijarelpreciodesusproductos,laempresaquiereconstruirunmodelolinealquepredigaelcostedeltransporteenfuncióndeltamañodelcristal.Paraello,sehanregistradolossiguientesdatosreferentesalpreciodeltransporteyeláreadelosúltimos10cristalesvendidos:
Obtenerunmodelolinealquepermitapredecirelpreciodeltransporteenfuncióndeltamañodelcristalyrepresentargráficamenteestarelación.
8
Regresiónlinealsimple
Solución:Laempresaquierepredecirelpreciodeltransporte(variabledependienteY)enfunción(X)deltamañodelcristal:
yi=β0+β1xi+εi,
dondeyidenotaelcostedeltransportedexi,queeseltamañodelcristaldelaobservacióni,i=1,…,10.β0eseltérminoconstanteyβ1eselcoeficienteasociadoalavariabletamaño,siendoambosparámetrosaestimar.Porúltimo,εeseltérminodeerror.
Unavariableindependiente:modeloderegresiónlinealsimple
9
Regresiónlinealsimple
¿Cómoestimamoselmodelo?Pormínimoscuadradosordinarios(MCO) Minimizaelerror!
sonlosvaloresajustados:predicciónqueelmodeloproporcionaacadaobservación:
-
10
Regresiónlinealsimple
Supuestosdelmodelo
1. Lavariabledependienteguardaunarelaciónlinealconlosregresores.2. Los n pares de observaciones (x1, y1), …, (xn, yn), son observaciones
independientes.3. Loserroresε1,…,εn,estánidénticaeindependientementedistribuidos
deacuerdoaunadistribuciónnormaldemediaceroyvarianzaσε2.
Sinosecumplenlossupuestos,lasestimacionesnosonválidas
11
Regresiónlinealsimple
Práctica3
El conjunto de datos smoke disponible en el paquete wooldridge, contienedatossobreelconsumodiariodecigarrillosde807individuosydeterminadascaracterísticas socio-económicas de los mismos y de su lugar de residencia(Wooldridge, 2013). Una de las variables es si el estado en el que viven losindividuostieneonorestriccioneslegalesparafumarenlosrestaurantes.Construirunmodeloquepermitaanalizarelefectode imponerrestriccioneslegalesparafumarenlosrestaurantessobreelconsumodiariodecigarrillos.
12
Regresiónlinealsimple
Solución:
El modelo que queremos construir tiene como variable dependiente elconsumo diario de cigarrillos (cigs) y como variable explicativa lasrestricciones para fumar en los restaurantes (restaurn), que es una variablebinariaquevale1sielestadonopermitefumarenlosrestaurantesy0enotrocaso.Portanto,elmodeloderegresiónlinealsimplequevamosaestimareselsiguiente:
cigsi=β0+β1restaurni+εi. restaurnesbinaria,Porloquelainterpretacióndelcoeficientecambia!!
β0=9.37,eslamediadecigarrillosdiariosquefumanlosindividuosdeestadosdondesepermitefumarenlosrestaurantes.β1 = -2.77, es la diferencia del consumo diario medio de cigarrillos en losestadosconrestricciónyaquellosquepermitenfumarenlosrestaurantes.
13
Regresiónlinealsimple
Práctica4
UsandolosdatosdeAnscombe(1973),compararlosajustesdelmodeloderegresiónlinealsimpledelosparesdevariables:(X1,Y1),(X2,Y2),(X3,Y3),(X4,Y4).
14
Regresiónlinealsimple
15
Regresiónlinealsimple
LarelaciónentreY3yX3esparticularmenteinteresante,yaquelarelaciónentre ambasvariables esperfecta, exceptopor la existenciadeunvaloratípico.Usaremosunestimadorrobustoavaloresatípicos:mínimoscuadradosponderadositerativos.
16
Regresiónlinealmúltiple
Generalmente, queremos incluir varias covariables para modelizar lavariable dependiente. En ese caso emplearemos elmodelo de regresiónlinealmúltiple,cuyaespecificacióneslasiguiente:
yi=β0+β1x1i+…+βkxki+εi.
Por lo que en lugar de dos coeficientes, vamos a estimar los k+1coeficientesdelaskcovariablesyeltérminoconstante.Práctica5Con el conjunto de datos hprice1, disponible en el paquetewooldridge,estimarunmodeloderegresiónparaelpreciodelasviviendasenfuncióndel tamaño de la casa, las dimensiones de la parcela, el número dehabitacionesyelestilodelacasa(Wooldridge,2013).
17
Regresiónlinealmúltiple
Solución:
Lasvariablesdeinterésenelconjuntodedatoshprice1sonlassiguientes:
• price:preciodelacasaenmilesdedólares.• bdrms:númerodehabitaciones.• lotsize:tamañodelaparcelaenpiescuadrados.• sqrft:tamañodelacasaenpiescuadrados.• colonial: variable binaria que toma valor 1 si la casa es de estilo
colonialy0enotrocaso.
Laespecificacióndelmodeloderegresiónlinealmúltipleseráenestecasolasiguiente:
pricei=β0+β1bdromsi+β2lotsizei+β3sqrfti+β4coloniali+εi.
18
Regresiónlinealmúltiple
Loscoeficientesobtenidossondistintosalosqueseobtendríanconunmodeloderegresiónsimple.
Lainterpretacióndelcoeficienteasociadoalotsize:
RLsimple:siseincrementaenunpiecuadradoeltamañodelaparcelaseincrementaelpreciodelacasademediaen2.08dólares.
RLmúltiple:manteniendolasdemásvariablesconstantes,elpreciodelacasa se incrementa en promedio 2.08 dólares ante incrementos deltamañodelaparceladeunpiecuadrado.
19
Sesgoporvariableomitida
Esesencialincorporarenelmodeloloscontrolesquepuedantenerunainfluenciasobrelavariabledependienteparaevitarelsesgoporvariableomitida.
PuedeinclusoinvalidarelanálisisrealizadoEjemplo:Imaginaqueunestudiodemuestrapormediodeunaregresiónlinealsimplequela venta de helados afecta positivamente al número de crímenes en unadeterminadaciudad.
¿Significaestoquecomerheladoincitaacometerdelitos?
20
Diagnosisdelmodelo
Una posible solución a los problemas encontrados en elmodelo anterior(outliersyheterocedasticidad)estomarlogarimos.Acontinuaciónvamosaestimarelsiguientemodelo:
log(pricei)=β0+β1bdromsi+β2log(lotsizei)+β3log(sqrfti)+β4coloniali+εi.Semantienen los signosy la significatividadpero…La interpretación deloscoeficientescambia:lotsize: Si se incrementa el tamaño de la parcela en un 1 por ciento elpreciodelacasaascenderá,enpromedio,un0.17porciento,manteniendoelrestodevariablesconstantes.
21
Diagnosisdelmodelo
22
Diagnosisdelmodelo
Losoutlierssiguenahí!
Lamulticolinealidadesun fenómenoquesedacuandodoscovariablespresentancorrelaciónelevada,loquehacequeloscoeficientesseanmuyinestables.Ejemplo:Unmodeloquetratadepredecirlaalturadeunadeunedificioporlacantidaddecemento empleada expresada en kilogramos (X1) y otra variable referente alcementoempleadoengramos(X2)empleainformaciónredundante:X2=1000X1Ejemplo:Imaginaquequieresanalizarelconsumo(Y)delasfamiliasenfuncióndesuingresoyademássielsexodelindividuoquepercibedichoingresoafectaalconsumo:
Yi=β0+β1X1i+β2X2i+β3X3i+eiDadoqueX1=X2+X3,nuestromodelopresentamulticolinealidadperfecta.
Generalmenteesteproblemanopuededetectarsedeformadirecta. 23
Multicolinealidad
Elfactordeinflacióndelavarianza(varianceinflationfactor-VIF)mideelgradoenelquelavarianzadeuncoeficienteseincrementadebidoalamulticolinealidad.
ParalacovariableX1,estamedidaseexpresacomo:
dondeeselcoeficientededeterminacióndelmodelolinealqueprediceX1enfuncióndelrestodecovariables.• Valormínimo1.• A medida que el coeficiente de determinación tiene a cero el VIF tiende a
infinito.• Comoreglageneral,VIFmayoracuatroindicaquelavariablepuedeintroducir
esteproblemaenelmodelo,aunquenoesuncasograve.• ParavaloresdelVIFsuperioresa10seríaaconsejableeliminar lavariabledel
modelodirectamente,yaqueelgradodemulticiolinalidadesmuyelevado.
24
Multicolinealidad
Práctica6
UsandoelmodeloestimadoenlaPráctica6.8,predecirelprecioquetendránenelmercadolassiguientescasas:
25
Predicción
Práctica7
El conjunto de datos alcohol disponible en el paquete wooldridge recoge datossobre el abuso en el consumo de bebidas alcohólicas de una muestra de 9822individuosjuntoconunaseriedecaracterísticassociodemográficasdelosmismos(Terza, 2002). En esta práctica vamos a investigar si el consumo excesivo debebidasalcohólicasafectaalaprobabilidaddetenerunempleo.
a) Estimarunmodeloderegresiónlinealincluyendocomovariabledependientelavariable binaria employ y como independientes las variablesabuse,age, educ,marriedywhite.
employi=β0+β1abusei+β1agei+β1educi+β1marriedi+β1whitei+εi.
26
Variabledependientebinaria
• La estimación del modelo de regresión lineal proporciona estimacionescontinuas para la variable dependiente, por lo que con la especificaciónanteriornopodemosestimarlavariablebinariatrabajaronotrabajar.
• Loque sípodemospredecires laprobabilidaddequeun individuo tengatrabajo.
• La interpretación de los coeficientes sería análoga a la de prácticasanteriores: respecto a la variable abuse, nos indica que la probabilidad detener trabajo disminuye un 0.02 en caso de abusar del consumo de alcohol,manteniendoconstanteselrestodefactores.
27
Variabledependientebinaria
b) Predecir la probabilidad de que un individuo de 30 años, que no abusa delalcohol,con18añosdeeducación,blancoycasadotrabaje.
La predicción obtenida indica que un individuo con las características anteriorestieneunaprobabilidadde1.03deestarempleado.LimitacionesdeestimarporMCOcuandolavariabledependienteesbinaria:• Lasestimacionesnoestánacotadasentre0y1.• El error ya no se distribuye normalmente, si no que sigue una distribución
binomial.Esta limitaciónpuedenoserunproblemaencasosconunamuestragrande, ya que, asintóticamente, la distribución de los errores tiende a ladistribuciónnormal.
• Los errores son heterocedásticos, lo cual debe tenerse en cuenta en laestimacióncalculandoerroresestándarrobustos.
28
Variabledependientebinaria
c)Estimarelmodelodelprimerapartadopormedioderegresiónlogística.
Laregresión logísticaacota lasprediccionesde lavariabledependienteentrecero y uno, solucionando así la principal limitación del modelo de regresiónlinealcuandolavariabledependienteesbinaria.
En el modelo de regresión logística se modeliza la probabilidad de estarempleado(Pi)deacuerdoalasiguienteexpresión:
siendo,portanto,elmodeloestimadoelsiguiente:
Loscoeficientesmidenlavariacióndellogaritmodelcocientedeprobabilidadesanteuncambiounitarioenlasvariablesdependientes,manteniendoelrestodefactoresconstantes.
29
Variabledependientebinaria
d)Calcularelefectomarginalmediodelmodeloestimadoenelapartadoc.
Variable abuse: El efecto marginal nos indica que, evaluando el resto devariablesensumedia,laprobabilidaddeestarempleadodisminuyeen0.02sielindividuoabusadelalcohol.
Variable educación: aumentar en un año la educación incrementa en 0.01 laprobabilidaddeencontrartrabajo,sielrestodevariablesestánevaluadasen lamedia.
30
Variabledependientebinaria
e)Predecirconelmodeloderegresiónlogísticalaprobabilidaddequeunindividuode30años, quenoabusadel alcohol, con18añosdeeducación,blancoy casadotrabaje.
El comando predict predice el valor del logaritmo neperiano del ratio deprobabilidades,porloqueparaobtenerlapredicciónsobrelaprobabilidaddeestarempleado,debemosdespejarla.
Comoresultadoobtenemosqueparaelindividuoquebajoelmodeloderegresiónlinealteníaun103porcientodeprobabilidaddetrabajar,elmodeloderegresiónlogísticaprediceunaprobabilidaddel97.62porciento.
31
Variabledependientebinaria