supervised learning in r regression - amazon s3 · datacamp supervised learning in r: regression...

DataCamp SupervisedLearninginR:Regression

Logisticregressiontopredictprobabilities

SUPERVISEDLEARNINGINR:REGRESSION

NinaZumelandJohnMountWin-VectorLLC


PredictingProbabilitiesPredictingwhetheraneventoccurs(yes/no):classificationPredictingtheprobabilitythataneventoccurs:regressionLinearregression:predictsvaluesin[−∞,∞]Probabilities:limitedto[0,1]interval

Sowe'llcallitnon-linear


Example:PredictingDuchenneMuscularDystrophy(DMD)

outcome:has_dmd

inputs:CK,H


ALinearRegressionModel

outcome:has_dmd∈{0,1}

0:FALSE1:TRUE

Modelpredictsvaluesoutsidetherange[0:1]

>model<-lm(has_dmd~CK+H,+data=train)

>test$pred<-predict(+model,+newdata=test+)


LogisticRegression

log( ) = β + β x + β x + ...

GeneralizedlinearmodelAssumesinputsadditive,linearinlog-odds:log(p/(1 − p))

family:describeserrordistributionofthemodellogisticregression:family=binomial

1 − p

p0 1 1 2 2

glm(formula,data,family=binomial)


DMDmodel

outcome:twoclasses,e.g.aandbmodelreturnsP rob(b)

Recommend:0/1orFALSE/TRUE

>model<-glm(has_dmd~CK+H,data=train,family=binomial)


InterpretingLogisticRegressionModels>model

##Call:glm(formula=has_dmd~CK+H,family=binomial,data=train)####Coefficients:##(Intercept)CKH##-16.220460.071280.12552####DegreesofFreedom:86Total(i.e.Null);84Residual##NullDeviance:110.8##ResidualDeviance:45.16AIC:51.16


Predictingwithaglm()model

newdata:bydefault,trainingdata

Togetprobabilities:usetype="response"

Bydefault:returnslog-odds

predict(model,newdata,type="response")


DMDModel>model<-glm(has_dmd~CK+H,data=train,family=binomial)>test$pred<-predict(model,newdata=test,type="response")


Evaluatingalogisticregressionmodel:pseudo-R2

R = 1 −

pseudoR = 1 −

Deviance:analogoustovariance(RSS)Nulldeviance:SimilartoSS

pseudoR^2:Devianceexplained

2

SST ot

RSS

2

null.deviance

deviance

T ot


Pseudo-R onTrainingdata2

Usingbroom::glance()

Usingsigr::wrapChiSqTest()

>glance(model)%>%+summarize(pR2=1-deviance/null.deviance)

##pseudoR2##10.5922402

>wrapChiSqTest(model)

##"...pseudo-R2=0.59..."


Pseudo-R onTestdata2

Arguments:

dataframepredictioncolumnnameoutcomecolumnnametargetvalue(targetevent)

#Testdata>test%>%+mutate(pred=predict(model,newdata=test,type="response"))%>%+wrapChiSqTest("pred","has_dmd",TRUE)


TheGainCurvePlot>GainCurvePlot(test,"pred","has_dmd","DMDmodelontest")


Let'spractice!



Poissonandquasipoisson

regressiontopredictcounts


NinaZumelandJohnMountWin-Vector,LLC


PredictingCountsLinearregression:predictsvaluesin[−∞, ∞]

Counts:integersinrange[0, ∞]


Poisson/QuasipoissonRegression

family:eitherpoissonorquasipoisson

inputsadditiveandlinearinlog(count)

glm(formula,data,family)


Poisson/QuasipoissonRegression

family:eitherpoissonorquasipoisson

inputsadditiveandlinearinlog(count)outcome:integer

counts:e.g.numberoftrafficticketsadrivergetsrates:e.g.numberofwebsitehits/day

prediction:expectedrateorintensity(notintegral)expected#traffictickets;expectedhits/day

glm(formula,data,family)


Poissonvs.QuasipoissonPoissonassumesthatmean(y)=var(y)

Ifvar(y)muchdifferentfrommean(y)-quasipoisson

GenerallyrequiresalargesamplesizeIfrates/counts>>0-regularregressionisfine


Example:PredictingBikeRentals


Fitthemodel

Sincevar(cnt)>>mean(cnt)→usequasipoisson

>bikesJan%>%+summarize(mean=mean(cnt),var=var(cnt))

##meanvar##1130.558714351.25

>fmla<-cnt~hr+holiday+workingday++weathersit+temp+atemp+hum+windspeed

>model<-glm(fmla,data=bikesJan,family=quasipoisson)


Checkmodelfit

pseudoR = 1 −2

null.deviance

deviance

>glance(model)%>%+summarize(pseudoR2=1-deviance/null.deviance)

##pseudoR2##10.7654358


Predictingfromthemodel>predict(model,newdata=bikesFeb,type="response")


Evaluatethemodel

YoucanevaluatecountmodelsbyRMSE

>bikesFeb%>%+mutate(residual=pred-cnt)%>%+summarize(rmse=sqrt(mean(residual^2)))

##rmse##169.32869

>sd(bikesFeb$cnt)[1]134.2865


ComparePredictionsandActualOutcomes


Let'spractice!



GAMtolearnnon-lineartransformations


NinaZumelandJohnMountWin-Vector,LLC


GeneralizedAdditiveModels(GAMs)

y ∼ b0 + s1(x1) + s2(x2) + ....


LearningNon-linearRelationships


gam()inthemgcvpackage

family:

gaussian(default):"regular"regressionbinomial:probabilitiespoisson/quasipoisson:counts

Bestforlargerdatasets

gam(formula,family,data)


Thes()function

s()designatesthatvariableshouldbenon-linear

Uses()withcontinuousvariables

Morethanabout10uniquevalues

>anx~s(hassles)


RevisitthehasslesdataModel RMSE

(cross-val)R

(training)

Linear(hassles)

7.69 0.53

Quadratic(hassles )

6.89 0.63

Cubic(hassles )

6.70 0.65

2

2

3


GAMofthehasslesdata>model<-gam(anx~s(hassles),data=hassleframe,family=gaussian)

>summary(model)

##...####R-sq.(adj)=0.619Devianceexplained=64.1%##GCV=49.132Scaleest.=45.153n=40


ExaminingtheTransformations

yvalues:predict(model,type="terms")

>plot(model)


PredictingwiththeModel>predict(model,newdata=hassleframe,type="response")


Comparingout-of-sampleperformance

Knowingthecorrecttransformationisbest,butGAMisusefulwhentransformationisn'tknown

Model RMSE(cross-val) R (training)

Linear(hassles) 7.69 0.53

Quadratic(hassles ) 6.89 0.63

Cubic(hassles ) 6.70 0.65

GAM 7.06 0.64

Smalldataset→noisierGAM

2

2

3


Let'spractice!


supervised learning in r regression - amazon s3 · datacamp supervised learning in r: regression...

Documents