bagging, random forest und boosting - mi.uni-koeln.de · die random forest methode o ist eine...
TRANSCRIPT
Bagging Random Forest und BoostingSeminar Maschinelles Lernen
Simone Horstmann
24 Mai 2019
Bagging Random Forest und Boosting
Voraussetzungen
Bagging
Random Forest
Boosting
Uumlbersicht
Literatur
Bagging Random Forest und Boosting
Voraussetzungen
o Mittlerer quadratischer Fehler (MSE)
MSE (x0) = Bias2(y0) + Varτ (y0) + σ2
wobei σ2 die Varianz des Fehlerterms darstellto Die Varianz ist ein Maszlig dafuumlr wie weit die Vorhersagewerte
von ihrem Erwartungswert abweichen
Varτ (y0) = Eτ [y0 minus Eτ (y0)]2
o Der Bias ist ein Maszlig fuumlr die Abweichung der Vorhersagewertey0 von den wahren Werten der Funktion f(x)
Bias2(y0) = [f (x0) minus Eτ (y0)]2
Bagging Random Forest und Boosting Voraussetzungen
o Kapazitaumlt Anzahl der Aspekte der Daten welche im Modellberuumlcksichtigt werden
o Mit steigender Kapazitaumlt passt sich das Modell an dieTrainingsdaten an rArr Bias sinkt rArr Overfitting
o Modell mit geringerer Kapazitaumlt kann wahren Zusammenhangnicht mehr erfassen rArr Varianz sinkt rArr Underfitting
Bagging Random Forest und Boosting Voraussetzungen
rArr rsquoModel averagingrsquo-Methoden sollen Generalisierungsfehlerminimieren
o Bagging und Random Forest Methoden senken die Varianz beigleichbleibendem Bias
o Beim Boosting wird ein Modell konstruiert das durch houmlhereKapazitaumlt den Bias senkt
Bagging Random Forest und Boosting Voraussetzungen
Inhaltsverzeichnis
Voraussetzungen
Bagging
Random Forest
Boosting
Uumlbersicht
Literatur
Bagging Random Forest und Boosting Bagging
Bagging auch genannt Bootstrap aggregation
o erweitert ein Modell zu mehreren Modelleno dafuumlr werden aus dem Trainingsdatensatz sogenannte
Bootstrap samples erzeugto auf diese wird dasselbe Modell dh der gleiche
Trainingsalgorithmus und die gleiche Zielfunktion angewandtrArr Vorhersage des urspruumlnglichen Modells f (x) wird durch die
Vorhersage des Kollektivs der rsquobaggedrsquo Modelle fbag(x) ersetzt
Bagging Random Forest und Boosting Bagging
Bagging - Funktionsweise
1 Aus dem Trainingsdatensatz Zwerden B Bootstrap samples Z lowastb
mit b=12B generiert2 Fuumlr jedes Bootstrap sample wird
ein Vorhersagemodell generiertwobei immer derselbeTrainingsalgorithmus verwendetwird
Bagging Random Forest und Boosting Bagging
Bagging - Funktionsweise
Die Vorhersage jedes Bootstrap samplesf lowastb(x) flieszligt mit gleichem Gewicht indie Gesamtvorhersage ein
fbag(x) = 1B
B983131
b=1f lowastb(x)
Bei Klassifikationsbaumlumen ergibt sichdie Vorhersage durch Mehrheitsvotumaller B Baumlume
Gbag(x) = argmaxk fbag(x)
Bagging Random Forest und Boosting Bagging
Bewertung der Bagging-Methode
Durch Bagging laumlsst sich die VarianzreduzierenBei gleichbleibendem Biaswert derBaumlume (gleicher Trainingsalgorithmus)reduziert sich somit der quadratischeFehler
Bagging Random Forest und Boosting Bagging
Besonders bei sogenannten instabilen Methoden kannBagging zu einer Verbesserung fuumlhrenEin Entscheidungsbaum ist aufgrund seiner Hierachie instabil dheine kleine Veraumlnderung der Daten kann schon eineFehlklassifizierung bewirkenrarr Durch Anwendung der Baggingmethode erhaumllt man B Baumlume
die alle auf verschiedenen Datensaumltzten Z lowastb basierenrarr Baumlume bestehen aus unterschiedlichen Variablen und besitzen
verschieden viele Knotenpunkterarr Die Baumlume werden nicht alle denselben Fehler wie der
urspruumlngliche Baum erzeugenrArr Reduzierung von Varianz amp Testfehler
Bagging Random Forest und Boosting Bagging
Inhaltsverzeichnis
Voraussetzungen
Bagging
Random Forest
Boosting
Uumlbersicht
Literatur
Bagging Random Forest und Boosting Random Forest
Die Random Forest Methodeo ist eine Modifikation der Bagging-Methodeo Trainingsdatensatz wird ebenfalls in sogenannte Bootstrap
samples uumlberfuumlhrto Entscheidungsbaummodell wird zu B Baumlumen basierend auf
den B Bootstrap samples erweitertrArr Daruumlber hinaus wird die Generierung der Baumlume so
modifiziert dass diese moumlglichst wenig korrelieren
Bagging Random Forest und Boosting Random Forest
Random Forest - Funktionsweise1 Von b=1 bis B
11 Erstelle Bootstrap sample Zlowast der GroumlszligeN
12 Erstelle Entscheidungsbaum anhand desBootstrap sample durch rekusivesAnwenden der folgenden Schritte aufjeden Endknoten bis dieMinimumknotengroumlszlige nmin erreicht ist
121 Waumlhle aus den p Variablen m zufaumllligaus
122 Waumlhle aus den m Variablen die bestefuumlr den Knotenpunkt aus
123 Teile den Knoten in zweiKinderknoten auf
2 Gib die Gesamtheit aller B Baumlume zuruumlckTbB
1
Bagging Random Forest und Boosting Random Forest
Random Forest - Funktionsweise
Bei Regression wird uumlber die Vorhersagewertejedes Baumes gemittelt
f Brf (x) = 1
B
B983131
b=1Tb(x)
Bei Klassifizierung erhaumllt man die Klasse durchMehrheitsvotum
CBrf (x) = majorityvoteCb(x)B
1
Bagging Random Forest und Boosting Random Forest
Die Varianz kann durch den sogenannten De-Korrelationseffektgesenkt werdenDie Varianz fuumlr genau einen Targetpunkt x ist gegeben durch
Var frf (x) = ρ(x)σ2
wobeiρ(x) = corr [T (x Θ1(Z ))T (x Θ2(Z ))]
die Korrelation zweier zufaumlllig gewaumlhlter Baumlume im Random Forestund
σ2(x) = VarT (x Θ(Z ))
die Stichprobenvarianz eines zufaumlllig gewachsenen Baumes ist
Bagging Random Forest und Boosting Random Forest
Anzahl der Variablen m aus denenan jedem Knotenpunkt ausgewaumlhltwerden kann sinkt wobei die mVariablen zufaumlllig gewaumlhlt sindrArr Wahrscheinlichkeit dass
identische Baumlume erstelltwerden sinkt
rArr Korrelation der Baumlume sinkt
Bagging Random Forest und Boosting Random Forest
m wird kleiner und reduziert dieKorrelationrArr reduziert die VarianzrArr bei (fast) gleichbleibendem
BiaswertrArr reduziert MSE bzw den
Test Fehler
Bagging Random Forest und Boosting Random Forest
Out-of-bag sampleIst eine Beobachtung zi = (xi yi) nicht im Bootstrap sampleenthalten kann sie genutzt werden um genau die Baumlume zutesten welche aus dem bootstrap sample generiert wurden
Bagging Random Forest und Boosting Random Forest
Inhaltsverzeichnis
Voraussetzungen
Bagging
Random Forest
Boosting
Uumlbersicht
Literatur
Bagging Random Forest und Boosting Boosting
Die Boosting Methode
o konstruiert ein Modell mit houmlherer Kapazitaumlt undo senkt dadurch den Biaso Die Grundidee von Boosting besteht darin aus vielen
sogenannten rsquoweak learnersrsquo ein Kollektiv zu erstellen das dieModellvorhersage verbessert
o Boosting basiert dabei vorwiegend auf Entscheidungsbaumlumen
Bagging Random Forest und Boosting Boosting
Boosting - Funktionsweise anhand der AdaBoost Methode
Die AdaBoost Methode erstellt iterativ eine Folge vonEntscheidungsbaumlumen mit je einem Knotenpunkt amp einerEntscheidungsvariable
Wie stark die Entscheidung des Baumesin die Gesamtentscheidung einflieszligenwird wird durch sein Stimmgewichtαm beschriebenrarr αm berechnet sich durch die
Fehlerquote der Variable errmund die Stichproben-Gewichte wi
Bagging Random Forest und Boosting Boosting
Boosting - Funktionsweise anhand der AdaBoost Methode
Das Stichproben-Gewicht wi ist zuBeginn 1
N und wird in jeder Iterationerneuertrarr wi berechnet sich durch die
Stimmgewichtung des vorherigenBaumes αmminus1
Bagging Random Forest und Boosting Boosting
Boosting - Funktionsweise anhand der AdaBoost Methode
Das Gewicht von falsch kategorisiertenStichproben wird erhoumlht indem es mitdem Faktor eαm skaliert wird
Bagging Random Forest und Boosting Boosting
Boosting - Funktionsweise anhand der AdaBoost Methode
Der naumlchste Klassifikator wird dannanhand der neuen StichprobengewichteausgewaumlhltrArr Hatte ein Klassifikator also eine
hohe Fehlerquote werden diefalsch klassifizierten Inputdaten dieWahl des naumlchsten Klassifikatorsstaumlrker beeinflussen
Bagging Random Forest und Boosting Boosting
Boosting - Funktionsweise anhand der AdaBoost Methode
rArr Die Baumlume in einem von AdaBoostgenerierten Modell sind also abhaumlngigvoneinander und haben unterschiedlicheGewichtung bei der Modellvorhersage G(x) = σ(
983123αmGm(x))
Bagging Random Forest und Boosting Boosting
Boosting Allgemeino Iterativ werden einzelne Entscheidungsbaumlume erstellt sodass
das Modell am Ende aus der Summe aller Baumlume besteht
fM(x) =M983131
m=1T (x θm)
rarr um einen neuen Baum θm zu definieren muss immer wiederfolgende Gleichung geloumlst werden
θm = argminθm
N983131
i=1L(yi fmminus1(xi) + T (xi θm))
rarr da hierbei auch fmminus1(xi) der Vorhersagewert des vorigenBaumes in Betracht gezogen wird sind die Baumlume abhaumlngig
o die Entscheidungen der rsquoweak learnerrsquo flieszligen nichtgleichwertig sondern gewichtet in die Gesamtentscheidung ein
Bagging Random Forest und Boosting Boosting
Die Idee von Gradient Boosting
Eine moumlgliche Loumlsung der Gleichung ist ein Regressionsbaumder die Residuen yi minus fmminus1(xi) bestmoumlglich vorhersagt
rArr jeder Baum wird dann von den Fehlvorhersagen desvorhergehenden Baumes beeinflusst
Bagging Random Forest und Boosting Boosting
Inhaltsverzeichnis
Voraussetzungen
Bagging
Random Forest
Boosting
Uumlbersicht
Literatur
Bagging Random Forest und Boosting Uumlbersicht
Uumlbersicht der 3 Methoden
Alle drei Methoden zielen darauf den Generalisierungs- bzwTestfehler zu senken
o Bagging und Random Forest reduzieren die Varianz desModells
o Boosting reduziert den Biaswert des ModellsDie drei Methoden basieren auf der Grundidee vonEntscheidungsbaumlumen
o Bagging kann fuumlr verschiedene Trainingsalgorithmenangewandt werden
o Random Forest und Boosting erweitern immer einEntscheidungsbaummodell
Bagging Random Forest und Boosting Uumlbersicht
Inhaltsverzeichnis
Voraussetzungen
Bagging
Random Forest
Boosting
Uumlbersicht
Literatur
Bagging Random Forest und Boosting Literatur
Literatur
T Hastie R Tibshirani and JH Friedman The Elements ofStatistical Learning Data Mining Inference and PredictionSpringer Verlag 2009
Ian Goodfellow Yoshua Bengio and Aaron Courville DeepLearning MIT Press 2016 httpwwwdeeplearningbookorg
Bagging Random Forest und Boosting Literatur
Voraussetzungen
Bagging
Random Forest
Boosting
Uumlbersicht
Literatur
Bagging Random Forest und Boosting
Voraussetzungen
o Mittlerer quadratischer Fehler (MSE)
MSE (x0) = Bias2(y0) + Varτ (y0) + σ2
wobei σ2 die Varianz des Fehlerterms darstellto Die Varianz ist ein Maszlig dafuumlr wie weit die Vorhersagewerte
von ihrem Erwartungswert abweichen
Varτ (y0) = Eτ [y0 minus Eτ (y0)]2
o Der Bias ist ein Maszlig fuumlr die Abweichung der Vorhersagewertey0 von den wahren Werten der Funktion f(x)
Bias2(y0) = [f (x0) minus Eτ (y0)]2
Bagging Random Forest und Boosting Voraussetzungen
o Kapazitaumlt Anzahl der Aspekte der Daten welche im Modellberuumlcksichtigt werden
o Mit steigender Kapazitaumlt passt sich das Modell an dieTrainingsdaten an rArr Bias sinkt rArr Overfitting
o Modell mit geringerer Kapazitaumlt kann wahren Zusammenhangnicht mehr erfassen rArr Varianz sinkt rArr Underfitting
Bagging Random Forest und Boosting Voraussetzungen
rArr rsquoModel averagingrsquo-Methoden sollen Generalisierungsfehlerminimieren
o Bagging und Random Forest Methoden senken die Varianz beigleichbleibendem Bias
o Beim Boosting wird ein Modell konstruiert das durch houmlhereKapazitaumlt den Bias senkt
Bagging Random Forest und Boosting Voraussetzungen
Inhaltsverzeichnis
Voraussetzungen
Bagging
Random Forest
Boosting
Uumlbersicht
Literatur
Bagging Random Forest und Boosting Bagging
Bagging auch genannt Bootstrap aggregation
o erweitert ein Modell zu mehreren Modelleno dafuumlr werden aus dem Trainingsdatensatz sogenannte
Bootstrap samples erzeugto auf diese wird dasselbe Modell dh der gleiche
Trainingsalgorithmus und die gleiche Zielfunktion angewandtrArr Vorhersage des urspruumlnglichen Modells f (x) wird durch die
Vorhersage des Kollektivs der rsquobaggedrsquo Modelle fbag(x) ersetzt
Bagging Random Forest und Boosting Bagging
Bagging - Funktionsweise
1 Aus dem Trainingsdatensatz Zwerden B Bootstrap samples Z lowastb
mit b=12B generiert2 Fuumlr jedes Bootstrap sample wird
ein Vorhersagemodell generiertwobei immer derselbeTrainingsalgorithmus verwendetwird
Bagging Random Forest und Boosting Bagging
Bagging - Funktionsweise
Die Vorhersage jedes Bootstrap samplesf lowastb(x) flieszligt mit gleichem Gewicht indie Gesamtvorhersage ein
fbag(x) = 1B
B983131
b=1f lowastb(x)
Bei Klassifikationsbaumlumen ergibt sichdie Vorhersage durch Mehrheitsvotumaller B Baumlume
Gbag(x) = argmaxk fbag(x)
Bagging Random Forest und Boosting Bagging
Bewertung der Bagging-Methode
Durch Bagging laumlsst sich die VarianzreduzierenBei gleichbleibendem Biaswert derBaumlume (gleicher Trainingsalgorithmus)reduziert sich somit der quadratischeFehler
Bagging Random Forest und Boosting Bagging
Besonders bei sogenannten instabilen Methoden kannBagging zu einer Verbesserung fuumlhrenEin Entscheidungsbaum ist aufgrund seiner Hierachie instabil dheine kleine Veraumlnderung der Daten kann schon eineFehlklassifizierung bewirkenrarr Durch Anwendung der Baggingmethode erhaumllt man B Baumlume
die alle auf verschiedenen Datensaumltzten Z lowastb basierenrarr Baumlume bestehen aus unterschiedlichen Variablen und besitzen
verschieden viele Knotenpunkterarr Die Baumlume werden nicht alle denselben Fehler wie der
urspruumlngliche Baum erzeugenrArr Reduzierung von Varianz amp Testfehler
Bagging Random Forest und Boosting Bagging
Inhaltsverzeichnis
Voraussetzungen
Bagging
Random Forest
Boosting
Uumlbersicht
Literatur
Bagging Random Forest und Boosting Random Forest
Die Random Forest Methodeo ist eine Modifikation der Bagging-Methodeo Trainingsdatensatz wird ebenfalls in sogenannte Bootstrap
samples uumlberfuumlhrto Entscheidungsbaummodell wird zu B Baumlumen basierend auf
den B Bootstrap samples erweitertrArr Daruumlber hinaus wird die Generierung der Baumlume so
modifiziert dass diese moumlglichst wenig korrelieren
Bagging Random Forest und Boosting Random Forest
Random Forest - Funktionsweise1 Von b=1 bis B
11 Erstelle Bootstrap sample Zlowast der GroumlszligeN
12 Erstelle Entscheidungsbaum anhand desBootstrap sample durch rekusivesAnwenden der folgenden Schritte aufjeden Endknoten bis dieMinimumknotengroumlszlige nmin erreicht ist
121 Waumlhle aus den p Variablen m zufaumllligaus
122 Waumlhle aus den m Variablen die bestefuumlr den Knotenpunkt aus
123 Teile den Knoten in zweiKinderknoten auf
2 Gib die Gesamtheit aller B Baumlume zuruumlckTbB
1
Bagging Random Forest und Boosting Random Forest
Random Forest - Funktionsweise
Bei Regression wird uumlber die Vorhersagewertejedes Baumes gemittelt
f Brf (x) = 1
B
B983131
b=1Tb(x)
Bei Klassifizierung erhaumllt man die Klasse durchMehrheitsvotum
CBrf (x) = majorityvoteCb(x)B
1
Bagging Random Forest und Boosting Random Forest
Die Varianz kann durch den sogenannten De-Korrelationseffektgesenkt werdenDie Varianz fuumlr genau einen Targetpunkt x ist gegeben durch
Var frf (x) = ρ(x)σ2
wobeiρ(x) = corr [T (x Θ1(Z ))T (x Θ2(Z ))]
die Korrelation zweier zufaumlllig gewaumlhlter Baumlume im Random Forestund
σ2(x) = VarT (x Θ(Z ))
die Stichprobenvarianz eines zufaumlllig gewachsenen Baumes ist
Bagging Random Forest und Boosting Random Forest
Anzahl der Variablen m aus denenan jedem Knotenpunkt ausgewaumlhltwerden kann sinkt wobei die mVariablen zufaumlllig gewaumlhlt sindrArr Wahrscheinlichkeit dass
identische Baumlume erstelltwerden sinkt
rArr Korrelation der Baumlume sinkt
Bagging Random Forest und Boosting Random Forest
m wird kleiner und reduziert dieKorrelationrArr reduziert die VarianzrArr bei (fast) gleichbleibendem
BiaswertrArr reduziert MSE bzw den
Test Fehler
Bagging Random Forest und Boosting Random Forest
Out-of-bag sampleIst eine Beobachtung zi = (xi yi) nicht im Bootstrap sampleenthalten kann sie genutzt werden um genau die Baumlume zutesten welche aus dem bootstrap sample generiert wurden
Bagging Random Forest und Boosting Random Forest
Inhaltsverzeichnis
Voraussetzungen
Bagging
Random Forest
Boosting
Uumlbersicht
Literatur
Bagging Random Forest und Boosting Boosting
Die Boosting Methode
o konstruiert ein Modell mit houmlherer Kapazitaumlt undo senkt dadurch den Biaso Die Grundidee von Boosting besteht darin aus vielen
sogenannten rsquoweak learnersrsquo ein Kollektiv zu erstellen das dieModellvorhersage verbessert
o Boosting basiert dabei vorwiegend auf Entscheidungsbaumlumen
Bagging Random Forest und Boosting Boosting
Boosting - Funktionsweise anhand der AdaBoost Methode
Die AdaBoost Methode erstellt iterativ eine Folge vonEntscheidungsbaumlumen mit je einem Knotenpunkt amp einerEntscheidungsvariable
Wie stark die Entscheidung des Baumesin die Gesamtentscheidung einflieszligenwird wird durch sein Stimmgewichtαm beschriebenrarr αm berechnet sich durch die
Fehlerquote der Variable errmund die Stichproben-Gewichte wi
Bagging Random Forest und Boosting Boosting
Boosting - Funktionsweise anhand der AdaBoost Methode
Das Stichproben-Gewicht wi ist zuBeginn 1
N und wird in jeder Iterationerneuertrarr wi berechnet sich durch die
Stimmgewichtung des vorherigenBaumes αmminus1
Bagging Random Forest und Boosting Boosting
Boosting - Funktionsweise anhand der AdaBoost Methode
Das Gewicht von falsch kategorisiertenStichproben wird erhoumlht indem es mitdem Faktor eαm skaliert wird
Bagging Random Forest und Boosting Boosting
Boosting - Funktionsweise anhand der AdaBoost Methode
Der naumlchste Klassifikator wird dannanhand der neuen StichprobengewichteausgewaumlhltrArr Hatte ein Klassifikator also eine
hohe Fehlerquote werden diefalsch klassifizierten Inputdaten dieWahl des naumlchsten Klassifikatorsstaumlrker beeinflussen
Bagging Random Forest und Boosting Boosting
Boosting - Funktionsweise anhand der AdaBoost Methode
rArr Die Baumlume in einem von AdaBoostgenerierten Modell sind also abhaumlngigvoneinander und haben unterschiedlicheGewichtung bei der Modellvorhersage G(x) = σ(
983123αmGm(x))
Bagging Random Forest und Boosting Boosting
Boosting Allgemeino Iterativ werden einzelne Entscheidungsbaumlume erstellt sodass
das Modell am Ende aus der Summe aller Baumlume besteht
fM(x) =M983131
m=1T (x θm)
rarr um einen neuen Baum θm zu definieren muss immer wiederfolgende Gleichung geloumlst werden
θm = argminθm
N983131
i=1L(yi fmminus1(xi) + T (xi θm))
rarr da hierbei auch fmminus1(xi) der Vorhersagewert des vorigenBaumes in Betracht gezogen wird sind die Baumlume abhaumlngig
o die Entscheidungen der rsquoweak learnerrsquo flieszligen nichtgleichwertig sondern gewichtet in die Gesamtentscheidung ein
Bagging Random Forest und Boosting Boosting
Die Idee von Gradient Boosting
Eine moumlgliche Loumlsung der Gleichung ist ein Regressionsbaumder die Residuen yi minus fmminus1(xi) bestmoumlglich vorhersagt
rArr jeder Baum wird dann von den Fehlvorhersagen desvorhergehenden Baumes beeinflusst
Bagging Random Forest und Boosting Boosting
Inhaltsverzeichnis
Voraussetzungen
Bagging
Random Forest
Boosting
Uumlbersicht
Literatur
Bagging Random Forest und Boosting Uumlbersicht
Uumlbersicht der 3 Methoden
Alle drei Methoden zielen darauf den Generalisierungs- bzwTestfehler zu senken
o Bagging und Random Forest reduzieren die Varianz desModells
o Boosting reduziert den Biaswert des ModellsDie drei Methoden basieren auf der Grundidee vonEntscheidungsbaumlumen
o Bagging kann fuumlr verschiedene Trainingsalgorithmenangewandt werden
o Random Forest und Boosting erweitern immer einEntscheidungsbaummodell
Bagging Random Forest und Boosting Uumlbersicht
Inhaltsverzeichnis
Voraussetzungen
Bagging
Random Forest
Boosting
Uumlbersicht
Literatur
Bagging Random Forest und Boosting Literatur
Literatur
T Hastie R Tibshirani and JH Friedman The Elements ofStatistical Learning Data Mining Inference and PredictionSpringer Verlag 2009
Ian Goodfellow Yoshua Bengio and Aaron Courville DeepLearning MIT Press 2016 httpwwwdeeplearningbookorg
Bagging Random Forest und Boosting Literatur
Voraussetzungen
o Mittlerer quadratischer Fehler (MSE)
MSE (x0) = Bias2(y0) + Varτ (y0) + σ2
wobei σ2 die Varianz des Fehlerterms darstellto Die Varianz ist ein Maszlig dafuumlr wie weit die Vorhersagewerte
von ihrem Erwartungswert abweichen
Varτ (y0) = Eτ [y0 minus Eτ (y0)]2
o Der Bias ist ein Maszlig fuumlr die Abweichung der Vorhersagewertey0 von den wahren Werten der Funktion f(x)
Bias2(y0) = [f (x0) minus Eτ (y0)]2
Bagging Random Forest und Boosting Voraussetzungen
o Kapazitaumlt Anzahl der Aspekte der Daten welche im Modellberuumlcksichtigt werden
o Mit steigender Kapazitaumlt passt sich das Modell an dieTrainingsdaten an rArr Bias sinkt rArr Overfitting
o Modell mit geringerer Kapazitaumlt kann wahren Zusammenhangnicht mehr erfassen rArr Varianz sinkt rArr Underfitting
Bagging Random Forest und Boosting Voraussetzungen
rArr rsquoModel averagingrsquo-Methoden sollen Generalisierungsfehlerminimieren
o Bagging und Random Forest Methoden senken die Varianz beigleichbleibendem Bias
o Beim Boosting wird ein Modell konstruiert das durch houmlhereKapazitaumlt den Bias senkt
Bagging Random Forest und Boosting Voraussetzungen
Inhaltsverzeichnis
Voraussetzungen
Bagging
Random Forest
Boosting
Uumlbersicht
Literatur
Bagging Random Forest und Boosting Bagging
Bagging auch genannt Bootstrap aggregation
o erweitert ein Modell zu mehreren Modelleno dafuumlr werden aus dem Trainingsdatensatz sogenannte
Bootstrap samples erzeugto auf diese wird dasselbe Modell dh der gleiche
Trainingsalgorithmus und die gleiche Zielfunktion angewandtrArr Vorhersage des urspruumlnglichen Modells f (x) wird durch die
Vorhersage des Kollektivs der rsquobaggedrsquo Modelle fbag(x) ersetzt
Bagging Random Forest und Boosting Bagging
Bagging - Funktionsweise
1 Aus dem Trainingsdatensatz Zwerden B Bootstrap samples Z lowastb
mit b=12B generiert2 Fuumlr jedes Bootstrap sample wird
ein Vorhersagemodell generiertwobei immer derselbeTrainingsalgorithmus verwendetwird
Bagging Random Forest und Boosting Bagging
Bagging - Funktionsweise
Die Vorhersage jedes Bootstrap samplesf lowastb(x) flieszligt mit gleichem Gewicht indie Gesamtvorhersage ein
fbag(x) = 1B
B983131
b=1f lowastb(x)
Bei Klassifikationsbaumlumen ergibt sichdie Vorhersage durch Mehrheitsvotumaller B Baumlume
Gbag(x) = argmaxk fbag(x)
Bagging Random Forest und Boosting Bagging
Bewertung der Bagging-Methode
Durch Bagging laumlsst sich die VarianzreduzierenBei gleichbleibendem Biaswert derBaumlume (gleicher Trainingsalgorithmus)reduziert sich somit der quadratischeFehler
Bagging Random Forest und Boosting Bagging
Besonders bei sogenannten instabilen Methoden kannBagging zu einer Verbesserung fuumlhrenEin Entscheidungsbaum ist aufgrund seiner Hierachie instabil dheine kleine Veraumlnderung der Daten kann schon eineFehlklassifizierung bewirkenrarr Durch Anwendung der Baggingmethode erhaumllt man B Baumlume
die alle auf verschiedenen Datensaumltzten Z lowastb basierenrarr Baumlume bestehen aus unterschiedlichen Variablen und besitzen
verschieden viele Knotenpunkterarr Die Baumlume werden nicht alle denselben Fehler wie der
urspruumlngliche Baum erzeugenrArr Reduzierung von Varianz amp Testfehler
Bagging Random Forest und Boosting Bagging
Inhaltsverzeichnis
Voraussetzungen
Bagging
Random Forest
Boosting
Uumlbersicht
Literatur
Bagging Random Forest und Boosting Random Forest
Die Random Forest Methodeo ist eine Modifikation der Bagging-Methodeo Trainingsdatensatz wird ebenfalls in sogenannte Bootstrap
samples uumlberfuumlhrto Entscheidungsbaummodell wird zu B Baumlumen basierend auf
den B Bootstrap samples erweitertrArr Daruumlber hinaus wird die Generierung der Baumlume so
modifiziert dass diese moumlglichst wenig korrelieren
Bagging Random Forest und Boosting Random Forest
Random Forest - Funktionsweise1 Von b=1 bis B
11 Erstelle Bootstrap sample Zlowast der GroumlszligeN
12 Erstelle Entscheidungsbaum anhand desBootstrap sample durch rekusivesAnwenden der folgenden Schritte aufjeden Endknoten bis dieMinimumknotengroumlszlige nmin erreicht ist
121 Waumlhle aus den p Variablen m zufaumllligaus
122 Waumlhle aus den m Variablen die bestefuumlr den Knotenpunkt aus
123 Teile den Knoten in zweiKinderknoten auf
2 Gib die Gesamtheit aller B Baumlume zuruumlckTbB
1
Bagging Random Forest und Boosting Random Forest
Random Forest - Funktionsweise
Bei Regression wird uumlber die Vorhersagewertejedes Baumes gemittelt
f Brf (x) = 1
B
B983131
b=1Tb(x)
Bei Klassifizierung erhaumllt man die Klasse durchMehrheitsvotum
CBrf (x) = majorityvoteCb(x)B
1
Bagging Random Forest und Boosting Random Forest
Die Varianz kann durch den sogenannten De-Korrelationseffektgesenkt werdenDie Varianz fuumlr genau einen Targetpunkt x ist gegeben durch
Var frf (x) = ρ(x)σ2
wobeiρ(x) = corr [T (x Θ1(Z ))T (x Θ2(Z ))]
die Korrelation zweier zufaumlllig gewaumlhlter Baumlume im Random Forestund
σ2(x) = VarT (x Θ(Z ))
die Stichprobenvarianz eines zufaumlllig gewachsenen Baumes ist
Bagging Random Forest und Boosting Random Forest
Anzahl der Variablen m aus denenan jedem Knotenpunkt ausgewaumlhltwerden kann sinkt wobei die mVariablen zufaumlllig gewaumlhlt sindrArr Wahrscheinlichkeit dass
identische Baumlume erstelltwerden sinkt
rArr Korrelation der Baumlume sinkt
Bagging Random Forest und Boosting Random Forest
m wird kleiner und reduziert dieKorrelationrArr reduziert die VarianzrArr bei (fast) gleichbleibendem
BiaswertrArr reduziert MSE bzw den
Test Fehler
Bagging Random Forest und Boosting Random Forest
Out-of-bag sampleIst eine Beobachtung zi = (xi yi) nicht im Bootstrap sampleenthalten kann sie genutzt werden um genau die Baumlume zutesten welche aus dem bootstrap sample generiert wurden
Bagging Random Forest und Boosting Random Forest
Inhaltsverzeichnis
Voraussetzungen
Bagging
Random Forest
Boosting
Uumlbersicht
Literatur
Bagging Random Forest und Boosting Boosting
Die Boosting Methode
o konstruiert ein Modell mit houmlherer Kapazitaumlt undo senkt dadurch den Biaso Die Grundidee von Boosting besteht darin aus vielen
sogenannten rsquoweak learnersrsquo ein Kollektiv zu erstellen das dieModellvorhersage verbessert
o Boosting basiert dabei vorwiegend auf Entscheidungsbaumlumen
Bagging Random Forest und Boosting Boosting
Boosting - Funktionsweise anhand der AdaBoost Methode
Die AdaBoost Methode erstellt iterativ eine Folge vonEntscheidungsbaumlumen mit je einem Knotenpunkt amp einerEntscheidungsvariable
Wie stark die Entscheidung des Baumesin die Gesamtentscheidung einflieszligenwird wird durch sein Stimmgewichtαm beschriebenrarr αm berechnet sich durch die
Fehlerquote der Variable errmund die Stichproben-Gewichte wi
Bagging Random Forest und Boosting Boosting
Boosting - Funktionsweise anhand der AdaBoost Methode
Das Stichproben-Gewicht wi ist zuBeginn 1
N und wird in jeder Iterationerneuertrarr wi berechnet sich durch die
Stimmgewichtung des vorherigenBaumes αmminus1
Bagging Random Forest und Boosting Boosting
Boosting - Funktionsweise anhand der AdaBoost Methode
Das Gewicht von falsch kategorisiertenStichproben wird erhoumlht indem es mitdem Faktor eαm skaliert wird
Bagging Random Forest und Boosting Boosting
Boosting - Funktionsweise anhand der AdaBoost Methode
Der naumlchste Klassifikator wird dannanhand der neuen StichprobengewichteausgewaumlhltrArr Hatte ein Klassifikator also eine
hohe Fehlerquote werden diefalsch klassifizierten Inputdaten dieWahl des naumlchsten Klassifikatorsstaumlrker beeinflussen
Bagging Random Forest und Boosting Boosting
Boosting - Funktionsweise anhand der AdaBoost Methode
rArr Die Baumlume in einem von AdaBoostgenerierten Modell sind also abhaumlngigvoneinander und haben unterschiedlicheGewichtung bei der Modellvorhersage G(x) = σ(
983123αmGm(x))
Bagging Random Forest und Boosting Boosting
Boosting Allgemeino Iterativ werden einzelne Entscheidungsbaumlume erstellt sodass
das Modell am Ende aus der Summe aller Baumlume besteht
fM(x) =M983131
m=1T (x θm)
rarr um einen neuen Baum θm zu definieren muss immer wiederfolgende Gleichung geloumlst werden
θm = argminθm
N983131
i=1L(yi fmminus1(xi) + T (xi θm))
rarr da hierbei auch fmminus1(xi) der Vorhersagewert des vorigenBaumes in Betracht gezogen wird sind die Baumlume abhaumlngig
o die Entscheidungen der rsquoweak learnerrsquo flieszligen nichtgleichwertig sondern gewichtet in die Gesamtentscheidung ein
Bagging Random Forest und Boosting Boosting
Die Idee von Gradient Boosting
Eine moumlgliche Loumlsung der Gleichung ist ein Regressionsbaumder die Residuen yi minus fmminus1(xi) bestmoumlglich vorhersagt
rArr jeder Baum wird dann von den Fehlvorhersagen desvorhergehenden Baumes beeinflusst
Bagging Random Forest und Boosting Boosting
Inhaltsverzeichnis
Voraussetzungen
Bagging
Random Forest
Boosting
Uumlbersicht
Literatur
Bagging Random Forest und Boosting Uumlbersicht
Uumlbersicht der 3 Methoden
Alle drei Methoden zielen darauf den Generalisierungs- bzwTestfehler zu senken
o Bagging und Random Forest reduzieren die Varianz desModells
o Boosting reduziert den Biaswert des ModellsDie drei Methoden basieren auf der Grundidee vonEntscheidungsbaumlumen
o Bagging kann fuumlr verschiedene Trainingsalgorithmenangewandt werden
o Random Forest und Boosting erweitern immer einEntscheidungsbaummodell
Bagging Random Forest und Boosting Uumlbersicht
Inhaltsverzeichnis
Voraussetzungen
Bagging
Random Forest
Boosting
Uumlbersicht
Literatur
Bagging Random Forest und Boosting Literatur
Literatur
T Hastie R Tibshirani and JH Friedman The Elements ofStatistical Learning Data Mining Inference and PredictionSpringer Verlag 2009
Ian Goodfellow Yoshua Bengio and Aaron Courville DeepLearning MIT Press 2016 httpwwwdeeplearningbookorg
Bagging Random Forest und Boosting Literatur
o Kapazitaumlt Anzahl der Aspekte der Daten welche im Modellberuumlcksichtigt werden
o Mit steigender Kapazitaumlt passt sich das Modell an dieTrainingsdaten an rArr Bias sinkt rArr Overfitting
o Modell mit geringerer Kapazitaumlt kann wahren Zusammenhangnicht mehr erfassen rArr Varianz sinkt rArr Underfitting
Bagging Random Forest und Boosting Voraussetzungen
rArr rsquoModel averagingrsquo-Methoden sollen Generalisierungsfehlerminimieren
o Bagging und Random Forest Methoden senken die Varianz beigleichbleibendem Bias
o Beim Boosting wird ein Modell konstruiert das durch houmlhereKapazitaumlt den Bias senkt
Bagging Random Forest und Boosting Voraussetzungen
Inhaltsverzeichnis
Voraussetzungen
Bagging
Random Forest
Boosting
Uumlbersicht
Literatur
Bagging Random Forest und Boosting Bagging
Bagging auch genannt Bootstrap aggregation
o erweitert ein Modell zu mehreren Modelleno dafuumlr werden aus dem Trainingsdatensatz sogenannte
Bootstrap samples erzeugto auf diese wird dasselbe Modell dh der gleiche
Trainingsalgorithmus und die gleiche Zielfunktion angewandtrArr Vorhersage des urspruumlnglichen Modells f (x) wird durch die
Vorhersage des Kollektivs der rsquobaggedrsquo Modelle fbag(x) ersetzt
Bagging Random Forest und Boosting Bagging
Bagging - Funktionsweise
1 Aus dem Trainingsdatensatz Zwerden B Bootstrap samples Z lowastb
mit b=12B generiert2 Fuumlr jedes Bootstrap sample wird
ein Vorhersagemodell generiertwobei immer derselbeTrainingsalgorithmus verwendetwird
Bagging Random Forest und Boosting Bagging
Bagging - Funktionsweise
Die Vorhersage jedes Bootstrap samplesf lowastb(x) flieszligt mit gleichem Gewicht indie Gesamtvorhersage ein
fbag(x) = 1B
B983131
b=1f lowastb(x)
Bei Klassifikationsbaumlumen ergibt sichdie Vorhersage durch Mehrheitsvotumaller B Baumlume
Gbag(x) = argmaxk fbag(x)
Bagging Random Forest und Boosting Bagging
Bewertung der Bagging-Methode
Durch Bagging laumlsst sich die VarianzreduzierenBei gleichbleibendem Biaswert derBaumlume (gleicher Trainingsalgorithmus)reduziert sich somit der quadratischeFehler
Bagging Random Forest und Boosting Bagging
Besonders bei sogenannten instabilen Methoden kannBagging zu einer Verbesserung fuumlhrenEin Entscheidungsbaum ist aufgrund seiner Hierachie instabil dheine kleine Veraumlnderung der Daten kann schon eineFehlklassifizierung bewirkenrarr Durch Anwendung der Baggingmethode erhaumllt man B Baumlume
die alle auf verschiedenen Datensaumltzten Z lowastb basierenrarr Baumlume bestehen aus unterschiedlichen Variablen und besitzen
verschieden viele Knotenpunkterarr Die Baumlume werden nicht alle denselben Fehler wie der
urspruumlngliche Baum erzeugenrArr Reduzierung von Varianz amp Testfehler
Bagging Random Forest und Boosting Bagging
Inhaltsverzeichnis
Voraussetzungen
Bagging
Random Forest
Boosting
Uumlbersicht
Literatur
Bagging Random Forest und Boosting Random Forest
Die Random Forest Methodeo ist eine Modifikation der Bagging-Methodeo Trainingsdatensatz wird ebenfalls in sogenannte Bootstrap
samples uumlberfuumlhrto Entscheidungsbaummodell wird zu B Baumlumen basierend auf
den B Bootstrap samples erweitertrArr Daruumlber hinaus wird die Generierung der Baumlume so
modifiziert dass diese moumlglichst wenig korrelieren
Bagging Random Forest und Boosting Random Forest
Random Forest - Funktionsweise1 Von b=1 bis B
11 Erstelle Bootstrap sample Zlowast der GroumlszligeN
12 Erstelle Entscheidungsbaum anhand desBootstrap sample durch rekusivesAnwenden der folgenden Schritte aufjeden Endknoten bis dieMinimumknotengroumlszlige nmin erreicht ist
121 Waumlhle aus den p Variablen m zufaumllligaus
122 Waumlhle aus den m Variablen die bestefuumlr den Knotenpunkt aus
123 Teile den Knoten in zweiKinderknoten auf
2 Gib die Gesamtheit aller B Baumlume zuruumlckTbB
1
Bagging Random Forest und Boosting Random Forest
Random Forest - Funktionsweise
Bei Regression wird uumlber die Vorhersagewertejedes Baumes gemittelt
f Brf (x) = 1
B
B983131
b=1Tb(x)
Bei Klassifizierung erhaumllt man die Klasse durchMehrheitsvotum
CBrf (x) = majorityvoteCb(x)B
1
Bagging Random Forest und Boosting Random Forest
Die Varianz kann durch den sogenannten De-Korrelationseffektgesenkt werdenDie Varianz fuumlr genau einen Targetpunkt x ist gegeben durch
Var frf (x) = ρ(x)σ2
wobeiρ(x) = corr [T (x Θ1(Z ))T (x Θ2(Z ))]
die Korrelation zweier zufaumlllig gewaumlhlter Baumlume im Random Forestund
σ2(x) = VarT (x Θ(Z ))
die Stichprobenvarianz eines zufaumlllig gewachsenen Baumes ist
Bagging Random Forest und Boosting Random Forest
Anzahl der Variablen m aus denenan jedem Knotenpunkt ausgewaumlhltwerden kann sinkt wobei die mVariablen zufaumlllig gewaumlhlt sindrArr Wahrscheinlichkeit dass
identische Baumlume erstelltwerden sinkt
rArr Korrelation der Baumlume sinkt
Bagging Random Forest und Boosting Random Forest
m wird kleiner und reduziert dieKorrelationrArr reduziert die VarianzrArr bei (fast) gleichbleibendem
BiaswertrArr reduziert MSE bzw den
Test Fehler
Bagging Random Forest und Boosting Random Forest
Out-of-bag sampleIst eine Beobachtung zi = (xi yi) nicht im Bootstrap sampleenthalten kann sie genutzt werden um genau die Baumlume zutesten welche aus dem bootstrap sample generiert wurden
Bagging Random Forest und Boosting Random Forest
Inhaltsverzeichnis
Voraussetzungen
Bagging
Random Forest
Boosting
Uumlbersicht
Literatur
Bagging Random Forest und Boosting Boosting
Die Boosting Methode
o konstruiert ein Modell mit houmlherer Kapazitaumlt undo senkt dadurch den Biaso Die Grundidee von Boosting besteht darin aus vielen
sogenannten rsquoweak learnersrsquo ein Kollektiv zu erstellen das dieModellvorhersage verbessert
o Boosting basiert dabei vorwiegend auf Entscheidungsbaumlumen
Bagging Random Forest und Boosting Boosting
Boosting - Funktionsweise anhand der AdaBoost Methode
Die AdaBoost Methode erstellt iterativ eine Folge vonEntscheidungsbaumlumen mit je einem Knotenpunkt amp einerEntscheidungsvariable
Wie stark die Entscheidung des Baumesin die Gesamtentscheidung einflieszligenwird wird durch sein Stimmgewichtαm beschriebenrarr αm berechnet sich durch die
Fehlerquote der Variable errmund die Stichproben-Gewichte wi
Bagging Random Forest und Boosting Boosting
Boosting - Funktionsweise anhand der AdaBoost Methode
Das Stichproben-Gewicht wi ist zuBeginn 1
N und wird in jeder Iterationerneuertrarr wi berechnet sich durch die
Stimmgewichtung des vorherigenBaumes αmminus1
Bagging Random Forest und Boosting Boosting
Boosting - Funktionsweise anhand der AdaBoost Methode
Das Gewicht von falsch kategorisiertenStichproben wird erhoumlht indem es mitdem Faktor eαm skaliert wird
Bagging Random Forest und Boosting Boosting
Boosting - Funktionsweise anhand der AdaBoost Methode
Der naumlchste Klassifikator wird dannanhand der neuen StichprobengewichteausgewaumlhltrArr Hatte ein Klassifikator also eine
hohe Fehlerquote werden diefalsch klassifizierten Inputdaten dieWahl des naumlchsten Klassifikatorsstaumlrker beeinflussen
Bagging Random Forest und Boosting Boosting
Boosting - Funktionsweise anhand der AdaBoost Methode
rArr Die Baumlume in einem von AdaBoostgenerierten Modell sind also abhaumlngigvoneinander und haben unterschiedlicheGewichtung bei der Modellvorhersage G(x) = σ(
983123αmGm(x))
Bagging Random Forest und Boosting Boosting
Boosting Allgemeino Iterativ werden einzelne Entscheidungsbaumlume erstellt sodass
das Modell am Ende aus der Summe aller Baumlume besteht
fM(x) =M983131
m=1T (x θm)
rarr um einen neuen Baum θm zu definieren muss immer wiederfolgende Gleichung geloumlst werden
θm = argminθm
N983131
i=1L(yi fmminus1(xi) + T (xi θm))
rarr da hierbei auch fmminus1(xi) der Vorhersagewert des vorigenBaumes in Betracht gezogen wird sind die Baumlume abhaumlngig
o die Entscheidungen der rsquoweak learnerrsquo flieszligen nichtgleichwertig sondern gewichtet in die Gesamtentscheidung ein
Bagging Random Forest und Boosting Boosting
Die Idee von Gradient Boosting
Eine moumlgliche Loumlsung der Gleichung ist ein Regressionsbaumder die Residuen yi minus fmminus1(xi) bestmoumlglich vorhersagt
rArr jeder Baum wird dann von den Fehlvorhersagen desvorhergehenden Baumes beeinflusst
Bagging Random Forest und Boosting Boosting
Inhaltsverzeichnis
Voraussetzungen
Bagging
Random Forest
Boosting
Uumlbersicht
Literatur
Bagging Random Forest und Boosting Uumlbersicht
Uumlbersicht der 3 Methoden
Alle drei Methoden zielen darauf den Generalisierungs- bzwTestfehler zu senken
o Bagging und Random Forest reduzieren die Varianz desModells
o Boosting reduziert den Biaswert des ModellsDie drei Methoden basieren auf der Grundidee vonEntscheidungsbaumlumen
o Bagging kann fuumlr verschiedene Trainingsalgorithmenangewandt werden
o Random Forest und Boosting erweitern immer einEntscheidungsbaummodell
Bagging Random Forest und Boosting Uumlbersicht
Inhaltsverzeichnis
Voraussetzungen
Bagging
Random Forest
Boosting
Uumlbersicht
Literatur
Bagging Random Forest und Boosting Literatur
Literatur
T Hastie R Tibshirani and JH Friedman The Elements ofStatistical Learning Data Mining Inference and PredictionSpringer Verlag 2009
Ian Goodfellow Yoshua Bengio and Aaron Courville DeepLearning MIT Press 2016 httpwwwdeeplearningbookorg
Bagging Random Forest und Boosting Literatur
rArr rsquoModel averagingrsquo-Methoden sollen Generalisierungsfehlerminimieren
o Bagging und Random Forest Methoden senken die Varianz beigleichbleibendem Bias
o Beim Boosting wird ein Modell konstruiert das durch houmlhereKapazitaumlt den Bias senkt
Bagging Random Forest und Boosting Voraussetzungen
Inhaltsverzeichnis
Voraussetzungen
Bagging
Random Forest
Boosting
Uumlbersicht
Literatur
Bagging Random Forest und Boosting Bagging
Bagging auch genannt Bootstrap aggregation
o erweitert ein Modell zu mehreren Modelleno dafuumlr werden aus dem Trainingsdatensatz sogenannte
Bootstrap samples erzeugto auf diese wird dasselbe Modell dh der gleiche
Trainingsalgorithmus und die gleiche Zielfunktion angewandtrArr Vorhersage des urspruumlnglichen Modells f (x) wird durch die
Vorhersage des Kollektivs der rsquobaggedrsquo Modelle fbag(x) ersetzt
Bagging Random Forest und Boosting Bagging
Bagging - Funktionsweise
1 Aus dem Trainingsdatensatz Zwerden B Bootstrap samples Z lowastb
mit b=12B generiert2 Fuumlr jedes Bootstrap sample wird
ein Vorhersagemodell generiertwobei immer derselbeTrainingsalgorithmus verwendetwird
Bagging Random Forest und Boosting Bagging
Bagging - Funktionsweise
Die Vorhersage jedes Bootstrap samplesf lowastb(x) flieszligt mit gleichem Gewicht indie Gesamtvorhersage ein
fbag(x) = 1B
B983131
b=1f lowastb(x)
Bei Klassifikationsbaumlumen ergibt sichdie Vorhersage durch Mehrheitsvotumaller B Baumlume
Gbag(x) = argmaxk fbag(x)
Bagging Random Forest und Boosting Bagging
Bewertung der Bagging-Methode
Durch Bagging laumlsst sich die VarianzreduzierenBei gleichbleibendem Biaswert derBaumlume (gleicher Trainingsalgorithmus)reduziert sich somit der quadratischeFehler
Bagging Random Forest und Boosting Bagging
Besonders bei sogenannten instabilen Methoden kannBagging zu einer Verbesserung fuumlhrenEin Entscheidungsbaum ist aufgrund seiner Hierachie instabil dheine kleine Veraumlnderung der Daten kann schon eineFehlklassifizierung bewirkenrarr Durch Anwendung der Baggingmethode erhaumllt man B Baumlume
die alle auf verschiedenen Datensaumltzten Z lowastb basierenrarr Baumlume bestehen aus unterschiedlichen Variablen und besitzen
verschieden viele Knotenpunkterarr Die Baumlume werden nicht alle denselben Fehler wie der
urspruumlngliche Baum erzeugenrArr Reduzierung von Varianz amp Testfehler
Bagging Random Forest und Boosting Bagging
Inhaltsverzeichnis
Voraussetzungen
Bagging
Random Forest
Boosting
Uumlbersicht
Literatur
Bagging Random Forest und Boosting Random Forest
Die Random Forest Methodeo ist eine Modifikation der Bagging-Methodeo Trainingsdatensatz wird ebenfalls in sogenannte Bootstrap
samples uumlberfuumlhrto Entscheidungsbaummodell wird zu B Baumlumen basierend auf
den B Bootstrap samples erweitertrArr Daruumlber hinaus wird die Generierung der Baumlume so
modifiziert dass diese moumlglichst wenig korrelieren
Bagging Random Forest und Boosting Random Forest
Random Forest - Funktionsweise1 Von b=1 bis B
11 Erstelle Bootstrap sample Zlowast der GroumlszligeN
12 Erstelle Entscheidungsbaum anhand desBootstrap sample durch rekusivesAnwenden der folgenden Schritte aufjeden Endknoten bis dieMinimumknotengroumlszlige nmin erreicht ist
121 Waumlhle aus den p Variablen m zufaumllligaus
122 Waumlhle aus den m Variablen die bestefuumlr den Knotenpunkt aus
123 Teile den Knoten in zweiKinderknoten auf
2 Gib die Gesamtheit aller B Baumlume zuruumlckTbB
1
Bagging Random Forest und Boosting Random Forest
Random Forest - Funktionsweise
Bei Regression wird uumlber die Vorhersagewertejedes Baumes gemittelt
f Brf (x) = 1
B
B983131
b=1Tb(x)
Bei Klassifizierung erhaumllt man die Klasse durchMehrheitsvotum
CBrf (x) = majorityvoteCb(x)B
1
Bagging Random Forest und Boosting Random Forest
Die Varianz kann durch den sogenannten De-Korrelationseffektgesenkt werdenDie Varianz fuumlr genau einen Targetpunkt x ist gegeben durch
Var frf (x) = ρ(x)σ2
wobeiρ(x) = corr [T (x Θ1(Z ))T (x Θ2(Z ))]
die Korrelation zweier zufaumlllig gewaumlhlter Baumlume im Random Forestund
σ2(x) = VarT (x Θ(Z ))
die Stichprobenvarianz eines zufaumlllig gewachsenen Baumes ist
Bagging Random Forest und Boosting Random Forest
Anzahl der Variablen m aus denenan jedem Knotenpunkt ausgewaumlhltwerden kann sinkt wobei die mVariablen zufaumlllig gewaumlhlt sindrArr Wahrscheinlichkeit dass
identische Baumlume erstelltwerden sinkt
rArr Korrelation der Baumlume sinkt
Bagging Random Forest und Boosting Random Forest
m wird kleiner und reduziert dieKorrelationrArr reduziert die VarianzrArr bei (fast) gleichbleibendem
BiaswertrArr reduziert MSE bzw den
Test Fehler
Bagging Random Forest und Boosting Random Forest
Out-of-bag sampleIst eine Beobachtung zi = (xi yi) nicht im Bootstrap sampleenthalten kann sie genutzt werden um genau die Baumlume zutesten welche aus dem bootstrap sample generiert wurden
Bagging Random Forest und Boosting Random Forest
Inhaltsverzeichnis
Voraussetzungen
Bagging
Random Forest
Boosting
Uumlbersicht
Literatur
Bagging Random Forest und Boosting Boosting
Die Boosting Methode
o konstruiert ein Modell mit houmlherer Kapazitaumlt undo senkt dadurch den Biaso Die Grundidee von Boosting besteht darin aus vielen
sogenannten rsquoweak learnersrsquo ein Kollektiv zu erstellen das dieModellvorhersage verbessert
o Boosting basiert dabei vorwiegend auf Entscheidungsbaumlumen
Bagging Random Forest und Boosting Boosting
Boosting - Funktionsweise anhand der AdaBoost Methode
Die AdaBoost Methode erstellt iterativ eine Folge vonEntscheidungsbaumlumen mit je einem Knotenpunkt amp einerEntscheidungsvariable
Wie stark die Entscheidung des Baumesin die Gesamtentscheidung einflieszligenwird wird durch sein Stimmgewichtαm beschriebenrarr αm berechnet sich durch die
Fehlerquote der Variable errmund die Stichproben-Gewichte wi
Bagging Random Forest und Boosting Boosting
Boosting - Funktionsweise anhand der AdaBoost Methode
Das Stichproben-Gewicht wi ist zuBeginn 1
N und wird in jeder Iterationerneuertrarr wi berechnet sich durch die
Stimmgewichtung des vorherigenBaumes αmminus1
Bagging Random Forest und Boosting Boosting
Boosting - Funktionsweise anhand der AdaBoost Methode
Das Gewicht von falsch kategorisiertenStichproben wird erhoumlht indem es mitdem Faktor eαm skaliert wird
Bagging Random Forest und Boosting Boosting
Boosting - Funktionsweise anhand der AdaBoost Methode
Der naumlchste Klassifikator wird dannanhand der neuen StichprobengewichteausgewaumlhltrArr Hatte ein Klassifikator also eine
hohe Fehlerquote werden diefalsch klassifizierten Inputdaten dieWahl des naumlchsten Klassifikatorsstaumlrker beeinflussen
Bagging Random Forest und Boosting Boosting
Boosting - Funktionsweise anhand der AdaBoost Methode
rArr Die Baumlume in einem von AdaBoostgenerierten Modell sind also abhaumlngigvoneinander und haben unterschiedlicheGewichtung bei der Modellvorhersage G(x) = σ(
983123αmGm(x))
Bagging Random Forest und Boosting Boosting
Boosting Allgemeino Iterativ werden einzelne Entscheidungsbaumlume erstellt sodass
das Modell am Ende aus der Summe aller Baumlume besteht
fM(x) =M983131
m=1T (x θm)
rarr um einen neuen Baum θm zu definieren muss immer wiederfolgende Gleichung geloumlst werden
θm = argminθm
N983131
i=1L(yi fmminus1(xi) + T (xi θm))
rarr da hierbei auch fmminus1(xi) der Vorhersagewert des vorigenBaumes in Betracht gezogen wird sind die Baumlume abhaumlngig
o die Entscheidungen der rsquoweak learnerrsquo flieszligen nichtgleichwertig sondern gewichtet in die Gesamtentscheidung ein
Bagging Random Forest und Boosting Boosting
Die Idee von Gradient Boosting
Eine moumlgliche Loumlsung der Gleichung ist ein Regressionsbaumder die Residuen yi minus fmminus1(xi) bestmoumlglich vorhersagt
rArr jeder Baum wird dann von den Fehlvorhersagen desvorhergehenden Baumes beeinflusst
Bagging Random Forest und Boosting Boosting
Inhaltsverzeichnis
Voraussetzungen
Bagging
Random Forest
Boosting
Uumlbersicht
Literatur
Bagging Random Forest und Boosting Uumlbersicht
Uumlbersicht der 3 Methoden
Alle drei Methoden zielen darauf den Generalisierungs- bzwTestfehler zu senken
o Bagging und Random Forest reduzieren die Varianz desModells
o Boosting reduziert den Biaswert des ModellsDie drei Methoden basieren auf der Grundidee vonEntscheidungsbaumlumen
o Bagging kann fuumlr verschiedene Trainingsalgorithmenangewandt werden
o Random Forest und Boosting erweitern immer einEntscheidungsbaummodell
Bagging Random Forest und Boosting Uumlbersicht
Inhaltsverzeichnis
Voraussetzungen
Bagging
Random Forest
Boosting
Uumlbersicht
Literatur
Bagging Random Forest und Boosting Literatur
Literatur
T Hastie R Tibshirani and JH Friedman The Elements ofStatistical Learning Data Mining Inference and PredictionSpringer Verlag 2009
Ian Goodfellow Yoshua Bengio and Aaron Courville DeepLearning MIT Press 2016 httpwwwdeeplearningbookorg
Bagging Random Forest und Boosting Literatur
Inhaltsverzeichnis
Voraussetzungen
Bagging
Random Forest
Boosting
Uumlbersicht
Literatur
Bagging Random Forest und Boosting Bagging
Bagging auch genannt Bootstrap aggregation
o erweitert ein Modell zu mehreren Modelleno dafuumlr werden aus dem Trainingsdatensatz sogenannte
Bootstrap samples erzeugto auf diese wird dasselbe Modell dh der gleiche
Trainingsalgorithmus und die gleiche Zielfunktion angewandtrArr Vorhersage des urspruumlnglichen Modells f (x) wird durch die
Vorhersage des Kollektivs der rsquobaggedrsquo Modelle fbag(x) ersetzt
Bagging Random Forest und Boosting Bagging
Bagging - Funktionsweise
1 Aus dem Trainingsdatensatz Zwerden B Bootstrap samples Z lowastb
mit b=12B generiert2 Fuumlr jedes Bootstrap sample wird
ein Vorhersagemodell generiertwobei immer derselbeTrainingsalgorithmus verwendetwird
Bagging Random Forest und Boosting Bagging
Bagging - Funktionsweise
Die Vorhersage jedes Bootstrap samplesf lowastb(x) flieszligt mit gleichem Gewicht indie Gesamtvorhersage ein
fbag(x) = 1B
B983131
b=1f lowastb(x)
Bei Klassifikationsbaumlumen ergibt sichdie Vorhersage durch Mehrheitsvotumaller B Baumlume
Gbag(x) = argmaxk fbag(x)
Bagging Random Forest und Boosting Bagging
Bewertung der Bagging-Methode
Durch Bagging laumlsst sich die VarianzreduzierenBei gleichbleibendem Biaswert derBaumlume (gleicher Trainingsalgorithmus)reduziert sich somit der quadratischeFehler
Bagging Random Forest und Boosting Bagging
Besonders bei sogenannten instabilen Methoden kannBagging zu einer Verbesserung fuumlhrenEin Entscheidungsbaum ist aufgrund seiner Hierachie instabil dheine kleine Veraumlnderung der Daten kann schon eineFehlklassifizierung bewirkenrarr Durch Anwendung der Baggingmethode erhaumllt man B Baumlume
die alle auf verschiedenen Datensaumltzten Z lowastb basierenrarr Baumlume bestehen aus unterschiedlichen Variablen und besitzen
verschieden viele Knotenpunkterarr Die Baumlume werden nicht alle denselben Fehler wie der
urspruumlngliche Baum erzeugenrArr Reduzierung von Varianz amp Testfehler
Bagging Random Forest und Boosting Bagging
Inhaltsverzeichnis
Voraussetzungen
Bagging
Random Forest
Boosting
Uumlbersicht
Literatur
Bagging Random Forest und Boosting Random Forest
Die Random Forest Methodeo ist eine Modifikation der Bagging-Methodeo Trainingsdatensatz wird ebenfalls in sogenannte Bootstrap
samples uumlberfuumlhrto Entscheidungsbaummodell wird zu B Baumlumen basierend auf
den B Bootstrap samples erweitertrArr Daruumlber hinaus wird die Generierung der Baumlume so
modifiziert dass diese moumlglichst wenig korrelieren
Bagging Random Forest und Boosting Random Forest
Random Forest - Funktionsweise1 Von b=1 bis B
11 Erstelle Bootstrap sample Zlowast der GroumlszligeN
12 Erstelle Entscheidungsbaum anhand desBootstrap sample durch rekusivesAnwenden der folgenden Schritte aufjeden Endknoten bis dieMinimumknotengroumlszlige nmin erreicht ist
121 Waumlhle aus den p Variablen m zufaumllligaus
122 Waumlhle aus den m Variablen die bestefuumlr den Knotenpunkt aus
123 Teile den Knoten in zweiKinderknoten auf
2 Gib die Gesamtheit aller B Baumlume zuruumlckTbB
1
Bagging Random Forest und Boosting Random Forest
Random Forest - Funktionsweise
Bei Regression wird uumlber die Vorhersagewertejedes Baumes gemittelt
f Brf (x) = 1
B
B983131
b=1Tb(x)
Bei Klassifizierung erhaumllt man die Klasse durchMehrheitsvotum
CBrf (x) = majorityvoteCb(x)B
1
Bagging Random Forest und Boosting Random Forest
Die Varianz kann durch den sogenannten De-Korrelationseffektgesenkt werdenDie Varianz fuumlr genau einen Targetpunkt x ist gegeben durch
Var frf (x) = ρ(x)σ2
wobeiρ(x) = corr [T (x Θ1(Z ))T (x Θ2(Z ))]
die Korrelation zweier zufaumlllig gewaumlhlter Baumlume im Random Forestund
σ2(x) = VarT (x Θ(Z ))
die Stichprobenvarianz eines zufaumlllig gewachsenen Baumes ist
Bagging Random Forest und Boosting Random Forest
Anzahl der Variablen m aus denenan jedem Knotenpunkt ausgewaumlhltwerden kann sinkt wobei die mVariablen zufaumlllig gewaumlhlt sindrArr Wahrscheinlichkeit dass
identische Baumlume erstelltwerden sinkt
rArr Korrelation der Baumlume sinkt
Bagging Random Forest und Boosting Random Forest
m wird kleiner und reduziert dieKorrelationrArr reduziert die VarianzrArr bei (fast) gleichbleibendem
BiaswertrArr reduziert MSE bzw den
Test Fehler
Bagging Random Forest und Boosting Random Forest
Out-of-bag sampleIst eine Beobachtung zi = (xi yi) nicht im Bootstrap sampleenthalten kann sie genutzt werden um genau die Baumlume zutesten welche aus dem bootstrap sample generiert wurden
Bagging Random Forest und Boosting Random Forest
Inhaltsverzeichnis
Voraussetzungen
Bagging
Random Forest
Boosting
Uumlbersicht
Literatur
Bagging Random Forest und Boosting Boosting
Die Boosting Methode
o konstruiert ein Modell mit houmlherer Kapazitaumlt undo senkt dadurch den Biaso Die Grundidee von Boosting besteht darin aus vielen
sogenannten rsquoweak learnersrsquo ein Kollektiv zu erstellen das dieModellvorhersage verbessert
o Boosting basiert dabei vorwiegend auf Entscheidungsbaumlumen
Bagging Random Forest und Boosting Boosting
Boosting - Funktionsweise anhand der AdaBoost Methode
Die AdaBoost Methode erstellt iterativ eine Folge vonEntscheidungsbaumlumen mit je einem Knotenpunkt amp einerEntscheidungsvariable
Wie stark die Entscheidung des Baumesin die Gesamtentscheidung einflieszligenwird wird durch sein Stimmgewichtαm beschriebenrarr αm berechnet sich durch die
Fehlerquote der Variable errmund die Stichproben-Gewichte wi
Bagging Random Forest und Boosting Boosting
Boosting - Funktionsweise anhand der AdaBoost Methode
Das Stichproben-Gewicht wi ist zuBeginn 1
N und wird in jeder Iterationerneuertrarr wi berechnet sich durch die
Stimmgewichtung des vorherigenBaumes αmminus1
Bagging Random Forest und Boosting Boosting
Boosting - Funktionsweise anhand der AdaBoost Methode
Das Gewicht von falsch kategorisiertenStichproben wird erhoumlht indem es mitdem Faktor eαm skaliert wird
Bagging Random Forest und Boosting Boosting
Boosting - Funktionsweise anhand der AdaBoost Methode
Der naumlchste Klassifikator wird dannanhand der neuen StichprobengewichteausgewaumlhltrArr Hatte ein Klassifikator also eine
hohe Fehlerquote werden diefalsch klassifizierten Inputdaten dieWahl des naumlchsten Klassifikatorsstaumlrker beeinflussen
Bagging Random Forest und Boosting Boosting
Boosting - Funktionsweise anhand der AdaBoost Methode
rArr Die Baumlume in einem von AdaBoostgenerierten Modell sind also abhaumlngigvoneinander und haben unterschiedlicheGewichtung bei der Modellvorhersage G(x) = σ(
983123αmGm(x))
Bagging Random Forest und Boosting Boosting
Boosting Allgemeino Iterativ werden einzelne Entscheidungsbaumlume erstellt sodass
das Modell am Ende aus der Summe aller Baumlume besteht
fM(x) =M983131
m=1T (x θm)
rarr um einen neuen Baum θm zu definieren muss immer wiederfolgende Gleichung geloumlst werden
θm = argminθm
N983131
i=1L(yi fmminus1(xi) + T (xi θm))
rarr da hierbei auch fmminus1(xi) der Vorhersagewert des vorigenBaumes in Betracht gezogen wird sind die Baumlume abhaumlngig
o die Entscheidungen der rsquoweak learnerrsquo flieszligen nichtgleichwertig sondern gewichtet in die Gesamtentscheidung ein
Bagging Random Forest und Boosting Boosting
Die Idee von Gradient Boosting
Eine moumlgliche Loumlsung der Gleichung ist ein Regressionsbaumder die Residuen yi minus fmminus1(xi) bestmoumlglich vorhersagt
rArr jeder Baum wird dann von den Fehlvorhersagen desvorhergehenden Baumes beeinflusst
Bagging Random Forest und Boosting Boosting
Inhaltsverzeichnis
Voraussetzungen
Bagging
Random Forest
Boosting
Uumlbersicht
Literatur
Bagging Random Forest und Boosting Uumlbersicht
Uumlbersicht der 3 Methoden
Alle drei Methoden zielen darauf den Generalisierungs- bzwTestfehler zu senken
o Bagging und Random Forest reduzieren die Varianz desModells
o Boosting reduziert den Biaswert des ModellsDie drei Methoden basieren auf der Grundidee vonEntscheidungsbaumlumen
o Bagging kann fuumlr verschiedene Trainingsalgorithmenangewandt werden
o Random Forest und Boosting erweitern immer einEntscheidungsbaummodell
Bagging Random Forest und Boosting Uumlbersicht
Inhaltsverzeichnis
Voraussetzungen
Bagging
Random Forest
Boosting
Uumlbersicht
Literatur
Bagging Random Forest und Boosting Literatur
Literatur
T Hastie R Tibshirani and JH Friedman The Elements ofStatistical Learning Data Mining Inference and PredictionSpringer Verlag 2009
Ian Goodfellow Yoshua Bengio and Aaron Courville DeepLearning MIT Press 2016 httpwwwdeeplearningbookorg
Bagging Random Forest und Boosting Literatur
Bagging auch genannt Bootstrap aggregation
o erweitert ein Modell zu mehreren Modelleno dafuumlr werden aus dem Trainingsdatensatz sogenannte
Bootstrap samples erzeugto auf diese wird dasselbe Modell dh der gleiche
Trainingsalgorithmus und die gleiche Zielfunktion angewandtrArr Vorhersage des urspruumlnglichen Modells f (x) wird durch die
Vorhersage des Kollektivs der rsquobaggedrsquo Modelle fbag(x) ersetzt
Bagging Random Forest und Boosting Bagging
Bagging - Funktionsweise
1 Aus dem Trainingsdatensatz Zwerden B Bootstrap samples Z lowastb
mit b=12B generiert2 Fuumlr jedes Bootstrap sample wird
ein Vorhersagemodell generiertwobei immer derselbeTrainingsalgorithmus verwendetwird
Bagging Random Forest und Boosting Bagging
Bagging - Funktionsweise
Die Vorhersage jedes Bootstrap samplesf lowastb(x) flieszligt mit gleichem Gewicht indie Gesamtvorhersage ein
fbag(x) = 1B
B983131
b=1f lowastb(x)
Bei Klassifikationsbaumlumen ergibt sichdie Vorhersage durch Mehrheitsvotumaller B Baumlume
Gbag(x) = argmaxk fbag(x)
Bagging Random Forest und Boosting Bagging
Bewertung der Bagging-Methode
Durch Bagging laumlsst sich die VarianzreduzierenBei gleichbleibendem Biaswert derBaumlume (gleicher Trainingsalgorithmus)reduziert sich somit der quadratischeFehler
Bagging Random Forest und Boosting Bagging
Besonders bei sogenannten instabilen Methoden kannBagging zu einer Verbesserung fuumlhrenEin Entscheidungsbaum ist aufgrund seiner Hierachie instabil dheine kleine Veraumlnderung der Daten kann schon eineFehlklassifizierung bewirkenrarr Durch Anwendung der Baggingmethode erhaumllt man B Baumlume
die alle auf verschiedenen Datensaumltzten Z lowastb basierenrarr Baumlume bestehen aus unterschiedlichen Variablen und besitzen
verschieden viele Knotenpunkterarr Die Baumlume werden nicht alle denselben Fehler wie der
urspruumlngliche Baum erzeugenrArr Reduzierung von Varianz amp Testfehler
Bagging Random Forest und Boosting Bagging
Inhaltsverzeichnis
Voraussetzungen
Bagging
Random Forest
Boosting
Uumlbersicht
Literatur
Bagging Random Forest und Boosting Random Forest
Die Random Forest Methodeo ist eine Modifikation der Bagging-Methodeo Trainingsdatensatz wird ebenfalls in sogenannte Bootstrap
samples uumlberfuumlhrto Entscheidungsbaummodell wird zu B Baumlumen basierend auf
den B Bootstrap samples erweitertrArr Daruumlber hinaus wird die Generierung der Baumlume so
modifiziert dass diese moumlglichst wenig korrelieren
Bagging Random Forest und Boosting Random Forest
Random Forest - Funktionsweise1 Von b=1 bis B
11 Erstelle Bootstrap sample Zlowast der GroumlszligeN
12 Erstelle Entscheidungsbaum anhand desBootstrap sample durch rekusivesAnwenden der folgenden Schritte aufjeden Endknoten bis dieMinimumknotengroumlszlige nmin erreicht ist
121 Waumlhle aus den p Variablen m zufaumllligaus
122 Waumlhle aus den m Variablen die bestefuumlr den Knotenpunkt aus
123 Teile den Knoten in zweiKinderknoten auf
2 Gib die Gesamtheit aller B Baumlume zuruumlckTbB
1
Bagging Random Forest und Boosting Random Forest
Random Forest - Funktionsweise
Bei Regression wird uumlber die Vorhersagewertejedes Baumes gemittelt
f Brf (x) = 1
B
B983131
b=1Tb(x)
Bei Klassifizierung erhaumllt man die Klasse durchMehrheitsvotum
CBrf (x) = majorityvoteCb(x)B
1
Bagging Random Forest und Boosting Random Forest
Die Varianz kann durch den sogenannten De-Korrelationseffektgesenkt werdenDie Varianz fuumlr genau einen Targetpunkt x ist gegeben durch
Var frf (x) = ρ(x)σ2
wobeiρ(x) = corr [T (x Θ1(Z ))T (x Θ2(Z ))]
die Korrelation zweier zufaumlllig gewaumlhlter Baumlume im Random Forestund
σ2(x) = VarT (x Θ(Z ))
die Stichprobenvarianz eines zufaumlllig gewachsenen Baumes ist
Bagging Random Forest und Boosting Random Forest
Anzahl der Variablen m aus denenan jedem Knotenpunkt ausgewaumlhltwerden kann sinkt wobei die mVariablen zufaumlllig gewaumlhlt sindrArr Wahrscheinlichkeit dass
identische Baumlume erstelltwerden sinkt
rArr Korrelation der Baumlume sinkt
Bagging Random Forest und Boosting Random Forest
m wird kleiner und reduziert dieKorrelationrArr reduziert die VarianzrArr bei (fast) gleichbleibendem
BiaswertrArr reduziert MSE bzw den
Test Fehler
Bagging Random Forest und Boosting Random Forest
Out-of-bag sampleIst eine Beobachtung zi = (xi yi) nicht im Bootstrap sampleenthalten kann sie genutzt werden um genau die Baumlume zutesten welche aus dem bootstrap sample generiert wurden
Bagging Random Forest und Boosting Random Forest
Inhaltsverzeichnis
Voraussetzungen
Bagging
Random Forest
Boosting
Uumlbersicht
Literatur
Bagging Random Forest und Boosting Boosting
Die Boosting Methode
o konstruiert ein Modell mit houmlherer Kapazitaumlt undo senkt dadurch den Biaso Die Grundidee von Boosting besteht darin aus vielen
sogenannten rsquoweak learnersrsquo ein Kollektiv zu erstellen das dieModellvorhersage verbessert
o Boosting basiert dabei vorwiegend auf Entscheidungsbaumlumen
Bagging Random Forest und Boosting Boosting
Boosting - Funktionsweise anhand der AdaBoost Methode
Die AdaBoost Methode erstellt iterativ eine Folge vonEntscheidungsbaumlumen mit je einem Knotenpunkt amp einerEntscheidungsvariable
Wie stark die Entscheidung des Baumesin die Gesamtentscheidung einflieszligenwird wird durch sein Stimmgewichtαm beschriebenrarr αm berechnet sich durch die
Fehlerquote der Variable errmund die Stichproben-Gewichte wi
Bagging Random Forest und Boosting Boosting
Boosting - Funktionsweise anhand der AdaBoost Methode
Das Stichproben-Gewicht wi ist zuBeginn 1
N und wird in jeder Iterationerneuertrarr wi berechnet sich durch die
Stimmgewichtung des vorherigenBaumes αmminus1
Bagging Random Forest und Boosting Boosting
Boosting - Funktionsweise anhand der AdaBoost Methode
Das Gewicht von falsch kategorisiertenStichproben wird erhoumlht indem es mitdem Faktor eαm skaliert wird
Bagging Random Forest und Boosting Boosting
Boosting - Funktionsweise anhand der AdaBoost Methode
Der naumlchste Klassifikator wird dannanhand der neuen StichprobengewichteausgewaumlhltrArr Hatte ein Klassifikator also eine
hohe Fehlerquote werden diefalsch klassifizierten Inputdaten dieWahl des naumlchsten Klassifikatorsstaumlrker beeinflussen
Bagging Random Forest und Boosting Boosting
Boosting - Funktionsweise anhand der AdaBoost Methode
rArr Die Baumlume in einem von AdaBoostgenerierten Modell sind also abhaumlngigvoneinander und haben unterschiedlicheGewichtung bei der Modellvorhersage G(x) = σ(
983123αmGm(x))
Bagging Random Forest und Boosting Boosting
Boosting Allgemeino Iterativ werden einzelne Entscheidungsbaumlume erstellt sodass
das Modell am Ende aus der Summe aller Baumlume besteht
fM(x) =M983131
m=1T (x θm)
rarr um einen neuen Baum θm zu definieren muss immer wiederfolgende Gleichung geloumlst werden
θm = argminθm
N983131
i=1L(yi fmminus1(xi) + T (xi θm))
rarr da hierbei auch fmminus1(xi) der Vorhersagewert des vorigenBaumes in Betracht gezogen wird sind die Baumlume abhaumlngig
o die Entscheidungen der rsquoweak learnerrsquo flieszligen nichtgleichwertig sondern gewichtet in die Gesamtentscheidung ein
Bagging Random Forest und Boosting Boosting
Die Idee von Gradient Boosting
Eine moumlgliche Loumlsung der Gleichung ist ein Regressionsbaumder die Residuen yi minus fmminus1(xi) bestmoumlglich vorhersagt
rArr jeder Baum wird dann von den Fehlvorhersagen desvorhergehenden Baumes beeinflusst
Bagging Random Forest und Boosting Boosting
Inhaltsverzeichnis
Voraussetzungen
Bagging
Random Forest
Boosting
Uumlbersicht
Literatur
Bagging Random Forest und Boosting Uumlbersicht
Uumlbersicht der 3 Methoden
Alle drei Methoden zielen darauf den Generalisierungs- bzwTestfehler zu senken
o Bagging und Random Forest reduzieren die Varianz desModells
o Boosting reduziert den Biaswert des ModellsDie drei Methoden basieren auf der Grundidee vonEntscheidungsbaumlumen
o Bagging kann fuumlr verschiedene Trainingsalgorithmenangewandt werden
o Random Forest und Boosting erweitern immer einEntscheidungsbaummodell
Bagging Random Forest und Boosting Uumlbersicht
Inhaltsverzeichnis
Voraussetzungen
Bagging
Random Forest
Boosting
Uumlbersicht
Literatur
Bagging Random Forest und Boosting Literatur
Literatur
T Hastie R Tibshirani and JH Friedman The Elements ofStatistical Learning Data Mining Inference and PredictionSpringer Verlag 2009
Ian Goodfellow Yoshua Bengio and Aaron Courville DeepLearning MIT Press 2016 httpwwwdeeplearningbookorg
Bagging Random Forest und Boosting Literatur
Bagging - Funktionsweise
1 Aus dem Trainingsdatensatz Zwerden B Bootstrap samples Z lowastb
mit b=12B generiert2 Fuumlr jedes Bootstrap sample wird
ein Vorhersagemodell generiertwobei immer derselbeTrainingsalgorithmus verwendetwird
Bagging Random Forest und Boosting Bagging
Bagging - Funktionsweise
Die Vorhersage jedes Bootstrap samplesf lowastb(x) flieszligt mit gleichem Gewicht indie Gesamtvorhersage ein
fbag(x) = 1B
B983131
b=1f lowastb(x)
Bei Klassifikationsbaumlumen ergibt sichdie Vorhersage durch Mehrheitsvotumaller B Baumlume
Gbag(x) = argmaxk fbag(x)
Bagging Random Forest und Boosting Bagging
Bewertung der Bagging-Methode
Durch Bagging laumlsst sich die VarianzreduzierenBei gleichbleibendem Biaswert derBaumlume (gleicher Trainingsalgorithmus)reduziert sich somit der quadratischeFehler
Bagging Random Forest und Boosting Bagging
Besonders bei sogenannten instabilen Methoden kannBagging zu einer Verbesserung fuumlhrenEin Entscheidungsbaum ist aufgrund seiner Hierachie instabil dheine kleine Veraumlnderung der Daten kann schon eineFehlklassifizierung bewirkenrarr Durch Anwendung der Baggingmethode erhaumllt man B Baumlume
die alle auf verschiedenen Datensaumltzten Z lowastb basierenrarr Baumlume bestehen aus unterschiedlichen Variablen und besitzen
verschieden viele Knotenpunkterarr Die Baumlume werden nicht alle denselben Fehler wie der
urspruumlngliche Baum erzeugenrArr Reduzierung von Varianz amp Testfehler
Bagging Random Forest und Boosting Bagging
Inhaltsverzeichnis
Voraussetzungen
Bagging
Random Forest
Boosting
Uumlbersicht
Literatur
Bagging Random Forest und Boosting Random Forest
Die Random Forest Methodeo ist eine Modifikation der Bagging-Methodeo Trainingsdatensatz wird ebenfalls in sogenannte Bootstrap
samples uumlberfuumlhrto Entscheidungsbaummodell wird zu B Baumlumen basierend auf
den B Bootstrap samples erweitertrArr Daruumlber hinaus wird die Generierung der Baumlume so
modifiziert dass diese moumlglichst wenig korrelieren
Bagging Random Forest und Boosting Random Forest
Random Forest - Funktionsweise1 Von b=1 bis B
11 Erstelle Bootstrap sample Zlowast der GroumlszligeN
12 Erstelle Entscheidungsbaum anhand desBootstrap sample durch rekusivesAnwenden der folgenden Schritte aufjeden Endknoten bis dieMinimumknotengroumlszlige nmin erreicht ist
121 Waumlhle aus den p Variablen m zufaumllligaus
122 Waumlhle aus den m Variablen die bestefuumlr den Knotenpunkt aus
123 Teile den Knoten in zweiKinderknoten auf
2 Gib die Gesamtheit aller B Baumlume zuruumlckTbB
1
Bagging Random Forest und Boosting Random Forest
Random Forest - Funktionsweise
Bei Regression wird uumlber die Vorhersagewertejedes Baumes gemittelt
f Brf (x) = 1
B
B983131
b=1Tb(x)
Bei Klassifizierung erhaumllt man die Klasse durchMehrheitsvotum
CBrf (x) = majorityvoteCb(x)B
1
Bagging Random Forest und Boosting Random Forest
Die Varianz kann durch den sogenannten De-Korrelationseffektgesenkt werdenDie Varianz fuumlr genau einen Targetpunkt x ist gegeben durch
Var frf (x) = ρ(x)σ2
wobeiρ(x) = corr [T (x Θ1(Z ))T (x Θ2(Z ))]
die Korrelation zweier zufaumlllig gewaumlhlter Baumlume im Random Forestund
σ2(x) = VarT (x Θ(Z ))
die Stichprobenvarianz eines zufaumlllig gewachsenen Baumes ist
Bagging Random Forest und Boosting Random Forest
Anzahl der Variablen m aus denenan jedem Knotenpunkt ausgewaumlhltwerden kann sinkt wobei die mVariablen zufaumlllig gewaumlhlt sindrArr Wahrscheinlichkeit dass
identische Baumlume erstelltwerden sinkt
rArr Korrelation der Baumlume sinkt
Bagging Random Forest und Boosting Random Forest
m wird kleiner und reduziert dieKorrelationrArr reduziert die VarianzrArr bei (fast) gleichbleibendem
BiaswertrArr reduziert MSE bzw den
Test Fehler
Bagging Random Forest und Boosting Random Forest
Out-of-bag sampleIst eine Beobachtung zi = (xi yi) nicht im Bootstrap sampleenthalten kann sie genutzt werden um genau die Baumlume zutesten welche aus dem bootstrap sample generiert wurden
Bagging Random Forest und Boosting Random Forest
Inhaltsverzeichnis
Voraussetzungen
Bagging
Random Forest
Boosting
Uumlbersicht
Literatur
Bagging Random Forest und Boosting Boosting
Die Boosting Methode
o konstruiert ein Modell mit houmlherer Kapazitaumlt undo senkt dadurch den Biaso Die Grundidee von Boosting besteht darin aus vielen
sogenannten rsquoweak learnersrsquo ein Kollektiv zu erstellen das dieModellvorhersage verbessert
o Boosting basiert dabei vorwiegend auf Entscheidungsbaumlumen
Bagging Random Forest und Boosting Boosting
Boosting - Funktionsweise anhand der AdaBoost Methode
Die AdaBoost Methode erstellt iterativ eine Folge vonEntscheidungsbaumlumen mit je einem Knotenpunkt amp einerEntscheidungsvariable
Wie stark die Entscheidung des Baumesin die Gesamtentscheidung einflieszligenwird wird durch sein Stimmgewichtαm beschriebenrarr αm berechnet sich durch die
Fehlerquote der Variable errmund die Stichproben-Gewichte wi
Bagging Random Forest und Boosting Boosting
Boosting - Funktionsweise anhand der AdaBoost Methode
Das Stichproben-Gewicht wi ist zuBeginn 1
N und wird in jeder Iterationerneuertrarr wi berechnet sich durch die
Stimmgewichtung des vorherigenBaumes αmminus1
Bagging Random Forest und Boosting Boosting
Boosting - Funktionsweise anhand der AdaBoost Methode
Das Gewicht von falsch kategorisiertenStichproben wird erhoumlht indem es mitdem Faktor eαm skaliert wird
Bagging Random Forest und Boosting Boosting
Boosting - Funktionsweise anhand der AdaBoost Methode
Der naumlchste Klassifikator wird dannanhand der neuen StichprobengewichteausgewaumlhltrArr Hatte ein Klassifikator also eine
hohe Fehlerquote werden diefalsch klassifizierten Inputdaten dieWahl des naumlchsten Klassifikatorsstaumlrker beeinflussen
Bagging Random Forest und Boosting Boosting
Boosting - Funktionsweise anhand der AdaBoost Methode
rArr Die Baumlume in einem von AdaBoostgenerierten Modell sind also abhaumlngigvoneinander und haben unterschiedlicheGewichtung bei der Modellvorhersage G(x) = σ(
983123αmGm(x))
Bagging Random Forest und Boosting Boosting
Boosting Allgemeino Iterativ werden einzelne Entscheidungsbaumlume erstellt sodass
das Modell am Ende aus der Summe aller Baumlume besteht
fM(x) =M983131
m=1T (x θm)
rarr um einen neuen Baum θm zu definieren muss immer wiederfolgende Gleichung geloumlst werden
θm = argminθm
N983131
i=1L(yi fmminus1(xi) + T (xi θm))
rarr da hierbei auch fmminus1(xi) der Vorhersagewert des vorigenBaumes in Betracht gezogen wird sind die Baumlume abhaumlngig
o die Entscheidungen der rsquoweak learnerrsquo flieszligen nichtgleichwertig sondern gewichtet in die Gesamtentscheidung ein
Bagging Random Forest und Boosting Boosting
Die Idee von Gradient Boosting
Eine moumlgliche Loumlsung der Gleichung ist ein Regressionsbaumder die Residuen yi minus fmminus1(xi) bestmoumlglich vorhersagt
rArr jeder Baum wird dann von den Fehlvorhersagen desvorhergehenden Baumes beeinflusst
Bagging Random Forest und Boosting Boosting
Inhaltsverzeichnis
Voraussetzungen
Bagging
Random Forest
Boosting
Uumlbersicht
Literatur
Bagging Random Forest und Boosting Uumlbersicht
Uumlbersicht der 3 Methoden
Alle drei Methoden zielen darauf den Generalisierungs- bzwTestfehler zu senken
o Bagging und Random Forest reduzieren die Varianz desModells
o Boosting reduziert den Biaswert des ModellsDie drei Methoden basieren auf der Grundidee vonEntscheidungsbaumlumen
o Bagging kann fuumlr verschiedene Trainingsalgorithmenangewandt werden
o Random Forest und Boosting erweitern immer einEntscheidungsbaummodell
Bagging Random Forest und Boosting Uumlbersicht
Inhaltsverzeichnis
Voraussetzungen
Bagging
Random Forest
Boosting
Uumlbersicht
Literatur
Bagging Random Forest und Boosting Literatur
Literatur
T Hastie R Tibshirani and JH Friedman The Elements ofStatistical Learning Data Mining Inference and PredictionSpringer Verlag 2009
Ian Goodfellow Yoshua Bengio and Aaron Courville DeepLearning MIT Press 2016 httpwwwdeeplearningbookorg
Bagging Random Forest und Boosting Literatur
Bagging - Funktionsweise
Die Vorhersage jedes Bootstrap samplesf lowastb(x) flieszligt mit gleichem Gewicht indie Gesamtvorhersage ein
fbag(x) = 1B
B983131
b=1f lowastb(x)
Bei Klassifikationsbaumlumen ergibt sichdie Vorhersage durch Mehrheitsvotumaller B Baumlume
Gbag(x) = argmaxk fbag(x)
Bagging Random Forest und Boosting Bagging
Bewertung der Bagging-Methode
Durch Bagging laumlsst sich die VarianzreduzierenBei gleichbleibendem Biaswert derBaumlume (gleicher Trainingsalgorithmus)reduziert sich somit der quadratischeFehler
Bagging Random Forest und Boosting Bagging
Besonders bei sogenannten instabilen Methoden kannBagging zu einer Verbesserung fuumlhrenEin Entscheidungsbaum ist aufgrund seiner Hierachie instabil dheine kleine Veraumlnderung der Daten kann schon eineFehlklassifizierung bewirkenrarr Durch Anwendung der Baggingmethode erhaumllt man B Baumlume
die alle auf verschiedenen Datensaumltzten Z lowastb basierenrarr Baumlume bestehen aus unterschiedlichen Variablen und besitzen
verschieden viele Knotenpunkterarr Die Baumlume werden nicht alle denselben Fehler wie der
urspruumlngliche Baum erzeugenrArr Reduzierung von Varianz amp Testfehler
Bagging Random Forest und Boosting Bagging
Inhaltsverzeichnis
Voraussetzungen
Bagging
Random Forest
Boosting
Uumlbersicht
Literatur
Bagging Random Forest und Boosting Random Forest
Die Random Forest Methodeo ist eine Modifikation der Bagging-Methodeo Trainingsdatensatz wird ebenfalls in sogenannte Bootstrap
samples uumlberfuumlhrto Entscheidungsbaummodell wird zu B Baumlumen basierend auf
den B Bootstrap samples erweitertrArr Daruumlber hinaus wird die Generierung der Baumlume so
modifiziert dass diese moumlglichst wenig korrelieren
Bagging Random Forest und Boosting Random Forest
Random Forest - Funktionsweise1 Von b=1 bis B
11 Erstelle Bootstrap sample Zlowast der GroumlszligeN
12 Erstelle Entscheidungsbaum anhand desBootstrap sample durch rekusivesAnwenden der folgenden Schritte aufjeden Endknoten bis dieMinimumknotengroumlszlige nmin erreicht ist
121 Waumlhle aus den p Variablen m zufaumllligaus
122 Waumlhle aus den m Variablen die bestefuumlr den Knotenpunkt aus
123 Teile den Knoten in zweiKinderknoten auf
2 Gib die Gesamtheit aller B Baumlume zuruumlckTbB
1
Bagging Random Forest und Boosting Random Forest
Random Forest - Funktionsweise
Bei Regression wird uumlber die Vorhersagewertejedes Baumes gemittelt
f Brf (x) = 1
B
B983131
b=1Tb(x)
Bei Klassifizierung erhaumllt man die Klasse durchMehrheitsvotum
CBrf (x) = majorityvoteCb(x)B
1
Bagging Random Forest und Boosting Random Forest
Die Varianz kann durch den sogenannten De-Korrelationseffektgesenkt werdenDie Varianz fuumlr genau einen Targetpunkt x ist gegeben durch
Var frf (x) = ρ(x)σ2
wobeiρ(x) = corr [T (x Θ1(Z ))T (x Θ2(Z ))]
die Korrelation zweier zufaumlllig gewaumlhlter Baumlume im Random Forestund
σ2(x) = VarT (x Θ(Z ))
die Stichprobenvarianz eines zufaumlllig gewachsenen Baumes ist
Bagging Random Forest und Boosting Random Forest
Anzahl der Variablen m aus denenan jedem Knotenpunkt ausgewaumlhltwerden kann sinkt wobei die mVariablen zufaumlllig gewaumlhlt sindrArr Wahrscheinlichkeit dass
identische Baumlume erstelltwerden sinkt
rArr Korrelation der Baumlume sinkt
Bagging Random Forest und Boosting Random Forest
m wird kleiner und reduziert dieKorrelationrArr reduziert die VarianzrArr bei (fast) gleichbleibendem
BiaswertrArr reduziert MSE bzw den
Test Fehler
Bagging Random Forest und Boosting Random Forest
Out-of-bag sampleIst eine Beobachtung zi = (xi yi) nicht im Bootstrap sampleenthalten kann sie genutzt werden um genau die Baumlume zutesten welche aus dem bootstrap sample generiert wurden
Bagging Random Forest und Boosting Random Forest
Inhaltsverzeichnis
Voraussetzungen
Bagging
Random Forest
Boosting
Uumlbersicht
Literatur
Bagging Random Forest und Boosting Boosting
Die Boosting Methode
o konstruiert ein Modell mit houmlherer Kapazitaumlt undo senkt dadurch den Biaso Die Grundidee von Boosting besteht darin aus vielen
sogenannten rsquoweak learnersrsquo ein Kollektiv zu erstellen das dieModellvorhersage verbessert
o Boosting basiert dabei vorwiegend auf Entscheidungsbaumlumen
Bagging Random Forest und Boosting Boosting
Boosting - Funktionsweise anhand der AdaBoost Methode
Die AdaBoost Methode erstellt iterativ eine Folge vonEntscheidungsbaumlumen mit je einem Knotenpunkt amp einerEntscheidungsvariable
Wie stark die Entscheidung des Baumesin die Gesamtentscheidung einflieszligenwird wird durch sein Stimmgewichtαm beschriebenrarr αm berechnet sich durch die
Fehlerquote der Variable errmund die Stichproben-Gewichte wi
Bagging Random Forest und Boosting Boosting
Boosting - Funktionsweise anhand der AdaBoost Methode
Das Stichproben-Gewicht wi ist zuBeginn 1
N und wird in jeder Iterationerneuertrarr wi berechnet sich durch die
Stimmgewichtung des vorherigenBaumes αmminus1
Bagging Random Forest und Boosting Boosting
Boosting - Funktionsweise anhand der AdaBoost Methode
Das Gewicht von falsch kategorisiertenStichproben wird erhoumlht indem es mitdem Faktor eαm skaliert wird
Bagging Random Forest und Boosting Boosting
Boosting - Funktionsweise anhand der AdaBoost Methode
Der naumlchste Klassifikator wird dannanhand der neuen StichprobengewichteausgewaumlhltrArr Hatte ein Klassifikator also eine
hohe Fehlerquote werden diefalsch klassifizierten Inputdaten dieWahl des naumlchsten Klassifikatorsstaumlrker beeinflussen
Bagging Random Forest und Boosting Boosting
Boosting - Funktionsweise anhand der AdaBoost Methode
rArr Die Baumlume in einem von AdaBoostgenerierten Modell sind also abhaumlngigvoneinander und haben unterschiedlicheGewichtung bei der Modellvorhersage G(x) = σ(
983123αmGm(x))
Bagging Random Forest und Boosting Boosting
Boosting Allgemeino Iterativ werden einzelne Entscheidungsbaumlume erstellt sodass
das Modell am Ende aus der Summe aller Baumlume besteht
fM(x) =M983131
m=1T (x θm)
rarr um einen neuen Baum θm zu definieren muss immer wiederfolgende Gleichung geloumlst werden
θm = argminθm
N983131
i=1L(yi fmminus1(xi) + T (xi θm))
rarr da hierbei auch fmminus1(xi) der Vorhersagewert des vorigenBaumes in Betracht gezogen wird sind die Baumlume abhaumlngig
o die Entscheidungen der rsquoweak learnerrsquo flieszligen nichtgleichwertig sondern gewichtet in die Gesamtentscheidung ein
Bagging Random Forest und Boosting Boosting
Die Idee von Gradient Boosting
Eine moumlgliche Loumlsung der Gleichung ist ein Regressionsbaumder die Residuen yi minus fmminus1(xi) bestmoumlglich vorhersagt
rArr jeder Baum wird dann von den Fehlvorhersagen desvorhergehenden Baumes beeinflusst
Bagging Random Forest und Boosting Boosting
Inhaltsverzeichnis
Voraussetzungen
Bagging
Random Forest
Boosting
Uumlbersicht
Literatur
Bagging Random Forest und Boosting Uumlbersicht
Uumlbersicht der 3 Methoden
Alle drei Methoden zielen darauf den Generalisierungs- bzwTestfehler zu senken
o Bagging und Random Forest reduzieren die Varianz desModells
o Boosting reduziert den Biaswert des ModellsDie drei Methoden basieren auf der Grundidee vonEntscheidungsbaumlumen
o Bagging kann fuumlr verschiedene Trainingsalgorithmenangewandt werden
o Random Forest und Boosting erweitern immer einEntscheidungsbaummodell
Bagging Random Forest und Boosting Uumlbersicht
Inhaltsverzeichnis
Voraussetzungen
Bagging
Random Forest
Boosting
Uumlbersicht
Literatur
Bagging Random Forest und Boosting Literatur
Literatur
T Hastie R Tibshirani and JH Friedman The Elements ofStatistical Learning Data Mining Inference and PredictionSpringer Verlag 2009
Ian Goodfellow Yoshua Bengio and Aaron Courville DeepLearning MIT Press 2016 httpwwwdeeplearningbookorg
Bagging Random Forest und Boosting Literatur
Bewertung der Bagging-Methode
Durch Bagging laumlsst sich die VarianzreduzierenBei gleichbleibendem Biaswert derBaumlume (gleicher Trainingsalgorithmus)reduziert sich somit der quadratischeFehler
Bagging Random Forest und Boosting Bagging
Besonders bei sogenannten instabilen Methoden kannBagging zu einer Verbesserung fuumlhrenEin Entscheidungsbaum ist aufgrund seiner Hierachie instabil dheine kleine Veraumlnderung der Daten kann schon eineFehlklassifizierung bewirkenrarr Durch Anwendung der Baggingmethode erhaumllt man B Baumlume
die alle auf verschiedenen Datensaumltzten Z lowastb basierenrarr Baumlume bestehen aus unterschiedlichen Variablen und besitzen
verschieden viele Knotenpunkterarr Die Baumlume werden nicht alle denselben Fehler wie der
urspruumlngliche Baum erzeugenrArr Reduzierung von Varianz amp Testfehler
Bagging Random Forest und Boosting Bagging
Inhaltsverzeichnis
Voraussetzungen
Bagging
Random Forest
Boosting
Uumlbersicht
Literatur
Bagging Random Forest und Boosting Random Forest
Die Random Forest Methodeo ist eine Modifikation der Bagging-Methodeo Trainingsdatensatz wird ebenfalls in sogenannte Bootstrap
samples uumlberfuumlhrto Entscheidungsbaummodell wird zu B Baumlumen basierend auf
den B Bootstrap samples erweitertrArr Daruumlber hinaus wird die Generierung der Baumlume so
modifiziert dass diese moumlglichst wenig korrelieren
Bagging Random Forest und Boosting Random Forest
Random Forest - Funktionsweise1 Von b=1 bis B
11 Erstelle Bootstrap sample Zlowast der GroumlszligeN
12 Erstelle Entscheidungsbaum anhand desBootstrap sample durch rekusivesAnwenden der folgenden Schritte aufjeden Endknoten bis dieMinimumknotengroumlszlige nmin erreicht ist
121 Waumlhle aus den p Variablen m zufaumllligaus
122 Waumlhle aus den m Variablen die bestefuumlr den Knotenpunkt aus
123 Teile den Knoten in zweiKinderknoten auf
2 Gib die Gesamtheit aller B Baumlume zuruumlckTbB
1
Bagging Random Forest und Boosting Random Forest
Random Forest - Funktionsweise
Bei Regression wird uumlber die Vorhersagewertejedes Baumes gemittelt
f Brf (x) = 1
B
B983131
b=1Tb(x)
Bei Klassifizierung erhaumllt man die Klasse durchMehrheitsvotum
CBrf (x) = majorityvoteCb(x)B
1
Bagging Random Forest und Boosting Random Forest
Die Varianz kann durch den sogenannten De-Korrelationseffektgesenkt werdenDie Varianz fuumlr genau einen Targetpunkt x ist gegeben durch
Var frf (x) = ρ(x)σ2
wobeiρ(x) = corr [T (x Θ1(Z ))T (x Θ2(Z ))]
die Korrelation zweier zufaumlllig gewaumlhlter Baumlume im Random Forestund
σ2(x) = VarT (x Θ(Z ))
die Stichprobenvarianz eines zufaumlllig gewachsenen Baumes ist
Bagging Random Forest und Boosting Random Forest
Anzahl der Variablen m aus denenan jedem Knotenpunkt ausgewaumlhltwerden kann sinkt wobei die mVariablen zufaumlllig gewaumlhlt sindrArr Wahrscheinlichkeit dass
identische Baumlume erstelltwerden sinkt
rArr Korrelation der Baumlume sinkt
Bagging Random Forest und Boosting Random Forest
m wird kleiner und reduziert dieKorrelationrArr reduziert die VarianzrArr bei (fast) gleichbleibendem
BiaswertrArr reduziert MSE bzw den
Test Fehler
Bagging Random Forest und Boosting Random Forest
Out-of-bag sampleIst eine Beobachtung zi = (xi yi) nicht im Bootstrap sampleenthalten kann sie genutzt werden um genau die Baumlume zutesten welche aus dem bootstrap sample generiert wurden
Bagging Random Forest und Boosting Random Forest
Inhaltsverzeichnis
Voraussetzungen
Bagging
Random Forest
Boosting
Uumlbersicht
Literatur
Bagging Random Forest und Boosting Boosting
Die Boosting Methode
o konstruiert ein Modell mit houmlherer Kapazitaumlt undo senkt dadurch den Biaso Die Grundidee von Boosting besteht darin aus vielen
sogenannten rsquoweak learnersrsquo ein Kollektiv zu erstellen das dieModellvorhersage verbessert
o Boosting basiert dabei vorwiegend auf Entscheidungsbaumlumen
Bagging Random Forest und Boosting Boosting
Boosting - Funktionsweise anhand der AdaBoost Methode
Die AdaBoost Methode erstellt iterativ eine Folge vonEntscheidungsbaumlumen mit je einem Knotenpunkt amp einerEntscheidungsvariable
Wie stark die Entscheidung des Baumesin die Gesamtentscheidung einflieszligenwird wird durch sein Stimmgewichtαm beschriebenrarr αm berechnet sich durch die
Fehlerquote der Variable errmund die Stichproben-Gewichte wi
Bagging Random Forest und Boosting Boosting
Boosting - Funktionsweise anhand der AdaBoost Methode
Das Stichproben-Gewicht wi ist zuBeginn 1
N und wird in jeder Iterationerneuertrarr wi berechnet sich durch die
Stimmgewichtung des vorherigenBaumes αmminus1
Bagging Random Forest und Boosting Boosting
Boosting - Funktionsweise anhand der AdaBoost Methode
Das Gewicht von falsch kategorisiertenStichproben wird erhoumlht indem es mitdem Faktor eαm skaliert wird
Bagging Random Forest und Boosting Boosting
Boosting - Funktionsweise anhand der AdaBoost Methode
Der naumlchste Klassifikator wird dannanhand der neuen StichprobengewichteausgewaumlhltrArr Hatte ein Klassifikator also eine
hohe Fehlerquote werden diefalsch klassifizierten Inputdaten dieWahl des naumlchsten Klassifikatorsstaumlrker beeinflussen
Bagging Random Forest und Boosting Boosting
Boosting - Funktionsweise anhand der AdaBoost Methode
rArr Die Baumlume in einem von AdaBoostgenerierten Modell sind also abhaumlngigvoneinander und haben unterschiedlicheGewichtung bei der Modellvorhersage G(x) = σ(
983123αmGm(x))
Bagging Random Forest und Boosting Boosting
Boosting Allgemeino Iterativ werden einzelne Entscheidungsbaumlume erstellt sodass
das Modell am Ende aus der Summe aller Baumlume besteht
fM(x) =M983131
m=1T (x θm)
rarr um einen neuen Baum θm zu definieren muss immer wiederfolgende Gleichung geloumlst werden
θm = argminθm
N983131
i=1L(yi fmminus1(xi) + T (xi θm))
rarr da hierbei auch fmminus1(xi) der Vorhersagewert des vorigenBaumes in Betracht gezogen wird sind die Baumlume abhaumlngig
o die Entscheidungen der rsquoweak learnerrsquo flieszligen nichtgleichwertig sondern gewichtet in die Gesamtentscheidung ein
Bagging Random Forest und Boosting Boosting
Die Idee von Gradient Boosting
Eine moumlgliche Loumlsung der Gleichung ist ein Regressionsbaumder die Residuen yi minus fmminus1(xi) bestmoumlglich vorhersagt
rArr jeder Baum wird dann von den Fehlvorhersagen desvorhergehenden Baumes beeinflusst
Bagging Random Forest und Boosting Boosting
Inhaltsverzeichnis
Voraussetzungen
Bagging
Random Forest
Boosting
Uumlbersicht
Literatur
Bagging Random Forest und Boosting Uumlbersicht
Uumlbersicht der 3 Methoden
Alle drei Methoden zielen darauf den Generalisierungs- bzwTestfehler zu senken
o Bagging und Random Forest reduzieren die Varianz desModells
o Boosting reduziert den Biaswert des ModellsDie drei Methoden basieren auf der Grundidee vonEntscheidungsbaumlumen
o Bagging kann fuumlr verschiedene Trainingsalgorithmenangewandt werden
o Random Forest und Boosting erweitern immer einEntscheidungsbaummodell
Bagging Random Forest und Boosting Uumlbersicht
Inhaltsverzeichnis
Voraussetzungen
Bagging
Random Forest
Boosting
Uumlbersicht
Literatur
Bagging Random Forest und Boosting Literatur
Literatur
T Hastie R Tibshirani and JH Friedman The Elements ofStatistical Learning Data Mining Inference and PredictionSpringer Verlag 2009
Ian Goodfellow Yoshua Bengio and Aaron Courville DeepLearning MIT Press 2016 httpwwwdeeplearningbookorg
Bagging Random Forest und Boosting Literatur
Besonders bei sogenannten instabilen Methoden kannBagging zu einer Verbesserung fuumlhrenEin Entscheidungsbaum ist aufgrund seiner Hierachie instabil dheine kleine Veraumlnderung der Daten kann schon eineFehlklassifizierung bewirkenrarr Durch Anwendung der Baggingmethode erhaumllt man B Baumlume
die alle auf verschiedenen Datensaumltzten Z lowastb basierenrarr Baumlume bestehen aus unterschiedlichen Variablen und besitzen
verschieden viele Knotenpunkterarr Die Baumlume werden nicht alle denselben Fehler wie der
urspruumlngliche Baum erzeugenrArr Reduzierung von Varianz amp Testfehler
Bagging Random Forest und Boosting Bagging
Inhaltsverzeichnis
Voraussetzungen
Bagging
Random Forest
Boosting
Uumlbersicht
Literatur
Bagging Random Forest und Boosting Random Forest
Die Random Forest Methodeo ist eine Modifikation der Bagging-Methodeo Trainingsdatensatz wird ebenfalls in sogenannte Bootstrap
samples uumlberfuumlhrto Entscheidungsbaummodell wird zu B Baumlumen basierend auf
den B Bootstrap samples erweitertrArr Daruumlber hinaus wird die Generierung der Baumlume so
modifiziert dass diese moumlglichst wenig korrelieren
Bagging Random Forest und Boosting Random Forest
Random Forest - Funktionsweise1 Von b=1 bis B
11 Erstelle Bootstrap sample Zlowast der GroumlszligeN
12 Erstelle Entscheidungsbaum anhand desBootstrap sample durch rekusivesAnwenden der folgenden Schritte aufjeden Endknoten bis dieMinimumknotengroumlszlige nmin erreicht ist
121 Waumlhle aus den p Variablen m zufaumllligaus
122 Waumlhle aus den m Variablen die bestefuumlr den Knotenpunkt aus
123 Teile den Knoten in zweiKinderknoten auf
2 Gib die Gesamtheit aller B Baumlume zuruumlckTbB
1
Bagging Random Forest und Boosting Random Forest
Random Forest - Funktionsweise
Bei Regression wird uumlber die Vorhersagewertejedes Baumes gemittelt
f Brf (x) = 1
B
B983131
b=1Tb(x)
Bei Klassifizierung erhaumllt man die Klasse durchMehrheitsvotum
CBrf (x) = majorityvoteCb(x)B
1
Bagging Random Forest und Boosting Random Forest
Die Varianz kann durch den sogenannten De-Korrelationseffektgesenkt werdenDie Varianz fuumlr genau einen Targetpunkt x ist gegeben durch
Var frf (x) = ρ(x)σ2
wobeiρ(x) = corr [T (x Θ1(Z ))T (x Θ2(Z ))]
die Korrelation zweier zufaumlllig gewaumlhlter Baumlume im Random Forestund
σ2(x) = VarT (x Θ(Z ))
die Stichprobenvarianz eines zufaumlllig gewachsenen Baumes ist
Bagging Random Forest und Boosting Random Forest
Anzahl der Variablen m aus denenan jedem Knotenpunkt ausgewaumlhltwerden kann sinkt wobei die mVariablen zufaumlllig gewaumlhlt sindrArr Wahrscheinlichkeit dass
identische Baumlume erstelltwerden sinkt
rArr Korrelation der Baumlume sinkt
Bagging Random Forest und Boosting Random Forest
m wird kleiner und reduziert dieKorrelationrArr reduziert die VarianzrArr bei (fast) gleichbleibendem
BiaswertrArr reduziert MSE bzw den
Test Fehler
Bagging Random Forest und Boosting Random Forest
Out-of-bag sampleIst eine Beobachtung zi = (xi yi) nicht im Bootstrap sampleenthalten kann sie genutzt werden um genau die Baumlume zutesten welche aus dem bootstrap sample generiert wurden
Bagging Random Forest und Boosting Random Forest
Inhaltsverzeichnis
Voraussetzungen
Bagging
Random Forest
Boosting
Uumlbersicht
Literatur
Bagging Random Forest und Boosting Boosting
Die Boosting Methode
o konstruiert ein Modell mit houmlherer Kapazitaumlt undo senkt dadurch den Biaso Die Grundidee von Boosting besteht darin aus vielen
sogenannten rsquoweak learnersrsquo ein Kollektiv zu erstellen das dieModellvorhersage verbessert
o Boosting basiert dabei vorwiegend auf Entscheidungsbaumlumen
Bagging Random Forest und Boosting Boosting
Boosting - Funktionsweise anhand der AdaBoost Methode
Die AdaBoost Methode erstellt iterativ eine Folge vonEntscheidungsbaumlumen mit je einem Knotenpunkt amp einerEntscheidungsvariable
Wie stark die Entscheidung des Baumesin die Gesamtentscheidung einflieszligenwird wird durch sein Stimmgewichtαm beschriebenrarr αm berechnet sich durch die
Fehlerquote der Variable errmund die Stichproben-Gewichte wi
Bagging Random Forest und Boosting Boosting
Boosting - Funktionsweise anhand der AdaBoost Methode
Das Stichproben-Gewicht wi ist zuBeginn 1
N und wird in jeder Iterationerneuertrarr wi berechnet sich durch die
Stimmgewichtung des vorherigenBaumes αmminus1
Bagging Random Forest und Boosting Boosting
Boosting - Funktionsweise anhand der AdaBoost Methode
Das Gewicht von falsch kategorisiertenStichproben wird erhoumlht indem es mitdem Faktor eαm skaliert wird
Bagging Random Forest und Boosting Boosting
Boosting - Funktionsweise anhand der AdaBoost Methode
Der naumlchste Klassifikator wird dannanhand der neuen StichprobengewichteausgewaumlhltrArr Hatte ein Klassifikator also eine
hohe Fehlerquote werden diefalsch klassifizierten Inputdaten dieWahl des naumlchsten Klassifikatorsstaumlrker beeinflussen
Bagging Random Forest und Boosting Boosting
Boosting - Funktionsweise anhand der AdaBoost Methode
rArr Die Baumlume in einem von AdaBoostgenerierten Modell sind also abhaumlngigvoneinander und haben unterschiedlicheGewichtung bei der Modellvorhersage G(x) = σ(
983123αmGm(x))
Bagging Random Forest und Boosting Boosting
Boosting Allgemeino Iterativ werden einzelne Entscheidungsbaumlume erstellt sodass
das Modell am Ende aus der Summe aller Baumlume besteht
fM(x) =M983131
m=1T (x θm)
rarr um einen neuen Baum θm zu definieren muss immer wiederfolgende Gleichung geloumlst werden
θm = argminθm
N983131
i=1L(yi fmminus1(xi) + T (xi θm))
rarr da hierbei auch fmminus1(xi) der Vorhersagewert des vorigenBaumes in Betracht gezogen wird sind die Baumlume abhaumlngig
o die Entscheidungen der rsquoweak learnerrsquo flieszligen nichtgleichwertig sondern gewichtet in die Gesamtentscheidung ein
Bagging Random Forest und Boosting Boosting
Die Idee von Gradient Boosting
Eine moumlgliche Loumlsung der Gleichung ist ein Regressionsbaumder die Residuen yi minus fmminus1(xi) bestmoumlglich vorhersagt
rArr jeder Baum wird dann von den Fehlvorhersagen desvorhergehenden Baumes beeinflusst
Bagging Random Forest und Boosting Boosting
Inhaltsverzeichnis
Voraussetzungen
Bagging
Random Forest
Boosting
Uumlbersicht
Literatur
Bagging Random Forest und Boosting Uumlbersicht
Uumlbersicht der 3 Methoden
Alle drei Methoden zielen darauf den Generalisierungs- bzwTestfehler zu senken
o Bagging und Random Forest reduzieren die Varianz desModells
o Boosting reduziert den Biaswert des ModellsDie drei Methoden basieren auf der Grundidee vonEntscheidungsbaumlumen
o Bagging kann fuumlr verschiedene Trainingsalgorithmenangewandt werden
o Random Forest und Boosting erweitern immer einEntscheidungsbaummodell
Bagging Random Forest und Boosting Uumlbersicht
Inhaltsverzeichnis
Voraussetzungen
Bagging
Random Forest
Boosting
Uumlbersicht
Literatur
Bagging Random Forest und Boosting Literatur
Literatur
T Hastie R Tibshirani and JH Friedman The Elements ofStatistical Learning Data Mining Inference and PredictionSpringer Verlag 2009
Ian Goodfellow Yoshua Bengio and Aaron Courville DeepLearning MIT Press 2016 httpwwwdeeplearningbookorg
Bagging Random Forest und Boosting Literatur
Inhaltsverzeichnis
Voraussetzungen
Bagging
Random Forest
Boosting
Uumlbersicht
Literatur
Bagging Random Forest und Boosting Random Forest
Die Random Forest Methodeo ist eine Modifikation der Bagging-Methodeo Trainingsdatensatz wird ebenfalls in sogenannte Bootstrap
samples uumlberfuumlhrto Entscheidungsbaummodell wird zu B Baumlumen basierend auf
den B Bootstrap samples erweitertrArr Daruumlber hinaus wird die Generierung der Baumlume so
modifiziert dass diese moumlglichst wenig korrelieren
Bagging Random Forest und Boosting Random Forest
Random Forest - Funktionsweise1 Von b=1 bis B
11 Erstelle Bootstrap sample Zlowast der GroumlszligeN
12 Erstelle Entscheidungsbaum anhand desBootstrap sample durch rekusivesAnwenden der folgenden Schritte aufjeden Endknoten bis dieMinimumknotengroumlszlige nmin erreicht ist
121 Waumlhle aus den p Variablen m zufaumllligaus
122 Waumlhle aus den m Variablen die bestefuumlr den Knotenpunkt aus
123 Teile den Knoten in zweiKinderknoten auf
2 Gib die Gesamtheit aller B Baumlume zuruumlckTbB
1
Bagging Random Forest und Boosting Random Forest
Random Forest - Funktionsweise
Bei Regression wird uumlber die Vorhersagewertejedes Baumes gemittelt
f Brf (x) = 1
B
B983131
b=1Tb(x)
Bei Klassifizierung erhaumllt man die Klasse durchMehrheitsvotum
CBrf (x) = majorityvoteCb(x)B
1
Bagging Random Forest und Boosting Random Forest
Die Varianz kann durch den sogenannten De-Korrelationseffektgesenkt werdenDie Varianz fuumlr genau einen Targetpunkt x ist gegeben durch
Var frf (x) = ρ(x)σ2
wobeiρ(x) = corr [T (x Θ1(Z ))T (x Θ2(Z ))]
die Korrelation zweier zufaumlllig gewaumlhlter Baumlume im Random Forestund
σ2(x) = VarT (x Θ(Z ))
die Stichprobenvarianz eines zufaumlllig gewachsenen Baumes ist
Bagging Random Forest und Boosting Random Forest
Anzahl der Variablen m aus denenan jedem Knotenpunkt ausgewaumlhltwerden kann sinkt wobei die mVariablen zufaumlllig gewaumlhlt sindrArr Wahrscheinlichkeit dass
identische Baumlume erstelltwerden sinkt
rArr Korrelation der Baumlume sinkt
Bagging Random Forest und Boosting Random Forest
m wird kleiner und reduziert dieKorrelationrArr reduziert die VarianzrArr bei (fast) gleichbleibendem
BiaswertrArr reduziert MSE bzw den
Test Fehler
Bagging Random Forest und Boosting Random Forest
Out-of-bag sampleIst eine Beobachtung zi = (xi yi) nicht im Bootstrap sampleenthalten kann sie genutzt werden um genau die Baumlume zutesten welche aus dem bootstrap sample generiert wurden
Bagging Random Forest und Boosting Random Forest
Inhaltsverzeichnis
Voraussetzungen
Bagging
Random Forest
Boosting
Uumlbersicht
Literatur
Bagging Random Forest und Boosting Boosting
Die Boosting Methode
o konstruiert ein Modell mit houmlherer Kapazitaumlt undo senkt dadurch den Biaso Die Grundidee von Boosting besteht darin aus vielen
sogenannten rsquoweak learnersrsquo ein Kollektiv zu erstellen das dieModellvorhersage verbessert
o Boosting basiert dabei vorwiegend auf Entscheidungsbaumlumen
Bagging Random Forest und Boosting Boosting
Boosting - Funktionsweise anhand der AdaBoost Methode
Die AdaBoost Methode erstellt iterativ eine Folge vonEntscheidungsbaumlumen mit je einem Knotenpunkt amp einerEntscheidungsvariable
Wie stark die Entscheidung des Baumesin die Gesamtentscheidung einflieszligenwird wird durch sein Stimmgewichtαm beschriebenrarr αm berechnet sich durch die
Fehlerquote der Variable errmund die Stichproben-Gewichte wi
Bagging Random Forest und Boosting Boosting
Boosting - Funktionsweise anhand der AdaBoost Methode
Das Stichproben-Gewicht wi ist zuBeginn 1
N und wird in jeder Iterationerneuertrarr wi berechnet sich durch die
Stimmgewichtung des vorherigenBaumes αmminus1
Bagging Random Forest und Boosting Boosting
Boosting - Funktionsweise anhand der AdaBoost Methode
Das Gewicht von falsch kategorisiertenStichproben wird erhoumlht indem es mitdem Faktor eαm skaliert wird
Bagging Random Forest und Boosting Boosting
Boosting - Funktionsweise anhand der AdaBoost Methode
Der naumlchste Klassifikator wird dannanhand der neuen StichprobengewichteausgewaumlhltrArr Hatte ein Klassifikator also eine
hohe Fehlerquote werden diefalsch klassifizierten Inputdaten dieWahl des naumlchsten Klassifikatorsstaumlrker beeinflussen
Bagging Random Forest und Boosting Boosting
Boosting - Funktionsweise anhand der AdaBoost Methode
rArr Die Baumlume in einem von AdaBoostgenerierten Modell sind also abhaumlngigvoneinander und haben unterschiedlicheGewichtung bei der Modellvorhersage G(x) = σ(
983123αmGm(x))
Bagging Random Forest und Boosting Boosting
Boosting Allgemeino Iterativ werden einzelne Entscheidungsbaumlume erstellt sodass
das Modell am Ende aus der Summe aller Baumlume besteht
fM(x) =M983131
m=1T (x θm)
rarr um einen neuen Baum θm zu definieren muss immer wiederfolgende Gleichung geloumlst werden
θm = argminθm
N983131
i=1L(yi fmminus1(xi) + T (xi θm))
rarr da hierbei auch fmminus1(xi) der Vorhersagewert des vorigenBaumes in Betracht gezogen wird sind die Baumlume abhaumlngig
o die Entscheidungen der rsquoweak learnerrsquo flieszligen nichtgleichwertig sondern gewichtet in die Gesamtentscheidung ein
Bagging Random Forest und Boosting Boosting
Die Idee von Gradient Boosting
Eine moumlgliche Loumlsung der Gleichung ist ein Regressionsbaumder die Residuen yi minus fmminus1(xi) bestmoumlglich vorhersagt
rArr jeder Baum wird dann von den Fehlvorhersagen desvorhergehenden Baumes beeinflusst
Bagging Random Forest und Boosting Boosting
Inhaltsverzeichnis
Voraussetzungen
Bagging
Random Forest
Boosting
Uumlbersicht
Literatur
Bagging Random Forest und Boosting Uumlbersicht
Uumlbersicht der 3 Methoden
Alle drei Methoden zielen darauf den Generalisierungs- bzwTestfehler zu senken
o Bagging und Random Forest reduzieren die Varianz desModells
o Boosting reduziert den Biaswert des ModellsDie drei Methoden basieren auf der Grundidee vonEntscheidungsbaumlumen
o Bagging kann fuumlr verschiedene Trainingsalgorithmenangewandt werden
o Random Forest und Boosting erweitern immer einEntscheidungsbaummodell
Bagging Random Forest und Boosting Uumlbersicht
Inhaltsverzeichnis
Voraussetzungen
Bagging
Random Forest
Boosting
Uumlbersicht
Literatur
Bagging Random Forest und Boosting Literatur
Literatur
T Hastie R Tibshirani and JH Friedman The Elements ofStatistical Learning Data Mining Inference and PredictionSpringer Verlag 2009
Ian Goodfellow Yoshua Bengio and Aaron Courville DeepLearning MIT Press 2016 httpwwwdeeplearningbookorg
Bagging Random Forest und Boosting Literatur
Die Random Forest Methodeo ist eine Modifikation der Bagging-Methodeo Trainingsdatensatz wird ebenfalls in sogenannte Bootstrap
samples uumlberfuumlhrto Entscheidungsbaummodell wird zu B Baumlumen basierend auf
den B Bootstrap samples erweitertrArr Daruumlber hinaus wird die Generierung der Baumlume so
modifiziert dass diese moumlglichst wenig korrelieren
Bagging Random Forest und Boosting Random Forest
Random Forest - Funktionsweise1 Von b=1 bis B
11 Erstelle Bootstrap sample Zlowast der GroumlszligeN
12 Erstelle Entscheidungsbaum anhand desBootstrap sample durch rekusivesAnwenden der folgenden Schritte aufjeden Endknoten bis dieMinimumknotengroumlszlige nmin erreicht ist
121 Waumlhle aus den p Variablen m zufaumllligaus
122 Waumlhle aus den m Variablen die bestefuumlr den Knotenpunkt aus
123 Teile den Knoten in zweiKinderknoten auf
2 Gib die Gesamtheit aller B Baumlume zuruumlckTbB
1
Bagging Random Forest und Boosting Random Forest
Random Forest - Funktionsweise
Bei Regression wird uumlber die Vorhersagewertejedes Baumes gemittelt
f Brf (x) = 1
B
B983131
b=1Tb(x)
Bei Klassifizierung erhaumllt man die Klasse durchMehrheitsvotum
CBrf (x) = majorityvoteCb(x)B
1
Bagging Random Forest und Boosting Random Forest
Die Varianz kann durch den sogenannten De-Korrelationseffektgesenkt werdenDie Varianz fuumlr genau einen Targetpunkt x ist gegeben durch
Var frf (x) = ρ(x)σ2
wobeiρ(x) = corr [T (x Θ1(Z ))T (x Θ2(Z ))]
die Korrelation zweier zufaumlllig gewaumlhlter Baumlume im Random Forestund
σ2(x) = VarT (x Θ(Z ))
die Stichprobenvarianz eines zufaumlllig gewachsenen Baumes ist
Bagging Random Forest und Boosting Random Forest
Anzahl der Variablen m aus denenan jedem Knotenpunkt ausgewaumlhltwerden kann sinkt wobei die mVariablen zufaumlllig gewaumlhlt sindrArr Wahrscheinlichkeit dass
identische Baumlume erstelltwerden sinkt
rArr Korrelation der Baumlume sinkt
Bagging Random Forest und Boosting Random Forest
m wird kleiner und reduziert dieKorrelationrArr reduziert die VarianzrArr bei (fast) gleichbleibendem
BiaswertrArr reduziert MSE bzw den
Test Fehler
Bagging Random Forest und Boosting Random Forest
Out-of-bag sampleIst eine Beobachtung zi = (xi yi) nicht im Bootstrap sampleenthalten kann sie genutzt werden um genau die Baumlume zutesten welche aus dem bootstrap sample generiert wurden
Bagging Random Forest und Boosting Random Forest
Inhaltsverzeichnis
Voraussetzungen
Bagging
Random Forest
Boosting
Uumlbersicht
Literatur
Bagging Random Forest und Boosting Boosting
Die Boosting Methode
o konstruiert ein Modell mit houmlherer Kapazitaumlt undo senkt dadurch den Biaso Die Grundidee von Boosting besteht darin aus vielen
sogenannten rsquoweak learnersrsquo ein Kollektiv zu erstellen das dieModellvorhersage verbessert
o Boosting basiert dabei vorwiegend auf Entscheidungsbaumlumen
Bagging Random Forest und Boosting Boosting
Boosting - Funktionsweise anhand der AdaBoost Methode
Die AdaBoost Methode erstellt iterativ eine Folge vonEntscheidungsbaumlumen mit je einem Knotenpunkt amp einerEntscheidungsvariable
Wie stark die Entscheidung des Baumesin die Gesamtentscheidung einflieszligenwird wird durch sein Stimmgewichtαm beschriebenrarr αm berechnet sich durch die
Fehlerquote der Variable errmund die Stichproben-Gewichte wi
Bagging Random Forest und Boosting Boosting
Boosting - Funktionsweise anhand der AdaBoost Methode
Das Stichproben-Gewicht wi ist zuBeginn 1
N und wird in jeder Iterationerneuertrarr wi berechnet sich durch die
Stimmgewichtung des vorherigenBaumes αmminus1
Bagging Random Forest und Boosting Boosting
Boosting - Funktionsweise anhand der AdaBoost Methode
Das Gewicht von falsch kategorisiertenStichproben wird erhoumlht indem es mitdem Faktor eαm skaliert wird
Bagging Random Forest und Boosting Boosting
Boosting - Funktionsweise anhand der AdaBoost Methode
Der naumlchste Klassifikator wird dannanhand der neuen StichprobengewichteausgewaumlhltrArr Hatte ein Klassifikator also eine
hohe Fehlerquote werden diefalsch klassifizierten Inputdaten dieWahl des naumlchsten Klassifikatorsstaumlrker beeinflussen
Bagging Random Forest und Boosting Boosting
Boosting - Funktionsweise anhand der AdaBoost Methode
rArr Die Baumlume in einem von AdaBoostgenerierten Modell sind also abhaumlngigvoneinander und haben unterschiedlicheGewichtung bei der Modellvorhersage G(x) = σ(
983123αmGm(x))
Bagging Random Forest und Boosting Boosting
Boosting Allgemeino Iterativ werden einzelne Entscheidungsbaumlume erstellt sodass
das Modell am Ende aus der Summe aller Baumlume besteht
fM(x) =M983131
m=1T (x θm)
rarr um einen neuen Baum θm zu definieren muss immer wiederfolgende Gleichung geloumlst werden
θm = argminθm
N983131
i=1L(yi fmminus1(xi) + T (xi θm))
rarr da hierbei auch fmminus1(xi) der Vorhersagewert des vorigenBaumes in Betracht gezogen wird sind die Baumlume abhaumlngig
o die Entscheidungen der rsquoweak learnerrsquo flieszligen nichtgleichwertig sondern gewichtet in die Gesamtentscheidung ein
Bagging Random Forest und Boosting Boosting
Die Idee von Gradient Boosting
Eine moumlgliche Loumlsung der Gleichung ist ein Regressionsbaumder die Residuen yi minus fmminus1(xi) bestmoumlglich vorhersagt
rArr jeder Baum wird dann von den Fehlvorhersagen desvorhergehenden Baumes beeinflusst
Bagging Random Forest und Boosting Boosting
Inhaltsverzeichnis
Voraussetzungen
Bagging
Random Forest
Boosting
Uumlbersicht
Literatur
Bagging Random Forest und Boosting Uumlbersicht
Uumlbersicht der 3 Methoden
Alle drei Methoden zielen darauf den Generalisierungs- bzwTestfehler zu senken
o Bagging und Random Forest reduzieren die Varianz desModells
o Boosting reduziert den Biaswert des ModellsDie drei Methoden basieren auf der Grundidee vonEntscheidungsbaumlumen
o Bagging kann fuumlr verschiedene Trainingsalgorithmenangewandt werden
o Random Forest und Boosting erweitern immer einEntscheidungsbaummodell
Bagging Random Forest und Boosting Uumlbersicht
Inhaltsverzeichnis
Voraussetzungen
Bagging
Random Forest
Boosting
Uumlbersicht
Literatur
Bagging Random Forest und Boosting Literatur
Literatur
T Hastie R Tibshirani and JH Friedman The Elements ofStatistical Learning Data Mining Inference and PredictionSpringer Verlag 2009
Ian Goodfellow Yoshua Bengio and Aaron Courville DeepLearning MIT Press 2016 httpwwwdeeplearningbookorg
Bagging Random Forest und Boosting Literatur
Random Forest - Funktionsweise1 Von b=1 bis B
11 Erstelle Bootstrap sample Zlowast der GroumlszligeN
12 Erstelle Entscheidungsbaum anhand desBootstrap sample durch rekusivesAnwenden der folgenden Schritte aufjeden Endknoten bis dieMinimumknotengroumlszlige nmin erreicht ist
121 Waumlhle aus den p Variablen m zufaumllligaus
122 Waumlhle aus den m Variablen die bestefuumlr den Knotenpunkt aus
123 Teile den Knoten in zweiKinderknoten auf
2 Gib die Gesamtheit aller B Baumlume zuruumlckTbB
1
Bagging Random Forest und Boosting Random Forest
Random Forest - Funktionsweise
Bei Regression wird uumlber die Vorhersagewertejedes Baumes gemittelt
f Brf (x) = 1
B
B983131
b=1Tb(x)
Bei Klassifizierung erhaumllt man die Klasse durchMehrheitsvotum
CBrf (x) = majorityvoteCb(x)B
1
Bagging Random Forest und Boosting Random Forest
Die Varianz kann durch den sogenannten De-Korrelationseffektgesenkt werdenDie Varianz fuumlr genau einen Targetpunkt x ist gegeben durch
Var frf (x) = ρ(x)σ2
wobeiρ(x) = corr [T (x Θ1(Z ))T (x Θ2(Z ))]
die Korrelation zweier zufaumlllig gewaumlhlter Baumlume im Random Forestund
σ2(x) = VarT (x Θ(Z ))
die Stichprobenvarianz eines zufaumlllig gewachsenen Baumes ist
Bagging Random Forest und Boosting Random Forest
Anzahl der Variablen m aus denenan jedem Knotenpunkt ausgewaumlhltwerden kann sinkt wobei die mVariablen zufaumlllig gewaumlhlt sindrArr Wahrscheinlichkeit dass
identische Baumlume erstelltwerden sinkt
rArr Korrelation der Baumlume sinkt
Bagging Random Forest und Boosting Random Forest
m wird kleiner und reduziert dieKorrelationrArr reduziert die VarianzrArr bei (fast) gleichbleibendem
BiaswertrArr reduziert MSE bzw den
Test Fehler
Bagging Random Forest und Boosting Random Forest
Out-of-bag sampleIst eine Beobachtung zi = (xi yi) nicht im Bootstrap sampleenthalten kann sie genutzt werden um genau die Baumlume zutesten welche aus dem bootstrap sample generiert wurden
Bagging Random Forest und Boosting Random Forest
Inhaltsverzeichnis
Voraussetzungen
Bagging
Random Forest
Boosting
Uumlbersicht
Literatur
Bagging Random Forest und Boosting Boosting
Die Boosting Methode
o konstruiert ein Modell mit houmlherer Kapazitaumlt undo senkt dadurch den Biaso Die Grundidee von Boosting besteht darin aus vielen
sogenannten rsquoweak learnersrsquo ein Kollektiv zu erstellen das dieModellvorhersage verbessert
o Boosting basiert dabei vorwiegend auf Entscheidungsbaumlumen
Bagging Random Forest und Boosting Boosting
Boosting - Funktionsweise anhand der AdaBoost Methode
Die AdaBoost Methode erstellt iterativ eine Folge vonEntscheidungsbaumlumen mit je einem Knotenpunkt amp einerEntscheidungsvariable
Wie stark die Entscheidung des Baumesin die Gesamtentscheidung einflieszligenwird wird durch sein Stimmgewichtαm beschriebenrarr αm berechnet sich durch die
Fehlerquote der Variable errmund die Stichproben-Gewichte wi
Bagging Random Forest und Boosting Boosting
Boosting - Funktionsweise anhand der AdaBoost Methode
Das Stichproben-Gewicht wi ist zuBeginn 1
N und wird in jeder Iterationerneuertrarr wi berechnet sich durch die
Stimmgewichtung des vorherigenBaumes αmminus1
Bagging Random Forest und Boosting Boosting
Boosting - Funktionsweise anhand der AdaBoost Methode
Das Gewicht von falsch kategorisiertenStichproben wird erhoumlht indem es mitdem Faktor eαm skaliert wird
Bagging Random Forest und Boosting Boosting
Boosting - Funktionsweise anhand der AdaBoost Methode
Der naumlchste Klassifikator wird dannanhand der neuen StichprobengewichteausgewaumlhltrArr Hatte ein Klassifikator also eine
hohe Fehlerquote werden diefalsch klassifizierten Inputdaten dieWahl des naumlchsten Klassifikatorsstaumlrker beeinflussen
Bagging Random Forest und Boosting Boosting
Boosting - Funktionsweise anhand der AdaBoost Methode
rArr Die Baumlume in einem von AdaBoostgenerierten Modell sind also abhaumlngigvoneinander und haben unterschiedlicheGewichtung bei der Modellvorhersage G(x) = σ(
983123αmGm(x))
Bagging Random Forest und Boosting Boosting
Boosting Allgemeino Iterativ werden einzelne Entscheidungsbaumlume erstellt sodass
das Modell am Ende aus der Summe aller Baumlume besteht
fM(x) =M983131
m=1T (x θm)
rarr um einen neuen Baum θm zu definieren muss immer wiederfolgende Gleichung geloumlst werden
θm = argminθm
N983131
i=1L(yi fmminus1(xi) + T (xi θm))
rarr da hierbei auch fmminus1(xi) der Vorhersagewert des vorigenBaumes in Betracht gezogen wird sind die Baumlume abhaumlngig
o die Entscheidungen der rsquoweak learnerrsquo flieszligen nichtgleichwertig sondern gewichtet in die Gesamtentscheidung ein
Bagging Random Forest und Boosting Boosting
Die Idee von Gradient Boosting
Eine moumlgliche Loumlsung der Gleichung ist ein Regressionsbaumder die Residuen yi minus fmminus1(xi) bestmoumlglich vorhersagt
rArr jeder Baum wird dann von den Fehlvorhersagen desvorhergehenden Baumes beeinflusst
Bagging Random Forest und Boosting Boosting
Inhaltsverzeichnis
Voraussetzungen
Bagging
Random Forest
Boosting
Uumlbersicht
Literatur
Bagging Random Forest und Boosting Uumlbersicht
Uumlbersicht der 3 Methoden
Alle drei Methoden zielen darauf den Generalisierungs- bzwTestfehler zu senken
o Bagging und Random Forest reduzieren die Varianz desModells
o Boosting reduziert den Biaswert des ModellsDie drei Methoden basieren auf der Grundidee vonEntscheidungsbaumlumen
o Bagging kann fuumlr verschiedene Trainingsalgorithmenangewandt werden
o Random Forest und Boosting erweitern immer einEntscheidungsbaummodell
Bagging Random Forest und Boosting Uumlbersicht
Inhaltsverzeichnis
Voraussetzungen
Bagging
Random Forest
Boosting
Uumlbersicht
Literatur
Bagging Random Forest und Boosting Literatur
Literatur
T Hastie R Tibshirani and JH Friedman The Elements ofStatistical Learning Data Mining Inference and PredictionSpringer Verlag 2009
Ian Goodfellow Yoshua Bengio and Aaron Courville DeepLearning MIT Press 2016 httpwwwdeeplearningbookorg
Bagging Random Forest und Boosting Literatur
Random Forest - Funktionsweise
Bei Regression wird uumlber die Vorhersagewertejedes Baumes gemittelt
f Brf (x) = 1
B
B983131
b=1Tb(x)
Bei Klassifizierung erhaumllt man die Klasse durchMehrheitsvotum
CBrf (x) = majorityvoteCb(x)B
1
Bagging Random Forest und Boosting Random Forest
Die Varianz kann durch den sogenannten De-Korrelationseffektgesenkt werdenDie Varianz fuumlr genau einen Targetpunkt x ist gegeben durch
Var frf (x) = ρ(x)σ2
wobeiρ(x) = corr [T (x Θ1(Z ))T (x Θ2(Z ))]
die Korrelation zweier zufaumlllig gewaumlhlter Baumlume im Random Forestund
σ2(x) = VarT (x Θ(Z ))
die Stichprobenvarianz eines zufaumlllig gewachsenen Baumes ist
Bagging Random Forest und Boosting Random Forest
Anzahl der Variablen m aus denenan jedem Knotenpunkt ausgewaumlhltwerden kann sinkt wobei die mVariablen zufaumlllig gewaumlhlt sindrArr Wahrscheinlichkeit dass
identische Baumlume erstelltwerden sinkt
rArr Korrelation der Baumlume sinkt
Bagging Random Forest und Boosting Random Forest
m wird kleiner und reduziert dieKorrelationrArr reduziert die VarianzrArr bei (fast) gleichbleibendem
BiaswertrArr reduziert MSE bzw den
Test Fehler
Bagging Random Forest und Boosting Random Forest
Out-of-bag sampleIst eine Beobachtung zi = (xi yi) nicht im Bootstrap sampleenthalten kann sie genutzt werden um genau die Baumlume zutesten welche aus dem bootstrap sample generiert wurden
Bagging Random Forest und Boosting Random Forest
Inhaltsverzeichnis
Voraussetzungen
Bagging
Random Forest
Boosting
Uumlbersicht
Literatur
Bagging Random Forest und Boosting Boosting
Die Boosting Methode
o konstruiert ein Modell mit houmlherer Kapazitaumlt undo senkt dadurch den Biaso Die Grundidee von Boosting besteht darin aus vielen
sogenannten rsquoweak learnersrsquo ein Kollektiv zu erstellen das dieModellvorhersage verbessert
o Boosting basiert dabei vorwiegend auf Entscheidungsbaumlumen
Bagging Random Forest und Boosting Boosting
Boosting - Funktionsweise anhand der AdaBoost Methode
Die AdaBoost Methode erstellt iterativ eine Folge vonEntscheidungsbaumlumen mit je einem Knotenpunkt amp einerEntscheidungsvariable
Wie stark die Entscheidung des Baumesin die Gesamtentscheidung einflieszligenwird wird durch sein Stimmgewichtαm beschriebenrarr αm berechnet sich durch die
Fehlerquote der Variable errmund die Stichproben-Gewichte wi
Bagging Random Forest und Boosting Boosting
Boosting - Funktionsweise anhand der AdaBoost Methode
Das Stichproben-Gewicht wi ist zuBeginn 1
N und wird in jeder Iterationerneuertrarr wi berechnet sich durch die
Stimmgewichtung des vorherigenBaumes αmminus1
Bagging Random Forest und Boosting Boosting
Boosting - Funktionsweise anhand der AdaBoost Methode
Das Gewicht von falsch kategorisiertenStichproben wird erhoumlht indem es mitdem Faktor eαm skaliert wird
Bagging Random Forest und Boosting Boosting
Boosting - Funktionsweise anhand der AdaBoost Methode
Der naumlchste Klassifikator wird dannanhand der neuen StichprobengewichteausgewaumlhltrArr Hatte ein Klassifikator also eine
hohe Fehlerquote werden diefalsch klassifizierten Inputdaten dieWahl des naumlchsten Klassifikatorsstaumlrker beeinflussen
Bagging Random Forest und Boosting Boosting
Boosting - Funktionsweise anhand der AdaBoost Methode
rArr Die Baumlume in einem von AdaBoostgenerierten Modell sind also abhaumlngigvoneinander und haben unterschiedlicheGewichtung bei der Modellvorhersage G(x) = σ(
983123αmGm(x))
Bagging Random Forest und Boosting Boosting
Boosting Allgemeino Iterativ werden einzelne Entscheidungsbaumlume erstellt sodass
das Modell am Ende aus der Summe aller Baumlume besteht
fM(x) =M983131
m=1T (x θm)
rarr um einen neuen Baum θm zu definieren muss immer wiederfolgende Gleichung geloumlst werden
θm = argminθm
N983131
i=1L(yi fmminus1(xi) + T (xi θm))
rarr da hierbei auch fmminus1(xi) der Vorhersagewert des vorigenBaumes in Betracht gezogen wird sind die Baumlume abhaumlngig
o die Entscheidungen der rsquoweak learnerrsquo flieszligen nichtgleichwertig sondern gewichtet in die Gesamtentscheidung ein
Bagging Random Forest und Boosting Boosting
Die Idee von Gradient Boosting
Eine moumlgliche Loumlsung der Gleichung ist ein Regressionsbaumder die Residuen yi minus fmminus1(xi) bestmoumlglich vorhersagt
rArr jeder Baum wird dann von den Fehlvorhersagen desvorhergehenden Baumes beeinflusst
Bagging Random Forest und Boosting Boosting
Inhaltsverzeichnis
Voraussetzungen
Bagging
Random Forest
Boosting
Uumlbersicht
Literatur
Bagging Random Forest und Boosting Uumlbersicht
Uumlbersicht der 3 Methoden
Alle drei Methoden zielen darauf den Generalisierungs- bzwTestfehler zu senken
o Bagging und Random Forest reduzieren die Varianz desModells
o Boosting reduziert den Biaswert des ModellsDie drei Methoden basieren auf der Grundidee vonEntscheidungsbaumlumen
o Bagging kann fuumlr verschiedene Trainingsalgorithmenangewandt werden
o Random Forest und Boosting erweitern immer einEntscheidungsbaummodell
Bagging Random Forest und Boosting Uumlbersicht
Inhaltsverzeichnis
Voraussetzungen
Bagging
Random Forest
Boosting
Uumlbersicht
Literatur
Bagging Random Forest und Boosting Literatur
Literatur
T Hastie R Tibshirani and JH Friedman The Elements ofStatistical Learning Data Mining Inference and PredictionSpringer Verlag 2009
Ian Goodfellow Yoshua Bengio and Aaron Courville DeepLearning MIT Press 2016 httpwwwdeeplearningbookorg
Bagging Random Forest und Boosting Literatur
Die Varianz kann durch den sogenannten De-Korrelationseffektgesenkt werdenDie Varianz fuumlr genau einen Targetpunkt x ist gegeben durch
Var frf (x) = ρ(x)σ2
wobeiρ(x) = corr [T (x Θ1(Z ))T (x Θ2(Z ))]
die Korrelation zweier zufaumlllig gewaumlhlter Baumlume im Random Forestund
σ2(x) = VarT (x Θ(Z ))
die Stichprobenvarianz eines zufaumlllig gewachsenen Baumes ist
Bagging Random Forest und Boosting Random Forest
Anzahl der Variablen m aus denenan jedem Knotenpunkt ausgewaumlhltwerden kann sinkt wobei die mVariablen zufaumlllig gewaumlhlt sindrArr Wahrscheinlichkeit dass
identische Baumlume erstelltwerden sinkt
rArr Korrelation der Baumlume sinkt
Bagging Random Forest und Boosting Random Forest
m wird kleiner und reduziert dieKorrelationrArr reduziert die VarianzrArr bei (fast) gleichbleibendem
BiaswertrArr reduziert MSE bzw den
Test Fehler
Bagging Random Forest und Boosting Random Forest
Out-of-bag sampleIst eine Beobachtung zi = (xi yi) nicht im Bootstrap sampleenthalten kann sie genutzt werden um genau die Baumlume zutesten welche aus dem bootstrap sample generiert wurden
Bagging Random Forest und Boosting Random Forest
Inhaltsverzeichnis
Voraussetzungen
Bagging
Random Forest
Boosting
Uumlbersicht
Literatur
Bagging Random Forest und Boosting Boosting
Die Boosting Methode
o konstruiert ein Modell mit houmlherer Kapazitaumlt undo senkt dadurch den Biaso Die Grundidee von Boosting besteht darin aus vielen
sogenannten rsquoweak learnersrsquo ein Kollektiv zu erstellen das dieModellvorhersage verbessert
o Boosting basiert dabei vorwiegend auf Entscheidungsbaumlumen
Bagging Random Forest und Boosting Boosting
Boosting - Funktionsweise anhand der AdaBoost Methode
Die AdaBoost Methode erstellt iterativ eine Folge vonEntscheidungsbaumlumen mit je einem Knotenpunkt amp einerEntscheidungsvariable
Wie stark die Entscheidung des Baumesin die Gesamtentscheidung einflieszligenwird wird durch sein Stimmgewichtαm beschriebenrarr αm berechnet sich durch die
Fehlerquote der Variable errmund die Stichproben-Gewichte wi
Bagging Random Forest und Boosting Boosting
Boosting - Funktionsweise anhand der AdaBoost Methode
Das Stichproben-Gewicht wi ist zuBeginn 1
N und wird in jeder Iterationerneuertrarr wi berechnet sich durch die
Stimmgewichtung des vorherigenBaumes αmminus1
Bagging Random Forest und Boosting Boosting
Boosting - Funktionsweise anhand der AdaBoost Methode
Das Gewicht von falsch kategorisiertenStichproben wird erhoumlht indem es mitdem Faktor eαm skaliert wird
Bagging Random Forest und Boosting Boosting
Boosting - Funktionsweise anhand der AdaBoost Methode
Der naumlchste Klassifikator wird dannanhand der neuen StichprobengewichteausgewaumlhltrArr Hatte ein Klassifikator also eine
hohe Fehlerquote werden diefalsch klassifizierten Inputdaten dieWahl des naumlchsten Klassifikatorsstaumlrker beeinflussen
Bagging Random Forest und Boosting Boosting
Boosting - Funktionsweise anhand der AdaBoost Methode
rArr Die Baumlume in einem von AdaBoostgenerierten Modell sind also abhaumlngigvoneinander und haben unterschiedlicheGewichtung bei der Modellvorhersage G(x) = σ(
983123αmGm(x))
Bagging Random Forest und Boosting Boosting
Boosting Allgemeino Iterativ werden einzelne Entscheidungsbaumlume erstellt sodass
das Modell am Ende aus der Summe aller Baumlume besteht
fM(x) =M983131
m=1T (x θm)
rarr um einen neuen Baum θm zu definieren muss immer wiederfolgende Gleichung geloumlst werden
θm = argminθm
N983131
i=1L(yi fmminus1(xi) + T (xi θm))
rarr da hierbei auch fmminus1(xi) der Vorhersagewert des vorigenBaumes in Betracht gezogen wird sind die Baumlume abhaumlngig
o die Entscheidungen der rsquoweak learnerrsquo flieszligen nichtgleichwertig sondern gewichtet in die Gesamtentscheidung ein
Bagging Random Forest und Boosting Boosting
Die Idee von Gradient Boosting
Eine moumlgliche Loumlsung der Gleichung ist ein Regressionsbaumder die Residuen yi minus fmminus1(xi) bestmoumlglich vorhersagt
rArr jeder Baum wird dann von den Fehlvorhersagen desvorhergehenden Baumes beeinflusst
Bagging Random Forest und Boosting Boosting
Inhaltsverzeichnis
Voraussetzungen
Bagging
Random Forest
Boosting
Uumlbersicht
Literatur
Bagging Random Forest und Boosting Uumlbersicht
Uumlbersicht der 3 Methoden
Alle drei Methoden zielen darauf den Generalisierungs- bzwTestfehler zu senken
o Bagging und Random Forest reduzieren die Varianz desModells
o Boosting reduziert den Biaswert des ModellsDie drei Methoden basieren auf der Grundidee vonEntscheidungsbaumlumen
o Bagging kann fuumlr verschiedene Trainingsalgorithmenangewandt werden
o Random Forest und Boosting erweitern immer einEntscheidungsbaummodell
Bagging Random Forest und Boosting Uumlbersicht
Inhaltsverzeichnis
Voraussetzungen
Bagging
Random Forest
Boosting
Uumlbersicht
Literatur
Bagging Random Forest und Boosting Literatur
Literatur
T Hastie R Tibshirani and JH Friedman The Elements ofStatistical Learning Data Mining Inference and PredictionSpringer Verlag 2009
Ian Goodfellow Yoshua Bengio and Aaron Courville DeepLearning MIT Press 2016 httpwwwdeeplearningbookorg
Bagging Random Forest und Boosting Literatur
Anzahl der Variablen m aus denenan jedem Knotenpunkt ausgewaumlhltwerden kann sinkt wobei die mVariablen zufaumlllig gewaumlhlt sindrArr Wahrscheinlichkeit dass
identische Baumlume erstelltwerden sinkt
rArr Korrelation der Baumlume sinkt
Bagging Random Forest und Boosting Random Forest
m wird kleiner und reduziert dieKorrelationrArr reduziert die VarianzrArr bei (fast) gleichbleibendem
BiaswertrArr reduziert MSE bzw den
Test Fehler
Bagging Random Forest und Boosting Random Forest
Out-of-bag sampleIst eine Beobachtung zi = (xi yi) nicht im Bootstrap sampleenthalten kann sie genutzt werden um genau die Baumlume zutesten welche aus dem bootstrap sample generiert wurden
Bagging Random Forest und Boosting Random Forest
Inhaltsverzeichnis
Voraussetzungen
Bagging
Random Forest
Boosting
Uumlbersicht
Literatur
Bagging Random Forest und Boosting Boosting
Die Boosting Methode
o konstruiert ein Modell mit houmlherer Kapazitaumlt undo senkt dadurch den Biaso Die Grundidee von Boosting besteht darin aus vielen
sogenannten rsquoweak learnersrsquo ein Kollektiv zu erstellen das dieModellvorhersage verbessert
o Boosting basiert dabei vorwiegend auf Entscheidungsbaumlumen
Bagging Random Forest und Boosting Boosting
Boosting - Funktionsweise anhand der AdaBoost Methode
Die AdaBoost Methode erstellt iterativ eine Folge vonEntscheidungsbaumlumen mit je einem Knotenpunkt amp einerEntscheidungsvariable
Wie stark die Entscheidung des Baumesin die Gesamtentscheidung einflieszligenwird wird durch sein Stimmgewichtαm beschriebenrarr αm berechnet sich durch die
Fehlerquote der Variable errmund die Stichproben-Gewichte wi
Bagging Random Forest und Boosting Boosting
Boosting - Funktionsweise anhand der AdaBoost Methode
Das Stichproben-Gewicht wi ist zuBeginn 1
N und wird in jeder Iterationerneuertrarr wi berechnet sich durch die
Stimmgewichtung des vorherigenBaumes αmminus1
Bagging Random Forest und Boosting Boosting
Boosting - Funktionsweise anhand der AdaBoost Methode
Das Gewicht von falsch kategorisiertenStichproben wird erhoumlht indem es mitdem Faktor eαm skaliert wird
Bagging Random Forest und Boosting Boosting
Boosting - Funktionsweise anhand der AdaBoost Methode
Der naumlchste Klassifikator wird dannanhand der neuen StichprobengewichteausgewaumlhltrArr Hatte ein Klassifikator also eine
hohe Fehlerquote werden diefalsch klassifizierten Inputdaten dieWahl des naumlchsten Klassifikatorsstaumlrker beeinflussen
Bagging Random Forest und Boosting Boosting
Boosting - Funktionsweise anhand der AdaBoost Methode
rArr Die Baumlume in einem von AdaBoostgenerierten Modell sind also abhaumlngigvoneinander und haben unterschiedlicheGewichtung bei der Modellvorhersage G(x) = σ(
983123αmGm(x))
Bagging Random Forest und Boosting Boosting
Boosting Allgemeino Iterativ werden einzelne Entscheidungsbaumlume erstellt sodass
das Modell am Ende aus der Summe aller Baumlume besteht
fM(x) =M983131
m=1T (x θm)
rarr um einen neuen Baum θm zu definieren muss immer wiederfolgende Gleichung geloumlst werden
θm = argminθm
N983131
i=1L(yi fmminus1(xi) + T (xi θm))
rarr da hierbei auch fmminus1(xi) der Vorhersagewert des vorigenBaumes in Betracht gezogen wird sind die Baumlume abhaumlngig
o die Entscheidungen der rsquoweak learnerrsquo flieszligen nichtgleichwertig sondern gewichtet in die Gesamtentscheidung ein
Bagging Random Forest und Boosting Boosting
Die Idee von Gradient Boosting
Eine moumlgliche Loumlsung der Gleichung ist ein Regressionsbaumder die Residuen yi minus fmminus1(xi) bestmoumlglich vorhersagt
rArr jeder Baum wird dann von den Fehlvorhersagen desvorhergehenden Baumes beeinflusst
Bagging Random Forest und Boosting Boosting
Inhaltsverzeichnis
Voraussetzungen
Bagging
Random Forest
Boosting
Uumlbersicht
Literatur
Bagging Random Forest und Boosting Uumlbersicht
Uumlbersicht der 3 Methoden
Alle drei Methoden zielen darauf den Generalisierungs- bzwTestfehler zu senken
o Bagging und Random Forest reduzieren die Varianz desModells
o Boosting reduziert den Biaswert des ModellsDie drei Methoden basieren auf der Grundidee vonEntscheidungsbaumlumen
o Bagging kann fuumlr verschiedene Trainingsalgorithmenangewandt werden
o Random Forest und Boosting erweitern immer einEntscheidungsbaummodell
Bagging Random Forest und Boosting Uumlbersicht
Inhaltsverzeichnis
Voraussetzungen
Bagging
Random Forest
Boosting
Uumlbersicht
Literatur
Bagging Random Forest und Boosting Literatur
Literatur
T Hastie R Tibshirani and JH Friedman The Elements ofStatistical Learning Data Mining Inference and PredictionSpringer Verlag 2009
Ian Goodfellow Yoshua Bengio and Aaron Courville DeepLearning MIT Press 2016 httpwwwdeeplearningbookorg
Bagging Random Forest und Boosting Literatur
m wird kleiner und reduziert dieKorrelationrArr reduziert die VarianzrArr bei (fast) gleichbleibendem
BiaswertrArr reduziert MSE bzw den
Test Fehler
Bagging Random Forest und Boosting Random Forest
Out-of-bag sampleIst eine Beobachtung zi = (xi yi) nicht im Bootstrap sampleenthalten kann sie genutzt werden um genau die Baumlume zutesten welche aus dem bootstrap sample generiert wurden
Bagging Random Forest und Boosting Random Forest
Inhaltsverzeichnis
Voraussetzungen
Bagging
Random Forest
Boosting
Uumlbersicht
Literatur
Bagging Random Forest und Boosting Boosting
Die Boosting Methode
o konstruiert ein Modell mit houmlherer Kapazitaumlt undo senkt dadurch den Biaso Die Grundidee von Boosting besteht darin aus vielen
sogenannten rsquoweak learnersrsquo ein Kollektiv zu erstellen das dieModellvorhersage verbessert
o Boosting basiert dabei vorwiegend auf Entscheidungsbaumlumen
Bagging Random Forest und Boosting Boosting
Boosting - Funktionsweise anhand der AdaBoost Methode
Die AdaBoost Methode erstellt iterativ eine Folge vonEntscheidungsbaumlumen mit je einem Knotenpunkt amp einerEntscheidungsvariable
Wie stark die Entscheidung des Baumesin die Gesamtentscheidung einflieszligenwird wird durch sein Stimmgewichtαm beschriebenrarr αm berechnet sich durch die
Fehlerquote der Variable errmund die Stichproben-Gewichte wi
Bagging Random Forest und Boosting Boosting
Boosting - Funktionsweise anhand der AdaBoost Methode
Das Stichproben-Gewicht wi ist zuBeginn 1
N und wird in jeder Iterationerneuertrarr wi berechnet sich durch die
Stimmgewichtung des vorherigenBaumes αmminus1
Bagging Random Forest und Boosting Boosting
Boosting - Funktionsweise anhand der AdaBoost Methode
Das Gewicht von falsch kategorisiertenStichproben wird erhoumlht indem es mitdem Faktor eαm skaliert wird
Bagging Random Forest und Boosting Boosting
Boosting - Funktionsweise anhand der AdaBoost Methode
Der naumlchste Klassifikator wird dannanhand der neuen StichprobengewichteausgewaumlhltrArr Hatte ein Klassifikator also eine
hohe Fehlerquote werden diefalsch klassifizierten Inputdaten dieWahl des naumlchsten Klassifikatorsstaumlrker beeinflussen
Bagging Random Forest und Boosting Boosting
Boosting - Funktionsweise anhand der AdaBoost Methode
rArr Die Baumlume in einem von AdaBoostgenerierten Modell sind also abhaumlngigvoneinander und haben unterschiedlicheGewichtung bei der Modellvorhersage G(x) = σ(
983123αmGm(x))
Bagging Random Forest und Boosting Boosting
Boosting Allgemeino Iterativ werden einzelne Entscheidungsbaumlume erstellt sodass
das Modell am Ende aus der Summe aller Baumlume besteht
fM(x) =M983131
m=1T (x θm)
rarr um einen neuen Baum θm zu definieren muss immer wiederfolgende Gleichung geloumlst werden
θm = argminθm
N983131
i=1L(yi fmminus1(xi) + T (xi θm))
rarr da hierbei auch fmminus1(xi) der Vorhersagewert des vorigenBaumes in Betracht gezogen wird sind die Baumlume abhaumlngig
o die Entscheidungen der rsquoweak learnerrsquo flieszligen nichtgleichwertig sondern gewichtet in die Gesamtentscheidung ein
Bagging Random Forest und Boosting Boosting
Die Idee von Gradient Boosting
Eine moumlgliche Loumlsung der Gleichung ist ein Regressionsbaumder die Residuen yi minus fmminus1(xi) bestmoumlglich vorhersagt
rArr jeder Baum wird dann von den Fehlvorhersagen desvorhergehenden Baumes beeinflusst
Bagging Random Forest und Boosting Boosting
Inhaltsverzeichnis
Voraussetzungen
Bagging
Random Forest
Boosting
Uumlbersicht
Literatur
Bagging Random Forest und Boosting Uumlbersicht
Uumlbersicht der 3 Methoden
Alle drei Methoden zielen darauf den Generalisierungs- bzwTestfehler zu senken
o Bagging und Random Forest reduzieren die Varianz desModells
o Boosting reduziert den Biaswert des ModellsDie drei Methoden basieren auf der Grundidee vonEntscheidungsbaumlumen
o Bagging kann fuumlr verschiedene Trainingsalgorithmenangewandt werden
o Random Forest und Boosting erweitern immer einEntscheidungsbaummodell
Bagging Random Forest und Boosting Uumlbersicht
Inhaltsverzeichnis
Voraussetzungen
Bagging
Random Forest
Boosting
Uumlbersicht
Literatur
Bagging Random Forest und Boosting Literatur
Literatur
T Hastie R Tibshirani and JH Friedman The Elements ofStatistical Learning Data Mining Inference and PredictionSpringer Verlag 2009
Ian Goodfellow Yoshua Bengio and Aaron Courville DeepLearning MIT Press 2016 httpwwwdeeplearningbookorg
Bagging Random Forest und Boosting Literatur
Out-of-bag sampleIst eine Beobachtung zi = (xi yi) nicht im Bootstrap sampleenthalten kann sie genutzt werden um genau die Baumlume zutesten welche aus dem bootstrap sample generiert wurden
Bagging Random Forest und Boosting Random Forest
Inhaltsverzeichnis
Voraussetzungen
Bagging
Random Forest
Boosting
Uumlbersicht
Literatur
Bagging Random Forest und Boosting Boosting
Die Boosting Methode
o konstruiert ein Modell mit houmlherer Kapazitaumlt undo senkt dadurch den Biaso Die Grundidee von Boosting besteht darin aus vielen
sogenannten rsquoweak learnersrsquo ein Kollektiv zu erstellen das dieModellvorhersage verbessert
o Boosting basiert dabei vorwiegend auf Entscheidungsbaumlumen
Bagging Random Forest und Boosting Boosting
Boosting - Funktionsweise anhand der AdaBoost Methode
Die AdaBoost Methode erstellt iterativ eine Folge vonEntscheidungsbaumlumen mit je einem Knotenpunkt amp einerEntscheidungsvariable
Wie stark die Entscheidung des Baumesin die Gesamtentscheidung einflieszligenwird wird durch sein Stimmgewichtαm beschriebenrarr αm berechnet sich durch die
Fehlerquote der Variable errmund die Stichproben-Gewichte wi
Bagging Random Forest und Boosting Boosting
Boosting - Funktionsweise anhand der AdaBoost Methode
Das Stichproben-Gewicht wi ist zuBeginn 1
N und wird in jeder Iterationerneuertrarr wi berechnet sich durch die
Stimmgewichtung des vorherigenBaumes αmminus1
Bagging Random Forest und Boosting Boosting
Boosting - Funktionsweise anhand der AdaBoost Methode
Das Gewicht von falsch kategorisiertenStichproben wird erhoumlht indem es mitdem Faktor eαm skaliert wird
Bagging Random Forest und Boosting Boosting
Boosting - Funktionsweise anhand der AdaBoost Methode
Der naumlchste Klassifikator wird dannanhand der neuen StichprobengewichteausgewaumlhltrArr Hatte ein Klassifikator also eine
hohe Fehlerquote werden diefalsch klassifizierten Inputdaten dieWahl des naumlchsten Klassifikatorsstaumlrker beeinflussen
Bagging Random Forest und Boosting Boosting
Boosting - Funktionsweise anhand der AdaBoost Methode
rArr Die Baumlume in einem von AdaBoostgenerierten Modell sind also abhaumlngigvoneinander und haben unterschiedlicheGewichtung bei der Modellvorhersage G(x) = σ(
983123αmGm(x))
Bagging Random Forest und Boosting Boosting
Boosting Allgemeino Iterativ werden einzelne Entscheidungsbaumlume erstellt sodass
das Modell am Ende aus der Summe aller Baumlume besteht
fM(x) =M983131
m=1T (x θm)
rarr um einen neuen Baum θm zu definieren muss immer wiederfolgende Gleichung geloumlst werden
θm = argminθm
N983131
i=1L(yi fmminus1(xi) + T (xi θm))
rarr da hierbei auch fmminus1(xi) der Vorhersagewert des vorigenBaumes in Betracht gezogen wird sind die Baumlume abhaumlngig
o die Entscheidungen der rsquoweak learnerrsquo flieszligen nichtgleichwertig sondern gewichtet in die Gesamtentscheidung ein
Bagging Random Forest und Boosting Boosting
Die Idee von Gradient Boosting
Eine moumlgliche Loumlsung der Gleichung ist ein Regressionsbaumder die Residuen yi minus fmminus1(xi) bestmoumlglich vorhersagt
rArr jeder Baum wird dann von den Fehlvorhersagen desvorhergehenden Baumes beeinflusst
Bagging Random Forest und Boosting Boosting
Inhaltsverzeichnis
Voraussetzungen
Bagging
Random Forest
Boosting
Uumlbersicht
Literatur
Bagging Random Forest und Boosting Uumlbersicht
Uumlbersicht der 3 Methoden
Alle drei Methoden zielen darauf den Generalisierungs- bzwTestfehler zu senken
o Bagging und Random Forest reduzieren die Varianz desModells
o Boosting reduziert den Biaswert des ModellsDie drei Methoden basieren auf der Grundidee vonEntscheidungsbaumlumen
o Bagging kann fuumlr verschiedene Trainingsalgorithmenangewandt werden
o Random Forest und Boosting erweitern immer einEntscheidungsbaummodell
Bagging Random Forest und Boosting Uumlbersicht
Inhaltsverzeichnis
Voraussetzungen
Bagging
Random Forest
Boosting
Uumlbersicht
Literatur
Bagging Random Forest und Boosting Literatur
Literatur
T Hastie R Tibshirani and JH Friedman The Elements ofStatistical Learning Data Mining Inference and PredictionSpringer Verlag 2009
Ian Goodfellow Yoshua Bengio and Aaron Courville DeepLearning MIT Press 2016 httpwwwdeeplearningbookorg
Bagging Random Forest und Boosting Literatur
Inhaltsverzeichnis
Voraussetzungen
Bagging
Random Forest
Boosting
Uumlbersicht
Literatur
Bagging Random Forest und Boosting Boosting
Die Boosting Methode
o konstruiert ein Modell mit houmlherer Kapazitaumlt undo senkt dadurch den Biaso Die Grundidee von Boosting besteht darin aus vielen
sogenannten rsquoweak learnersrsquo ein Kollektiv zu erstellen das dieModellvorhersage verbessert
o Boosting basiert dabei vorwiegend auf Entscheidungsbaumlumen
Bagging Random Forest und Boosting Boosting
Boosting - Funktionsweise anhand der AdaBoost Methode
Die AdaBoost Methode erstellt iterativ eine Folge vonEntscheidungsbaumlumen mit je einem Knotenpunkt amp einerEntscheidungsvariable
Wie stark die Entscheidung des Baumesin die Gesamtentscheidung einflieszligenwird wird durch sein Stimmgewichtαm beschriebenrarr αm berechnet sich durch die
Fehlerquote der Variable errmund die Stichproben-Gewichte wi
Bagging Random Forest und Boosting Boosting
Boosting - Funktionsweise anhand der AdaBoost Methode
Das Stichproben-Gewicht wi ist zuBeginn 1
N und wird in jeder Iterationerneuertrarr wi berechnet sich durch die
Stimmgewichtung des vorherigenBaumes αmminus1
Bagging Random Forest und Boosting Boosting
Boosting - Funktionsweise anhand der AdaBoost Methode
Das Gewicht von falsch kategorisiertenStichproben wird erhoumlht indem es mitdem Faktor eαm skaliert wird
Bagging Random Forest und Boosting Boosting
Boosting - Funktionsweise anhand der AdaBoost Methode
Der naumlchste Klassifikator wird dannanhand der neuen StichprobengewichteausgewaumlhltrArr Hatte ein Klassifikator also eine
hohe Fehlerquote werden diefalsch klassifizierten Inputdaten dieWahl des naumlchsten Klassifikatorsstaumlrker beeinflussen
Bagging Random Forest und Boosting Boosting
Boosting - Funktionsweise anhand der AdaBoost Methode
rArr Die Baumlume in einem von AdaBoostgenerierten Modell sind also abhaumlngigvoneinander und haben unterschiedlicheGewichtung bei der Modellvorhersage G(x) = σ(
983123αmGm(x))
Bagging Random Forest und Boosting Boosting
Boosting Allgemeino Iterativ werden einzelne Entscheidungsbaumlume erstellt sodass
das Modell am Ende aus der Summe aller Baumlume besteht
fM(x) =M983131
m=1T (x θm)
rarr um einen neuen Baum θm zu definieren muss immer wiederfolgende Gleichung geloumlst werden
θm = argminθm
N983131
i=1L(yi fmminus1(xi) + T (xi θm))
rarr da hierbei auch fmminus1(xi) der Vorhersagewert des vorigenBaumes in Betracht gezogen wird sind die Baumlume abhaumlngig
o die Entscheidungen der rsquoweak learnerrsquo flieszligen nichtgleichwertig sondern gewichtet in die Gesamtentscheidung ein
Bagging Random Forest und Boosting Boosting
Die Idee von Gradient Boosting
Eine moumlgliche Loumlsung der Gleichung ist ein Regressionsbaumder die Residuen yi minus fmminus1(xi) bestmoumlglich vorhersagt
rArr jeder Baum wird dann von den Fehlvorhersagen desvorhergehenden Baumes beeinflusst
Bagging Random Forest und Boosting Boosting
Inhaltsverzeichnis
Voraussetzungen
Bagging
Random Forest
Boosting
Uumlbersicht
Literatur
Bagging Random Forest und Boosting Uumlbersicht
Uumlbersicht der 3 Methoden
Alle drei Methoden zielen darauf den Generalisierungs- bzwTestfehler zu senken
o Bagging und Random Forest reduzieren die Varianz desModells
o Boosting reduziert den Biaswert des ModellsDie drei Methoden basieren auf der Grundidee vonEntscheidungsbaumlumen
o Bagging kann fuumlr verschiedene Trainingsalgorithmenangewandt werden
o Random Forest und Boosting erweitern immer einEntscheidungsbaummodell
Bagging Random Forest und Boosting Uumlbersicht
Inhaltsverzeichnis
Voraussetzungen
Bagging
Random Forest
Boosting
Uumlbersicht
Literatur
Bagging Random Forest und Boosting Literatur
Literatur
T Hastie R Tibshirani and JH Friedman The Elements ofStatistical Learning Data Mining Inference and PredictionSpringer Verlag 2009
Ian Goodfellow Yoshua Bengio and Aaron Courville DeepLearning MIT Press 2016 httpwwwdeeplearningbookorg
Bagging Random Forest und Boosting Literatur
Die Boosting Methode
o konstruiert ein Modell mit houmlherer Kapazitaumlt undo senkt dadurch den Biaso Die Grundidee von Boosting besteht darin aus vielen
sogenannten rsquoweak learnersrsquo ein Kollektiv zu erstellen das dieModellvorhersage verbessert
o Boosting basiert dabei vorwiegend auf Entscheidungsbaumlumen
Bagging Random Forest und Boosting Boosting
Boosting - Funktionsweise anhand der AdaBoost Methode
Die AdaBoost Methode erstellt iterativ eine Folge vonEntscheidungsbaumlumen mit je einem Knotenpunkt amp einerEntscheidungsvariable
Wie stark die Entscheidung des Baumesin die Gesamtentscheidung einflieszligenwird wird durch sein Stimmgewichtαm beschriebenrarr αm berechnet sich durch die
Fehlerquote der Variable errmund die Stichproben-Gewichte wi
Bagging Random Forest und Boosting Boosting
Boosting - Funktionsweise anhand der AdaBoost Methode
Das Stichproben-Gewicht wi ist zuBeginn 1
N und wird in jeder Iterationerneuertrarr wi berechnet sich durch die
Stimmgewichtung des vorherigenBaumes αmminus1
Bagging Random Forest und Boosting Boosting
Boosting - Funktionsweise anhand der AdaBoost Methode
Das Gewicht von falsch kategorisiertenStichproben wird erhoumlht indem es mitdem Faktor eαm skaliert wird
Bagging Random Forest und Boosting Boosting
Boosting - Funktionsweise anhand der AdaBoost Methode
Der naumlchste Klassifikator wird dannanhand der neuen StichprobengewichteausgewaumlhltrArr Hatte ein Klassifikator also eine
hohe Fehlerquote werden diefalsch klassifizierten Inputdaten dieWahl des naumlchsten Klassifikatorsstaumlrker beeinflussen
Bagging Random Forest und Boosting Boosting
Boosting - Funktionsweise anhand der AdaBoost Methode
rArr Die Baumlume in einem von AdaBoostgenerierten Modell sind also abhaumlngigvoneinander und haben unterschiedlicheGewichtung bei der Modellvorhersage G(x) = σ(
983123αmGm(x))
Bagging Random Forest und Boosting Boosting
Boosting Allgemeino Iterativ werden einzelne Entscheidungsbaumlume erstellt sodass
das Modell am Ende aus der Summe aller Baumlume besteht
fM(x) =M983131
m=1T (x θm)
rarr um einen neuen Baum θm zu definieren muss immer wiederfolgende Gleichung geloumlst werden
θm = argminθm
N983131
i=1L(yi fmminus1(xi) + T (xi θm))
rarr da hierbei auch fmminus1(xi) der Vorhersagewert des vorigenBaumes in Betracht gezogen wird sind die Baumlume abhaumlngig
o die Entscheidungen der rsquoweak learnerrsquo flieszligen nichtgleichwertig sondern gewichtet in die Gesamtentscheidung ein
Bagging Random Forest und Boosting Boosting
Die Idee von Gradient Boosting
Eine moumlgliche Loumlsung der Gleichung ist ein Regressionsbaumder die Residuen yi minus fmminus1(xi) bestmoumlglich vorhersagt
rArr jeder Baum wird dann von den Fehlvorhersagen desvorhergehenden Baumes beeinflusst
Bagging Random Forest und Boosting Boosting
Inhaltsverzeichnis
Voraussetzungen
Bagging
Random Forest
Boosting
Uumlbersicht
Literatur
Bagging Random Forest und Boosting Uumlbersicht
Uumlbersicht der 3 Methoden
Alle drei Methoden zielen darauf den Generalisierungs- bzwTestfehler zu senken
o Bagging und Random Forest reduzieren die Varianz desModells
o Boosting reduziert den Biaswert des ModellsDie drei Methoden basieren auf der Grundidee vonEntscheidungsbaumlumen
o Bagging kann fuumlr verschiedene Trainingsalgorithmenangewandt werden
o Random Forest und Boosting erweitern immer einEntscheidungsbaummodell
Bagging Random Forest und Boosting Uumlbersicht
Inhaltsverzeichnis
Voraussetzungen
Bagging
Random Forest
Boosting
Uumlbersicht
Literatur
Bagging Random Forest und Boosting Literatur
Literatur
T Hastie R Tibshirani and JH Friedman The Elements ofStatistical Learning Data Mining Inference and PredictionSpringer Verlag 2009
Ian Goodfellow Yoshua Bengio and Aaron Courville DeepLearning MIT Press 2016 httpwwwdeeplearningbookorg
Bagging Random Forest und Boosting Literatur
Boosting - Funktionsweise anhand der AdaBoost Methode
Die AdaBoost Methode erstellt iterativ eine Folge vonEntscheidungsbaumlumen mit je einem Knotenpunkt amp einerEntscheidungsvariable
Wie stark die Entscheidung des Baumesin die Gesamtentscheidung einflieszligenwird wird durch sein Stimmgewichtαm beschriebenrarr αm berechnet sich durch die
Fehlerquote der Variable errmund die Stichproben-Gewichte wi
Bagging Random Forest und Boosting Boosting
Boosting - Funktionsweise anhand der AdaBoost Methode
Das Stichproben-Gewicht wi ist zuBeginn 1
N und wird in jeder Iterationerneuertrarr wi berechnet sich durch die
Stimmgewichtung des vorherigenBaumes αmminus1
Bagging Random Forest und Boosting Boosting
Boosting - Funktionsweise anhand der AdaBoost Methode
Das Gewicht von falsch kategorisiertenStichproben wird erhoumlht indem es mitdem Faktor eαm skaliert wird
Bagging Random Forest und Boosting Boosting
Boosting - Funktionsweise anhand der AdaBoost Methode
Der naumlchste Klassifikator wird dannanhand der neuen StichprobengewichteausgewaumlhltrArr Hatte ein Klassifikator also eine
hohe Fehlerquote werden diefalsch klassifizierten Inputdaten dieWahl des naumlchsten Klassifikatorsstaumlrker beeinflussen
Bagging Random Forest und Boosting Boosting
Boosting - Funktionsweise anhand der AdaBoost Methode
rArr Die Baumlume in einem von AdaBoostgenerierten Modell sind also abhaumlngigvoneinander und haben unterschiedlicheGewichtung bei der Modellvorhersage G(x) = σ(
983123αmGm(x))
Bagging Random Forest und Boosting Boosting
Boosting Allgemeino Iterativ werden einzelne Entscheidungsbaumlume erstellt sodass
das Modell am Ende aus der Summe aller Baumlume besteht
fM(x) =M983131
m=1T (x θm)
rarr um einen neuen Baum θm zu definieren muss immer wiederfolgende Gleichung geloumlst werden
θm = argminθm
N983131
i=1L(yi fmminus1(xi) + T (xi θm))
rarr da hierbei auch fmminus1(xi) der Vorhersagewert des vorigenBaumes in Betracht gezogen wird sind die Baumlume abhaumlngig
o die Entscheidungen der rsquoweak learnerrsquo flieszligen nichtgleichwertig sondern gewichtet in die Gesamtentscheidung ein
Bagging Random Forest und Boosting Boosting
Die Idee von Gradient Boosting
Eine moumlgliche Loumlsung der Gleichung ist ein Regressionsbaumder die Residuen yi minus fmminus1(xi) bestmoumlglich vorhersagt
rArr jeder Baum wird dann von den Fehlvorhersagen desvorhergehenden Baumes beeinflusst
Bagging Random Forest und Boosting Boosting
Inhaltsverzeichnis
Voraussetzungen
Bagging
Random Forest
Boosting
Uumlbersicht
Literatur
Bagging Random Forest und Boosting Uumlbersicht
Uumlbersicht der 3 Methoden
Alle drei Methoden zielen darauf den Generalisierungs- bzwTestfehler zu senken
o Bagging und Random Forest reduzieren die Varianz desModells
o Boosting reduziert den Biaswert des ModellsDie drei Methoden basieren auf der Grundidee vonEntscheidungsbaumlumen
o Bagging kann fuumlr verschiedene Trainingsalgorithmenangewandt werden
o Random Forest und Boosting erweitern immer einEntscheidungsbaummodell
Bagging Random Forest und Boosting Uumlbersicht
Inhaltsverzeichnis
Voraussetzungen
Bagging
Random Forest
Boosting
Uumlbersicht
Literatur
Bagging Random Forest und Boosting Literatur
Literatur
T Hastie R Tibshirani and JH Friedman The Elements ofStatistical Learning Data Mining Inference and PredictionSpringer Verlag 2009
Ian Goodfellow Yoshua Bengio and Aaron Courville DeepLearning MIT Press 2016 httpwwwdeeplearningbookorg
Bagging Random Forest und Boosting Literatur
Boosting - Funktionsweise anhand der AdaBoost Methode
Das Stichproben-Gewicht wi ist zuBeginn 1
N und wird in jeder Iterationerneuertrarr wi berechnet sich durch die
Stimmgewichtung des vorherigenBaumes αmminus1
Bagging Random Forest und Boosting Boosting
Boosting - Funktionsweise anhand der AdaBoost Methode
Das Gewicht von falsch kategorisiertenStichproben wird erhoumlht indem es mitdem Faktor eαm skaliert wird
Bagging Random Forest und Boosting Boosting
Boosting - Funktionsweise anhand der AdaBoost Methode
Der naumlchste Klassifikator wird dannanhand der neuen StichprobengewichteausgewaumlhltrArr Hatte ein Klassifikator also eine
hohe Fehlerquote werden diefalsch klassifizierten Inputdaten dieWahl des naumlchsten Klassifikatorsstaumlrker beeinflussen
Bagging Random Forest und Boosting Boosting
Boosting - Funktionsweise anhand der AdaBoost Methode
rArr Die Baumlume in einem von AdaBoostgenerierten Modell sind also abhaumlngigvoneinander und haben unterschiedlicheGewichtung bei der Modellvorhersage G(x) = σ(
983123αmGm(x))
Bagging Random Forest und Boosting Boosting
Boosting Allgemeino Iterativ werden einzelne Entscheidungsbaumlume erstellt sodass
das Modell am Ende aus der Summe aller Baumlume besteht
fM(x) =M983131
m=1T (x θm)
rarr um einen neuen Baum θm zu definieren muss immer wiederfolgende Gleichung geloumlst werden
θm = argminθm
N983131
i=1L(yi fmminus1(xi) + T (xi θm))
rarr da hierbei auch fmminus1(xi) der Vorhersagewert des vorigenBaumes in Betracht gezogen wird sind die Baumlume abhaumlngig
o die Entscheidungen der rsquoweak learnerrsquo flieszligen nichtgleichwertig sondern gewichtet in die Gesamtentscheidung ein
Bagging Random Forest und Boosting Boosting
Die Idee von Gradient Boosting
Eine moumlgliche Loumlsung der Gleichung ist ein Regressionsbaumder die Residuen yi minus fmminus1(xi) bestmoumlglich vorhersagt
rArr jeder Baum wird dann von den Fehlvorhersagen desvorhergehenden Baumes beeinflusst
Bagging Random Forest und Boosting Boosting
Inhaltsverzeichnis
Voraussetzungen
Bagging
Random Forest
Boosting
Uumlbersicht
Literatur
Bagging Random Forest und Boosting Uumlbersicht
Uumlbersicht der 3 Methoden
Alle drei Methoden zielen darauf den Generalisierungs- bzwTestfehler zu senken
o Bagging und Random Forest reduzieren die Varianz desModells
o Boosting reduziert den Biaswert des ModellsDie drei Methoden basieren auf der Grundidee vonEntscheidungsbaumlumen
o Bagging kann fuumlr verschiedene Trainingsalgorithmenangewandt werden
o Random Forest und Boosting erweitern immer einEntscheidungsbaummodell
Bagging Random Forest und Boosting Uumlbersicht
Inhaltsverzeichnis
Voraussetzungen
Bagging
Random Forest
Boosting
Uumlbersicht
Literatur
Bagging Random Forest und Boosting Literatur
Literatur
T Hastie R Tibshirani and JH Friedman The Elements ofStatistical Learning Data Mining Inference and PredictionSpringer Verlag 2009
Ian Goodfellow Yoshua Bengio and Aaron Courville DeepLearning MIT Press 2016 httpwwwdeeplearningbookorg
Bagging Random Forest und Boosting Literatur
Boosting - Funktionsweise anhand der AdaBoost Methode
Das Gewicht von falsch kategorisiertenStichproben wird erhoumlht indem es mitdem Faktor eαm skaliert wird
Bagging Random Forest und Boosting Boosting
Boosting - Funktionsweise anhand der AdaBoost Methode
Der naumlchste Klassifikator wird dannanhand der neuen StichprobengewichteausgewaumlhltrArr Hatte ein Klassifikator also eine
hohe Fehlerquote werden diefalsch klassifizierten Inputdaten dieWahl des naumlchsten Klassifikatorsstaumlrker beeinflussen
Bagging Random Forest und Boosting Boosting
Boosting - Funktionsweise anhand der AdaBoost Methode
rArr Die Baumlume in einem von AdaBoostgenerierten Modell sind also abhaumlngigvoneinander und haben unterschiedlicheGewichtung bei der Modellvorhersage G(x) = σ(
983123αmGm(x))
Bagging Random Forest und Boosting Boosting
Boosting Allgemeino Iterativ werden einzelne Entscheidungsbaumlume erstellt sodass
das Modell am Ende aus der Summe aller Baumlume besteht
fM(x) =M983131
m=1T (x θm)
rarr um einen neuen Baum θm zu definieren muss immer wiederfolgende Gleichung geloumlst werden
θm = argminθm
N983131
i=1L(yi fmminus1(xi) + T (xi θm))
rarr da hierbei auch fmminus1(xi) der Vorhersagewert des vorigenBaumes in Betracht gezogen wird sind die Baumlume abhaumlngig
o die Entscheidungen der rsquoweak learnerrsquo flieszligen nichtgleichwertig sondern gewichtet in die Gesamtentscheidung ein
Bagging Random Forest und Boosting Boosting
Die Idee von Gradient Boosting
Eine moumlgliche Loumlsung der Gleichung ist ein Regressionsbaumder die Residuen yi minus fmminus1(xi) bestmoumlglich vorhersagt
rArr jeder Baum wird dann von den Fehlvorhersagen desvorhergehenden Baumes beeinflusst
Bagging Random Forest und Boosting Boosting
Inhaltsverzeichnis
Voraussetzungen
Bagging
Random Forest
Boosting
Uumlbersicht
Literatur
Bagging Random Forest und Boosting Uumlbersicht
Uumlbersicht der 3 Methoden
Alle drei Methoden zielen darauf den Generalisierungs- bzwTestfehler zu senken
o Bagging und Random Forest reduzieren die Varianz desModells
o Boosting reduziert den Biaswert des ModellsDie drei Methoden basieren auf der Grundidee vonEntscheidungsbaumlumen
o Bagging kann fuumlr verschiedene Trainingsalgorithmenangewandt werden
o Random Forest und Boosting erweitern immer einEntscheidungsbaummodell
Bagging Random Forest und Boosting Uumlbersicht
Inhaltsverzeichnis
Voraussetzungen
Bagging
Random Forest
Boosting
Uumlbersicht
Literatur
Bagging Random Forest und Boosting Literatur
Literatur
T Hastie R Tibshirani and JH Friedman The Elements ofStatistical Learning Data Mining Inference and PredictionSpringer Verlag 2009
Ian Goodfellow Yoshua Bengio and Aaron Courville DeepLearning MIT Press 2016 httpwwwdeeplearningbookorg
Bagging Random Forest und Boosting Literatur
Boosting - Funktionsweise anhand der AdaBoost Methode
Der naumlchste Klassifikator wird dannanhand der neuen StichprobengewichteausgewaumlhltrArr Hatte ein Klassifikator also eine
hohe Fehlerquote werden diefalsch klassifizierten Inputdaten dieWahl des naumlchsten Klassifikatorsstaumlrker beeinflussen
Bagging Random Forest und Boosting Boosting
Boosting - Funktionsweise anhand der AdaBoost Methode
rArr Die Baumlume in einem von AdaBoostgenerierten Modell sind also abhaumlngigvoneinander und haben unterschiedlicheGewichtung bei der Modellvorhersage G(x) = σ(
983123αmGm(x))
Bagging Random Forest und Boosting Boosting
Boosting Allgemeino Iterativ werden einzelne Entscheidungsbaumlume erstellt sodass
das Modell am Ende aus der Summe aller Baumlume besteht
fM(x) =M983131
m=1T (x θm)
rarr um einen neuen Baum θm zu definieren muss immer wiederfolgende Gleichung geloumlst werden
θm = argminθm
N983131
i=1L(yi fmminus1(xi) + T (xi θm))
rarr da hierbei auch fmminus1(xi) der Vorhersagewert des vorigenBaumes in Betracht gezogen wird sind die Baumlume abhaumlngig
o die Entscheidungen der rsquoweak learnerrsquo flieszligen nichtgleichwertig sondern gewichtet in die Gesamtentscheidung ein
Bagging Random Forest und Boosting Boosting
Die Idee von Gradient Boosting
Eine moumlgliche Loumlsung der Gleichung ist ein Regressionsbaumder die Residuen yi minus fmminus1(xi) bestmoumlglich vorhersagt
rArr jeder Baum wird dann von den Fehlvorhersagen desvorhergehenden Baumes beeinflusst
Bagging Random Forest und Boosting Boosting
Inhaltsverzeichnis
Voraussetzungen
Bagging
Random Forest
Boosting
Uumlbersicht
Literatur
Bagging Random Forest und Boosting Uumlbersicht
Uumlbersicht der 3 Methoden
Alle drei Methoden zielen darauf den Generalisierungs- bzwTestfehler zu senken
o Bagging und Random Forest reduzieren die Varianz desModells
o Boosting reduziert den Biaswert des ModellsDie drei Methoden basieren auf der Grundidee vonEntscheidungsbaumlumen
o Bagging kann fuumlr verschiedene Trainingsalgorithmenangewandt werden
o Random Forest und Boosting erweitern immer einEntscheidungsbaummodell
Bagging Random Forest und Boosting Uumlbersicht
Inhaltsverzeichnis
Voraussetzungen
Bagging
Random Forest
Boosting
Uumlbersicht
Literatur
Bagging Random Forest und Boosting Literatur
Literatur
T Hastie R Tibshirani and JH Friedman The Elements ofStatistical Learning Data Mining Inference and PredictionSpringer Verlag 2009
Ian Goodfellow Yoshua Bengio and Aaron Courville DeepLearning MIT Press 2016 httpwwwdeeplearningbookorg
Bagging Random Forest und Boosting Literatur
Boosting - Funktionsweise anhand der AdaBoost Methode
rArr Die Baumlume in einem von AdaBoostgenerierten Modell sind also abhaumlngigvoneinander und haben unterschiedlicheGewichtung bei der Modellvorhersage G(x) = σ(
983123αmGm(x))
Bagging Random Forest und Boosting Boosting
Boosting Allgemeino Iterativ werden einzelne Entscheidungsbaumlume erstellt sodass
das Modell am Ende aus der Summe aller Baumlume besteht
fM(x) =M983131
m=1T (x θm)
rarr um einen neuen Baum θm zu definieren muss immer wiederfolgende Gleichung geloumlst werden
θm = argminθm
N983131
i=1L(yi fmminus1(xi) + T (xi θm))
rarr da hierbei auch fmminus1(xi) der Vorhersagewert des vorigenBaumes in Betracht gezogen wird sind die Baumlume abhaumlngig
o die Entscheidungen der rsquoweak learnerrsquo flieszligen nichtgleichwertig sondern gewichtet in die Gesamtentscheidung ein
Bagging Random Forest und Boosting Boosting
Die Idee von Gradient Boosting
Eine moumlgliche Loumlsung der Gleichung ist ein Regressionsbaumder die Residuen yi minus fmminus1(xi) bestmoumlglich vorhersagt
rArr jeder Baum wird dann von den Fehlvorhersagen desvorhergehenden Baumes beeinflusst
Bagging Random Forest und Boosting Boosting
Inhaltsverzeichnis
Voraussetzungen
Bagging
Random Forest
Boosting
Uumlbersicht
Literatur
Bagging Random Forest und Boosting Uumlbersicht
Uumlbersicht der 3 Methoden
Alle drei Methoden zielen darauf den Generalisierungs- bzwTestfehler zu senken
o Bagging und Random Forest reduzieren die Varianz desModells
o Boosting reduziert den Biaswert des ModellsDie drei Methoden basieren auf der Grundidee vonEntscheidungsbaumlumen
o Bagging kann fuumlr verschiedene Trainingsalgorithmenangewandt werden
o Random Forest und Boosting erweitern immer einEntscheidungsbaummodell
Bagging Random Forest und Boosting Uumlbersicht
Inhaltsverzeichnis
Voraussetzungen
Bagging
Random Forest
Boosting
Uumlbersicht
Literatur
Bagging Random Forest und Boosting Literatur
Literatur
T Hastie R Tibshirani and JH Friedman The Elements ofStatistical Learning Data Mining Inference and PredictionSpringer Verlag 2009
Ian Goodfellow Yoshua Bengio and Aaron Courville DeepLearning MIT Press 2016 httpwwwdeeplearningbookorg
Bagging Random Forest und Boosting Literatur
Boosting Allgemeino Iterativ werden einzelne Entscheidungsbaumlume erstellt sodass
das Modell am Ende aus der Summe aller Baumlume besteht
fM(x) =M983131
m=1T (x θm)
rarr um einen neuen Baum θm zu definieren muss immer wiederfolgende Gleichung geloumlst werden
θm = argminθm
N983131
i=1L(yi fmminus1(xi) + T (xi θm))
rarr da hierbei auch fmminus1(xi) der Vorhersagewert des vorigenBaumes in Betracht gezogen wird sind die Baumlume abhaumlngig
o die Entscheidungen der rsquoweak learnerrsquo flieszligen nichtgleichwertig sondern gewichtet in die Gesamtentscheidung ein
Bagging Random Forest und Boosting Boosting
Die Idee von Gradient Boosting
Eine moumlgliche Loumlsung der Gleichung ist ein Regressionsbaumder die Residuen yi minus fmminus1(xi) bestmoumlglich vorhersagt
rArr jeder Baum wird dann von den Fehlvorhersagen desvorhergehenden Baumes beeinflusst
Bagging Random Forest und Boosting Boosting
Inhaltsverzeichnis
Voraussetzungen
Bagging
Random Forest
Boosting
Uumlbersicht
Literatur
Bagging Random Forest und Boosting Uumlbersicht
Uumlbersicht der 3 Methoden
Alle drei Methoden zielen darauf den Generalisierungs- bzwTestfehler zu senken
o Bagging und Random Forest reduzieren die Varianz desModells
o Boosting reduziert den Biaswert des ModellsDie drei Methoden basieren auf der Grundidee vonEntscheidungsbaumlumen
o Bagging kann fuumlr verschiedene Trainingsalgorithmenangewandt werden
o Random Forest und Boosting erweitern immer einEntscheidungsbaummodell
Bagging Random Forest und Boosting Uumlbersicht
Inhaltsverzeichnis
Voraussetzungen
Bagging
Random Forest
Boosting
Uumlbersicht
Literatur
Bagging Random Forest und Boosting Literatur
Literatur
T Hastie R Tibshirani and JH Friedman The Elements ofStatistical Learning Data Mining Inference and PredictionSpringer Verlag 2009
Ian Goodfellow Yoshua Bengio and Aaron Courville DeepLearning MIT Press 2016 httpwwwdeeplearningbookorg
Bagging Random Forest und Boosting Literatur
Die Idee von Gradient Boosting
Eine moumlgliche Loumlsung der Gleichung ist ein Regressionsbaumder die Residuen yi minus fmminus1(xi) bestmoumlglich vorhersagt
rArr jeder Baum wird dann von den Fehlvorhersagen desvorhergehenden Baumes beeinflusst
Bagging Random Forest und Boosting Boosting
Inhaltsverzeichnis
Voraussetzungen
Bagging
Random Forest
Boosting
Uumlbersicht
Literatur
Bagging Random Forest und Boosting Uumlbersicht
Uumlbersicht der 3 Methoden
Alle drei Methoden zielen darauf den Generalisierungs- bzwTestfehler zu senken
o Bagging und Random Forest reduzieren die Varianz desModells
o Boosting reduziert den Biaswert des ModellsDie drei Methoden basieren auf der Grundidee vonEntscheidungsbaumlumen
o Bagging kann fuumlr verschiedene Trainingsalgorithmenangewandt werden
o Random Forest und Boosting erweitern immer einEntscheidungsbaummodell
Bagging Random Forest und Boosting Uumlbersicht
Inhaltsverzeichnis
Voraussetzungen
Bagging
Random Forest
Boosting
Uumlbersicht
Literatur
Bagging Random Forest und Boosting Literatur
Literatur
T Hastie R Tibshirani and JH Friedman The Elements ofStatistical Learning Data Mining Inference and PredictionSpringer Verlag 2009
Ian Goodfellow Yoshua Bengio and Aaron Courville DeepLearning MIT Press 2016 httpwwwdeeplearningbookorg
Bagging Random Forest und Boosting Literatur
Inhaltsverzeichnis
Voraussetzungen
Bagging
Random Forest
Boosting
Uumlbersicht
Literatur
Bagging Random Forest und Boosting Uumlbersicht
Uumlbersicht der 3 Methoden
Alle drei Methoden zielen darauf den Generalisierungs- bzwTestfehler zu senken
o Bagging und Random Forest reduzieren die Varianz desModells
o Boosting reduziert den Biaswert des ModellsDie drei Methoden basieren auf der Grundidee vonEntscheidungsbaumlumen
o Bagging kann fuumlr verschiedene Trainingsalgorithmenangewandt werden
o Random Forest und Boosting erweitern immer einEntscheidungsbaummodell
Bagging Random Forest und Boosting Uumlbersicht
Inhaltsverzeichnis
Voraussetzungen
Bagging
Random Forest
Boosting
Uumlbersicht
Literatur
Bagging Random Forest und Boosting Literatur
Literatur
T Hastie R Tibshirani and JH Friedman The Elements ofStatistical Learning Data Mining Inference and PredictionSpringer Verlag 2009
Ian Goodfellow Yoshua Bengio and Aaron Courville DeepLearning MIT Press 2016 httpwwwdeeplearningbookorg
Bagging Random Forest und Boosting Literatur
Uumlbersicht der 3 Methoden
Alle drei Methoden zielen darauf den Generalisierungs- bzwTestfehler zu senken
o Bagging und Random Forest reduzieren die Varianz desModells
o Boosting reduziert den Biaswert des ModellsDie drei Methoden basieren auf der Grundidee vonEntscheidungsbaumlumen
o Bagging kann fuumlr verschiedene Trainingsalgorithmenangewandt werden
o Random Forest und Boosting erweitern immer einEntscheidungsbaummodell
Bagging Random Forest und Boosting Uumlbersicht
Inhaltsverzeichnis
Voraussetzungen
Bagging
Random Forest
Boosting
Uumlbersicht
Literatur
Bagging Random Forest und Boosting Literatur
Literatur
T Hastie R Tibshirani and JH Friedman The Elements ofStatistical Learning Data Mining Inference and PredictionSpringer Verlag 2009
Ian Goodfellow Yoshua Bengio and Aaron Courville DeepLearning MIT Press 2016 httpwwwdeeplearningbookorg
Bagging Random Forest und Boosting Literatur
Inhaltsverzeichnis
Voraussetzungen
Bagging
Random Forest
Boosting
Uumlbersicht
Literatur
Bagging Random Forest und Boosting Literatur
Literatur
T Hastie R Tibshirani and JH Friedman The Elements ofStatistical Learning Data Mining Inference and PredictionSpringer Verlag 2009
Ian Goodfellow Yoshua Bengio and Aaron Courville DeepLearning MIT Press 2016 httpwwwdeeplearningbookorg
Bagging Random Forest und Boosting Literatur
Literatur
T Hastie R Tibshirani and JH Friedman The Elements ofStatistical Learning Data Mining Inference and PredictionSpringer Verlag 2009
Ian Goodfellow Yoshua Bengio and Aaron Courville DeepLearning MIT Press 2016 httpwwwdeeplearningbookorg
Bagging Random Forest und Boosting Literatur