modul: statistik ii - universität rostockmerker/skriptstatistik2.pdf · 1formalien ablauf i in der...
TRANSCRIPT
Modul: Statistik II
Dr.habil. Jochen Merker
Business Intelligence and Statistics
17.09.2013 Modul: Statistik II – Dr.habil. Jochen Merker 1/29
1 Formalien
Dozent
Jochen Merker
1996-2001: Studium der Mathematik und Informatik an derUniversitat Hamburg (Diplom)
2001-2004: wissenschaftlicher Mitarbeiter am FachbereichMathematik der Universitat Hamburg (Promotion)
2004-2013: wissenschaftlicher Mitarbeiter am Institut furMathematik der Universitat Rostock (Habilitation)
seit WS 2013: Professor fur Business Intelligence und Statistik ander FH Stralsund
17.09.2013 Modul: Statistik II – Dr.habil. Jochen Merker 2/29
1 Formalien
Ablauf
I In der Statistik II werden wir uns mitWahrscheinlichkeitsrechnung und induktiver Statistik (also mitSchatzen und Testen) beschaftigen.
I In der Vorlesung (Di, 12.15 - 13.45 Uhr) werden dietheoretischen Konzepte vorgestellt und anhand akademischerBeispiele eingeubt.
I In den Ubungen (Di, 9.45 - 11.15 Uhr bzw. 14.00 - 15.30 Uhr)werden anwendungsnahe Beispiele mit Hilfe von R und SPSSdiskutiert.
I Im Gegensatz zur Ihnen schon bekannten kommerziellenmenugesteuerten Statistik-Software SPSS ist R eine freieskriptgesteuerte Statistik-Software, die man vonhttp://www.r-project.org herunterladen kann.
I Als Prufungsleistung ist eine zweistundige Klausur zubestehen.
17.09.2013 Modul: Statistik II – Dr.habil. Jochen Merker 3/29
1 Formalien
Ablauf
Ubungsaufgaben
Ich werde Ubungsaufgaben stellen, fur deren Bearbeitung Sie biszur nachsten Ubung Zeit haben. Sie geben vor der Ubung an,welche Ubungsaufgaben Sie gelost haben, und einer von Ihnenprasentiert dann die Losung. Fur die Zulassung zur Klausur mussenSie mindestens 50% der Ubungsaufgaben bearbeiten.
ACHTUNG
Nachste Woche nehme ich an der Jahrestagung der DMV-OMGteil, die Veranstaltung fallt daher aus und wird in der Blockwochevom 18.11.-22.11. nachgeholt.
17.09.2013 Modul: Statistik II – Dr.habil. Jochen Merker 4/29
1 Formalien
Literatur
Es gibt eine riesige Auswahl an Literatur zur Statistik, zu meinerVorlesung empfehle ich die folgenden Bucher.
Fahrmeir, Kunstler, Pigeot, Tutz: Statistik (Kapitel 4-11),Springer.
Cramer, Kamps: Grundlagen der Wahrscheinlichkeitsrechnung undStatistik (Abschnitte B-D), Springer.
Gotze, Deutschmann, Link: Statistik (Kapitel 2 und 3),Oldenbourg.
Kohn, Ozturk: Statistik fur Okonomen (mit R und SPSS, Teil IVund V), Springer.
Toutenburg, Heumann: Induktive Statistik (mit R und SPSS),Springer.
17.09.2013 Modul: Statistik II – Dr.habil. Jochen Merker 5/29
2 Deskriptive Statistik
Merkmale
Merkmale
I Die deskriptive Statistik dient zur beschreibenden bzw.grafischen Aufbereitung und Komprimierung von anstatistischen Einheiten (= Merkmalstragern) erhobenen Daten(= Auspragungen von Merkmalen).
I Merkmale konnenI diskret (= endlich oder abzahlbar viele Auspragungen) oderI kontinuierlich (= stetig = alle Werte aus einem Intervall als
Auspragungen)
sein.
17.09.2013 Modul: Statistik II – Dr.habil. Jochen Merker 6/29
2 Deskriptive Statistik
Skalen
Skalen
I Merkmale konnenI nominal (weder anordbar noch arithmetisch, d.h. weder
Vergleiche noch Differenzen oder Quotienten kann mansinnvoll interpretieren),
I ordinal (anordbar, aber nicht arithmetisch) oderI kardinal (anordbar und arithmetisch)
skaliert sein.I Bei kardinalskalierten Merkmalen unterscheidet man zwischen
I intervallskaliert (Differenzen, aber nicht Quotienten sinnvollinterpretierbar) und
I verhaltnisskaliert (Differenzen und Quotienten sinnvollinterpretierbar).
17.09.2013 Modul: Statistik II – Dr.habil. Jochen Merker 7/29
2 Deskriptive Statistik
Diagramme, Kenngroßen und Datenerhebung
Diagramme und Kenngroßen
Die beschreibenden bzw. grafische Aufbereitung undKomprimierung von Daten kann durch Diagramme, Verlaufskurvenoder Tabellen, die ein- und mehrdimensionale Haufigkeitenzusammenfassen, und durch Kenngroßen wie Lage- und Streumaßeerfolgen.
Datenerhebung
ACHTUNG: Eine unsachgemaße Erhebung von Daten (z.B.Vorauswahl der Probanden) kann eine ungewunschte Verfalschungvon Statistiken bewirken, daher ist eine sorgfaltigeVersuchsplanung notwendig.
17.09.2013 Modul: Statistik II – Dr.habil. Jochen Merker 8/29
3 Explorative Statistik
Explorative Statistik
Explorative Statistik
I Die explorative Statistik sucht in bereits aufbereiteten Dateneinerseits nach Ausreißern oder Fehlern in Datensatzen (=Datenvalidierung), und versucht andererseits durchBestimmung von Zusammenhangsmaßen und Regressionen,erste Hypothesen uber die Ursache der beobachteten Datenzu gewinnen (ohne dass diese schonwahrscheinlichkeitstheoretisch untermauert sind).
In der ersten Ubung wiederholen wir einige der in der Statistik Ibehandelten Themen und lernen dabei gleichzeitig R kennen.
17.09.2013 Modul: Statistik II – Dr.habil. Jochen Merker 9/29
4 Deskriptive und explorative Statistik mit R
Rechnen in R
R als machtiger Taschenrechner
I Nach Start von R kann man in einer Konsole Rechnungenausfuhren, z.B. 2 ∗ 3, sqrt(4) oder exp(log(5)).
I Hilfe zu vordefinierten Funktionen erhalt man durch?Funktion.
I Mittels der Funktion c (steht fur concatenation, d.h.aneinanderhangen) kann man in R Vektoren definieren, z.B.x < −c(1, 2, 3).
I Arithmetische Operationen und Funktionen werden auf jedeKomponente eines Vektors angewendet, z.B. x ∗ 2 oderx ∗ c(2, 3).
I Es stehen viele Funktionen zur Manipulation eines Vektors zurVerfugung, z.B. length(x) oder sum(x).
17.09.2013 Modul: Statistik II – Dr.habil. Jochen Merker 10/29
4 Deskriptive und explorative Statistik mit R
Programmieren in R
R als Programmiersprache
I In R lassen sich nicht nur vordefinierte Funktionen benutzen,sondern mittels des Befehls function(..).. auch eigeneFunktionen programmieren. Dies geschieht ublicherweise inScript-Dateien mit der Endung .R, die man in der Konsoleausfuhren kann.
I Beim Programmieren kann man die Schleifen for(.. in ..),while(..), repeat.. break und die Verzweigung if(..) .. else ..benutzen.
1. Erstellen Sie in R eine Funktion, die das arithmetische Mittel von in einemVektor gespeicherten Werten bestimmt.
2. Bestimmen Sie mit Ihrer Funktion zu eingegebenem n ∈ N dasarithmetische Mittel der Zahlen 1, 2, . . . , n .
17.09.2013 Modul: Statistik II – Dr.habil. Jochen Merker 11/29
4 Deskriptive und explorative Statistik mit R
Einlesen von Daten
Dateizugriff in R
I Der Befehl daten ¡- read.table(”cars.csv”, header=TRUE,sep=”,”) liest die durch Kommata getrennten Daten aus derDatei cars.csv in die Datentabelle daten ein, wobei die ersteZeile zur Beschriftung der Spalten benutzt wird.
I Mit daten$Name kann man auf die durch Name bezeichneteSpalte zugreifen.
17.09.2013 Modul: Statistik II – Dr.habil. Jochen Merker 12/29
4 Deskriptive und explorative Statistik mit R
Quantile
Definition
Hat ein ordinalskaliertes Merkmal fur n Merkmalstrager die Aus-pragungen x1, . . . , xn und ist 0 < p < 1, so heißt die Merk-malsauspragung x ein p-Quantil, falls Anzahl der xi mit xi≤x
n ≥ p undAnzahl der xi mit xi≥x
n ≤ 1− p gilt, und man schreibt dann xp statt x .
Eigenschaften von Quantilen
I Bezeichnet x(1), . . . , x(n) die geordnete Liste derAuspragungen, so gilt x = x(bnpc+1), wenn np nicht ganzzahligist, und x ∈ [x(np), x(np+1)], wenn np ganzzahlig ist.
I Der Median ist ein p-Quantil fur p = 12 .
I Die p-Quantile fur p = 14 bzw. p = 3
4 bezeichnet man auch alserstes bzw. drittes Quartil.
I An der empirischen Verteilungsfunktion F (x) kann manp-Quantile leicht ablesen.
17.09.2013 Modul: Statistik II – Dr.habil. Jochen Merker 13/29
4 Deskriptive und explorative Statistik mit R
Quantile
Quantile in R
I In R lassen sich Quantile mittels des Befehls quantile(..)bestimmen. Das erste Argument ist der Vektor derAuspragungen x1, . . . , xn, danach kann man die verlangtenp-Werte vorgeben, (default: probs = seq(0, 1, 0.25)) oder dasVerhalten bei Datenlucken regeln (default: na.rm = FALSE ).
I Auch der Befehl summary(..) liefert die default-Quantile undzusatzlich noch das arithmetische Mittel und die Anzahl derDatenlucken zuruck.
I Mittels sd(..) bzw. var(..) lassen sich Standardabweichungbzw. Variation berechnen.
17.09.2013 Modul: Statistik II – Dr.habil. Jochen Merker 14/29
4 Deskriptive und explorative Statistik mit R
factor and ordered
Nominal und ordinal skalierte Daten in R
I Mittels der Befehle factor bzw. ordered kann man R mitteilen,dass die Werte eines Vektors nicht als kardinal skaliert,sondern nur als nominal bzw. ordinal skaliert angesehenwerden sollen.
I Dies hat Einfluß auf andere Funktionen, z.B. gibtsummary(ordered(..)) statt der Quantile aus, wievieleDatensatze zu den einzelnen Levels gehoren.
17.09.2013 Modul: Statistik II – Dr.habil. Jochen Merker 15/29
4 Deskriptive und explorative Statistik mit R
Kontingenztabellen
Kontingenztabellen in R
Kontingenztabellen lassen sich mit table(..) erzeugen. Das folgendeBeispiel zeigt fur daten mit den Spalten zylinder und land, wieman solche Tabellen beschriften kann.
attach(daten)zylfac <- factor(zylinder, labels=c("3 Zylinder",
"4 Zylinder", "5 Zylinder", "6 Zylinder","8 Zylinder"), exclude=NA )
landfac <- factor(land,labels=c("Amerika", "Europa", "Japan") )
kontingenztabelle <- table(zylfac,landfac)print(kontingenztabelle)detach(daten)
17.09.2013 Modul: Statistik II – Dr.habil. Jochen Merker 16/29
4 Deskriptive und explorative Statistik mit R
Haufigkeiten
Haufigkeiten
Mittels prop.table(..) kann man die relativen Haufigkeiten oderdurch den zusatzlichen Parameter 1 fur Zeilen bzw. 2 fur Spaltendie bedingten Haufigkeiten ausrechnen lassen.
prop.table(kontingenztabelle)prop.table(kontingenztabelle,1)prop.table(kontingenztabelle,2)
17.09.2013 Modul: Statistik II – Dr.habil. Jochen Merker 17/29
4 Deskriptive und explorative Statistik mit R
Diagramme
Diagramme in R
Zum Erstellen von Diagrammen bietet R die Befehle
I barplot(..) fur Balkendiagramme,
I hist(..) mit der Anzahl breaks der Balken fur Histogramme(und mit freq=FALSE fur echte Histogramme),
I boxplot(..) fur Boxplots bzw. gruppierte Boxplots durchUbergabe von Vektor Gruppierung
Beschriftung kann mit xlab bzw. ylab erfolgen, Einschrankung desZeichenbereiche durch xlim bzw. ylim.
17.09.2013 Modul: Statistik II – Dr.habil. Jochen Merker 18/29
4 Deskriptive und explorative Statistik mit R
Diagramme
Abspeichern von Diagrammen in R
Um Diagramme abzuspeichern, kann man die Befehle pdf(..),postscript(..) oder jpeg(..) wie im folgenden Beispiel verwenden.
pdf("MeinBarplot.pdf")par(cex=1.2)barplot(table(as.factor(daten$zylinder)),
xlab="Anzahl der Zylinder",ylab="Absolute Haufigkeiten")
dev.off()
17.09.2013 Modul: Statistik II – Dr.habil. Jochen Merker 19/29
4 Deskriptive und explorative Statistik mit R
Zusammenhangsanalyse
Zusammenhangsanalyse in R
I Korrelationskoeffizienten kann man mittels cor(..) ausrechnenmit den Optionen use=”complete.obs” bzw.use=”pairwise.complete.obs” fur das Ignorieren aller bzw. nurder paarweise fehlenden Werte.
I Streudiagramme kann man mittels splom(..) erzeugen, wobeivorher durch library(lattice) die diesen Befehl enthaltendeBibliothek eingebunden werden muss.
17.09.2013 Modul: Statistik II – Dr.habil. Jochen Merker 20/29
4 Deskriptive und explorative Statistik mit R
Lineare Regression
Lineare Regression in R
I Mittels lm(..) und der Notation VektorY VektorX kann manein lineares Modell eines VektorY in Abhangigkeit von einemVektorX erzeugen.
I Die zugehorige Ausgleichsgerade kann man mittels lines(..) ineinen erstellten Plot einfugen.
modell1 <- lm(daten$mpg~daten$ps)summary(modell1)betadach <- coefficients(modell1)plot(daten$ps, daten$mpg, xlab="PS",
ylab="Gefahrene Meilen pro Gallone")lines(daten$ps, betadach[1] + betadach[2] * daten$ps)
17.09.2013 Modul: Statistik II – Dr.habil. Jochen Merker 21/29
4 Deskriptive und explorative Statistik mit R
Quadratische Regression
Quadratische Regression in R
I Bei quadratischer Regression muss man zusatzlich durch +die Abhangigkeit von den Quadraten von VektorX erlauben
I Die zugehorige Ausgleichsparabel muss man selbstprogrammieren und mit dem Befehl curve(..) einfugen.
ps2 <- daten$ps^2modell2 <- lm(daten$mpg~daten$ps + ps2)summary(modell2)betadach <- coefficients(modell2)regrfunc <- function(x) return (
betadach[1] + betadach[2] * x + betadach[3]*x^2 ) plot(daten$ps, daten$mpg, xlab="PS",ylab="Gefahrene Meilen pro Gallone", xlim=c(0,250) )
curve( regrfunc(x), from=46, to=230, add=TRUE)17.09.2013 Modul: Statistik II – Dr.habil. Jochen Merker 22/29
5 Wahrscheinlichkeit
Wahrscheinlichkeitsrechnung und induktiveStatistik
I Die deskriptive Statistik erlaubt, einen Datensatz komprimiertin grafischer Form darzustellen und Kenngroßen zu seinerBeschreibung anzugeben, wahrend die explorative Statistikden Datensatz hinsichtlich interessanter Strukturen analysiert.
I Da der Datensatz aber ublicherweise nur eine Stichprobe ist,kann kein Ruckschluß auf die Struktur der dahinterstehendeGrundgesamtheit erfolgen.
I Die induktiven Statistik versucht festzustellen, ob eine ineinem stichprobenartig erhobenen Datensatz entdeckteStruktur nur auf den Zufall zuruckzufuhren oder mit großerSicherheit auch in der Grundgesamtheit zu finden ist.
I Um die Bedeutung des Zufalls fur den erhobenen Datensatzquantifizieren zu konnen, benotigt manWahrscheinlichkeitsrechnung.
17.09.2013 Modul: Statistik II – Dr.habil. Jochen Merker 23/29
5 Wahrscheinlichkeit
Zufallsexperimente
Zufallsexperiment
I Ein Zufallsexperiment ist ein Vorgang, bei dem aus einerbekannten Menge von Ergebnissen genau eines eintritt undder unter den gleichen Rahmenbedingungen beliebig oftwiederholbar ist.
I ACHTUNG: Im Gegensatz zu gedanklichenZufallsexperimenten sind reale Befragungen oderStichprobenerhebungen i.a. nicht unter gleichenRahmenbedingungen beliebig oft wiederholbar.
17.09.2013 Modul: Statistik II – Dr.habil. Jochen Merker 24/29
5 Wahrscheinlichkeit
Ereignisse
Ergebnisraum und Ereignisse
I In der Wahrscheinlichkeitsrechnung bezeichnet man dieMenge Ω der moglichen Ergebnisse eines Zufallsexperimentsals Ergebnisraum und jede Teilmenge von Ω als Ereignis.
I Einelementige Teilmengen von Ω heißenElementarereignisse.
17.09.2013 Modul: Statistik II – Dr.habil. Jochen Merker 25/29
5 Wahrscheinlichkeit
Mengen
Grundlegende Begriffe
I Ist x ein (bzw. kein) Element der Menge Ω, so schreibt manabkurzend x ∈ Ω (bzw. x 6∈ Ω).
I Ist jedes Element von A auch ein Element von B, d.h. giltx ∈ A⇒ x ∈ B, dann nennt man A eine Teilmenge von Bund schreibt A ⊂ B.
I Die Menge aller Elemente x ∈ Ω, fur die eine Aussage A(x)wahr ist, symbolisiert man durch x ∈ Ω | A(x).
I Die Menge P(Ω) := A |A ⊂ Ω aller Teilmengen von Ωnennt man die Potenzmenge von Ω.
I Die Anzahl der Elemente einer Menge A bezeichnet man mit|A| oder ]A.
17.09.2013 Modul: Statistik II – Dr.habil. Jochen Merker 26/29
5 Wahrscheinlichkeit
Mengenoperationen
Beispiel
∅, 1, 2, . . . , n, N = 1, 2, . . . , N0 = 0, 1, 2, . . . ,Z = 0,±1,±2, . . . , R = (−∞,∞)
Mengenoperationen
Sind A, B ⊂ Ω Teilmengen, so bezeichnet
I A ∩ B := x | x ∈ A und x ∈ B den Schnitt von A und B,
I A ∪ B := x | x ∈ A oder x ∈ B die Vereinigung von A undB,
I A \ B := x | x ∈ A und x 6∈ B die Differenz von A und B,
I Ac = A = Ω \ A das Komplement von A in Ω.
17.09.2013 Modul: Statistik II – Dr.habil. Jochen Merker 27/29
5 Wahrscheinlichkeit
Wahrscheinlickeitsmaß
Disjunkte Mengen
I Teilmengen A, B ⊂ Ω mit A ∩ B = ∅ heißen disjunkt.
I Teilmengen A1, A2, . . . , Ak ⊂ Ω mit Ai ∩ Aj = ∅ fur alle i 6= j ,i , j ∈ 1, . . . , k, heißen paarweise disjunkt.
Definition
Ist Ω endlich, so heißt eine Funktion P : P(Ω) → R, die jederTeilmenge A ⊂ Ω eine reelle Zahl P(A) zuordnet, ein Wahrschein-lichkeitsmaß auf Ω, falls
1. P(A) ≥ 0 fur alle A ⊂ Ω,
2. P(Ω) = 1,
3. P(A ∪ B) = P(A) + P(B) fur disjunkte A, B ⊂ Ω gilt.
17.09.2013 Modul: Statistik II – Dr.habil. Jochen Merker 28/29
5 Wahrscheinlichkeit
Rechenregeln fur Wahrscheinlickeiten
Satz
Ist P ein Wahrscheinlichkeitsmaß auf Ω, so gilt
1. 0 ≤ P(A) ≤ 1 fur alle A ⊂ Ω,
2. P(∅) = 0,
3. P(A) ≤ P(B) fur A, B ⊂ Ω mit A ⊂ B,
4. P(Ac) = 1− P(A) fur A ⊂ Ω,
5. P(A1 ∪ A2 ∪ · · · ∪ Ak) = P(A1) + P(A2) + · · ·+ P(Ak) furpaarweise disjunkte A1, A2, . . . , Ak ⊂ Ω,
6. P(A ∪ B) = P(A) + P(B)− P(A ∩ B)
17.09.2013 Modul: Statistik II – Dr.habil. Jochen Merker 29/29