modul: statistik ii - universität rostockmerker/skriptstatistik2.pdf · 1formalien ablauf i in der...

Modul: Statistik II

Dr.habil. Jochen Merker

Business Intelligence and Statistics

17.09.2013 Modul: Statistik II – Dr.habil. Jochen Merker 1/29

1 Formalien

Dozent

Jochen Merker

1996-2001: Studium der Mathematik und Informatik an derUniversitat Hamburg (Diplom)

2001-2004: wissenschaftlicher Mitarbeiter am FachbereichMathematik der Universitat Hamburg (Promotion)

2004-2013: wissenschaftlicher Mitarbeiter am Institut furMathematik der Universitat Rostock (Habilitation)

seit WS 2013: Professor fur Business Intelligence und Statistik ander FH Stralsund


1 Formalien

Ablauf

I In der Statistik II werden wir uns mitWahrscheinlichkeitsrechnung und induktiver Statistik (also mitSchatzen und Testen) beschaftigen.

I In der Vorlesung (Di, 12.15 - 13.45 Uhr) werden dietheoretischen Konzepte vorgestellt und anhand akademischerBeispiele eingeubt.

I In den Ubungen (Di, 9.45 - 11.15 Uhr bzw. 14.00 - 15.30 Uhr)werden anwendungsnahe Beispiele mit Hilfe von R und SPSSdiskutiert.

I Im Gegensatz zur Ihnen schon bekannten kommerziellenmenugesteuerten Statistik-Software SPSS ist R eine freieskriptgesteuerte Statistik-Software, die man vonhttp://www.r-project.org herunterladen kann.

I Als Prufungsleistung ist eine zweistundige Klausur zubestehen.


http://www.r-project.org

1 Formalien

Ablauf

Ubungsaufgaben

Ich werde Ubungsaufgaben stellen, fur deren Bearbeitung Sie biszur nachsten Ubung Zeit haben. Sie geben vor der Ubung an,welche Ubungsaufgaben Sie gelost haben, und einer von Ihnenprasentiert dann die Losung. Fur die Zulassung zur Klausur mussenSie mindestens 50% der Ubungsaufgaben bearbeiten.

ACHTUNG

Nachste Woche nehme ich an der Jahrestagung der DMV-OMGteil, die Veranstaltung fallt daher aus und wird in der Blockwochevom 18.11.-22.11. nachgeholt.


1 Formalien

Literatur

Es gibt eine riesige Auswahl an Literatur zur Statistik, zu meinerVorlesung empfehle ich die folgenden Bucher.

Fahrmeir, Kunstler, Pigeot, Tutz: Statistik (Kapitel 4-11),Springer.

Cramer, Kamps: Grundlagen der Wahrscheinlichkeitsrechnung undStatistik (Abschnitte B-D), Springer.

Gotze, Deutschmann, Link: Statistik (Kapitel 2 und 3),Oldenbourg.

Kohn, Ozturk: Statistik fur Okonomen (mit R und SPSS, Teil IVund V), Springer.

Toutenburg, Heumann: Induktive Statistik (mit R und SPSS),Springer.


2 Deskriptive Statistik

Merkmale

Merkmale

I Die deskriptive Statistik dient zur beschreibenden bzw.grafischen Aufbereitung und Komprimierung von anstatistischen Einheiten (= Merkmalstragern) erhobenen Daten(= Auspragungen von Merkmalen).

I Merkmale konnenI diskret (= endlich oder abzahlbar viele Auspragungen) oderI kontinuierlich (= stetig = alle Werte aus einem Intervall als

Auspragungen)

sein.



Skalen

Skalen

I Merkmale konnenI nominal (weder anordbar noch arithmetisch, d.h. weder

Vergleiche noch Differenzen oder Quotienten kann mansinnvoll interpretieren),

I ordinal (anordbar, aber nicht arithmetisch) oderI kardinal (anordbar und arithmetisch)

skaliert sein.I Bei kardinalskalierten Merkmalen unterscheidet man zwischen

I intervallskaliert (Differenzen, aber nicht Quotienten sinnvollinterpretierbar) und

I verhaltnisskaliert (Differenzen und Quotienten sinnvollinterpretierbar).



Diagramme, Kenngroßen und Datenerhebung

Diagramme und Kenngroßen

Die beschreibenden bzw. grafische Aufbereitung undKomprimierung von Daten kann durch Diagramme, Verlaufskurvenoder Tabellen, die ein- und mehrdimensionale Haufigkeitenzusammenfassen, und durch Kenngroßen wie Lage- und Streumaßeerfolgen.

Datenerhebung

ACHTUNG: Eine unsachgemaße Erhebung von Daten (z.B.Vorauswahl der Probanden) kann eine ungewunschte Verfalschungvon Statistiken bewirken, daher ist eine sorgfaltigeVersuchsplanung notwendig.


3 Explorative Statistik

Explorative Statistik

Explorative Statistik

I Die explorative Statistik sucht in bereits aufbereiteten Dateneinerseits nach Ausreißern oder Fehlern in Datensatzen (=Datenvalidierung), und versucht andererseits durchBestimmung von Zusammenhangsmaßen und Regressionen,erste Hypothesen uber die Ursache der beobachteten Datenzu gewinnen (ohne dass diese schonwahrscheinlichkeitstheoretisch untermauert sind).

In der ersten Ubung wiederholen wir einige der in der Statistik Ibehandelten Themen und lernen dabei gleichzeitig R kennen.


4 Deskriptive und explorative Statistik mit R

Rechnen in R

R als machtiger Taschenrechner

I Nach Start von R kann man in einer Konsole Rechnungenausfuhren, z.B. 2 ∗ 3, sqrt(4) oder exp(log(5)).

I Hilfe zu vordefinierten Funktionen erhalt man durch?Funktion.

I Mittels der Funktion c (steht fur concatenation, d.h.aneinanderhangen) kann man in R Vektoren definieren, z.B.x < −c(1, 2, 3).

I Arithmetische Operationen und Funktionen werden auf jedeKomponente eines Vektors angewendet, z.B. x ∗ 2 oderx ∗ c(2, 3).

I Es stehen viele Funktionen zur Manipulation eines Vektors zurVerfugung, z.B. length(x) oder sum(x).



Programmieren in R

R als Programmiersprache

I In R lassen sich nicht nur vordefinierte Funktionen benutzen,sondern mittels des Befehls function(..).. auch eigeneFunktionen programmieren. Dies geschieht ublicherweise inScript-Dateien mit der Endung .R, die man in der Konsoleausfuhren kann.

I Beim Programmieren kann man die Schleifen for(.. in ..),while(..), repeat.. break und die Verzweigung if(..) .. else ..benutzen.

1. Erstellen Sie in R eine Funktion, die das arithmetische Mittel von in einemVektor gespeicherten Werten bestimmt.

2. Bestimmen Sie mit Ihrer Funktion zu eingegebenem n ∈ N dasarithmetische Mittel der Zahlen 1, 2, . . . , n .



Einlesen von Daten

Dateizugriff in R

I Der Befehl daten ¡- read.table(”cars.csv”, header=TRUE,sep=”,”) liest die durch Kommata getrennten Daten aus derDatei cars.csv in die Datentabelle daten ein, wobei die ersteZeile zur Beschriftung der Spalten benutzt wird.

I Mit daten$Name kann man auf die durch Name bezeichneteSpalte zugreifen.



Quantile

Definition

Hat ein ordinalskaliertes Merkmal fur n Merkmalstrager die Aus-pragungen x1, . . . , xn und ist 0 < p < 1, so heißt die Merk-malsauspragung x ein p-Quantil, falls Anzahl der xi mit xi≤x

n ≥ p undAnzahl der xi mit xi≥x

n ≤ 1− p gilt, und man schreibt dann xp statt x .

Eigenschaften von Quantilen

I Bezeichnet x(1), . . . , x(n) die geordnete Liste derAuspragungen, so gilt x = x(bnpc+1), wenn np nicht ganzzahligist, und x ∈ [x(np), x(np+1)], wenn np ganzzahlig ist.

I Der Median ist ein p-Quantil fur p = 12 .

I Die p-Quantile fur p = 14 bzw. p = 3

4 bezeichnet man auch alserstes bzw. drittes Quartil.

I An der empirischen Verteilungsfunktion F (x) kann manp-Quantile leicht ablesen.



Quantile

Quantile in R

I In R lassen sich Quantile mittels des Befehls quantile(..)bestimmen. Das erste Argument ist der Vektor derAuspragungen x1, . . . , xn, danach kann man die verlangtenp-Werte vorgeben, (default: probs = seq(0, 1, 0.25)) oder dasVerhalten bei Datenlucken regeln (default: na.rm = FALSE ).

I Auch der Befehl summary(..) liefert die default-Quantile undzusatzlich noch das arithmetische Mittel und die Anzahl derDatenlucken zuruck.

I Mittels sd(..) bzw. var(..) lassen sich Standardabweichungbzw. Variation berechnen.



factor and ordered

Nominal und ordinal skalierte Daten in R

I Mittels der Befehle factor bzw. ordered kann man R mitteilen,dass die Werte eines Vektors nicht als kardinal skaliert,sondern nur als nominal bzw. ordinal skaliert angesehenwerden sollen.

I Dies hat Einfluß auf andere Funktionen, z.B. gibtsummary(ordered(..)) statt der Quantile aus, wievieleDatensatze zu den einzelnen Levels gehoren.



Kontingenztabellen

Kontingenztabellen in R

Kontingenztabellen lassen sich mit table(..) erzeugen. Das folgendeBeispiel zeigt fur daten mit den Spalten zylinder und land, wieman solche Tabellen beschriften kann.

attach(daten)zylfac <- factor(zylinder, labels=c("3 Zylinder",

"4 Zylinder", "5 Zylinder", "6 Zylinder","8 Zylinder"), exclude=NA )

landfac <- factor(land,labels=c("Amerika", "Europa", "Japan") )

kontingenztabelle <- table(zylfac,landfac)print(kontingenztabelle)detach(daten)



Haufigkeiten

Haufigkeiten

Mittels prop.table(..) kann man die relativen Haufigkeiten oderdurch den zusatzlichen Parameter 1 fur Zeilen bzw. 2 fur Spaltendie bedingten Haufigkeiten ausrechnen lassen.

prop.table(kontingenztabelle)prop.table(kontingenztabelle,1)prop.table(kontingenztabelle,2)



Diagramme

Diagramme in R

Zum Erstellen von Diagrammen bietet R die Befehle

I barplot(..) fur Balkendiagramme,

I hist(..) mit der Anzahl breaks der Balken fur Histogramme(und mit freq=FALSE fur echte Histogramme),

I boxplot(..) fur Boxplots bzw. gruppierte Boxplots durchUbergabe von Vektor Gruppierung

Beschriftung kann mit xlab bzw. ylab erfolgen, Einschrankung desZeichenbereiche durch xlim bzw. ylim.



Diagramme

Abspeichern von Diagrammen in R

Um Diagramme abzuspeichern, kann man die Befehle pdf(..),postscript(..) oder jpeg(..) wie im folgenden Beispiel verwenden.

pdf("MeinBarplot.pdf")par(cex=1.2)barplot(table(as.factor(daten$zylinder)),

xlab="Anzahl der Zylinder",ylab="Absolute Haufigkeiten")

dev.off()



Zusammenhangsanalyse

Zusammenhangsanalyse in R

I Korrelationskoeffizienten kann man mittels cor(..) ausrechnenmit den Optionen use=”complete.obs” bzw.use=”pairwise.complete.obs” fur das Ignorieren aller bzw. nurder paarweise fehlenden Werte.

I Streudiagramme kann man mittels splom(..) erzeugen, wobeivorher durch library(lattice) die diesen Befehl enthaltendeBibliothek eingebunden werden muss.



Lineare Regression

Lineare Regression in R

I Mittels lm(..) und der Notation VektorY VektorX kann manein lineares Modell eines VektorY in Abhangigkeit von einemVektorX erzeugen.

I Die zugehorige Ausgleichsgerade kann man mittels lines(..) ineinen erstellten Plot einfugen.

modell1 <- lm(daten$mpg~daten$ps)summary(modell1)betadach <- coefficients(modell1)plot(daten$ps, daten$mpg, xlab="PS",

ylab="Gefahrene Meilen pro Gallone")lines(daten$ps, betadach[1] + betadach[2] * daten$ps)



Quadratische Regression

Quadratische Regression in R

I Bei quadratischer Regression muss man zusatzlich durch +die Abhangigkeit von den Quadraten von VektorX erlauben

I Die zugehorige Ausgleichsparabel muss man selbstprogrammieren und mit dem Befehl curve(..) einfugen.

ps2 <- daten$ps^2modell2 <- lm(daten$mpg~daten$ps + ps2)summary(modell2)betadach <- coefficients(modell2)regrfunc <- function(x) return (

betadach[1] + betadach[2] * x + betadach[3]*x^2 ) plot(daten$ps, daten$mpg, xlab="PS",ylab="Gefahrene Meilen pro Gallone", xlim=c(0,250) )

curve( regrfunc(x), from=46, to=230, add=TRUE)17.09.2013 Modul: Statistik II – Dr.habil. Jochen Merker 22/29

5 Wahrscheinlichkeit

Wahrscheinlichkeitsrechnung und induktiveStatistik

I Die deskriptive Statistik erlaubt, einen Datensatz komprimiertin grafischer Form darzustellen und Kenngroßen zu seinerBeschreibung anzugeben, wahrend die explorative Statistikden Datensatz hinsichtlich interessanter Strukturen analysiert.

I Da der Datensatz aber ublicherweise nur eine Stichprobe ist,kann kein Ruckschluß auf die Struktur der dahinterstehendeGrundgesamtheit erfolgen.

I Die induktiven Statistik versucht festzustellen, ob eine ineinem stichprobenartig erhobenen Datensatz entdeckteStruktur nur auf den Zufall zuruckzufuhren oder mit großerSicherheit auch in der Grundgesamtheit zu finden ist.

I Um die Bedeutung des Zufalls fur den erhobenen Datensatzquantifizieren zu konnen, benotigt manWahrscheinlichkeitsrechnung.



Zufallsexperimente

Zufallsexperiment

I Ein Zufallsexperiment ist ein Vorgang, bei dem aus einerbekannten Menge von Ergebnissen genau eines eintritt undder unter den gleichen Rahmenbedingungen beliebig oftwiederholbar ist.

I ACHTUNG: Im Gegensatz zu gedanklichenZufallsexperimenten sind reale Befragungen oderStichprobenerhebungen i.a. nicht unter gleichenRahmenbedingungen beliebig oft wiederholbar.



Ereignisse

Ergebnisraum und Ereignisse

I In der Wahrscheinlichkeitsrechnung bezeichnet man dieMenge Ω der moglichen Ergebnisse eines Zufallsexperimentsals Ergebnisraum und jede Teilmenge von Ω als Ereignis.

I Einelementige Teilmengen von Ω heißenElementarereignisse.



Mengen

Grundlegende Begriffe

I Ist x ein (bzw. kein) Element der Menge Ω, so schreibt manabkurzend x ∈ Ω (bzw. x 6∈ Ω).

I Ist jedes Element von A auch ein Element von B, d.h. giltx ∈ A⇒ x ∈ B, dann nennt man A eine Teilmenge von Bund schreibt A ⊂ B.

I Die Menge aller Elemente x ∈ Ω, fur die eine Aussage A(x)wahr ist, symbolisiert man durch x ∈ Ω | A(x).

I Die Menge P(Ω) := A |A ⊂ Ω aller Teilmengen von Ωnennt man die Potenzmenge von Ω.

I Die Anzahl der Elemente einer Menge A bezeichnet man mit|A| oder ]A.



Mengenoperationen

Beispiel

∅, 1, 2, . . . , n, N = 1, 2, . . . , N0 = 0, 1, 2, . . . ,Z = 0,±1,±2, . . . , R = (−∞,∞)

Mengenoperationen

Sind A, B ⊂ Ω Teilmengen, so bezeichnet

I A ∩ B := x | x ∈ A und x ∈ B den Schnitt von A und B,

I A ∪ B := x | x ∈ A oder x ∈ B die Vereinigung von A undB,

I A \ B := x | x ∈ A und x 6∈ B die Differenz von A und B,

I Ac = A = Ω \ A das Komplement von A in Ω.



Wahrscheinlickeitsmaß

Disjunkte Mengen

I Teilmengen A, B ⊂ Ω mit A ∩ B = ∅ heißen disjunkt.

I Teilmengen A1, A2, . . . , Ak ⊂ Ω mit Ai ∩ Aj = ∅ fur alle i 6= j ,i , j ∈ 1, . . . , k, heißen paarweise disjunkt.

Definition

Ist Ω endlich, so heißt eine Funktion P : P(Ω) → R, die jederTeilmenge A ⊂ Ω eine reelle Zahl P(A) zuordnet, ein Wahrschein-lichkeitsmaß auf Ω, falls

1. P(A) ≥ 0 fur alle A ⊂ Ω,

2. P(Ω) = 1,

3. P(A ∪ B) = P(A) + P(B) fur disjunkte A, B ⊂ Ω gilt.



Rechenregeln fur Wahrscheinlickeiten

Satz

Ist P ein Wahrscheinlichkeitsmaß auf Ω, so gilt

1. 0 ≤ P(A) ≤ 1 fur alle A ⊂ Ω,

2. P(∅) = 0,

3. P(A) ≤ P(B) fur A, B ⊂ Ω mit A ⊂ B,

4. P(Ac) = 1− P(A) fur A ⊂ Ω,

5. P(A1 ∪ A2 ∪ · · · ∪ Ak) = P(A1) + P(A2) + · · ·+ P(Ak) furpaarweise disjunkte A1, A2, . . . , Ak ⊂ Ω,

6. P(A ∪ B) = P(A) + P(B)− P(A ∩ B)


modul: statistik ii - universität rostockmerker/skriptstatistik2.pdf · 1formalien ablauf i in der...

Documents