statistische methoden in den umweltwissenschaften...iow-statistikseminar: 2. veranstaltung carola...

Post on 17-Feb-2020

5 Views

Category:

Documents

0 Downloads

Preview:

Click to see full reader

TRANSCRIPT

IOW-Statistikseminar: 2. Veranstaltung Carola Wagner & Anja Eggert

Statistische Methoden in den Umweltwissenschaften

Stetige und diskrete Wahrscheinlichkeitsverteilungen

Lageparameter

Streuungsparameter

IOW-Statistikseminar: 2. Veranstaltung Carola Wagner & Anja Eggert

Diskrete und stetige Zufallsvariablen

• Beispiel: − Wurf eines Würfels − Anzahl der Seeigel auf 1 m² einer Seegraswiese − Individuenlänge einer Dorschpopulation

• Eine Zufallsvariable heißt diskret, wenn sie endlich (oder abzählbar unendliche)

viele Werte annehmen kann.

• Eine Zufallsvariable heißt stetig, wenn sie unendlich viele Werte in einem Intervall [a,b] annehmen kann.

Eine Variable (oder Merkmal X), dessen Werte die Ergebnisse eines Zufallsexperimentes sind, heißt Zufallsvariable

IOW-Statistikseminar: 2. Veranstaltung Carola Wagner & Anja Eggert

Wahrscheinlichkeitsverteilungen

• Die Wahrscheinlichkeitsfunktion (diskret) bzw. die Wahrscheinlichkeitsdichte (stetig) beschreibt die Wahrscheinlichkeitsverteilung (gibt die Wahrscheinlichkeit des Auftretens der einzelnen Werte der Zufallsvariablen an).

• Die (kumulierte) Verteilungsfunktion ist das Aufsummieren der Werte der Wahrscheinlichkeitsfunktion bzw. ist das Integral über die Dichtefunktion

Zufallsexperiment

Zufallsvariable X

Wahrscheinlichkeits-funktion

Wahrscheinlichkeits-dichte

Verteilungsfunktion

diskret stetig

Beispiele: •Verteilung der Ergebnisse eines Würfelspiels

•Binomialverteilung

Beispiele: •Normalverteilung •Andere stetige Verteilungen (t, F, χ²)

IOW-Statistikseminar: 2. Veranstaltung Carola Wagner & Anja Eggert

Zufallsexperiment und Wahrscheinlichkeitstheorie

• Zufallsexperiment:

– empirischen Häufigkeitsverteilung in einer Stichprobe unabhängiger Replikate

• Theorie:

– Wahrscheinlichkeitsverteilung

Wird ein Zufallsexperiment häufig genug wiederholt (= die Stichprobe, n, Anzahl der Replikate wird immer weiter erhöht) konvergiert die Häufigkeitsverteilung gegen die

“wahre” theoretische Wahrscheinlichkeitsverteilung.

IOW-Statistikseminar: 2. Veranstaltung Carola Wagner & Anja Eggert

Verteilungstypen

Stetige Wahrscheinlichkeitsverteilung Diskrete Wahrscheinlichkeitsverteilung

Normalverteilung Poissonverteilung

Log-Normalverteilung (Negative) Binomialverteilung

Fisher‘s F (z.B. ANOVA) …

Student‘s t (z.B. t-Test)

Exponentialverteilung

IOW-Statistikseminar: 2. Veranstaltung Carola Wagner & Anja Eggert

Normalverteilung – die bekannteste stetige Wahrscheinlichkeitsverteilung

Simulation von normalverteilten Zufallszahlen (Balken): rnorm(100,mean=24,sd=4)

Wahrscheinlichkeitsdichte (rote Linie): dnorm(seq(10,40,1),mean=24,sd=4)

IOW-Statistikseminar: 2. Veranstaltung Carola Wagner & Anja Eggert

Normalverteilung

• Eine der wichtigsten Verteilungen ist die Normalverteilung (besser: Verteilungsdichte) mit Mittelwert µ und Varianz σ² (= Gaußschen Glockenkurve)

Symmetrisch um µ

Nur abhängig von µ und σ

−=2

21exp

21

σμx

πσf(x)

IOW-Statistikseminar: 2. Veranstaltung Carola Wagner & Anja Eggert

Normalverteilung: Wie groß sind µ und σ ?

IOW-Statistikseminar: 2. Veranstaltung Carola Wagner & Anja Eggert

Normalverteilung: Wie groß sind µ und σ ?

µ = 4 ; σ = 1

µ = 8 ; σ = 1

µ = 8 ; σ = 0,5

IOW-Statistikseminar: 2. Veranstaltung Carola Wagner & Anja Eggert

Normalverteilung

• Verteilungsfunktion

(= Kumulierte Häufigkeiten)

• Dichtefunktion

-3σ -2σ -σ μ 1σ 2σ 3σ

50 %

68,72% der Werte liegen im Bereich [- σ, σ ]

-3σ -2σ -σ μ 1σ 2σ 3σ

IOW-Statistikseminar: 2. Veranstaltung Carola Wagner & Anja Eggert

z-Transformation: Normierung

• Eigenschaften der z-Verteilung (=Standardnormalverteilung):

− Mittelwert µ = 0

− Varianz σ² = 1

− ohne Maßeinheit (dimensionslos)

• Lineare Skalentransformation

σµ)( −

= ii

azzi : neuer Wert ai: alter Wert µ: arithmetischer Mittelwert σ: Standardabweichung

IOW-Statistikseminar: 2. Veranstaltung Carola Wagner & Anja Eggert

Wassertemperatur Salzgehalt Phosphat Nitrat Wassertemperatur Salzgehalt Phosphat Nitrat°C PSU µM µM z-Wert z-Wert z-Wert z-Wert

01/01/1991 1.4 5.2 1.8 5.2 -1.2 -0.4 2.6 -0.402/01/1991 1.4 4.7 0.2 24.0 -1.2 -0.8 -0.8 0.103/01/1991 1.8 4.7 0.2 76.6 -1.1 -0.8 -0.8 1.604/01/1991 2.0 4.9 0.3 34.5 -1.1 -0.6 -0.6 0.405/01/1991 2.0 5.1 0.1 45.6 -1.1 -0.5 -1.0 0.706/01/1991 2.8 5.0 0.3 35.7 -1.0 -0.6 -0.6 0.407/01/1991 2.9 4.9 0.4 32.5 -1.0 -0.6 -0.4 0.308/01/1991 2.7 4.8 0.4 59.5 -1.0 -0.7 -0.4 1.1

MW 9.9 5.8 0.6 20.1 0.0 0.0 0.0 0.0STABW 7.2 1.4 0.5 36.3 1.0 1.0 1.0 1.0

Warum z-Transformation ?

0,0 ± 1,0 Verschiedene Größenordnungen und Einheiten

Vergleichbarkeit: Die z-Transformation ermöglicht eine Vergleichbarkeit verschiedener Variablen (bzgl. Größenordnungen und Einheiten.)

Standardisierung: Die transformierten Variablen sind dimensionslos (ohne Maßeinheit). Variablen unterschiedlicher Maßeinheiten können so unter Verwendung ihrer z-Werte verglichen oder zu neuen Variablen kombiniert werden.

IOW-Statistikseminar: 2. Veranstaltung Carola Wagner & Anja Eggert

Poissonverteilung: diskrete Wahrcheinlichkeitsverteilung

• Nur ein Parameter λ

• λ ist gleichzeitig Mittelwert und Varianz der Verteilung

• Linksschiefe Verteilung

• Sie ordnet den natürlichen Zahlen k=0, 1, 2, .. Die Wahrscheinlichkeiten wie folgt zu:

λλ −== ek

k)f(Xk

!Simulation von poissonverteilten Zufallszahlen (Balken): rpois(400,lambda=2)

Wahrscheinlichkeitsdichte(rote Punkte): dpois(c(0:10),lambda=2)

IOW-Statistikseminar: 2. Veranstaltung Carola Wagner & Anja Eggert

Poissonverteilung

• Parameter: µ (= lambda)

• kleine µ, stark l-Form, je größer µ, desto mehr symmetrische (Normal-) Verteilung

IOW-Statistikseminar: 2. Veranstaltung Carola Wagner & Anja Eggert

Kenngrößen der Verteilungen

Normalverteilung Mittelwert, Standardabweichung

Poissonverteilung Mittelwert

Log-Normalverteilung Mittelwert, Standardabweichung

Fisher‘s F Zwei Freiheitsgrade (df1, df2)

Student‘s t Freiheitsgrad (df)

Chi-Quadrat-Verteilung Freiheitsgrad (df)

(Negative) Binomialverteilung Stichprobenumfang (n), Wahrscheinlichkeit (p)

IOW-Statistikseminar: 2. Veranstaltung Carola Wagner & Anja Eggert

• Varianzquotient F:

– F-Verhältnis =

– Je größer F, desto wahrscheinlicher Ablehnung von H0

• F ist abhängig von df1 (= zwischen den Gruppen) und df2 (= innerhalb der Gruppen)

F-Verhältnis: Testgröße für die ANOVA

Varianz zwischen Gruppe 1 und Gruppe 2

Varianz innerhalb der Gruppen

Behandlungseffekt

Residualvarianz

IOW-Statistikseminar: 2. Veranstaltung Carola Wagner & Anja Eggert

F-Verteilung (df1=1 , df2= 8)

Diese Verteilung muss herangezogen werden, um den kritischen F-Wert zu bestimmen

z.B. F = 8, d.h. die Varianz zwischen den Gruppen ist 8 mal größer als die Varianz innerhalb der Gruppen

IOW-Statistikseminar: 2. Veranstaltung Carola Wagner & Anja Eggert

F-Verteilung (df1=1 , df2= 8)

Die Auftretwahrscheinlichkeit von F ≥ 8 ist allerdings sehr gering. Sie ist repräsentiert von der Fläche unter der Kurve rechts von F = 8 und entspricht 2,2%.

z.B. F = 8, d.h. die Varianz zwischen den Gruppen ist 8 mal größer als die Varianz innerhalb der Gruppen

IOW-Statistikseminar: 2. Veranstaltung Carola Wagner & Anja Eggert

Kritische F-Werte

Fkrit 0,05 = 5,3

5% der Fläche

Wo liegt der kritische F-Wert? Er ist auch abhängig von der Irrtumswahrscheinlichkeit alpha.

IOW-Statistikseminar: 2. Veranstaltung Carola Wagner & Anja Eggert

Biologische Beispiele für verschiedene Verteilungen

Negative Binomialverteilung

IOW-Statistikseminar: 2. Veranstaltung Carola Wagner & Anja Eggert

Biologische Beispiele für verschiedene Verteilungen

Log-Normalverteilung: Wachstums- oder Zerfallsprozesse

IOW-Statistikseminar: 2. Veranstaltung Carola Wagner & Anja Eggert

Biologische Beispiele für verschiedene Verteilungen

Log-Normalverteilung

IOW-Statistikseminar: 2. Veranstaltung Carola Wagner & Anja Eggert

Wie sind die Messdaten verteilt ?

Balken sind Häufigkeitsverteilung eines Zufallexperiments

Poissonverteilung(rote Punkte): dpois(c(0:10),lambda=2)

Normalverteilung(blaue Punkte): dnorm(c(0:10),mean=2,sd=1)

IOW-Statistikseminar: 2. Veranstaltung Carola Wagner & Anja Eggert

Eine diskrete poisson-verteilte Zufallsvariable ?

• Beispiel: Anzahl der Seeigel auf 200 quadratischen, zufällig ausgewählten Beobachtungsflächen in einer Seegraswiese.

Anzahl der Seeigel (xi)

beobachtete Häufigkeit des Eintretens (hi)

(xi * hi)

0 28 0 1 69 69 2 42 84 3 34 102 4 13 52 5 8 40 6 5 30 7 1 7

≥8 0 0 ∑(hi) = 200 ∑(xi*hi) = 384

Mittelwert 1.92

IOW-Statistikseminar: 2. Veranstaltung Carola Wagner & Anja Eggert

Kolmogorov-Smirnov-Anpassungstest

• H0 : empirische Verteilung entspricht einer theoretischen Verteilung (z.B. der Normalverteilung)

• Differenzen (K) zwischen empirischer und theoretischer Verteilungsfunktion

• Aus K errechnet sich Testgröße λ

• H0 wird verworfen, wenn λ-Wert den kritischen Wert für ein gegebenes α überschreitet

● ●

● ●

K- = größter Abstand wenn Messwerte über theoretischer Funktion liegen

K+ = größter Abstand wenn Messwerte unter theoretischer Funktion liegen nK ⋅=λ

IOW-Statistikseminar: 2. Veranstaltung Carola Wagner & Anja Eggert

Parametrische versus nicht-parametrische Tests

Kann den Daten eine bestimmte Verteilung zugeordnet werden ?

Nicht-parametrische Tests

setzen keine bestimmte Verteilung voraus

Parametrische Tests

setzen eine bestimmte Verteilung voraus

(z.B. Normalverteilung)

ja nein

IOW-Statistikseminar: 2. Veranstaltung Carola Wagner & Anja Eggert

Lageparameter 1

• Modalwert (= Modus)

– Die am häufigsten vorkommende Ausprägung eines Merkmals

– Verteilungsfreie Kenngröße!

– Beispiel: {1, 2, 3, 2, 4, 4, 2, 5, 1, 2}: M = 2

IOW-Statistikseminar: 2. Veranstaltung Carola Wagner & Anja Eggert

Lageparameter 2

• Median

– Werte der Größe nach ordnen, der mittlere Wert (bei ungerader Anzahl) bzw. der Durchschnitt der beiden mittleren Werte (bei gerader Anzahl) entspricht dem Median

– Verteilungsfreie Kenngröße!

– Median teilt die Verteilung in zwei Hälften

– Beispiel: Lethale Dosis LD50

IOW-Statistikseminar: 2. Veranstaltung Carola Wagner & Anja Eggert

• Arithmetisches Mittel

– Kenngröße der Normalverteilung !

• Gewogenes arithmetisches Mittel

– Unterschiedliche Werte werden unterschiedlich stark gewichtet

– Bsp. Mittlere Korngröße

• Geometrisches Mittel

– Bsp. Mittlere Wachstumsrate von Raten über mehre Zeitintervalle

Lageparameter 3

∑∑ == iii ahn

xn

x 11

1

1

=

=

∑∑

i

iig

g

xgn

x

∑=

⋅⋅ ⋅=

in

nn

xx

xxxx

geom

geom

loglog

...1

21

IOW-Statistikseminar: 2. Veranstaltung Carola Wagner & Anja Eggert

Streuungsparameter 1

• Minimum, Maximum, Spannweite

• Quantile

– 25% und 75%-Quantil (= oder 1. und 3. Quartil)

IOW-Statistikseminar: 2. Veranstaltung Carola Wagner & Anja Eggert

Box-Whisker-Plots

Vegetationsform

BGrA

rm

BKlA

rm

ZoR

u

ChR

uci

ChZ

oma

Ruc

i

Zom

a

Nm MP

mitt

lere

Kor

ngrö

ße [m

m]

0.0

0.1

0.2

0.3

0.4

0.5

Extremwerte

Maximaler Wert oder 90% Quantil

75% Quantil

Median = 50% Quantil

25% Quantil

Minimaler Wert oder 10% Quantil

Extremwerte

Extremwerte: Werte, die mehr als das 1,5-fache des Abstandes zwischen 25% und 75%-Quantil entfernt sind (kann man aber selber festlegen…)

IOW-Statistikseminar: 2. Veranstaltung Carola Wagner & Anja Eggert

Streuungsparameter 2

• Varianz:

– Ein Maß für die Streuung der Einzelwerte xi um den Mittelwert

– Die Maßeinheit der Varianz entspricht nicht der Maßeinheit der Messwerte

• Standardabweichung:

– Ein Maß für die Streuung der Einzelwerte xi um den Mittelwert

– Die Maßeinheit der Standardabweichung entspricht der Maßeinheit der Messwerte

1)²(

²−−

= ∑n

xxs i

1)²(

−−

= ∑n

xxs i

Parameter der Normalverteilung !!!

IOW-Statistikseminar: 2. Veranstaltung Carola Wagner & Anja Eggert

Streuungsparameter 3

• Standardfehler eines Parameters, z.B. des arithmetischen Mittelwertes:

– Gibt die statistische Unsicherheit der Mittelwerte an

– Ein Standardfehler wird um so kleiner, je größer der Stichprobenumfang ist n

ssx =

IOW-Statistikseminar: 2. Veranstaltung Carola Wagner & Anja Eggert

Streuungsparameter 4

xszxGrenzeobereuntere ⋅±= )2/(/ α

• Konfidenzintervall

– Ist ein geschätztes Intervall, welches den wahren Wert eines unbekannten Parameters (z.B. Mittelwert) mit vorgegebener Wahrscheinlichkeit (z.B. 95 %) überdeckt.

– Der wahre Wert ist unbekannt und würde sich nur durch „unendlich“ viele Messungen bestimmen lassen.

Z-Wert von α/2, z.B. 1,96 bei 95% kann der Tabelle zur Normalverteilung entnommen werden

Mittelwert Standardfehler des Mittelwertes

IOW-Statistikseminar: 2. Veranstaltung Carola Wagner & Anja Eggert

Wovon hängt die Breite eines Konfidenzintervalls ab?

1. Je größer der Stichprobenumfang, desto kleiner der Standardfehler und desto schmaler das Konfidenzintervall.

2. Je größer die Sicherheit der Schätzung, desto breiter das Konfidenzintervall

3. Je größer die Standardabweichung desto breiter das Konfidenzintervall

• Konfidenzintervalle werden sehr breit, wenn sie aufgrund kleiner Stichproben bestimmt werden.

• Präzise Intervallschätzung erfordert große Stichproben

top related