intervall ordinal nominal mindestskalenniveau des x-merkmals intervallordinalnominal...

Intervall

Ordinal

Nominal

Min

dest

skal

enni

veau

des

x-M

erkm

als

IntervallOrdinalNominal

Mindestskalenniveau des y-Merkmals

Pearson-Korrelation, Regressionsanalyse

Analyse mit ordinal-logistischen Modellen

Analyse mit nominal-logistischen Modellen (logistische Regression), Univariate Diskriminanzanalyse

Mittelwerttests, VarianzanalyseRangkorrelation (z.B. Spearmans , Kendalls )

Analyse mit nominal-logistischen Modellen

Vergleiche zweier Mittelwerte, Varianzanalyse, Vergleiche von Varianzen. Nichtparametrische Verfahren (bei Verletzung von Verteilungs-Voraussetzungen)

Nichtparametrische Verfahren (Mediantest, Wilcoxontests, Kruskal-Wallis-Test, Friedman-Varianzanalyse), Analyse mit ordinal-logistischen Modellen

Kreuztabellenanalysen, Chi-Quadrat, Nominale Korrelation (Chi-Quadrat-Normierungen, Goodmans , Kruskals , kappa), Analyse mit loglinearen und nominal-logistischen Modellen

MO - GO> 0MO > GO Mittlere Organisationen sind im Durchschnitt effizienter als große.

S - L = 0S = L Durchschnittlich arbeiten Studenten gleich viel wie Lehrlinge.

W - B= 1000W =B+ 1000 White Collars (Weißkragenarbeiter) verdienen im Schnitt 1000 Euro mehr als Blue Collars (‚Blaumann‘-Arbeiter).

vor - nach= 0vor = nach Die Sozialkompetenz wird durch Gesprächstherapie nicht verbessert (Sk vor bzw. nach Therapie).

F - M= 0F = M Frauen sind (im Durchschnitt) gleich intelligent wie Männer.

zH - Uni= 2zH = Uni + 2 Studenten arbeiten durchschnittlich zu Hause um zwei Stunden mehr als an der Uni.V - S= 0V = S Väter sind im Schnitt gleich groß wie ihre Söhne.E - Z = 0E = Z Sind Zwillinge (Erst- und Zweitgeborene) im Schnitt gleich intelligent?M - E = 0M = E

Im Durchschnitt haben Schüler in Mathematik gleich gute Noten wie in Englisch.

Em - Ef = 0Em = Ef Ist die durchschnittliche Berufsausbildungsdauer von Ehemännern gleich lang wie die der Ehefrauen?

in Hypothesenform:Typische Fragestellungen:

Die Differenz in den Mittelwerten der beiden Gruppen (1, 2) in der Gesamtheit ist gefragt:

21

Wie verschieden sind zwei Gruppen (im Schnitt)?

Vergleich zweier Mittelwerte

keineirgendwelche Frauenirgendwelche MännerIntelligenz von Männern und Frauen

keineirgendwelche Blue C.irgendwelche White C.White & Blue CollarsUnverbunden heißen zwei Stichproben, für die eine solche eindeutige Regel nicht existiert.

eindeutiggleiche Personen danachPersonen vor TherapiebeginnSozialkompetenz vorher/ nachhereindeutigderen Söhneirgendwelche VäterGröße von Vater und Sohn eindeutigZweitgeborenerirgendwelche ErstgeborenenIntelligenz der Zwillinge

eindeutigderen Ehefrauenirgendwelche Ehemänner Berufsausbildungsdauer von Ehemännern und Ehefrauen

Regel 2. Stichprobe 1. StichprobeBeispielVerbunden heißen zwei Stichproben genau dann, wenn es eine Regel gibt, jeder UE aus der einen Stichprobe genau eine UE aus der anderen Stichprobe zuzuordnen.

Designüberlegungen: Verbundene und unverbundene Stichproben

Die Hypothese (H0 bzw. Ha) behauptet, dass

diese Differenz einen speziellen Wert habe 0210 :H (dabei ist 0 oft gleich 0)

a21a :H

bzw. größer oder kleiner gleich diesem Wert sei.

Analyse zweier Merkmale

Differenz der Arbeitszeit

zu Hause-Uni-10

-5

0

5

10

15

Arbeitszeit in Stunden

zu Hause Uni0

10

20

30

-2

12

-2

1

Stichprobe der Differenzen:dj:= y1j – y2j

16

26

10

21

1. Stichprobe (zu Hause):

y1j

18

14

12

20

2. Stichprobe (in Uni):

y2j

4.

3.

2.

1.

UE-Paare

Beispiel: Durchschnittlicher Unterschied im Arbeitsverhalten von Studenten in Stunden (zu Hause vs. an der Uni).

Konfidenzintervalle und Tests für 1- 2 bei verbundenen StichprobenDa jedem Messwert der einen Stichprobe exakt ein Messwert der andern Stichprobe entspricht, können die Differenzen auf der ‚Individualebene‘ gebildet werden. Die Differenzwerte selbst werden wie eine Stichprobe für ein Merkmal (das Differenzenmerkmal) behandelt.

Stichprobe 1: y1j (j=1,2,...,n)Stichprobe 2: y2j (j=1,2,...,n)

Mittelwerte der Populationen: 1 (Pop 1), 2 (Pop 2).

n/)d...d(:d n1n

)dnd(:s 22j1n

1d

Mittelwert

Standard-abweichung

dj:=y1j – y2j.Reduktion auf eine Stichprobe, die Stichprobe der Differenzen:

Mittelwert der Differenzenpopulation: 1 - 2

25.24/)21221(:d

652.625.44)25.20153(3

1:ds

n

s:)d(Stf d

n Standardfehler des Differenzen-Mittelwerts

326.32d

4s

:)d(Stf

)d(Stf 4

)d(Stf 4

Das Konfidenzintervall für die Mittelwert-Differenz kann nach den Formeln für ein Merkmal berechnet werden21

(1-)-Konfidenzintervall für 21 bei nicht bekannter Varianz (df=n-1)

)d(Stf)df(td n1n Berechnen des 95%-Konfidenzintervalls für die

Mittelwertdifferenz: df = 3 (=4-1). . 18.3)3(1t = (-8.32668, 12.82668). 326.3*18.3 25.2

Hypothesentests für die Mittelwert-Differenz-Hypothese ( ) können ebenfalls Hypothesentests wie bei einem Merkmal durchgeführt werden. 0210 :H

0 d00 Stf( ) ndd dStf( ) nd Stf( ) nd

021a :H 021a :H 021a :H linksseitig rechtsseitigbeidseitig

Alternativhypothese

)d(Stf)df(t n1

0

)d(Stf)df(t n1

0 )d(Stf)df(t n1

0 )d(Stf)df(t n1

0

KB

bei nicht bekannter Varianz

Der zweiseitige kritische Bereich liegt daher außerhalb (inklusive Randpunkte) von: d.h. außerhalb von (-8.57668, 12.57668).326.3*18.3 2

25.2d liegt nicht im kritischen Bereich. Daher wird die Nullhypothese nicht abgelehnt.

Sei H0: 1- 2= 2. 0 ist daher gleich 2. Die Alternativhypothese sei: Ha: 1 - 2 2. Der kritische Bereich ist daher

zweiseitig. 18.3)3(1t Aus der Student-t-Verteilung bei df =3 und =0.05 ist erhält man

Beispiel (Fortsetzung):

Konfidenzintervalle und Tests für 1- 2 bei unverbundenen StichprobenBeispiel: Körpergröße der ersten 16 UEen, getrennt nach Sex. Daten sind hier nach Körpergröße sortiert.Stichprobe 1 (m): 170, 174, 174, 175, 178, 184, 184, 185, 186, 188, 189, 190, 191, 194.Stichprobe 2 (w): 165, 167.

Stichprobe 1: y1j (j=1,2,...,n1)Stichprobe 2: y2j (j=1,2,...,n2)

Datenaufbereitung

2. (w)1. (m)

Stich-probe

i.

Standard-abweichung

is

1.414217.49359

iy

166183

Mittelwert

in

214

An-zahl

ii n/s

1.00002.0027

Standardfehleriin i1ii n/)y...y(:y Für jede

Gruppe i = 1,2.

Mittelwert

Varianz )yny(:s 2ii

n

1j

2ij1in

12i

i

nein

Konfidenzintervall für 1-2 (Konfidenzniveau = q)o( )21 yy

)yy(Stf 21 kfq

qu qo

)yy(Stf 21 kfq

bekannt21 und

)yy(Stf 21 kf :=q z q

2221

21 n/n/ :=

21 yy :=

ja )yy(Stf 21 kf :=q t q

:=

(df=), df=:=n1+n22

21poolyy n

1

n

1ss

21

2nn

s)1n(s)1n(s

21

222

2112

pool

)yy(Stf 21 :=

kf :=q t q (df ),

2221

21yy n/sn/ss

21

)1n/(n/s)1n/(n/s

n/sn/s

22

2221

21

21

22

221

21

df =

Homoskedast-isch

21

nein

ja

Mann-Frau0

5

10

15

20

25

30

21 yy

1. Homoskedastischer Fall: df= =14.

kf :=0.95 t (14)=2.15.0.95

)yy(Stf 21 =5.466

Konfidenzintervall für 1-2 :17± 2.15* 5.466

2. Heteroskedastischer Fall: df =11.2 . kf :=0.95 t (11.2)=2.2.0.95

)yy(Stf 21 =

Konfidenzintervall für 1-2 :17± 2.2 *2.24

24.21 011.4

Mann Frau150

160

170

180

190

Beispiel(Fortsetzung): Sei q = 0.95.

21 yy = 17. Populationsvarianzen sind unbekannt

021a :H linksseitig

021a :H rechtsseitig

021a :H beidseitig

0 00t z bzw. t z bzw.t z bzw.1–-z 1–z

2

1–z

2

1–-z

Je nach Varianzen-Bedingung

1–t (df)2

1–t (df)

2

1–-t (df)1–-t (df)

Beispiel (Fortsetzung): Testen der Nullhypothese, dass Männer im Schnitt 10 cm größer sind als Frauen: 10 :H 210 (0 10).

nein

Standardisierter Testwert für den Test der Hypothese H0: 1-2 = 0

)yy(Stf

)yy(

21

021

bekannt21 und

)yy(Stf 21 :=21 yy mit

Homo?21

ja = z,

ja )yy(Stf 21 := 21 yysmit= t (df=),

)yy(Stf 21 := 21 yysmit= t (df ),nein

KB

Hetero-Fall: -1.80 1.80 -2.20 2.20Homo-Fall: -1.76 1.76 -2.15 2.15KB

24.2)10166183( Hetero-Fall: Standardis. Testwert = = 3.125 = t (df), df =11.2.Homo-Fall: Standardis. Testwert = 466.5)10166183( = 1.28 = t (df=),df= =14.

Sei =0.05.

in iyis

2.12132192.524Uni, Ing.schule u. ä0.70711189.523Abitur5.83095182.052höherer Schulabschluß7.23418178.541Volksschulabschluss

Standardab-weichung

MittelwertAnzahl i. Stp

Schulausbildung des Vaters

Gesamt Mittelwert 183.69. Gesamt-Varianz = 642.769 / 12

Vergleich mehrerer Mittelwerte bei unverbundenen Stichproben

Stichprobe i: yij (j=1,2,...,n1), i=1, 2, …, I

Datenaufbereitung

iin i1ii n/)y...y(:y Für jede Gruppe i = 1,…,I

Mittelwert

Varianz

in

1j

2ij1in

12i )yy(:s

Determinationskoeffizient 1. Art (=2)

Ry(MIT x) iMIT,ij y:y für alle UEen. MIT,ijy (y Dach) heißt prädizierter Wert (engl. predicted value). Für jede UE wird der Mittelwert der Gruppe prädiziert, zu der die UE gehört.

Fy(MIT x)

I

1i

n

1j

I

1i

n

1j

2iij

2MIT,ij

i 1

yyr 2II

222

211 s)1n(...s)1n(s)1n(

Ry(OHNE x) y:y OHNE,ij für alle UEen. OHNE,ijy prädizierter Wert OHNE Berücksichtigung von x. Für jede UE wird der Gesamtmittelwert prädiziert.

2 =-Fy(OHNE x)

Fy(OHNE x)Fy(MIT x) -ssq(total)

ssq(total)ssq(within)

= ssq(total)ssq(between)

=

= ssq(within) = Summe der quadrierten Prädiktionsfehler (=MIT-Residuen: ) =iijMIT,ij yy:r

Fy(OHNE x) = ssq(total) = Summe der quadrierten Prädiktionsfehler (=OHNE-Residuen: ) =

I

1i

n

1j

2ij

I

1i

n

1j

2OHNE,ij

1i

yyr

yy:r ijOHNE,ij

= ssq(within)

ssq(between)

211yn 2yn2

22yn 2II yn

ssq(between) = 642.769 298 = 344.769

2 = 344.769 / 642.769 0.5364 . 53.64 % Fehlerreduktion: ‚Erklärte Varianz‘

Volks S. höhere S. Abi Uni170

175

180

185

190

195

Beispiel: Körpergröße des Sohnes und Schulausbildung des Vaters, n=13.

1942419114

Uni

1902318913

Abi

1885218642184321782217412

höhere Sch.

18541184311752117011

Volks-schule

yijji

- “-192.5- “-

189.5- “-- “-- “-- “-

182.0- “-- “-- “-

178.5MIT,ijy

- “-- “-- “-- “-- “-- “-- “-- “-- “-- “-- “-- “-

183.69 OHNE,ijy

4.50.5136157

2ii s)1n(

29874112.571820.5

165620.0127449.0

2ii yn

439002


175

180

185

190

195

200


175

180

185

190

195

200ssq(within) = 298

183.69

ssq(total) = 642.769

Eigenschaften der Quadratsummen und des eta**2ssq(within) ist kleiner als ssq(total), wenn die Gruppenmittelwerte verschieden sind (ssq(between) ist daher >0, ebenfalls 2 ) ssq(within) ist gleich ssq(total), wenn alle Gruppenmittelwerte gleich sind (ssq(between) ist dann =0, ebenfalls 2 )

Wenn alle Gruppenmittelwerte gleich sind, sind sie gleich dem Gesamtmittelwert.

2 ist gleich 1, wenn ssq(within) =0 (d.h. die Prädiktion mit der Gruppen-Mittelwert-Regel ist fehlerlos).

Maße der Relevanz eines Unterschieds: PRE und andereWer ausreichende Mittel hat, große Stichproben zu finanzieren, kann auch bei sehr kleinen Populationsunterschieden signifikante Ergebnisse erreichen, da der Standardfehler mit steigendem n gegen 0 geht.

Problem:

Allgemeine Maße für die Größe von Unterschieden in der Population, bzw. Schätzung in der Stichprobe.

Für alle Skalentypen wurden so genannte PRE-Maße (Costner 1965) entwickelt (PRE ist die Abkürzung für proportional Reduction of Error).Für Intervallskalen: Effekt-Size (J. Cohen): , das ist die standardisierte Mittelwertdifferenz. /)( 21

10

Beispiel: Kirchgang und Partei-Präferenz in Gaißegg

3070

302010nein7060ja

Kirchgang

neinjax:

CP-Präferenzy:

1010

PRE-Maß Konstruktionsschritte:

Erstellen einer Prädiktionsregel für das y-Merkmal, die das x-Merkmal berücksichtigt.

Ry(MIT x) Ry(MIT x): Wenn x = ja, dann y = ja; wenn x = nein, dann y = nein.

Definieren eines Fehlermaßes: Ausmaß des Fehlers, der bei Anwendung der Regel Ry(MIT x) auf alle einzelnen UEen entsteht. Fy(MIT x) Als Fehler Fy(MIT x) könnte man hier definieren: Anzahl falscher Prädiktionen, die beim

Anwenden der Regel entstehen: 10 + 10 = 20.

Erstellen einer Prädiktionsregel für das y-Merkmal, die das x-Merkmal NICHT berücksichtigt.

Ry(OHNE x) Ry(OHNE x): Immer (OHNE x zu berücksichtigen), y = ja.

Fy(OHNE x)

30

Der Prädiktionsfehler kann durch die Berücksichtigung von x um 33% reduziert werden.

Fehlerreduktionsanteil durch Berücksichtigung des x-Merkmals. In %: Prozentuale Fehlerreduktion mit Hilfe von x.

-Fy(OHNE x)

Fy(OHNE x)Fy(MIT x)

PRE=PRE = (30 – 20) / 30 10 / 30 = 0.33 .

iMIT,ij y:y für alle UEen. MIT,ijy (y Dach) heißt prädizierter Wert (engl. predicted value). Für jede UE wird der Mittelwert der Gruppe prädiziert, zu der die UE gehört.

21i n

1j

22j2

n

1j

21j1

2

1i

n

1j

2MIT,ij yyyyr 2

22211 s)1n(s)1n(

Ry(OHNE x) y:y OHNE,ij für alle UEen. OHNE,ijy prädizierter Wert OHNE Berücksichtigung von x. Für jede UE wird der Mittelwert der Gruppe prädiziert, zu der die UE gehört.

2 =-Fy(OHNE x)


ssq(total)ssq(within)

= ssq(total)ssq(between)

=

Fy(MIT x) = ssq(within) = Summe der quadrierten Prädiktionsfehler (=MIT-Residuen: ) =iijMIT,ij yy:r

= ssq(total) = Summe der quadrierten Prädiktionsfehler (=OHNE-Residuen: ) =

21i n

1j

2j2

n

1j

2j1

2

1i

n

1j

2OHNE,ij yyyyr

yy:r ijOHNE,ij

ssq(between)

= ssq(within)22

22211 ynynyn

Das PRE-Konzept am Beispiel zweier dichotomer Merkmale Die Untersuchung der Relevanz des x-Merkmals für das y-Merkmal besteht im PRE-Konzept darin, eine Prädiktions-Regel zu beurteilen, die erlaubt, auf Grund der Kenntnis der x-Merkmalsausprägung die y-Merkmalsausprägung zu prädizieren (prognostizieren, diagnostizieren bzw. erraten).

Der Determinationskoeffizient 1. Art bei UNverbundenen Stichproben (=2) ist ein PRE-Maß

Ry(MIT x)

Definieren eines Fehlermaßes: Ausmaß des Fehlers, der bei Anwendung der Regel Ry(OHNE x) entsteht.

Als Fehler Fy(OHNE x) könnte man hier definieren: Anzahl falscher Prädiktionen, die beim

Anwenden der Regel entstehen: 30.Fy(OHNE x)

Mann Frau160

170

180

190

200

Mann Frau160

170

180

190

200

ssq(between) = 1237.75 732 = 505.75

2 = 505.75 / 1237.75 0.41 . 41 % Fehlerreduktion: ‚Erklärte Varianz‘

ssq(within) = 732 ssq(total) = 1237.75

Test der Hypothese, dass alle Mittelwerte gleich sindPlanung des Tests

1. Nullhypothese: alle Mittelwerte sind gleich ( ). Bei möglichst sparsamer Aufzählung genügen allerdings (I-1) Einzelhypothesen (z.B. ).

I21 ... )( I1 )( I2 )(... I1I

Alternativhypothese: Nicht alle Mittelwerte sind gleich (Zumindest ein Mittelwert ist verschieden von den andern).

Testverteilung unter H0 ermitteln:

FF

0 1 2 3 4 50

0.2

0.4

0.6

0.8

1.0

0 1 2 3 4 50

0.2

0.4

0.6

0.8

1.0F-Verteilung mit

20, 20 Freiheitsgraden 3, 9 Freiheitsgraden

F-Verteilung mit

2, 9 Freiheitsgraden5, 9 Freiheitsgraden5, 60 Freiheitsgraden

3.

Von der Extremposition her nun untersuchen, wie weit sich der Ablehnungsbereich nach innen erstreckt.

c)

Kritischen Bereich festlegen

Bedeutung der H0 in Teststatistikwert F?

4.

a) F wäre 0, falls H0 exakt stimmte.H0

Extrempositionen (EP) zugunsten von Ha: bei sehr großem F wird H0 abgelehnt.b) EP

KB3.86

F0 1 2 3 4 5

0

0.2

0.4

0.6

0.8

1.0F-Verteilung

df1= 3df2= 9

95% = 0.05

Durchführung des TestsAls Schema für die Berechnung wird meist eine ANOVA-Tabelle (ANOVA steht für ANalysis Of VAriance) erstellt

ssq(total)Totalssq(within)Error, within

ssq(between)Faktor, betweenSum of SquaresVariationsquelle

ANOVA-Tabelle

642.769Total298Fehler

344.769Ausbildung des Vaters Sum of SquaresVariationsquelle

n-1df2= n-Idf1= I-1

df.

12 =13-19=13-43 = 4-1

df.

msq(within) =ssq(within) / df2msq(between) = ssq(between) / df1

Mean sum of squares

53.564 = 642.769 / 1233.1111 = 298 / 9

114.923 = 344.769 / 3Mean sum of squares

F(df1,df2) = msq(between) / msq(within)F-Ratio

F(3,9)= 3.471 = 114.923 / 33.1111F-Ratio

Beispiel: Körpergröße des Sohnes und Schulausbildung des Vaters, n=13; I=4. Nullhypothese: Es gibt keine systematischen, durchschnittlichen Körpergrößenunterschiede.

Auswahl einer Teststatistik:2.

wobei df1=(I-1) und df2=(n-I) ist.)df,df(F 21 ,

df/

df/

2

1

ssq(within)

ssq(between)

df1 heißt Zählerfreiheitsgrad, df2 Nennerfreiheitsgrad

df1=(4-1)=3. und df2=(n-I) = 9

msq = Mean sum of squares = Mittlere Quadratsumme = Quadratsumme pro Freiheitsgrad

Liegt der F-Wert im kritischen Bereich? Nein. Daher wird die Nullhypothese akzeptiert.

Als Fehlermaß im Rahmen des PRE-Index wird hier die Fehlerquadratsumme pro Freiheitsgrad verwendet.

1df2df

1 2

2

FUmrechnen des F-Werts in den Determinationskoeffizienten (2) und umgekehrt. F )1df/2df(

F2

Adjustierter Determinationskoeffizient 1. Art (bzw. Adjustiertes 2 ). msq(within)1:2

msq(total)

2 = 3.471 / (9/3+ 3.471) 0.5364

....................... usw.........................

µ

Effektdarstellung (Darstellung der Mittelwerte als Summe eines ‚generellen‘ und eines ‚gruppenspezifischen‘ Effekts)

Asymmetrische Effekte Symmetrische Effekte

Modellkonzeption für die Varianzanalyse

Vs

165 170 175 180 185

Uni

Abi

hS µ2

µ1

µ3

µ4

2

3

4

Der Mittelwert der ‚Normalfall‘-Stufe des Faktors wird als ‚genereller‘ Effekt = µN definiert.Die Differenzen zum generellen Effekt werden als gruppenspezifische Effekte bezeichnet: i = µi

Vs

165 170 175 180 185

Uni

Abi

hS µ2

µ1

µ3

µ4

2

3

4

1

Der ‚generelle ‘ Effekt wird in die Mitte der Mittelwerte gelegt:

)...( I21I1

Die Differenzen zum generellen Effekt werden als gruppenspezifische Effekte bezeichnet: i = µi = (170+174+180+180)/4 = 176

4 = 180 176 = 4.

= 1704 = 180 170 = 10.

140 150 160 170 180 190 200 210

µ1

µ2

µ3

Abi

hS

Uni

y

VsBeispiel: Die Körpergröße in 4 Teil- Population seien µ1=170,

µ2=174,

µ3=µ4=180.

1. Wh.hS

Abi

Vs

Uni

2. Wh. hSVs

UniAbi

Stratifizierte Zufallsauswahl

Population

Die Standardabweichungen aller Teilpopulationen gleich: 1= 2= ... = I =: (=Homoskedastizität). Für Zwecke des Testens und der Konstruktion von Konfidenzintervalle wird zusätzlich Normalverteilung vorausgesetzt.

Die Gesamtheit besteht aus I Teilpopulationen (für jede Gruppe, Schicht, Stratum). Jede Teilpopulation wird charakterisiert durch die Mittelwerte, die eventuell verschieden sind: µ1, µ2, ... , µI .

Mit Hilfe der Stichprobensvariablen Yij wird das Ergebnis des Ziehens beschrieben.

Alle Stichprobenvariablen Yij ((j=1,…, ni ) i=1,..., I) sind voneinander unabhängig.

Aus jeder Teilpopulation wird eine Stichprobe bestimmter Größe (= ni ) gezogen. Stichprobenziehung (Geschichtete bzw, stratifizierte Zufallsauswahl)

eij ist von Ziehung zu Ziehung unabhängig und stammt jeweils aus der gleichen ‚Störgrößen‘-Verteilung mit der Standardabweichung (auch mit e bezeichnet) und µe=0.Yiji

e0-2e -e 2ee

eij

iij ijeY Yiji eij

Varianzanalytische Modellgleichung: (egal, ob dabei symmetrische oder asymmetrische Effekte gemeint sind)

ijiij eY

Darstellung der Stichprobenvariablen als Summe systematischer und stochastischer Größen:Die unterschiedlichen Populationsmittelwerte stellen die systematische Verschiedenheit dar.Die erratisch zufällige Variation wird durch das zufällige Ziehen der Stichprobe aus einer mehr oder weniger breiten Verteilung zugelassen.

Wichtige Designvariante: Randomisierung bei Experimenten i.e.S.Fragestellung bei Experimenten im engeren Sinn: Welche Auswirkungen (Effekte) haben die I Behandlungsarten (Treatments)? (eventuell im Vergleich zu ‚Plazebo‘-Treatment)

Randomisierungsprinzip: Die Untersuchungseinheiten sollen den I Treatmentgruppen nach einem Zufallsverfahren zugeordnet werden.

Die über Randomisierung gewonnen Messungen können mit dem vorliegenden Populations-Stichproben-Modell der Varianzanalyse behandelt werden. Darüber hinaus gibt es eigene sogenannte Randomisierungsmodelle, für die i. a. weniger Voraussetzungen nötig sind (nichtparametrische Verfahren).

Analyseverfahren

Einfache RegressionsanalyseStreudiagramm für Körpergröße und Gewicht

Beispiel: Körpergröße (=y) und Körpergewicht (=x) von Studenten.

1919013

1948412

1868411

1898110

185809

188798

178747

174726

184665

190654

184653

174642

175601

yixi

i

Körpergewicht in kg

Körpergrößein cm

55 60 65 70 75 80 85 90 95170

175

180

185

190

195

55 60 65 70 75 80 85 90 95170

175

180

185

190

195

Gesucht ist eine Regel, mit der die y-Werte mittels einer einfachen Funktion bei Kenntnis der x-Werte‚ möglichst ‚gut‘ erraten werden können. Die einfachste Funktion ist eine Gerade: y = a + b x, b ist Steigung, a Abschnitt auf y

Ry(OHNE x) , für jede UE wird der Gesamtmittelwert prädiziert.

yy OHNE,i :

Fy(OHNE x) = ssq(total) = Summe der quadrierten Abweichungen vom Mittelwert =

n

1i

2i yy = (n-1)*Stichprobenvarianz

Determinationskoeffizient 2. Art (= quadrierter Korrelationskoeffizient):

-Fy(OHNE x)


ssq(total)ssq(y.x)

=r2yx = -1

ssq(total)ssq(y.x)

=

-0.04

5.63

-2.37

1.96

-1.60

1.85

-5.93

-9.04

3.62

10.07

4.07

-5.49

-2.71

y.xi

191.04

188.37

188.37

187.04

186.60

186.15

183.93

183.04

180.38

179.93

179.93

179.49

177.71

iy

MIT x y OHNE,i

y:

184ix44426.006.151 iy

ssq(y.x)= 332.53

ssq(total) = 548

-548548

332.53r2yx = = 0.392 D. h. 39.2% Fehlerreduktion durch Geradenregel

Unter allen möglichen Geraden die suchen, die AM BESTEN zu den gegebenen Datenpunkten passt.

Optimalität der Geraden

‚Am besten passen‘ kann unterschiedlich definiert werden(z.B. die Summe der Residuen-Beträge bzw. der Residuen-Quadrate sollte möglichst KLEIN werden).

-3 -2 -1 0 1 2 30

1

2

34

5

6

7

-3 -2 -1 0 1 2 30

1

2

34

5

6

7

-3 -2 -1 0 1 2 30

1

2

34

5

6

7

a=5, b=0.6 a=3, b=1 a=3, b=0.6

Summe der Residuen-Beträge, 8 4 4.822.4 8 6.4Summe der Residuen-Quadrate,

)b,a(fminb,a

Gesucht sind jene a und b, für die die Funktion f(a,b) minimal ist:

ssq(y.x) =

f(a,b):=

n

1i

2ii ))bxa(y(

Residuen

Für die obigen 4 fest gegebenen Datenpunkte

f(a,b)Summe der

Residuen-Quadrate

für die diversen a

und b

optimale Gerade im Sinne der kleinsten Summe der quadrierten Residuen (Kleinst-Quadrate-Lösung)

Die Datenpunkte sind fest gegeben. Variabel ist nur a und b.Die Summe der Residuen-Quadrate als Funktion von a und b:

für alle UEen. heißt prädizierter Wert. Für jede UE wird der y-Wert prädiziert, der auf der Geraden liegt.

Ry(MIT x) iy ibxa: iy

Residuen ri := yi = y.xi (= y unter Konstanthaltung von x = der Teil von y, der nicht durch eine Geradengleichung mit x prädizierbar ist).

iy

Fy(MIT x) = ssq(y.x) = Summe der quadrierten Residuen:

n

1i

2ix.y

Minimum der KQ-Funktion f(a,b) und Formeln für a bzw. bDas Minimum einer Funktion kann mit Hilfe der Differentialrechnung gefunden werden: die ersten Ableitungen der Funktion f(a,b) nach den Variablen (a bzw. b) null setzen.

f(a,b):= 2ii )bxay(

Beim Ableiten von f(a,b) nach a wird b wie eine konstante Größe behandelt (=partielle Ableitung nach a);

entsprechend bei der Ableitung nach b:

0 )1( *)bxay(2

a

)b,a(fii

0)x(*)bxay(2

b

)b,a(fiii

Umformen der beiden 0-gesetzten Ableitungen liefern die so genannten Normalgleichungen.

n

1i2i

n1i i

n1i ii

n1i i

n1i i

xbxaxy

xbany

Auflösen der Normalgleichungen nach den beiden Unbekannten a und b liefert die Formeln für a und b

xbya

n1i

22i

n1i ii

xnx

xynxyb

f(a,b) f(a,b)

a bProjektion der Funktion f(a,b) auf die Achse a bzw. auf die Achse b,

für das Beispiel der 4 Datenpunkte.

Reformulieren von b

)x(Var

)x,y(Cov

s

sb

2x

yx Die so genannte Kovarianz zwischen y und x wird mit Cov(y,x) bzw. syx abgekürzt folgendermaßen berechnet:

n

1i ii1n1n

1i ii1n1

yx )xx)(yy( )xynxy(:)x,y(Covs

2

ix

iiyx2

iy

17190364818100162963763670561562434596705615309357216561148003422564001485235344624113172316845476125283027651841214433856435612350361004225119603385642251113630276409610500306253600

177861440676725762392964Summe

=xy=y2=x2=y=x

2

iy

2

ix

iiyx Füge Spalten für , und hinzu.

Auf der Basis dieser Summen können alle relevanten Größen berechnet werden:

Zusammenfassung: Schema zur Berechnung von a und b usw.

Stelle die Datenpaare als Tabelle dar. ix

iy

1919013194841218684111898110185809188798178747174726184665190654184653174642175601

i

Beispiel: Körpergewicht und Körpergröße, n=13

Bilde die Summe für die Spalten mit den Kurzbezeichnungen: x, y, x2, usw.

ix

iy

524

213

4-12

1-21

i

Beispiel: 4 Datenpunkte.2

iy

iiyx

1025

24

-416

-21

2

ix

4

1

1

4

Summe 64610120

=xy=y2=x2yx

x =x/ nMittelwerte

Varianzen

Kovarianz

y =y/ n

Var(x) = (x2- n )/(n-1)2x

Var(y) = (y2- n )/(n-1)2y

Cov(x,y) = (xy- n )/(n-1) yx

Steigung

Abschnitt

b = Cov(x,y)/Var(x)xbya

Det.Koeffi-zient 2. Art

Fy(OHNE x) ssq(total) = (n-1)Var(y)

)y(Var)x(Var

)y,x(Cov2

2xyr

Fy(MIT x) ssq(y.x) = ssq(total) )r1( 2xy

= 40.4166667 / 90.97436 = 0.44426437

= 184 - 0.44426437*(964/13) = 151.056

= 40.41666672/ (90.97436*45.66667) =0.39319.

= 548 (1- 0.39319) = 332.532

= 12* 45.66667 = 548

= (6/3) / (10/3) = 6/10

= 3 – (6/10)*(0) =3

= (36/9)/ (100/9) =0.36.

= 10 (1- 0.36) = 6.4

= 3*(10/3) = 10

= (6-4*0*3)/3 = 6/3=2

= (10-4*(0)2)/3 = 10/3

= (46-4*32)/3 = 10/3

= 12/4 = 3

= 0/ 4 = 0

Beispiel: 4 Datenpunkte

= (72576-13*(964/13)2)/12 = 90.97436

= (440676-13*1842)/12 = 45.66667

= (177861-13*(964/13)*184)/12 = 40.4166667

= 2392/13 = 184

= 964/13 = 74.154

Beispiel: Körpergewicht und Körpergröße, n=13

Modell der Regressionsanalyse

55 60 65 70 75 80 85 90 95170

175

180

185

190

195

200

x50.0148)x(y Die Varianz der y-Werte sei =25

Körpergrößen-Beispiel: In der Population gilt vielleicht für eine bestimmte Menge von x-Werten(Gewicht) folgende ‚wahre‘ Bezie-hung für den Mittelwert der Körpergröße:Das Modell beschreibt, wie die Beobachtungspaare als Stichprobe aus einer Gesamtheit entstehen. Es wird hier

zuerst das ‚klassische‘ Regressionsmodell betrachtet.

x)x(y Die ‚wahre‘ Regressionsgleichung in der Population gilt für den y-Mittelwert an jeder Stelle x. 2e

2y )x( Die Varianz der Verteilung der y-Werte ist an jeder Stelle x ( ) gleich (Homoskedastizität).

2e Oft wird zudem angenommen: Die y-Werte an jeder Stelle x seien normalverteilt NV(+x , ).

Als Stichprobe werden n y-Werte unabhängig voneinander für bestimmte x Werte gezogen. Das sind die in der Stichprobe betrachteten (xi, Yi) Wertepaare. Als Zufallsvariable wird nur Y betrachtet (x wird als fest gewählt

angesehen). Dabei entstehen für jede Stichprobe andere Geraden.

Stichprobe

Der i. y-Wert in den Stichproben wird zufällig aus der Verteilung an der Stelle xi gezogen, d. h. Yi ist eine

Zufallsvariable für die gilt: E(Yi) = iiy x)x( und Var(Yi) = )x( i2y

2e

Stichprobenvariable Yi als Summe einer ‚systematischen‘ und einer ‚erratisch‘-zufälligen Komponente :

ii xY mit: E(ei)=0 und Var(ei) =

)x( iyie

Störgröße

2e

Schätzung der Parameter des Modells

Die Parameter des Modells sind: (Abschnitt, engl. Intercept), (=Steigung) und (=Varianz der Störgröße) .2e

Für die Berechnung von Intercept und Steigung wurde oben die KQ-Lösung gefunden: Formeln für a und b in einer realisierten Stichprobe der Größe n. Die Zufallsvariablen, deren Realisierung a bzw. b sind, heißen bzw. .

Es kann gezeigt werden (Theorem von Gauß-Markoff), dass mit den so ermittelten Formeln tatsächlich

bzw. geschätzt werden kann und zwar so, dass bzw. erwartungstreue ( ) und effiziente Schätzer sind.

,)ˆ(E )ˆ(E

Bei bekannter Varianz der Störgröße sind die Schätzer normalverteilt, wenn die Störgrößen normalverteilt sind.(bei Verletzung dieser Voraussetzung hilft eventuell der zentrale Grenzwertsatz).

2e Meist ist nicht bekannt; muss daher ebenfalls geschätzt werden. Der einzelne Schätzwert des erwartungstreuen Schätzers sei .ˆ 2

e 2es

n

1i

2ii2n

1 )yy(2es

2n1 ssq(y.x)=

n-2 wird auch als der Freiheitsgrad (df) für die vorliegende Problemlage bezeichnet. 2 wird von n subtrahiert, weil 2 Parameter geschätzt werden müssen, damit jedes bestimmbar ist. iy

‚Kausale‘ Interpretation der Modellgleichung: ‚So entstehen die Werte‘ (Versuch, die Entstehung der Werte in der ‚Natur‘ nachzuvollziehen). Prädiktive Interpretation.

Wahrscheinlichkeits-Verteilung der beiden Schätzer

Abschnitt Steigung

a b

2x

2e

s)1n(

1)ˆVar(

s)1n(

x

n

1)ˆVar(

2x

22e

Varianz der Schätzer: , . )ˆVar()ˆVar(

Stf(a) Stf(b)

Im Beispiel: Varianz der Störgröße = 25 = 148, = 0.50.

e0-2e -e 2eexi

Yi

ei

Zufallsauswahl von y Werten zu den x-Werten

Berechnen der

Geraden

Konfidenzintervalle und Hypothesentests für und

Da bei der Regressionsanalyse selten bekannt ist, wird hier nur der Fall mit geschätztem behandelt.

2e

2e

aus der Student t-Verteilung, df = n-2

)df(t q mit)b(Stf)df(tb qfür :)a(Stf)df(ta qfür : q-Konfidenzintervalle

Tests der Hypothesen:Standardisierte t-Testwerte

H0 ( = 0):)a(Stf/)a()df(t 0

t(df) sind Realisationen der Student t-verteilten Teststatistik T(df) mit df = n-2

H0 ( = 0):)b(Stf/)b()df(t 0

Einige Erweiterungen der Regressionsanalyse

Die Erweiterung auf stochastische Regressoren bedeutet, dass auch die x-Variable eine Zufallsvariable sein kann (die x-Variable wird nicht nur bei festgelegten Werten wie im ‚klassischen‘ Modell ausgewählt).

Die Modellgleichung bezieht simultan alle ‚wichtigen‘ Prädiktoren mit ein Y = + M Mann + A Alter + G Gewicht + e

y = 170.9 + 11.08*Mann + (-0.88)*Alter + 0.268*Gewicht ^Schätzung:

Modellgleichung (Beispiel):geschätzte Varianz der Störgröße= 25.26

e0-2e -e 2ee

Mann

KGr.

170.9

11.08

Alter

-0.88

0.268Gewicht

-0.05

0.12

0.70e

M

A

G

Beispiel: Als Stichprobe werden die 55 Personen der Studentenuntersuchung verwendet

s)1n(

x

n

1s)aStf(

2x

2

e

Standardfehle

r für a:

Abschnitt:

1ns

s)bStf(

x

e

Standardfehler für b:

Steigung:

Diese Erweiterung ist für Tests und Konfidenzintervalle sind auch ohne Zusatzannahmen recht unproblematisch; sie können im Sinne bedingter Tests und Konfidenzintervalle interpretiert werden. Bedingung ist die Einschränkung auf die ausgewählten x-Werte.

Manche Autoren (z.B. Bortz) fordern überflüssigerweise die Annahme, dass auch das x-Merkmal normalverteilt ist (zusammen mit der Annahme der Normalverteilung der Störgrößen und der Linearität bedeutet das die Annahme der bivariaten Normalverteilung der x und y-Werte). Diese Annahme wird aber üblicherweise bei der Korrelationsanalyse gemacht.

Die Erweiterung auf polynomische Regressoren ist ein Spezialfall der multiplen Regression. Zusätzlich zur Variablen kann die quadrierte Variable (=2. Potenz), die 3. Potenz usw. als Regressoren verwendet werden. So kann auch geprüft werden, ob die Linearität zur Erklärung der Beziehung ausreicht (Linearitätstest).

Beispiel: Bei den 13 Studenten wird hier zusätzlich zur linearen Funktion eine quadratische Funktion y = + 1x + 2x2 untersucht.

55 60 65 70 75 80 85 90 95170

175

180

185

190

195

x

y

Die Erweiterung auf mehrere Regressanden (‚abhängige Variablen‘, Prädikanden) wird in der statistischen Literatur

durchwegs als multivariate Regression (im Gegensatz zu univariat) bezeichnet

Zusätzlich auch:

Erweiterung auf Systeme von Gleichungen, Modelle mit latenten (=nicht explizit gemessene) und manifesten (=explizit gemessene) Variablen

Erweiterung auf mehrere Regressoren (Multiple Regression). In vielen Fragestellungen soll nicht nur ein einziger Prädiktor, sondern zugleich mehrere Prädiktoren berücksichtigt werden. Dabei wird der Prädiktions-Effekt jedes Prädiktors unter Berücksichtigung der andern (‚unter Konstanthaltung der andern‘) untersucht.

Erweiterung der Modellgleichungen

PEARSON-Korrelation zweier quantitativer MerkmaleFragestellung: Positiver oder negativer Zusammenhang zwischen zwei Merkmalen x und y?

Wie groß ist der Zusammenhang?

PEARSONs Korrelationskoeffizient = y) von bweichung(Standarda* von x)bweichung(Standarda

y und zwischen x KovarianzStichprobe:

yx

xyxy ss

s:r

yx

xyxy :

Population: rho

(griech. r)

-3 -2 -1 0 1 2 30

1

2

3

4

5

6

:s)1n( xy n1i ii )yy)(xx(

Geometrische Interpretation der Kovarianz: xys

Produkte als positiv bzw. negativ gepolte Flächen darstellbar.

ix

iy

524

213

4-12

1-21

i

Beispiel: 4 Punkte.

Mittelwerte:

y= 0 x= 3

)3y)(0x(ii

4-1-14

63 sxy =Falls positive Flächen überwiegen, wird die Flächensumme positiv (sonst 0 bzw. negativ)

Darstellung der Kovarianz als ‚arithmetisches‘ Mittel der Produkte (=Flächensumme /(n-1)).

-3 -2 -1 0 1 2 30

1

2

3

4

5

6-1 0 1

-1

0

1

-sx sx0

0

-sy

sy

0 1 2 3 4 5 60

1

2

3

4

5

6-1 0 1

-1

0

1

-sx sx0

0 1 2 3 4 5 60

1

2

3

4

5

6-1 0 1

-1

0

1

0

-sy

sy

-sx sx0

0 1 2 3 4 5 60

1

2

3

4

5

6-1 0 1

-1

0

1

0

-sy

sy

-sx sx0

0 1 2 3 4 5 60

1

2

3

4

5

6

0 1 2 3 4 5 60

1

2

3

4

5

6

0 1 2 3 4 5 60

1

2

3

4

5

6

-3 -2 -1 0 1 2 30

1

2

3

4

5

6

yxxyyx sssss Wegen kann die

Fläche in ein Rechteck (mit Grundlinie sx und Höhe sy) eingeschrieben werden.

Korrelationskeffizient = ‚standardisierte‘ Kovarianz = yx

xyxy ss

sr

2xyr Dieser Koeffizient ist die Wurzel aus dem Determinationskoeffizienten 2. Art (= ) bei der linearen Regression; er untersucht daher nur, ob ein linearer Zusammenhang besteht.

2xyr 1r1 xy yxxyyx sssss xys Da zwischen 0 und 1 liegt, liegt die Wurzel möglicherweise zwischen -1 und 1: , für die Kovarianz formuliert: .

0 1 2 3 4 5 60

1

2

3

4

5

6

0 1 2 3 4 5 60

1

2

3

4

5

6-1 0 1

-3

-2

-1

0

1

2

3

-sx sx0

0 -sy

sy

-2sy

-3sy

3sy

2sy

55 60 65 70 75 80 85 90 95170

175

180

185

190

195

55 60 65 70 75 80 85 90 95170

175

180

185

190

195-1 0 1 2

-1

0

1

0

-sy

sy

-sx sx0 2sx

Kontur-Darstellung Dichtef(x,y)

Beispiel: Bivariate Standard-Normalverteilung (x=0, x=0, x=1, y=1), xy ist hier =0.60.

Bivariate Dichtefunktion

=-0.40 = 0 = -0.99 = -0.80

Bivariate Dichtefunktion: Dichtefunktion zweier Merkmale

y

9

1 1

11

5

1

4

8

33

11

35 45 55 65 75 85 95 105145

155

165

175

185

195

155165

175185

195

85

4555 65 75

95

100*54*Dichtef(x, y)

x:Gewicht y:Größe

Bivariates Histogramm

x

Streudiagramm

Beispiel: Gewicht und Körpergröße für 54 Personen der Studentenuntersuchung (von den 55 Personen fehlt eine Größenangabe). Schon bei nur 54 Personen haben mehrere Personen gleiche x-y-Wertepaare.Klasseneinteilung beider Merkmale führt zu einem bivariaten Histogramm.

Anwendung bei der Darstellung von Stichproben: Zusammenfassen vieler Messwertepaare zu Klassen(bivariates Histogramm).

Im bivariaten Fall kann die Verteilung, die für alle Punkte (x,y) definiert wird, wiederum als Dichte dargestellt werden: f(x,y).

Bei diskreten Verteilungen wird die Dichte f(x,y) als Anteil an der Stelle (x,y) definiert (die Funktionswerte können als Stäbe dargestellt werden. Die Summe aller Stäbe = 1).

Bei stetigen Verteilungen werden die Anteile als Rauminhalte definiert. Die Dichte f(x,y) * Grundfläche ergibt den Anteil dieser in der Grundfläche enthaltenen (x,y)-Werte. Der Gesamtrauminhalt des dreidimensionalen Gebildes ist 1.

Anwendung bei der theoretischen Beschreibung: Bivariate Dichtefunktionen.

y

yy

x

xx

yz,

xz

mit: .

)zz2zz(

)1(2

1exp

1 2

1)y,x(f yxxy

2y

2x2

xy2xyyx

Beispiel: Bivariate Normalverteilung

Simulierte Wahrscheinlichkeitsverteilung

des z-transformierten Korrelationskoeffizienten

:

E( ) = .

Var( ) 1/6

z( )

z( )z( ) 04.054.0n) (z

1)-2(

= 0.50

Population: Bivariat Normal,hier:

standardnormalverteilt

-1 -0.5 0 0.5 1.00

0.2

0.4

0.60.8

1.0

1.2

1.4

1.6

-1 -0.5 0 0.5 1.0 1.5 2.00

0.10.20.30.40.50.60.70.80.91.01.1

r

-1 -0.5 0 0.5 1.0 1.5 2.0

-1 -0.5 0 0.5 1.0 1.5 2.0

-1 -0.5 0 0.5 1.0 1.5 2.0-1 -0.5 0 0.5 1.0

-1 -0.5 0 0.5 1.0

-3 -2 -1 0 1 2 3-3-1

13

-3 -2 -1 0 1 2 3-3

-11

3

-1 -0.5 0 0.5 1.0

-3 -2 -1 0 1 2 3-3-1

13

Sti

chpr

oben

(n=

9) 1.

2.

3.

.........usw......... .........usw......... .........usw.........

Zufallsauswahl

z(r)

Verteilung des Schätzers, Konfidenzintervalle und Tests

Simulierte Wahrscheinlichkeitsverteilung des Korrelationskoeffizienten

Verteilung des Korrelationskoeffizienten-SchätzersPopulation: bivariat normalverteilten mit Populationskorrelation Stichprobe mit n Messwertpaaren (x,y).

Falls = 0, ist Student-t verteilt mit df = n-2

2ˆ1

2nˆ

Falls 0, ist die Verteilung für schief verteilt (recht komplizierte

Verteilung). Der Schätzer ist nicht erwartungstreu; seine Varianz hängt stark von ab. Erst ab sehr großem n (>500) ist seine Verteilung durch die Normalverteilung annäherbar.

Korrelationberechnen

Verteilung bilden

Verteilung bilden

z-Transformation bilden

R. FISHER hat eine Transformation des Korrelations-koeffizienten gefunden, die schon bei relativ kleinen Stichproben normalverteilt wird.

FISHERs z-Transformation:ˆ1ˆ1

ln)ˆ(z21

r

Fishers z-Transformation

z(r)

-1 -0.8 -0.6 -0.4 -0.2 0 0.2 0.4 0.6 0.8 1.0-3

-2.5

-2.0

-1.5

-1.0

-0.5

0

0.5

1.0

1.5

2.0

2.5

3.0

Schon bei relativ kleinem n ist der Schätzer normalverteilt: ))ˆ(z(Var)),ˆ(z(ENV~)ˆ(z

Der Erwartungswert und die Varianz des z-transformierten Schätzers sind:

...

1)-8(n3211

1)-4(n5

1)-2(n 2

432

1 )(z))ˆ(z(E

...

1)-6(n3622

1)-2(n4

1-n 2

422

1 ))ˆ(z(arV 1

)ˆ(z Etwas simplifiziert (für größeres n):

3n1))ˆ(zVar(

)(z))ˆ(z(E 1)-2(n

3n1))r(zStf( Der approximative Standardfehler von z(r) ist daher:

Konfidenzintervall (approximativ):

für z() ))r(z(Stfz)r(z )1(

Körpergrößen-Beispiel: n=13 (eigentlich zu kleines n für die Approximation). Stf(r) 0.316.

)313/(1

0.73645734 1.96* 0.316 (0.12, 1.36)

95% Konfidenzintervall für z(): z(0.627) 1.96

für ))r(z(Stfz)r(z )1( 1z Fortsetzung: 95% Konfidenzintervall für : Das eben

berechnete Konfidenzintervall ist aus dem z-Bereich rückzutransformieren in den r-Bereich.

0.876

1.36

0.119

0.12

.Das Konfidenzintervall ist somit ( 0.119, 0.876)

Rücktransformation (Inverse Funktion zu z(r))

1e

1e))r(z(

z2

z2

r 1z

Test der Hypothese: = 0 (approximativ):

Die standardisierte Teststatistik)r(Stf

)(z)ˆ(zZ 0

ist Standardnormal verteilt: NV(0,1).

Beispiel (Fortsetzung): Die Menge der akzeptierbaren Hypothesen bei zweiseitigem Testen bei 5% sind: (0.119, 0.876)

Sei H0: = 0 (Korrelation=0). 0 0. z(0) = 0. r= 0.627.

z(0.627)= 0.73645734. Nach Formel (z(0.627)- z(0)) / Stf(r ) 0.73645734 / 0.316 2.3272.

Test der Hypothese: = 0 (exakt)

Unter H0: = 0, ist T= Student-t verteilt2ˆ1

2nˆ

mit df = n-2

Beispiel (Fortsetzung): Da n hier klein ist, sollte für den Test der Hypothese = 0 der exakte Test angewandt werden.

)627.01/()213( 2627.0t = 2.67. Anzahl Freiheitsgrade = 11.

0.119.

0.876.

)0.12(1z

)1.36(1z

Häufigkeitskreuztabelle: in den Zellen stehen die Häufigkeiten: nij (Anzahl der UEen, die im x-Merkmal die i. und in y die j. Ausprägung haben).

Die Kreuztabelle ‚kreuzt‘ x und y: Die Zelle ij betrifft UEen, die in x den Wert xi und in y den Wert xj haben: x=xi y=yj , bzw. (x=xi, y=yj).

Alle Häufig-keiten durch n dividieren

Alle Anteile mit n

multiplizieren

Das x-Merkmal hat I Ausprägungen: x1, x2, ... ,xI, das y-Merkmal hat J Ausprägungen: y1, y2, ... , yJ.

nnJ.nj.n1

nInIJ.nIj.nI1xII........

niniJ.nij.ni1xii

........

n1n1J.n1j.n11x11

.yJ.yj.y1

Jj1y-Merkmal

x

Mögliche Aussage: Wer jüngere Geschwister hat, bindet sich früher.

Mögliche Aussage: Wer jüngere Geschwister hat, präferiert Gleichheit.

Mögliche Aussage: Höhere Ausbildung des Vaters senkt die Angst vor Prüfungen.

Aussage: ‚Die Ehemänner sind besser als bzw. gleich ausgebildet wie ihre Frauen‘.

Beispiel: Ausbildung des Vaters und der Mutter.

Vater

15258

5230Abi u.m.5023höhere S. 5005Volks-S.

Abi u. m.

höhere Schule

Volks-schule

MutterAusbildung

Beispiel: Vaterausbildung und Angst vor Prüfungen

1037

321Abi u.m.312höhere S. 404Volks-S.

neinjaAngst vor Prüfungen

Beispiele: ‚Jüngere Geschwister haben‘

und Familienstand.

16511743ja918nein

nicht ledig

ledigFamilienstand

und Gleichheit vs. Freiheit

144556204ja8251nein

F vor G

egalG vor F

Kreuztabellen, Anteile

Der über Summieren ‚eliminierte Index‘ wird durch einen Punkt ersetzt.

Die Randhäufigkeiten für xi sind jeweils die Summen der Häufigkeiten über die y-Ausprägungen. J

1j iji n:n

Vs

hS

Abi

janeinjaneinjanein

0.40

0.30

0.30

1

0

2/3

1/3

1/3

2/3

0.40

0

0.20

0.10

0.10

0.20

AngstAusbildung

Darstellung in Baumdiagramm-Form

1pJpjp1

pIpIJ.pIj.pI1xI

......

pipiJ.pij.pi1xi

......

p1p1J.p1j.p11x1

yJ.yj.y1

Gemeinsame Anteile und Randanteile

iij pp j ip

i

ij

p

pj ip

j

ij

pp

j ip

jij pp j ip

10.300.70

0.300.200.10Abi+0.300.100.20hS. 0.4000.40VS.

neinja

Gem. Anteile für Ausbildung und Angst ja

nein

VshSAbiVshSAbi

4/7

2/7

1/7

0

1/3

2/3

0.40

0

0.20

0.10

0.10

0.20

Angst Ausbildung

0.70

0.30

Randanteile

0.300.300.40

AbihSVS

0.300.70

neinja

0.300.70

neinja

0.300.300.40

AbihSVSRandanteile

*

*

*

*

Schreibweisen:= pij = p( x=xi , y=yj)

Anteil der Fälle mit der i. x-Ausprägung und der j. y-Ausprägung bei allen.

jy

ixp = p( x=xi | y= yj )

Anteil der Fälle mit i. x-Ausprägung bei jenen, die die j. y-Ausprägung haben.

j ipyx

j ip =

0.300.702/31/7Abi+1/32/7hS. 04/7VS.

neinja

Angstbedingte Ausbildungs-Anteile

y-Bedingte Anteile für x

pJp jp1

..xI

......

..xi

......

..x1

yJ.yj.y1

j 1p

J 1p

11p

j Ip

J Ip

1Ip

j ip

J ip

1ip

pI ..xI

......

pi .xi

......

p1..x1

yJ.yj.y1

x-Bedingte Anteile für y

1 1p

j1p

J 1p

1 Ip

jI p

J Ip

1 ip

jip

J ip

0.300.670.33Abi+0.300.330.67hS. 0.4001.00VS.

neinja

Ausbildungsbedingte Angstanteile

Bedingte Anteile (Bedingung x= xi bzw. y= yj)

0

0.2

0.4

0.6

0.8

1.0

Abi

hS

VS

0 0.2 0.4 0.6 0.8 1.0

ja nein

0 0.2 0.4 0.6 0.8 1.0

ja nein

Gesamt

ja nein

ja nein

Beispiel: Ausbildung des Vaters und Angst.

P(X=xI)

P(X=x1)P(Y=y1 | X=x1)

P(Y=yJ | X=x1)

P(Y=yJ | X=xI)

P(Y=y1 | X=xI)

bedingte W‘ten

*

*0

0.2

0.4

0.6

0.8

1.0

Abi

hS

VS

0 0.2 0.4 0.6 0.8 1.0

ja nein

0 0.2 0.4 0.6 0.8 1.0

ja nein

Gesamt

ja

ja nein

1.00

0.33

0.670.33

0.67

0.40

0.20

0.100.20

0.10

Rand-anteile

0.30

0.30

0.40

0.70 0.30

0.300.670.33Abi+0.300.330.67hS. 0.4001.00VS.

neinja

Ausbildungs-bedingte

Angstanteile Rand-anteil

Strukturiertes Staffeldiagramm (in horizontaler Form)Im strukturierten Staffeldiagramm (auch Mosaic-Plot genannt)

können die Randanteile, die bedingten Anteile und gemeinsamen Anteile (als Fläche) dargestellt werden.

Im horizontalen Mosaic-Plot: Für jede x-Ausprägung eine Schicht in Höhe der Randanteile. In jeder Schicht Staffeln für jede y-Ausprägung in der Länge der

bedingten Anteile eintragen. Die entstehenden Flächen sind die gemeinsamen Anteile..

PopulationsbeschreibungDie Anteile in der Population sind die Parameter: . (statt der p‘s für die Stichprobe nun ‘s ).

Wahrscheinlichkeitsaussagen für das zufällige Ziehen einer U-EinheitAlle möglichen Ergebnisse können durch die beiden Zufallsvariablen X und Y beschrieben werden. Mit Hilfe der beiden Zufallsvariablen können diverse Wahrscheinlichkeitsaussagen formuliert werden können., etwa:

P(X=xi, Y=yj) P(X=xi)

P( Y=yj )

W‘t, dass zufällig eine U-Einheit gezogen wird, für die gilt:

(x = xi ) (y = yj ) x = xi

y = yj

i j i

j=

4 Erbsensorten (rund-gelb (=11), rund-grün(=12), eckig-gelb(=21), eckig-grün(=22)) im Verhältnis:

9:3:3:1

Beispiel: Mendel-Population

11 12

2221

P(X=x1 , Y=y1)

P(X=x1 , Y=yJ)

P(X=x1 , Y=y1)

P(X=x1 , Y=yJ)

gemeinsame W‘ten

P(Y=yJ)

P(Y=y1)

P(X=xI)

P(X=x1)Randwahrscheinlichkeiten

Mit Hilfe der Populationsparameter formuliert: i j = i * j (Anteilsunabhängigkeit der Merkmale x und y in der Population)

könnten für die Stichprobe folgende gemeinsamen

Anteile erwartet werden: ei j = pi * pj und ei j pi j .

In der Stichprobe: Falls in der Population Unabhängigkeit gilt,

sollten in der Stichprobe alle bedingten Anteile etwa gleich groß wie die Randanteile sein * pj .

j ip

=

?

==

=

Graphische Darstellung

Vs

hS

Abi

janeinjaneinjanein

0.40

0.30

0.30

1

0

2/3

1/3

1/3

2/3

0.40

0

0.20

0.10

0.10

0.20

AngstAusbildung

Baumdiagramm

0.300.70

neinja

0.300.300.40

AbihSVSRand-

anteile

P(X=r, Y=ge)

P(X=r, Y=gr)

P(X=ei, Y=ge)

P(X=e, Y=gr)

Wahrscheinlichkeitenfür die Zufallsvariablen Form: X und Farbe: Y

W7

W9

W6

W8

W5

W2

W4

W3

W1

Zufallsauswahl

Verteilung bilden

Definition: (Stochastische) Unabhängigkeit der Zufallsvariablen X und Y:

X und Y sind unabhängig, genau dann wenn P(Y = yj | X=xi) P(Y= yj) für alle yj und xi

d.h. die bedingten W‘ten sind gleich den entsprechenden Randwahrscheinlichkeiten=

P(Y=y1)

P(Y=yJ)

P(Y=y1)

P(Y=yJ)

x1

xI

X

y1

y J

Y

y1

y J

Y

*

*

0.30

0.30

0.40

0.70 0.30

Rand-anteile

0.28

0.21

0.21 0.09

0.09

0.12

0.70

0.70

0.70

?=

d.h.: Die gemeinsamen W‘ten sind gleich dem Produkt von Randwahrscheinlichkeiten

Unter Verwendung der Multiplikationseigenschaft der kann die Unabhängigkeit von X und Y auch so definiert werden: P(X= xi ,Y= yj) = P(X= xi)*P(Y= yj)

0 1 2 3 4 5 6 7 8 90

0.1

0.2

0.3

0.4

0.5

0

0.2

0.4

0.6

0.8

1.0

Abi

hS

VS

0 0.2 0.4 0.6 0.8 1.0

ja nein

0 0.2 0.4 0.6 0.8 1.0

ja nein

Gesamt

ja

ja nein

Rand-anteile

0.40

0.20

0.20

0.10

0.100.30

0.30

0.40

0.70 0.30

10.300.70

0.300.200.10Abi+0.30.100.20hS.

0.4000.40VS. neinja

Reale gem. Anteile für Ausbildung und Angst

0

0.2

0.4

0.6

0.8

1.0

Abi

hS

VS

0 0.2 0.4 0.6 0.8 1.0

ja nein

0 0.2 0.4 0.6 0.8 1.0

ja nein

Gesamt

ja nein

ja nein

0.28

0.21

0.21 0.09

0.09

0.12

0.70 0.30

0.30

0.30

0.40

10.300.70

0.300.090.21Abi+0.30.090.21hS. 0.400.120.28VS.

neinja

Unter H0 erwartete gem. Anteile für Ausbildung und Angst

Rand-anteile

Chi**2 Test auf Unabhängigkeit

Nullhypothese: Die beiden Merkmale sind unabhängig1

Konstruktion des Tests

=ij ji für alle Zellen ij

pi

Teststatistik. 2 Die Randanteile der Population werden in der Stichprobe geschätzt durch und .jpp

i Für jede Zelle kann der gemeinsame Anteil berechnet werden, der unter Geltung von

H0 zu erwarten wäre: eij = (= Produkt der Randanteile)jp Der Unterschied zwischen den realen gemeinsamen Anteilen und den unter H0

erwarteten gemeinsamen Anteilen wird nun berechnet:

PEARSON Chi**2

I

1i

J

1j ij

2ijij2

) ( nP

eep

I

1i ij

ijJ

1jij

2

ln n2LR

ep

pLikelihood-Ratio Chi**2

Wird manchmal auch G2 genannt.

Bei Approximation für P2 sollte gelten: n eij 5, durchschnittliche Anzahl pro Zelle 1.

Testverteilung: unter H0 sind P2 bzw. LR2 approximativ (n groß) 2(df)- verteilt mit df = (I 1)(J 1).

3

Bei Approximation für G2 sollte gelten: durchschnittliche Anzahl pro Zelle 5.

Kritischen Bereich festlegen (hier wird nur P2-betrachtet, gilt aber auch für G2):

Bedeutung der H0 in Teststatistikwerte übersetzen: Ist H0 exakt richtig, müsste P2 =0 sein.

4

aExtrempositionen der Teststatistik bestimmen, bei denen H0 auf jeden Fall abgelehnt werden soll (zugunsten von Ha): bei sehr großem P2-Wert. b

Bei 2 Freiheitsgraden ist der kritische Bereich 5.99

Kritische Bereich: Von den Extrempositionen her nun untersuchen, wie weit sich der Ablehnungsbereich nach innen erstreckt (bis Fläche in der Testverteilung = (= 0.05) ist.

cEPKritischer Bereich

= 0.05

Durchführung des Tests 1. Stichprobe ziehen Ausbildung und Angst-Beispiel, n ist hier eigentlich zu klein für.

2. Teststatistik für die Stichprobe berechnen LR2 = 4.579.

3. Entscheidung. Wenn Teststatistik im kritischen Bereich liegt, wird H0 abgelehnt. Nullhypothese wird nicht abgelehnt, da der Testwert nicht im KB liegt.

LR2 = -2*10(-0.2289558) = 4.579

P2 = 10*0.36507 = 3.6507

(3 Zeilen, 2 Spalten), df = (3 1)(2 1) = 2

Einfachere Berechnung von P2

P2 =

1

n

I

1i

J

1j ij

2ij

e

pGenerell:

1p2p1

p2p22p21x2

p1p12p11x1

y2y1

Vierfelder-Tabelle

Spezialfall: Vierfelder-Tabelle

P2 =

2 1 2 1

221 12 22 11

n

p p ppp p pp

Zähler: Quadrat der ‚Kreuzprodukt‘-Differenzen.Nenner: Produkt aller Randanteile

H0

Normierte Maßzahlen, z.B. zwischen 0 (= kein Zusammenhang) und 1 (=starker Zusammenhang) liegende Maße.Bei qualitativen Merkmalen kann i. a. keine Richtung des Zusammenhangs definiert werden (Ausnahme: Dichotome Merkmale).

Gesucht:

P2 so zu normieren, dass die normierten Werte möglichst zwischen 0 und 1 liegen.Zwei Lösungsansätze: PRE-Maß-Konzepte für qualitative Merkmale.

1

I

1i

J

1j ij

2ij

e

pDirekt auf Grund der Anteile

2 = P2 =

1

n

I

1i

J

1j ij

2ij

e

pGenerell:

Wegen:

n

P 22 Phi-Quadrat (= )

2 1)J,I(min0 2 Die kleinere der beiden: Spalten- bzw. Zeilenanzahl

K

CRAMERs v2: 2

2v

K

1v0 2

)1J)(1I(

22t

1)J,I(1

max2t0 TSCHUPROWs t2

Korrigiertes PEARSONs c2 1c0 2

k 1 22

k cc KK

0.300.70

0.200.10Abi+0.100.20hS.

00.40VS. neinja

Gem. Anteile für Ausbildung und Angst

Ry(MIT x): Modalwerte (pro x-Ausprägung) werden prädiziert: Wenn VS, dann Angst ‚ja‘; hS ja; Abi+ nein.

Ry(OHNE x): Modalregel: Immer (OHNE x zu berücksichtigen) y = ja. (Denn: Modalwert in der Randverteilung = ja).

Der Prädiktionsfehler kann durch die Berücksichtigung von x um 33% reduziert werden.

= (0.30 – 0.20) / 0.30 0.33 .

PEARSONs c2 (Kontingenzkoeffizient) 2

22

1c

1

2c0 K

K

PRE-Maße für qualitative Merkmale

Die Regeln prädizieren die Modalausprägung; Fehlermaß ist der Anteil (bzw. Anzahl) der Fehlprädiktionen in einem Prädiktionsscenario. GOODMANs Lambda(=).

Erstellen einer Prädiktionsregel für y, die das x berücksichtigt.

Allgemeine PRE-Maß Konstruktionsschritte:

Ry(MIT x)

Speziell für Lambda ()

y-Modalausprägung für jede x-Ausprägung

Summe der gem. Anteile in den ‚Fehlerzellen‘ (das sind die Zellen, die nie prädiziert werden) Fy(MIT x)

Fehlerzellen sind alle Zellen, die nicht Modalzellen sind. Fehlermaß definieren. Fy(MIT x) ist die Summe der gem. Anteile in den Fehlerzellen: = 0 + 0.10 + 0.10 = 0.20

Prädiktionsregel für das y, die x NICHT berücksichtigt.

Ry(OHNE x) y-Modalausprägung in der y-Randverteilung

Fehlermaß definieren. Fy(OHNE x) ist die Summe der Randanteile in den Fehlerzellen: 0.30Fy(OHNE x) Summe der Randanteile in den ‚Fehlerzellen‘ (das sind die Zellen, die nicht prädiziert werden)

.PRE ,In %: Prozentuale Fehlerreduktion mit Hilfe von x.

-Fy(OHNE x)

Fy(OHNE x)Fy(MIT x)

= bei dieser Definition der

Regel und des Fehlers wird PRE ‚lambda‘ genannt:

Normierungen von P2

Zusammenhangsmaße für qualitative Merkmale

y-Randverteilung

1p2p1

p2p22p21x2

p1p12p11x1

y2y1Vierfelder-Tabelle

Spezialfall: zwei dichotome Merkmale

Direkte Berechnung von

= 2121

21122211

p p ppp p pp

11

=1=0

=1

=0

Wenn beide Merkmale zusätzlich dummy codiert werden, gilt zudem:

= PEARSON-Korrelationskoeffizient rxy. (falls die Korrelation mit den dummy codierten x bzw. y Variablen berechnet würde).

)1 ip

J ip,...,max(1

:md(y)i

Als Fehlermaß für GOODMANs Lambda wurde das Streuungsmaß: Modaldispersion verwendet;

PRE: Proportionale Fehler-reduktion mit Hilfe von x:

-Fy(OHNE x)

Fy(OHNE x)Fy(MIT x)

bei dieser Definition der des Fehlers wird PRE

‚lambda‘ genannt:

x-bedingte Anteile für y

yJ.yj.y1

pI xI

......

pi .xi

......

p1..x1 1 1p

j1p

J 1p

1 Ip

jI p

J Ip

1 ip

jip

J ip

Randanteile für die i.

Bedingung

Ausbildungs-bedingte Anteile

für Angst

0.300.670.33Abi+

0.300.330.67hS.

0.4001.00VS.

neinja

Aus

bild

ung

pJpjp1

yJ.yj.y1

y Randanteile Angst Randanteile neinja

0.300.70

J)pln( jp j1j

Entropie(in nits)

:)y(h

i1

2

3 Abi+

hS.

VS.

qv(y)i

1 ip

J ip )...(1 22

:

4/9

0

qv(y)i

4/9

jip ji

p )ln(J

1j:h(y)i

i1

2

3 Abi+

hS.

VS.

0.6365

0

h(y)i

0.6365

)p,...,pmax(1 .J.1

Modaldispersion

:)y(md

0.30 *

0.30 *

0.40 *

pi *

Fy(OHNE x) =1 – 0.70 = 0.30 -( -0.361 – 0.25) = 0.611

Fy(MIT x) =

0.20 0.266 0.382


‚tau‘ genannt:


‚PRU‘ genannt: PRU

= (0.42 – 0.266) / 0.42 0.357 .

PRU= (0.611 – 0.382) / 0.611 0.37 .

i1

2

3 Abi+

hS.

VS.

1/3

1/3

0

md(y)i

0.30 *

0.30 *

0.40 *

pi *

iI

1i(y)qvp i

I

1i ih(y)ip

Berechnen von Fy(MIT x)mit Hilfe der zeilen-bedingten Anteile

Dieses Fehlermaß kann durch andere Streuungsmaße für qualitative Merkmale ersetzt werden: durch die Qualitative Varianz bzw. Entropie.Das PRE-Maß zur Qualitative Varianz heißt ‚tau‘, das PRE-Maß zur Entropie heißt ‚PRU (=proportionale Reduktion der Unsicherheit).

PRE-Maße für qualitative Merkmale, Fortsetzung

i

I

1i)y(mdpi

0.30 *

0.30 *

0.40 *

pi *

= (0.30 – 0.20) / 0.30 0.33 .

Qualitative Varianz

:)y(qv )p...p(1 2J.

21.

1 – (0.49+0.09) = 0.42

Größen/Farbtest12 Punkt

11 Punkt

10 Punkt

9 Punkt

8 Punkt

12 Punkt

11 Punkt

10 Punkt

9 Punkt

8 Punkt

7 Punkt

12 Punkt

11 Punkt

10 Punkt

9 Punkt

6

12 Punkt

11 Punkt

10 Punkt

9 Punkt

12 Punkt

11 Punkt

10 Punkt

9 Punkt

8 Punkt

7 Punkt

6 Punkt

12 Punkt

11 Punkt

10 Punkt

9 Punkt

8 Punkt

7 Punkt

6 Punkt

12 Punkt

11 Punkt

10 Punkt

9 Punkt

8 Punkt

7 Punkt

6 Punkt

12 Punkt

11 Punkt

10 Punkt

9 Punkt

8 Punkt

7 Punkt

6 Punkt

12 Punkt

11 Punkt

10 Punkt

9 Punkt

8 Punkt

7 Punkt

6 Punkt

12 Punkt

11 Punkt

10 Punkt

9 Punkt

8 Punkt

7 Punkt

6 Punkt

12 Punkt

11 Punkt

10 Punkt

9 Punkt

8 Punkt

7 Punkt

6 Punkt

12 Punkt

11 Punkt

10 Punkt

9 Punkt

8 Punkt

7 Punkt

6 Punkt

12 Punkt

11 Punkt

10 Punkt

9 Punkt

8 Punkt

7 Punkt

6 Punkt

12 Punkt

11 Punkt

10 Punkt

9 Punkt

8 Punkt

7 Punkt

6 Punkt

12 Punkt

11 Punkt

10 Punkt

9 Punkt

8 Punkt

7 Punkt

6 Punkt

12 Punkt

11 Punkt

10 Punkt

9 Punkt

8 Punkt

7 Punkt

6 Punkt

12 Punkt

11 Punkt

10 Punkt

9 Punkt

8 Punkt

7 Punkt

6 Punkt

12 Punkt

11 Punkt

10 Punkt

9 Punkt

8 Punkt

7 Punkt

6 Punkt

intervall ordinal nominal mindestskalenniveau des x-merkmals intervallordinalnominal...

Documents