intervall ordinal nominal mindestskalenniveau des x-merkmals intervallordinalnominal...
TRANSCRIPT
Intervall
Ordinal
Nominal
Min
dest
skal
enni
veau
des
x-M
erkm
als
IntervallOrdinalNominal
Mindestskalenniveau des y-Merkmals
Pearson-Korrelation, Regressionsanalyse
Analyse mit ordinal-logistischen Modellen
Analyse mit nominal-logistischen Modellen (logistische Regression), Univariate Diskriminanzanalyse
Mittelwerttests, VarianzanalyseRangkorrelation (z.B. Spearmans , Kendalls )
Analyse mit nominal-logistischen Modellen
Vergleiche zweier Mittelwerte, Varianzanalyse, Vergleiche von Varianzen. Nichtparametrische Verfahren (bei Verletzung von Verteilungs-Voraussetzungen)
Nichtparametrische Verfahren (Mediantest, Wilcoxontests, Kruskal-Wallis-Test, Friedman-Varianzanalyse), Analyse mit ordinal-logistischen Modellen
Kreuztabellenanalysen, Chi-Quadrat, Nominale Korrelation (Chi-Quadrat-Normierungen, Goodmans , Kruskals , kappa), Analyse mit loglinearen und nominal-logistischen Modellen
MO - GO> 0MO > GO Mittlere Organisationen sind im Durchschnitt effizienter als große.
S - L = 0S = L Durchschnittlich arbeiten Studenten gleich viel wie Lehrlinge.
W - B= 1000W =B+ 1000 White Collars (Weißkragenarbeiter) verdienen im Schnitt 1000 Euro mehr als Blue Collars (‚Blaumann‘-Arbeiter).
vor - nach= 0vor = nach Die Sozialkompetenz wird durch Gesprächstherapie nicht verbessert (Sk vor bzw. nach Therapie).
F - M= 0F = M Frauen sind (im Durchschnitt) gleich intelligent wie Männer.
zH - Uni= 2zH = Uni + 2 Studenten arbeiten durchschnittlich zu Hause um zwei Stunden mehr als an der Uni.V - S= 0V = S Väter sind im Schnitt gleich groß wie ihre Söhne.E - Z = 0E = Z Sind Zwillinge (Erst- und Zweitgeborene) im Schnitt gleich intelligent?M - E = 0M = E
Im Durchschnitt haben Schüler in Mathematik gleich gute Noten wie in Englisch.
Em - Ef = 0Em = Ef Ist die durchschnittliche Berufsausbildungsdauer von Ehemännern gleich lang wie die der Ehefrauen?
in Hypothesenform:Typische Fragestellungen:
Die Differenz in den Mittelwerten der beiden Gruppen (1, 2) in der Gesamtheit ist gefragt:
21
Wie verschieden sind zwei Gruppen (im Schnitt)?
Vergleich zweier Mittelwerte
keineirgendwelche Frauenirgendwelche MännerIntelligenz von Männern und Frauen
keineirgendwelche Blue C.irgendwelche White C.White & Blue CollarsUnverbunden heißen zwei Stichproben, für die eine solche eindeutige Regel nicht existiert.
eindeutiggleiche Personen danachPersonen vor TherapiebeginnSozialkompetenz vorher/ nachhereindeutigderen Söhneirgendwelche VäterGröße von Vater und Sohn eindeutigZweitgeborenerirgendwelche ErstgeborenenIntelligenz der Zwillinge
eindeutigderen Ehefrauenirgendwelche Ehemänner Berufsausbildungsdauer von Ehemännern und Ehefrauen
Regel 2. Stichprobe 1. StichprobeBeispielVerbunden heißen zwei Stichproben genau dann, wenn es eine Regel gibt, jeder UE aus der einen Stichprobe genau eine UE aus der anderen Stichprobe zuzuordnen.
Designüberlegungen: Verbundene und unverbundene Stichproben
Die Hypothese (H0 bzw. Ha) behauptet, dass
diese Differenz einen speziellen Wert habe 0210 :H (dabei ist 0 oft gleich 0)
a21a :H
bzw. größer oder kleiner gleich diesem Wert sei.
Analyse zweier Merkmale
Differenz der Arbeitszeit
zu Hause-Uni-10
-5
0
5
10
15
Arbeitszeit in Stunden
zu Hause Uni0
10
20
30
-2
12
-2
1
Stichprobe der Differenzen:dj:= y1j – y2j
16
26
10
21
1. Stichprobe (zu Hause):
y1j
18
14
12
20
2. Stichprobe (in Uni):
y2j
4.
3.
2.
1.
UE-Paare
Beispiel: Durchschnittlicher Unterschied im Arbeitsverhalten von Studenten in Stunden (zu Hause vs. an der Uni).
Konfidenzintervalle und Tests für 1- 2 bei verbundenen StichprobenDa jedem Messwert der einen Stichprobe exakt ein Messwert der andern Stichprobe entspricht, können die Differenzen auf der ‚Individualebene‘ gebildet werden. Die Differenzwerte selbst werden wie eine Stichprobe für ein Merkmal (das Differenzenmerkmal) behandelt.
Stichprobe 1: y1j (j=1,2,...,n)Stichprobe 2: y2j (j=1,2,...,n)
Mittelwerte der Populationen: 1 (Pop 1), 2 (Pop 2).
n/)d...d(:d n1n
)dnd(:s 22j1n
1d
Mittelwert
Standard-abweichung
dj:=y1j – y2j.Reduktion auf eine Stichprobe, die Stichprobe der Differenzen:
Mittelwert der Differenzenpopulation: 1 - 2
25.24/)21221(:d
652.625.44)25.20153(3
1:ds
n
s:)d(Stf d
n Standardfehler des Differenzen-Mittelwerts
326.32d
4s
:)d(Stf
)d(Stf 4
)d(Stf 4
Das Konfidenzintervall für die Mittelwert-Differenz kann nach den Formeln für ein Merkmal berechnet werden21
(1-)-Konfidenzintervall für 21 bei nicht bekannter Varianz (df=n-1)
)d(Stf)df(td n1n Berechnen des 95%-Konfidenzintervalls für die
Mittelwertdifferenz: df = 3 (=4-1). . 18.3)3(1t = (-8.32668, 12.82668). 326.3*18.3 25.2
Hypothesentests für die Mittelwert-Differenz-Hypothese ( ) können ebenfalls Hypothesentests wie bei einem Merkmal durchgeführt werden. 0210 :H
0 d00 Stf( ) ndd dStf( ) nd Stf( ) nd
021a :H 021a :H 021a :H linksseitig rechtsseitigbeidseitig
Alternativhypothese
)d(Stf)df(t n1
0
)d(Stf)df(t n1
0 )d(Stf)df(t n1
0 )d(Stf)df(t n1
0
KB
bei nicht bekannter Varianz
Der zweiseitige kritische Bereich liegt daher außerhalb (inklusive Randpunkte) von: d.h. außerhalb von (-8.57668, 12.57668).326.3*18.3 2
25.2d liegt nicht im kritischen Bereich. Daher wird die Nullhypothese nicht abgelehnt.
Sei H0: 1- 2= 2. 0 ist daher gleich 2. Die Alternativhypothese sei: Ha: 1 - 2 2. Der kritische Bereich ist daher
zweiseitig. 18.3)3(1t Aus der Student-t-Verteilung bei df =3 und =0.05 ist erhält man
Beispiel (Fortsetzung):
Konfidenzintervalle und Tests für 1- 2 bei unverbundenen StichprobenBeispiel: Körpergröße der ersten 16 UEen, getrennt nach Sex. Daten sind hier nach Körpergröße sortiert.Stichprobe 1 (m): 170, 174, 174, 175, 178, 184, 184, 185, 186, 188, 189, 190, 191, 194.Stichprobe 2 (w): 165, 167.
Stichprobe 1: y1j (j=1,2,...,n1)Stichprobe 2: y2j (j=1,2,...,n2)
Datenaufbereitung
2. (w)1. (m)
Stich-probe
i.
Standard-abweichung
is
1.414217.49359
iy
166183
Mittelwert
in
214
An-zahl
ii n/s
1.00002.0027
Standardfehleriin i1ii n/)y...y(:y Für jede
Gruppe i = 1,2.
Mittelwert
Varianz )yny(:s 2ii
n
1j
2ij1in
12i
i
nein
Konfidenzintervall für 1-2 (Konfidenzniveau = q)o( )21 yy
)yy(Stf 21 kfq
qu qo
)yy(Stf 21 kfq
bekannt21 und
)yy(Stf 21 kf :=q z q
2221
21 n/n/ :=
21 yy :=
ja )yy(Stf 21 kf :=q t q
:=
(df=), df=:=n1+n22
21poolyy n
1
n
1ss
21
2nn
s)1n(s)1n(s
21
222
2112
pool
)yy(Stf 21 :=
kf :=q t q (df ),
2221
21yy n/sn/ss
21
)1n/(n/s)1n/(n/s
n/sn/s
22
2221
21
21
22
221
21
df =
Homoskedast-isch
21
nein
ja
Mann-Frau0
5
10
15
20
25
30
21 yy
1. Homoskedastischer Fall: df= =14.
kf :=0.95 t (14)=2.15.0.95
)yy(Stf 21 =5.466
Konfidenzintervall für 1-2 :17± 2.15* 5.466
2. Heteroskedastischer Fall: df =11.2 . kf :=0.95 t (11.2)=2.2.0.95
)yy(Stf 21 =
Konfidenzintervall für 1-2 :17± 2.2 *2.24
24.21 011.4
Mann Frau150
160
170
180
190
Beispiel(Fortsetzung): Sei q = 0.95.
21 yy = 17. Populationsvarianzen sind unbekannt
021a :H linksseitig
021a :H rechtsseitig
021a :H beidseitig
0 00t z bzw. t z bzw.t z bzw.1–-z 1–z
2
1–z
2
1–-z
Je nach Varianzen-Bedingung
1–t (df)2
1–t (df)
2
1–-t (df)1–-t (df)
Beispiel (Fortsetzung): Testen der Nullhypothese, dass Männer im Schnitt 10 cm größer sind als Frauen: 10 :H 210 (0 10).
nein
Standardisierter Testwert für den Test der Hypothese H0: 1-2 = 0
)yy(Stf
)yy(
21
021
bekannt21 und
)yy(Stf 21 :=21 yy mit
Homo?21
ja = z,
ja )yy(Stf 21 := 21 yysmit= t (df=),
)yy(Stf 21 := 21 yysmit= t (df ),nein
KB
Hetero-Fall: -1.80 1.80 -2.20 2.20Homo-Fall: -1.76 1.76 -2.15 2.15KB
24.2)10166183( Hetero-Fall: Standardis. Testwert = = 3.125 = t (df), df =11.2.Homo-Fall: Standardis. Testwert = 466.5)10166183( = 1.28 = t (df=),df= =14.
Sei =0.05.
in iyis
2.12132192.524Uni, Ing.schule u. ä0.70711189.523Abitur5.83095182.052höherer Schulabschluß7.23418178.541Volksschulabschluss
Standardab-weichung
MittelwertAnzahl i. Stp
Schulausbildung des Vaters
Gesamt Mittelwert 183.69. Gesamt-Varianz = 642.769 / 12
Vergleich mehrerer Mittelwerte bei unverbundenen Stichproben
Stichprobe i: yij (j=1,2,...,n1), i=1, 2, …, I
Datenaufbereitung
iin i1ii n/)y...y(:y Für jede Gruppe i = 1,…,I
Mittelwert
Varianz
in
1j
2ij1in
12i )yy(:s
Determinationskoeffizient 1. Art (=2)
Ry(MIT x) iMIT,ij y:y für alle UEen. MIT,ijy (y Dach) heißt prädizierter Wert (engl. predicted value). Für jede UE wird der Mittelwert der Gruppe prädiziert, zu der die UE gehört.
Fy(MIT x)
I
1i
n
1j
I
1i
n
1j
2iij
2MIT,ij
i 1
yyr 2II
222
211 s)1n(...s)1n(s)1n(
Ry(OHNE x) y:y OHNE,ij für alle UEen. OHNE,ijy prädizierter Wert OHNE Berücksichtigung von x. Für jede UE wird der Gesamtmittelwert prädiziert.
2 =-Fy(OHNE x)
Fy(OHNE x)Fy(MIT x) -ssq(total)
ssq(total)ssq(within)
= ssq(total)ssq(between)
=
= ssq(within) = Summe der quadrierten Prädiktionsfehler (=MIT-Residuen: ) =iijMIT,ij yy:r
Fy(OHNE x) = ssq(total) = Summe der quadrierten Prädiktionsfehler (=OHNE-Residuen: ) =
I
1i
n
1j
2ij
I
1i
n
1j
2OHNE,ij
1i
yyr
yy:r ijOHNE,ij
= ssq(within)
ssq(between)
211yn 2yn2
22yn 2II yn
ssq(between) = 642.769 298 = 344.769
2 = 344.769 / 642.769 0.5364 . 53.64 % Fehlerreduktion: ‚Erklärte Varianz‘
Volks S. höhere S. Abi Uni170
175
180
185
190
195
Beispiel: Körpergröße des Sohnes und Schulausbildung des Vaters, n=13.
1942419114
Uni
1902318913
Abi
1885218642184321782217412
höhere Sch.
18541184311752117011
Volks-schule
yijji
- “-192.5- “-
189.5- “-- “-- “-- “-
182.0- “-- “-- “-
178.5MIT,ijy
- “-- “-- “-- “-- “-- “-- “-- “-- “-- “-- “-- “-
183.69 OHNE,ijy
4.50.5136157
2ii s)1n(
29874112.571820.5
165620.0127449.0
2ii yn
439002
Volks S. höhere S. Abi Uni170
175
180
185
190
195
200
Volks S. höhere S. Abi Uni170
175
180
185
190
195
200ssq(within) = 298
183.69
ssq(total) = 642.769
Eigenschaften der Quadratsummen und des eta**2ssq(within) ist kleiner als ssq(total), wenn die Gruppenmittelwerte verschieden sind (ssq(between) ist daher >0, ebenfalls 2 ) ssq(within) ist gleich ssq(total), wenn alle Gruppenmittelwerte gleich sind (ssq(between) ist dann =0, ebenfalls 2 )
Wenn alle Gruppenmittelwerte gleich sind, sind sie gleich dem Gesamtmittelwert.
2 ist gleich 1, wenn ssq(within) =0 (d.h. die Prädiktion mit der Gruppen-Mittelwert-Regel ist fehlerlos).
Maße der Relevanz eines Unterschieds: PRE und andereWer ausreichende Mittel hat, große Stichproben zu finanzieren, kann auch bei sehr kleinen Populationsunterschieden signifikante Ergebnisse erreichen, da der Standardfehler mit steigendem n gegen 0 geht.
Problem:
Allgemeine Maße für die Größe von Unterschieden in der Population, bzw. Schätzung in der Stichprobe.
Für alle Skalentypen wurden so genannte PRE-Maße (Costner 1965) entwickelt (PRE ist die Abkürzung für proportional Reduction of Error).Für Intervallskalen: Effekt-Size (J. Cohen): , das ist die standardisierte Mittelwertdifferenz. /)( 21
10
Beispiel: Kirchgang und Partei-Präferenz in Gaißegg
3070
302010nein7060ja
Kirchgang
neinjax:
CP-Präferenzy:
1010
PRE-Maß Konstruktionsschritte:
Erstellen einer Prädiktionsregel für das y-Merkmal, die das x-Merkmal berücksichtigt.
Ry(MIT x) Ry(MIT x): Wenn x = ja, dann y = ja; wenn x = nein, dann y = nein.
Definieren eines Fehlermaßes: Ausmaß des Fehlers, der bei Anwendung der Regel Ry(MIT x) auf alle einzelnen UEen entsteht. Fy(MIT x) Als Fehler Fy(MIT x) könnte man hier definieren: Anzahl falscher Prädiktionen, die beim
Anwenden der Regel entstehen: 10 + 10 = 20.
Erstellen einer Prädiktionsregel für das y-Merkmal, die das x-Merkmal NICHT berücksichtigt.
Ry(OHNE x) Ry(OHNE x): Immer (OHNE x zu berücksichtigen), y = ja.
Fy(OHNE x)
30
Der Prädiktionsfehler kann durch die Berücksichtigung von x um 33% reduziert werden.
Fehlerreduktionsanteil durch Berücksichtigung des x-Merkmals. In %: Prozentuale Fehlerreduktion mit Hilfe von x.
-Fy(OHNE x)
Fy(OHNE x)Fy(MIT x)
PRE=PRE = (30 – 20) / 30 10 / 30 = 0.33 .
iMIT,ij y:y für alle UEen. MIT,ijy (y Dach) heißt prädizierter Wert (engl. predicted value). Für jede UE wird der Mittelwert der Gruppe prädiziert, zu der die UE gehört.
21i n
1j
22j2
n
1j
21j1
2
1i
n
1j
2MIT,ij yyyyr 2
22211 s)1n(s)1n(
Ry(OHNE x) y:y OHNE,ij für alle UEen. OHNE,ijy prädizierter Wert OHNE Berücksichtigung von x. Für jede UE wird der Mittelwert der Gruppe prädiziert, zu der die UE gehört.
2 =-Fy(OHNE x)
Fy(OHNE x)Fy(MIT x) -ssq(total)
ssq(total)ssq(within)
= ssq(total)ssq(between)
=
Fy(MIT x) = ssq(within) = Summe der quadrierten Prädiktionsfehler (=MIT-Residuen: ) =iijMIT,ij yy:r
= ssq(total) = Summe der quadrierten Prädiktionsfehler (=OHNE-Residuen: ) =
21i n
1j
2j2
n
1j
2j1
2
1i
n
1j
2OHNE,ij yyyyr
yy:r ijOHNE,ij
ssq(between)
= ssq(within)22
22211 ynynyn
Das PRE-Konzept am Beispiel zweier dichotomer Merkmale Die Untersuchung der Relevanz des x-Merkmals für das y-Merkmal besteht im PRE-Konzept darin, eine Prädiktions-Regel zu beurteilen, die erlaubt, auf Grund der Kenntnis der x-Merkmalsausprägung die y-Merkmalsausprägung zu prädizieren (prognostizieren, diagnostizieren bzw. erraten).
Der Determinationskoeffizient 1. Art bei UNverbundenen Stichproben (=2) ist ein PRE-Maß
Ry(MIT x)
Definieren eines Fehlermaßes: Ausmaß des Fehlers, der bei Anwendung der Regel Ry(OHNE x) entsteht.
Als Fehler Fy(OHNE x) könnte man hier definieren: Anzahl falscher Prädiktionen, die beim
Anwenden der Regel entstehen: 30.Fy(OHNE x)
Mann Frau160
170
180
190
200
Mann Frau160
170
180
190
200
ssq(between) = 1237.75 732 = 505.75
2 = 505.75 / 1237.75 0.41 . 41 % Fehlerreduktion: ‚Erklärte Varianz‘
ssq(within) = 732 ssq(total) = 1237.75
Test der Hypothese, dass alle Mittelwerte gleich sindPlanung des Tests
1. Nullhypothese: alle Mittelwerte sind gleich ( ). Bei möglichst sparsamer Aufzählung genügen allerdings (I-1) Einzelhypothesen (z.B. ).
I21 ... )( I1 )( I2 )(... I1I
Alternativhypothese: Nicht alle Mittelwerte sind gleich (Zumindest ein Mittelwert ist verschieden von den andern).
Testverteilung unter H0 ermitteln:
FF
0 1 2 3 4 50
0.2
0.4
0.6
0.8
1.0
0 1 2 3 4 50
0.2
0.4
0.6
0.8
1.0F-Verteilung mit
20, 20 Freiheitsgraden 3, 9 Freiheitsgraden
F-Verteilung mit
2, 9 Freiheitsgraden5, 9 Freiheitsgraden5, 60 Freiheitsgraden
3.
Von der Extremposition her nun untersuchen, wie weit sich der Ablehnungsbereich nach innen erstreckt.
c)
Kritischen Bereich festlegen
Bedeutung der H0 in Teststatistikwert F?
4.
a) F wäre 0, falls H0 exakt stimmte.H0
Extrempositionen (EP) zugunsten von Ha: bei sehr großem F wird H0 abgelehnt.b) EP
KB3.86
F0 1 2 3 4 5
0
0.2
0.4
0.6
0.8
1.0F-Verteilung
df1= 3df2= 9
95% = 0.05
Durchführung des TestsAls Schema für die Berechnung wird meist eine ANOVA-Tabelle (ANOVA steht für ANalysis Of VAriance) erstellt
ssq(total)Totalssq(within)Error, within
ssq(between)Faktor, betweenSum of SquaresVariationsquelle
ANOVA-Tabelle
642.769Total298Fehler
344.769Ausbildung des Vaters Sum of SquaresVariationsquelle
n-1df2= n-Idf1= I-1
df.
12 =13-19=13-43 = 4-1
df.
msq(within) =ssq(within) / df2msq(between) = ssq(between) / df1
Mean sum of squares
53.564 = 642.769 / 1233.1111 = 298 / 9
114.923 = 344.769 / 3Mean sum of squares
F(df1,df2) = msq(between) / msq(within)F-Ratio
F(3,9)= 3.471 = 114.923 / 33.1111F-Ratio
Beispiel: Körpergröße des Sohnes und Schulausbildung des Vaters, n=13; I=4. Nullhypothese: Es gibt keine systematischen, durchschnittlichen Körpergrößenunterschiede.
Auswahl einer Teststatistik:2.
wobei df1=(I-1) und df2=(n-I) ist.)df,df(F 21 ,
df/
df/
2
1
ssq(within)
ssq(between)
df1 heißt Zählerfreiheitsgrad, df2 Nennerfreiheitsgrad
df1=(4-1)=3. und df2=(n-I) = 9
msq = Mean sum of squares = Mittlere Quadratsumme = Quadratsumme pro Freiheitsgrad
Liegt der F-Wert im kritischen Bereich? Nein. Daher wird die Nullhypothese akzeptiert.
Als Fehlermaß im Rahmen des PRE-Index wird hier die Fehlerquadratsumme pro Freiheitsgrad verwendet.
1df2df
1 2
2
FUmrechnen des F-Werts in den Determinationskoeffizienten (2) und umgekehrt. F )1df/2df(
F2
Adjustierter Determinationskoeffizient 1. Art (bzw. Adjustiertes 2 ). msq(within)1:2
msq(total)
2 = 3.471 / (9/3+ 3.471) 0.5364
....................... usw.........................
µ
Effektdarstellung (Darstellung der Mittelwerte als Summe eines ‚generellen‘ und eines ‚gruppenspezifischen‘ Effekts)
Asymmetrische Effekte Symmetrische Effekte
Modellkonzeption für die Varianzanalyse
Vs
165 170 175 180 185
Uni
Abi
hS µ2
µ1
µ3
µ4
2
3
4
Der Mittelwert der ‚Normalfall‘-Stufe des Faktors wird als ‚genereller‘ Effekt = µN definiert.Die Differenzen zum generellen Effekt werden als gruppenspezifische Effekte bezeichnet: i = µi
Vs
165 170 175 180 185
Uni
Abi
hS µ2
µ1
µ3
µ4
2
3
4
1
Der ‚generelle ‘ Effekt wird in die Mitte der Mittelwerte gelegt:
)...( I21I1
Die Differenzen zum generellen Effekt werden als gruppenspezifische Effekte bezeichnet: i = µi = (170+174+180+180)/4 = 176
4 = 180 176 = 4.
= 1704 = 180 170 = 10.
140 150 160 170 180 190 200 210
µ1
µ2
µ3
Abi
hS
Uni
y
VsBeispiel: Die Körpergröße in 4 Teil- Population seien µ1=170,
µ2=174,
µ3=µ4=180.
1. Wh.hS
Abi
Vs
Uni
2. Wh. hSVs
UniAbi
Stratifizierte Zufallsauswahl
Population
Die Standardabweichungen aller Teilpopulationen gleich: 1= 2= ... = I =: (=Homoskedastizität). Für Zwecke des Testens und der Konstruktion von Konfidenzintervalle wird zusätzlich Normalverteilung vorausgesetzt.
Die Gesamtheit besteht aus I Teilpopulationen (für jede Gruppe, Schicht, Stratum). Jede Teilpopulation wird charakterisiert durch die Mittelwerte, die eventuell verschieden sind: µ1, µ2, ... , µI .
Mit Hilfe der Stichprobensvariablen Yij wird das Ergebnis des Ziehens beschrieben.
Alle Stichprobenvariablen Yij ((j=1,…, ni ) i=1,..., I) sind voneinander unabhängig.
Aus jeder Teilpopulation wird eine Stichprobe bestimmter Größe (= ni ) gezogen. Stichprobenziehung (Geschichtete bzw, stratifizierte Zufallsauswahl)
eij ist von Ziehung zu Ziehung unabhängig und stammt jeweils aus der gleichen ‚Störgrößen‘-Verteilung mit der Standardabweichung (auch mit e bezeichnet) und µe=0.Yiji
e0-2e -e 2ee
eij
iij ijeY Yiji eij
Varianzanalytische Modellgleichung: (egal, ob dabei symmetrische oder asymmetrische Effekte gemeint sind)
ijiij eY
Darstellung der Stichprobenvariablen als Summe systematischer und stochastischer Größen:Die unterschiedlichen Populationsmittelwerte stellen die systematische Verschiedenheit dar.Die erratisch zufällige Variation wird durch das zufällige Ziehen der Stichprobe aus einer mehr oder weniger breiten Verteilung zugelassen.
Wichtige Designvariante: Randomisierung bei Experimenten i.e.S.Fragestellung bei Experimenten im engeren Sinn: Welche Auswirkungen (Effekte) haben die I Behandlungsarten (Treatments)? (eventuell im Vergleich zu ‚Plazebo‘-Treatment)
Randomisierungsprinzip: Die Untersuchungseinheiten sollen den I Treatmentgruppen nach einem Zufallsverfahren zugeordnet werden.
Die über Randomisierung gewonnen Messungen können mit dem vorliegenden Populations-Stichproben-Modell der Varianzanalyse behandelt werden. Darüber hinaus gibt es eigene sogenannte Randomisierungsmodelle, für die i. a. weniger Voraussetzungen nötig sind (nichtparametrische Verfahren).
Analyseverfahren
Einfache RegressionsanalyseStreudiagramm für Körpergröße und Gewicht
Beispiel: Körpergröße (=y) und Körpergewicht (=x) von Studenten.
1919013
1948412
1868411
1898110
185809
188798
178747
174726
184665
190654
184653
174642
175601
yixi
i
Körpergewicht in kg
Körpergrößein cm
55 60 65 70 75 80 85 90 95170
175
180
185
190
195
55 60 65 70 75 80 85 90 95170
175
180
185
190
195
Gesucht ist eine Regel, mit der die y-Werte mittels einer einfachen Funktion bei Kenntnis der x-Werte‚ möglichst ‚gut‘ erraten werden können. Die einfachste Funktion ist eine Gerade: y = a + b x, b ist Steigung, a Abschnitt auf y
Ry(OHNE x) , für jede UE wird der Gesamtmittelwert prädiziert.
yy OHNE,i :
Fy(OHNE x) = ssq(total) = Summe der quadrierten Abweichungen vom Mittelwert =
n
1i
2i yy = (n-1)*Stichprobenvarianz
Determinationskoeffizient 2. Art (= quadrierter Korrelationskoeffizient):
-Fy(OHNE x)
Fy(OHNE x)Fy(MIT x) -ssq(total)
ssq(total)ssq(y.x)
=r2yx = -1
ssq(total)ssq(y.x)
=
-0.04
5.63
-2.37
1.96
-1.60
1.85
-5.93
-9.04
3.62
10.07
4.07
-5.49
-2.71
y.xi
191.04
188.37
188.37
187.04
186.60
186.15
183.93
183.04
180.38
179.93
179.93
179.49
177.71
iy
MIT x y OHNE,i
y:
184ix44426.006.151 iy
ssq(y.x)= 332.53
ssq(total) = 548
-548548
332.53r2yx = = 0.392 D. h. 39.2% Fehlerreduktion durch Geradenregel
Unter allen möglichen Geraden die suchen, die AM BESTEN zu den gegebenen Datenpunkten passt.
Optimalität der Geraden
‚Am besten passen‘ kann unterschiedlich definiert werden(z.B. die Summe der Residuen-Beträge bzw. der Residuen-Quadrate sollte möglichst KLEIN werden).
-3 -2 -1 0 1 2 30
1
2
34
5
6
7
-3 -2 -1 0 1 2 30
1
2
34
5
6
7
-3 -2 -1 0 1 2 30
1
2
34
5
6
7
a=5, b=0.6 a=3, b=1 a=3, b=0.6
Summe der Residuen-Beträge, 8 4 4.822.4 8 6.4Summe der Residuen-Quadrate,
)b,a(fminb,a
Gesucht sind jene a und b, für die die Funktion f(a,b) minimal ist:
ssq(y.x) =
f(a,b):=
n
1i
2ii ))bxa(y(
Residuen
Für die obigen 4 fest gegebenen Datenpunkte
f(a,b)Summe der
Residuen-Quadrate
für die diversen a
und b
optimale Gerade im Sinne der kleinsten Summe der quadrierten Residuen (Kleinst-Quadrate-Lösung)
Die Datenpunkte sind fest gegeben. Variabel ist nur a und b.Die Summe der Residuen-Quadrate als Funktion von a und b:
für alle UEen. heißt prädizierter Wert. Für jede UE wird der y-Wert prädiziert, der auf der Geraden liegt.
Ry(MIT x) iy ibxa: iy
Residuen ri := yi = y.xi (= y unter Konstanthaltung von x = der Teil von y, der nicht durch eine Geradengleichung mit x prädizierbar ist).
iy
Fy(MIT x) = ssq(y.x) = Summe der quadrierten Residuen:
n
1i
2ix.y
Minimum der KQ-Funktion f(a,b) und Formeln für a bzw. bDas Minimum einer Funktion kann mit Hilfe der Differentialrechnung gefunden werden: die ersten Ableitungen der Funktion f(a,b) nach den Variablen (a bzw. b) null setzen.
f(a,b):= 2ii )bxay(
Beim Ableiten von f(a,b) nach a wird b wie eine konstante Größe behandelt (=partielle Ableitung nach a);
entsprechend bei der Ableitung nach b:
0 )1( *)bxay(2
a
)b,a(fii
0)x(*)bxay(2
b
)b,a(fiii
Umformen der beiden 0-gesetzten Ableitungen liefern die so genannten Normalgleichungen.
n
1i2i
n1i i
n1i ii
n1i i
n1i i
xbxaxy
xbany
Auflösen der Normalgleichungen nach den beiden Unbekannten a und b liefert die Formeln für a und b
xbya
n1i
22i
n1i ii
xnx
xynxyb
f(a,b) f(a,b)
a bProjektion der Funktion f(a,b) auf die Achse a bzw. auf die Achse b,
für das Beispiel der 4 Datenpunkte.
Reformulieren von b
)x(Var
)x,y(Cov
s
sb
2x
yx Die so genannte Kovarianz zwischen y und x wird mit Cov(y,x) bzw. syx abgekürzt folgendermaßen berechnet:
n
1i ii1n1n
1i ii1n1
yx )xx)(yy( )xynxy(:)x,y(Covs
2
ix
iiyx2
iy
17190364818100162963763670561562434596705615309357216561148003422564001485235344624113172316845476125283027651841214433856435612350361004225119603385642251113630276409610500306253600
177861440676725762392964Summe
=xy=y2=x2=y=x
2
iy
2
ix
iiyx Füge Spalten für , und hinzu.
Auf der Basis dieser Summen können alle relevanten Größen berechnet werden:
Zusammenfassung: Schema zur Berechnung von a und b usw.
Stelle die Datenpaare als Tabelle dar. ix
iy
1919013194841218684111898110185809188798178747174726184665190654184653174642175601
i
Beispiel: Körpergewicht und Körpergröße, n=13
Bilde die Summe für die Spalten mit den Kurzbezeichnungen: x, y, x2, usw.
ix
iy
524
213
4-12
1-21
i
Beispiel: 4 Datenpunkte.2
iy
iiyx
1025
24
-416
-21
2
ix
4
1
1
4
Summe 64610120
=xy=y2=x2yx
x =x/ nMittelwerte
Varianzen
Kovarianz
y =y/ n
Var(x) = (x2- n )/(n-1)2x
Var(y) = (y2- n )/(n-1)2y
Cov(x,y) = (xy- n )/(n-1) yx
Steigung
Abschnitt
b = Cov(x,y)/Var(x)xbya
Det.Koeffi-zient 2. Art
Fy(OHNE x) ssq(total) = (n-1)Var(y)
)y(Var)x(Var
)y,x(Cov2
2xyr
Fy(MIT x) ssq(y.x) = ssq(total) )r1( 2xy
= 40.4166667 / 90.97436 = 0.44426437
= 184 - 0.44426437*(964/13) = 151.056
= 40.41666672/ (90.97436*45.66667) =0.39319.
= 548 (1- 0.39319) = 332.532
= 12* 45.66667 = 548
= (6/3) / (10/3) = 6/10
= 3 – (6/10)*(0) =3
= (36/9)/ (100/9) =0.36.
= 10 (1- 0.36) = 6.4
= 3*(10/3) = 10
= (6-4*0*3)/3 = 6/3=2
= (10-4*(0)2)/3 = 10/3
= (46-4*32)/3 = 10/3
= 12/4 = 3
= 0/ 4 = 0
Beispiel: 4 Datenpunkte
= (72576-13*(964/13)2)/12 = 90.97436
= (440676-13*1842)/12 = 45.66667
= (177861-13*(964/13)*184)/12 = 40.4166667
= 2392/13 = 184
= 964/13 = 74.154
Beispiel: Körpergewicht und Körpergröße, n=13
Modell der Regressionsanalyse
55 60 65 70 75 80 85 90 95170
175
180
185
190
195
200
x50.0148)x(y Die Varianz der y-Werte sei =25
Körpergrößen-Beispiel: In der Population gilt vielleicht für eine bestimmte Menge von x-Werten(Gewicht) folgende ‚wahre‘ Bezie-hung für den Mittelwert der Körpergröße:Das Modell beschreibt, wie die Beobachtungspaare als Stichprobe aus einer Gesamtheit entstehen. Es wird hier
zuerst das ‚klassische‘ Regressionsmodell betrachtet.
x)x(y Die ‚wahre‘ Regressionsgleichung in der Population gilt für den y-Mittelwert an jeder Stelle x. 2e
2y )x( Die Varianz der Verteilung der y-Werte ist an jeder Stelle x ( ) gleich (Homoskedastizität).
2e Oft wird zudem angenommen: Die y-Werte an jeder Stelle x seien normalverteilt NV(+x , ).
Als Stichprobe werden n y-Werte unabhängig voneinander für bestimmte x Werte gezogen. Das sind die in der Stichprobe betrachteten (xi, Yi) Wertepaare. Als Zufallsvariable wird nur Y betrachtet (x wird als fest gewählt
angesehen). Dabei entstehen für jede Stichprobe andere Geraden.
Stichprobe
Der i. y-Wert in den Stichproben wird zufällig aus der Verteilung an der Stelle xi gezogen, d. h. Yi ist eine
Zufallsvariable für die gilt: E(Yi) = iiy x)x( und Var(Yi) = )x( i2y
2e
Stichprobenvariable Yi als Summe einer ‚systematischen‘ und einer ‚erratisch‘-zufälligen Komponente :
ii xY mit: E(ei)=0 und Var(ei) =
)x( iyie
Störgröße
2e
Schätzung der Parameter des Modells
Die Parameter des Modells sind: (Abschnitt, engl. Intercept), (=Steigung) und (=Varianz der Störgröße) .2e
Für die Berechnung von Intercept und Steigung wurde oben die KQ-Lösung gefunden: Formeln für a und b in einer realisierten Stichprobe der Größe n. Die Zufallsvariablen, deren Realisierung a bzw. b sind, heißen bzw. .
Es kann gezeigt werden (Theorem von Gauß-Markoff), dass mit den so ermittelten Formeln tatsächlich
bzw. geschätzt werden kann und zwar so, dass bzw. erwartungstreue ( ) und effiziente Schätzer sind.
,)ˆ(E )ˆ(E
Bei bekannter Varianz der Störgröße sind die Schätzer normalverteilt, wenn die Störgrößen normalverteilt sind.(bei Verletzung dieser Voraussetzung hilft eventuell der zentrale Grenzwertsatz).
2e Meist ist nicht bekannt; muss daher ebenfalls geschätzt werden. Der einzelne Schätzwert des erwartungstreuen Schätzers sei .ˆ 2
e 2es
n
1i
2ii2n
1 )yy(2es
2n1 ssq(y.x)=
n-2 wird auch als der Freiheitsgrad (df) für die vorliegende Problemlage bezeichnet. 2 wird von n subtrahiert, weil 2 Parameter geschätzt werden müssen, damit jedes bestimmbar ist. iy
‚Kausale‘ Interpretation der Modellgleichung: ‚So entstehen die Werte‘ (Versuch, die Entstehung der Werte in der ‚Natur‘ nachzuvollziehen). Prädiktive Interpretation.
Wahrscheinlichkeits-Verteilung der beiden Schätzer
Abschnitt Steigung
a b
2x
2e
s)1n(
1)ˆVar(
s)1n(
x
n
1)ˆVar(
2x
22e
Varianz der Schätzer: , . )ˆVar()ˆVar(
Stf(a) Stf(b)
Im Beispiel: Varianz der Störgröße = 25 = 148, = 0.50.
e0-2e -e 2eexi
Yi
ei
Zufallsauswahl von y Werten zu den x-Werten
Berechnen der
Geraden
Konfidenzintervalle und Hypothesentests für und
Da bei der Regressionsanalyse selten bekannt ist, wird hier nur der Fall mit geschätztem behandelt.
2e
2e
aus der Student t-Verteilung, df = n-2
)df(t q mit)b(Stf)df(tb qfür :)a(Stf)df(ta qfür : q-Konfidenzintervalle
Tests der Hypothesen:Standardisierte t-Testwerte
H0 ( = 0):)a(Stf/)a()df(t 0
t(df) sind Realisationen der Student t-verteilten Teststatistik T(df) mit df = n-2
H0 ( = 0):)b(Stf/)b()df(t 0
Einige Erweiterungen der Regressionsanalyse
Die Erweiterung auf stochastische Regressoren bedeutet, dass auch die x-Variable eine Zufallsvariable sein kann (die x-Variable wird nicht nur bei festgelegten Werten wie im ‚klassischen‘ Modell ausgewählt).
Die Modellgleichung bezieht simultan alle ‚wichtigen‘ Prädiktoren mit ein Y = + M Mann + A Alter + G Gewicht + e
y = 170.9 + 11.08*Mann + (-0.88)*Alter + 0.268*Gewicht ^Schätzung:
Modellgleichung (Beispiel):geschätzte Varianz der Störgröße= 25.26
e0-2e -e 2ee
Mann
KGr.
170.9
11.08
Alter
-0.88
0.268Gewicht
-0.05
0.12
0.70e
M
A
G
Beispiel: Als Stichprobe werden die 55 Personen der Studentenuntersuchung verwendet
s)1n(
x
n
1s)aStf(
2x
2
e
Standardfehle
r für a:
Abschnitt:
1ns
s)bStf(
x
e
Standardfehler für b:
Steigung:
Diese Erweiterung ist für Tests und Konfidenzintervalle sind auch ohne Zusatzannahmen recht unproblematisch; sie können im Sinne bedingter Tests und Konfidenzintervalle interpretiert werden. Bedingung ist die Einschränkung auf die ausgewählten x-Werte.
Manche Autoren (z.B. Bortz) fordern überflüssigerweise die Annahme, dass auch das x-Merkmal normalverteilt ist (zusammen mit der Annahme der Normalverteilung der Störgrößen und der Linearität bedeutet das die Annahme der bivariaten Normalverteilung der x und y-Werte). Diese Annahme wird aber üblicherweise bei der Korrelationsanalyse gemacht.
Die Erweiterung auf polynomische Regressoren ist ein Spezialfall der multiplen Regression. Zusätzlich zur Variablen kann die quadrierte Variable (=2. Potenz), die 3. Potenz usw. als Regressoren verwendet werden. So kann auch geprüft werden, ob die Linearität zur Erklärung der Beziehung ausreicht (Linearitätstest).
Beispiel: Bei den 13 Studenten wird hier zusätzlich zur linearen Funktion eine quadratische Funktion y = + 1x + 2x2 untersucht.
55 60 65 70 75 80 85 90 95170
175
180
185
190
195
x
y
Die Erweiterung auf mehrere Regressanden (‚abhängige Variablen‘, Prädikanden) wird in der statistischen Literatur
durchwegs als multivariate Regression (im Gegensatz zu univariat) bezeichnet
Zusätzlich auch:
Erweiterung auf Systeme von Gleichungen, Modelle mit latenten (=nicht explizit gemessene) und manifesten (=explizit gemessene) Variablen
Erweiterung auf mehrere Regressoren (Multiple Regression). In vielen Fragestellungen soll nicht nur ein einziger Prädiktor, sondern zugleich mehrere Prädiktoren berücksichtigt werden. Dabei wird der Prädiktions-Effekt jedes Prädiktors unter Berücksichtigung der andern (‚unter Konstanthaltung der andern‘) untersucht.
Erweiterung der Modellgleichungen
PEARSON-Korrelation zweier quantitativer MerkmaleFragestellung: Positiver oder negativer Zusammenhang zwischen zwei Merkmalen x und y?
Wie groß ist der Zusammenhang?
PEARSONs Korrelationskoeffizient = y) von bweichung(Standarda* von x)bweichung(Standarda
y und zwischen x KovarianzStichprobe:
yx
xyxy ss
s:r
yx
xyxy :
Population: rho
(griech. r)
-3 -2 -1 0 1 2 30
1
2
3
4
5
6
:s)1n( xy n1i ii )yy)(xx(
Geometrische Interpretation der Kovarianz: xys
Produkte als positiv bzw. negativ gepolte Flächen darstellbar.
ix
iy
524
213
4-12
1-21
i
Beispiel: 4 Punkte.
Mittelwerte:
y= 0 x= 3
)3y)(0x(ii
4-1-14
63 sxy =Falls positive Flächen überwiegen, wird die Flächensumme positiv (sonst 0 bzw. negativ)
Darstellung der Kovarianz als ‚arithmetisches‘ Mittel der Produkte (=Flächensumme /(n-1)).
-3 -2 -1 0 1 2 30
1
2
3
4
5
6-1 0 1
-1
0
1
-sx sx0
0
-sy
sy
0 1 2 3 4 5 60
1
2
3
4
5
6-1 0 1
-1
0
1
-sx sx0
0 1 2 3 4 5 60
1
2
3
4
5
6-1 0 1
-1
0
1
0
-sy
sy
-sx sx0
0 1 2 3 4 5 60
1
2
3
4
5
6-1 0 1
-1
0
1
0
-sy
sy
-sx sx0
0 1 2 3 4 5 60
1
2
3
4
5
6
0 1 2 3 4 5 60
1
2
3
4
5
6
0 1 2 3 4 5 60
1
2
3
4
5
6
-3 -2 -1 0 1 2 30
1
2
3
4
5
6
yxxyyx sssss Wegen kann die
Fläche in ein Rechteck (mit Grundlinie sx und Höhe sy) eingeschrieben werden.
Korrelationskeffizient = ‚standardisierte‘ Kovarianz = yx
xyxy ss
sr
2xyr Dieser Koeffizient ist die Wurzel aus dem Determinationskoeffizienten 2. Art (= ) bei der linearen Regression; er untersucht daher nur, ob ein linearer Zusammenhang besteht.
2xyr 1r1 xy yxxyyx sssss xys Da zwischen 0 und 1 liegt, liegt die Wurzel möglicherweise zwischen -1 und 1: , für die Kovarianz formuliert: .
0 1 2 3 4 5 60
1
2
3
4
5
6
0 1 2 3 4 5 60
1
2
3
4
5
6-1 0 1
-3
-2
-1
0
1
2
3
-sx sx0
0 -sy
sy
-2sy
-3sy
3sy
2sy
55 60 65 70 75 80 85 90 95170
175
180
185
190
195
55 60 65 70 75 80 85 90 95170
175
180
185
190
195-1 0 1 2
-1
0
1
0
-sy
sy
-sx sx0 2sx
Kontur-Darstellung Dichtef(x,y)
Beispiel: Bivariate Standard-Normalverteilung (x=0, x=0, x=1, y=1), xy ist hier =0.60.
Bivariate Dichtefunktion
=-0.40 = 0 = -0.99 = -0.80
Bivariate Dichtefunktion: Dichtefunktion zweier Merkmale
y
9
1 1
11
5
1
4
8
33
11
35 45 55 65 75 85 95 105145
155
165
175
185
195
155165
175185
195
85
4555 65 75
95
100*54*Dichtef(x, y)
x:Gewicht y:Größe
Bivariates Histogramm
x
Streudiagramm
Beispiel: Gewicht und Körpergröße für 54 Personen der Studentenuntersuchung (von den 55 Personen fehlt eine Größenangabe). Schon bei nur 54 Personen haben mehrere Personen gleiche x-y-Wertepaare.Klasseneinteilung beider Merkmale führt zu einem bivariaten Histogramm.
Anwendung bei der Darstellung von Stichproben: Zusammenfassen vieler Messwertepaare zu Klassen(bivariates Histogramm).
Im bivariaten Fall kann die Verteilung, die für alle Punkte (x,y) definiert wird, wiederum als Dichte dargestellt werden: f(x,y).
Bei diskreten Verteilungen wird die Dichte f(x,y) als Anteil an der Stelle (x,y) definiert (die Funktionswerte können als Stäbe dargestellt werden. Die Summe aller Stäbe = 1).
Bei stetigen Verteilungen werden die Anteile als Rauminhalte definiert. Die Dichte f(x,y) * Grundfläche ergibt den Anteil dieser in der Grundfläche enthaltenen (x,y)-Werte. Der Gesamtrauminhalt des dreidimensionalen Gebildes ist 1.
Anwendung bei der theoretischen Beschreibung: Bivariate Dichtefunktionen.
y
yy
x
xx
yz,
xz
mit: .
)zz2zz(
)1(2
1exp
1 2
1)y,x(f yxxy
2y
2x2
xy2xyyx
Beispiel: Bivariate Normalverteilung
Simulierte Wahrscheinlichkeitsverteilung
des z-transformierten Korrelationskoeffizienten
:
E( ) = .
Var( ) 1/6
z( )
z( )z( ) 04.054.0n) (z
1)-2(
= 0.50
Population: Bivariat Normal,hier:
standardnormalverteilt
-1 -0.5 0 0.5 1.00
0.2
0.4
0.60.8
1.0
1.2
1.4
1.6
-1 -0.5 0 0.5 1.0 1.5 2.00
0.10.20.30.40.50.60.70.80.91.01.1
r
-1 -0.5 0 0.5 1.0 1.5 2.0
-1 -0.5 0 0.5 1.0 1.5 2.0
-1 -0.5 0 0.5 1.0 1.5 2.0-1 -0.5 0 0.5 1.0
-1 -0.5 0 0.5 1.0
-3 -2 -1 0 1 2 3-3-1
13
-3 -2 -1 0 1 2 3-3
-11
3
-1 -0.5 0 0.5 1.0
-3 -2 -1 0 1 2 3-3-1
13
Sti
chpr
oben
(n=
9) 1.
2.
3.
.........usw......... .........usw......... .........usw.........
Zufallsauswahl
z(r)
Verteilung des Schätzers, Konfidenzintervalle und Tests
Simulierte Wahrscheinlichkeitsverteilung des Korrelationskoeffizienten
Verteilung des Korrelationskoeffizienten-SchätzersPopulation: bivariat normalverteilten mit Populationskorrelation Stichprobe mit n Messwertpaaren (x,y).
Falls = 0, ist Student-t verteilt mit df = n-2
2ˆ1
2nˆ
Falls 0, ist die Verteilung für schief verteilt (recht komplizierte
Verteilung). Der Schätzer ist nicht erwartungstreu; seine Varianz hängt stark von ab. Erst ab sehr großem n (>500) ist seine Verteilung durch die Normalverteilung annäherbar.
Korrelationberechnen
Verteilung bilden
Verteilung bilden
z-Transformation bilden
R. FISHER hat eine Transformation des Korrelations-koeffizienten gefunden, die schon bei relativ kleinen Stichproben normalverteilt wird.
FISHERs z-Transformation:ˆ1ˆ1
ln)ˆ(z21
r
Fishers z-Transformation
z(r)
-1 -0.8 -0.6 -0.4 -0.2 0 0.2 0.4 0.6 0.8 1.0-3
-2.5
-2.0
-1.5
-1.0
-0.5
0
0.5
1.0
1.5
2.0
2.5
3.0
Schon bei relativ kleinem n ist der Schätzer normalverteilt: ))ˆ(z(Var)),ˆ(z(ENV~)ˆ(z
Der Erwartungswert und die Varianz des z-transformierten Schätzers sind:
...
1)-8(n3211
1)-4(n5
1)-2(n 2
432
1 )(z))ˆ(z(E
...
1)-6(n3622
1)-2(n4
1-n 2
422
1 ))ˆ(z(arV 1
)ˆ(z Etwas simplifiziert (für größeres n):
3n1))ˆ(zVar(
)(z))ˆ(z(E 1)-2(n
3n1))r(zStf( Der approximative Standardfehler von z(r) ist daher:
Konfidenzintervall (approximativ):
für z() ))r(z(Stfz)r(z )1(
Körpergrößen-Beispiel: n=13 (eigentlich zu kleines n für die Approximation). Stf(r) 0.316.
)313/(1
0.73645734 1.96* 0.316 (0.12, 1.36)
95% Konfidenzintervall für z(): z(0.627) 1.96
für ))r(z(Stfz)r(z )1( 1z Fortsetzung: 95% Konfidenzintervall für : Das eben
berechnete Konfidenzintervall ist aus dem z-Bereich rückzutransformieren in den r-Bereich.
0.876
1.36
0.119
0.12
.Das Konfidenzintervall ist somit ( 0.119, 0.876)
Rücktransformation (Inverse Funktion zu z(r))
1e
1e))r(z(
z2
z2
r 1z
Test der Hypothese: = 0 (approximativ):
Die standardisierte Teststatistik)r(Stf
)(z)ˆ(zZ 0
ist Standardnormal verteilt: NV(0,1).
Beispiel (Fortsetzung): Die Menge der akzeptierbaren Hypothesen bei zweiseitigem Testen bei 5% sind: (0.119, 0.876)
Sei H0: = 0 (Korrelation=0). 0 0. z(0) = 0. r= 0.627.
z(0.627)= 0.73645734. Nach Formel (z(0.627)- z(0)) / Stf(r ) 0.73645734 / 0.316 2.3272.
Test der Hypothese: = 0 (exakt)
Unter H0: = 0, ist T= Student-t verteilt2ˆ1
2nˆ
mit df = n-2
Beispiel (Fortsetzung): Da n hier klein ist, sollte für den Test der Hypothese = 0 der exakte Test angewandt werden.
)627.01/()213( 2627.0t = 2.67. Anzahl Freiheitsgrade = 11.
0.119.
0.876.
)0.12(1z
)1.36(1z
Häufigkeitskreuztabelle: in den Zellen stehen die Häufigkeiten: nij (Anzahl der UEen, die im x-Merkmal die i. und in y die j. Ausprägung haben).
Die Kreuztabelle ‚kreuzt‘ x und y: Die Zelle ij betrifft UEen, die in x den Wert xi und in y den Wert xj haben: x=xi y=yj , bzw. (x=xi, y=yj).
Alle Häufig-keiten durch n dividieren
Alle Anteile mit n
multiplizieren
Das x-Merkmal hat I Ausprägungen: x1, x2, ... ,xI, das y-Merkmal hat J Ausprägungen: y1, y2, ... , yJ.
nnJ.nj.n1
nInIJ.nIj.nI1xII........
niniJ.nij.ni1xii
........
n1n1J.n1j.n11x11
.yJ.yj.y1
Jj1y-Merkmal
x
Mögliche Aussage: Wer jüngere Geschwister hat, bindet sich früher.
Mögliche Aussage: Wer jüngere Geschwister hat, präferiert Gleichheit.
Mögliche Aussage: Höhere Ausbildung des Vaters senkt die Angst vor Prüfungen.
Aussage: ‚Die Ehemänner sind besser als bzw. gleich ausgebildet wie ihre Frauen‘.
Beispiel: Ausbildung des Vaters und der Mutter.
Vater
15258
5230Abi u.m.5023höhere S. 5005Volks-S.
Abi u. m.
höhere Schule
Volks-schule
MutterAusbildung
Beispiel: Vaterausbildung und Angst vor Prüfungen
1037
321Abi u.m.312höhere S. 404Volks-S.
neinjaAngst vor Prüfungen
Beispiele: ‚Jüngere Geschwister haben‘
und Familienstand.
16511743ja918nein
nicht ledig
ledigFamilienstand
und Gleichheit vs. Freiheit
144556204ja8251nein
F vor G
egalG vor F
Kreuztabellen, Anteile
Der über Summieren ‚eliminierte Index‘ wird durch einen Punkt ersetzt.
Die Randhäufigkeiten für xi sind jeweils die Summen der Häufigkeiten über die y-Ausprägungen. J
1j iji n:n
Vs
hS
Abi
janeinjaneinjanein
0.40
0.30
0.30
1
0
2/3
1/3
1/3
2/3
0.40
0
0.20
0.10
0.10
0.20
AngstAusbildung
Darstellung in Baumdiagramm-Form
1pJpjp1
pIpIJ.pIj.pI1xI
......
pipiJ.pij.pi1xi
......
p1p1J.p1j.p11x1
yJ.yj.y1
Gemeinsame Anteile und Randanteile
iij pp j ip
i
ij
p
pj ip
j
ij
pp
j ip
jij pp j ip
10.300.70
0.300.200.10Abi+0.300.100.20hS. 0.4000.40VS.
neinja
Gem. Anteile für Ausbildung und Angst ja
nein
VshSAbiVshSAbi
4/7
2/7
1/7
0
1/3
2/3
0.40
0
0.20
0.10
0.10
0.20
Angst Ausbildung
0.70
0.30
Randanteile
0.300.300.40
AbihSVS
0.300.70
neinja
0.300.70
neinja
0.300.300.40
AbihSVSRandanteile
*
*
*
*
Schreibweisen:= pij = p( x=xi , y=yj)
Anteil der Fälle mit der i. x-Ausprägung und der j. y-Ausprägung bei allen.
jy
ixp = p( x=xi | y= yj )
Anteil der Fälle mit i. x-Ausprägung bei jenen, die die j. y-Ausprägung haben.
j ipyx
j ip =
0.300.702/31/7Abi+1/32/7hS. 04/7VS.
neinja
Angstbedingte Ausbildungs-Anteile
y-Bedingte Anteile für x
pJp jp1
..xI
......
..xi
......
..x1
yJ.yj.y1
j 1p
J 1p
11p
j Ip
J Ip
1Ip
j ip
J ip
1ip
pI ..xI
......
pi .xi
......
p1..x1
yJ.yj.y1
x-Bedingte Anteile für y
1 1p
j1p
J 1p
1 Ip
jI p
J Ip
1 ip
jip
J ip
0.300.670.33Abi+0.300.330.67hS. 0.4001.00VS.
neinja
Ausbildungsbedingte Angstanteile
Bedingte Anteile (Bedingung x= xi bzw. y= yj)
0
0.2
0.4
0.6
0.8
1.0
Abi
hS
VS
0 0.2 0.4 0.6 0.8 1.0
ja nein
0 0.2 0.4 0.6 0.8 1.0
ja nein
Gesamt
ja nein
ja nein
Beispiel: Ausbildung des Vaters und Angst.
P(X=xI)
P(X=x1)P(Y=y1 | X=x1)
P(Y=yJ | X=x1)
P(Y=yJ | X=xI)
P(Y=y1 | X=xI)
bedingte W‘ten
*
*0
0.2
0.4
0.6
0.8
1.0
Abi
hS
VS
0 0.2 0.4 0.6 0.8 1.0
ja nein
0 0.2 0.4 0.6 0.8 1.0
ja nein
Gesamt
ja
ja nein
1.00
0.33
0.670.33
0.67
0.40
0.20
0.100.20
0.10
Rand-anteile
0.30
0.30
0.40
0.70 0.30
0.300.670.33Abi+0.300.330.67hS. 0.4001.00VS.
neinja
Ausbildungs-bedingte
Angstanteile Rand-anteil
Strukturiertes Staffeldiagramm (in horizontaler Form)Im strukturierten Staffeldiagramm (auch Mosaic-Plot genannt)
können die Randanteile, die bedingten Anteile und gemeinsamen Anteile (als Fläche) dargestellt werden.
Im horizontalen Mosaic-Plot: Für jede x-Ausprägung eine Schicht in Höhe der Randanteile. In jeder Schicht Staffeln für jede y-Ausprägung in der Länge der
bedingten Anteile eintragen. Die entstehenden Flächen sind die gemeinsamen Anteile..
PopulationsbeschreibungDie Anteile in der Population sind die Parameter: . (statt der p‘s für die Stichprobe nun ‘s ).
Wahrscheinlichkeitsaussagen für das zufällige Ziehen einer U-EinheitAlle möglichen Ergebnisse können durch die beiden Zufallsvariablen X und Y beschrieben werden. Mit Hilfe der beiden Zufallsvariablen können diverse Wahrscheinlichkeitsaussagen formuliert werden können., etwa:
P(X=xi, Y=yj) P(X=xi)
P( Y=yj )
W‘t, dass zufällig eine U-Einheit gezogen wird, für die gilt:
(x = xi ) (y = yj ) x = xi
y = yj
i j i
j=
4 Erbsensorten (rund-gelb (=11), rund-grün(=12), eckig-gelb(=21), eckig-grün(=22)) im Verhältnis:
9:3:3:1
Beispiel: Mendel-Population
11 12
2221
P(X=x1 , Y=y1)
P(X=x1 , Y=yJ)
P(X=x1 , Y=y1)
P(X=x1 , Y=yJ)
gemeinsame W‘ten
P(Y=yJ)
P(Y=y1)
P(X=xI)
P(X=x1)Randwahrscheinlichkeiten
Mit Hilfe der Populationsparameter formuliert: i j = i * j (Anteilsunabhängigkeit der Merkmale x und y in der Population)
könnten für die Stichprobe folgende gemeinsamen
Anteile erwartet werden: ei j = pi * pj und ei j pi j .
In der Stichprobe: Falls in der Population Unabhängigkeit gilt,
sollten in der Stichprobe alle bedingten Anteile etwa gleich groß wie die Randanteile sein * pj .
j ip
=
?
==
=
Graphische Darstellung
Vs
hS
Abi
janeinjaneinjanein
0.40
0.30
0.30
1
0
2/3
1/3
1/3
2/3
0.40
0
0.20
0.10
0.10
0.20
AngstAusbildung
Baumdiagramm
0.300.70
neinja
0.300.300.40
AbihSVSRand-
anteile
P(X=r, Y=ge)
P(X=r, Y=gr)
P(X=ei, Y=ge)
P(X=e, Y=gr)
Wahrscheinlichkeitenfür die Zufallsvariablen Form: X und Farbe: Y
W7
W9
W6
W8
W5
W2
W4
W3
W1
Zufallsauswahl
Verteilung bilden
Definition: (Stochastische) Unabhängigkeit der Zufallsvariablen X und Y:
X und Y sind unabhängig, genau dann wenn P(Y = yj | X=xi) P(Y= yj) für alle yj und xi
d.h. die bedingten W‘ten sind gleich den entsprechenden Randwahrscheinlichkeiten=
P(Y=y1)
P(Y=yJ)
P(Y=y1)
P(Y=yJ)
x1
xI
X
y1
y J
Y
y1
y J
Y
*
*
0.30
0.30
0.40
0.70 0.30
Rand-anteile
0.28
0.21
0.21 0.09
0.09
0.12
0.70
0.70
0.70
?=
d.h.: Die gemeinsamen W‘ten sind gleich dem Produkt von Randwahrscheinlichkeiten
Unter Verwendung der Multiplikationseigenschaft der kann die Unabhängigkeit von X und Y auch so definiert werden: P(X= xi ,Y= yj) = P(X= xi)*P(Y= yj)
0 1 2 3 4 5 6 7 8 90
0.1
0.2
0.3
0.4
0.5
0
0.2
0.4
0.6
0.8
1.0
Abi
hS
VS
0 0.2 0.4 0.6 0.8 1.0
ja nein
0 0.2 0.4 0.6 0.8 1.0
ja nein
Gesamt
ja
ja nein
Rand-anteile
0.40
0.20
0.20
0.10
0.100.30
0.30
0.40
0.70 0.30
10.300.70
0.300.200.10Abi+0.30.100.20hS.
0.4000.40VS. neinja
Reale gem. Anteile für Ausbildung und Angst
0
0.2
0.4
0.6
0.8
1.0
Abi
hS
VS
0 0.2 0.4 0.6 0.8 1.0
ja nein
0 0.2 0.4 0.6 0.8 1.0
ja nein
Gesamt
ja nein
ja nein
0.28
0.21
0.21 0.09
0.09
0.12
0.70 0.30
0.30
0.30
0.40
10.300.70
0.300.090.21Abi+0.30.090.21hS. 0.400.120.28VS.
neinja
Unter H0 erwartete gem. Anteile für Ausbildung und Angst
Rand-anteile
Chi**2 Test auf Unabhängigkeit
Nullhypothese: Die beiden Merkmale sind unabhängig1
Konstruktion des Tests
=ij ji für alle Zellen ij
pi
Teststatistik. 2 Die Randanteile der Population werden in der Stichprobe geschätzt durch und .jpp
i Für jede Zelle kann der gemeinsame Anteil berechnet werden, der unter Geltung von
H0 zu erwarten wäre: eij = (= Produkt der Randanteile)jp Der Unterschied zwischen den realen gemeinsamen Anteilen und den unter H0
erwarteten gemeinsamen Anteilen wird nun berechnet:
PEARSON Chi**2
I
1i
J
1j ij
2ijij2
) ( nP
eep
I
1i ij
ijJ
1jij
2
ln n2LR
ep
pLikelihood-Ratio Chi**2
Wird manchmal auch G2 genannt.
Bei Approximation für P2 sollte gelten: n eij 5, durchschnittliche Anzahl pro Zelle 1.
Testverteilung: unter H0 sind P2 bzw. LR2 approximativ (n groß) 2(df)- verteilt mit df = (I 1)(J 1).
3
Bei Approximation für G2 sollte gelten: durchschnittliche Anzahl pro Zelle 5.
Kritischen Bereich festlegen (hier wird nur P2-betrachtet, gilt aber auch für G2):
Bedeutung der H0 in Teststatistikwerte übersetzen: Ist H0 exakt richtig, müsste P2 =0 sein.
4
aExtrempositionen der Teststatistik bestimmen, bei denen H0 auf jeden Fall abgelehnt werden soll (zugunsten von Ha): bei sehr großem P2-Wert. b
Bei 2 Freiheitsgraden ist der kritische Bereich 5.99
Kritische Bereich: Von den Extrempositionen her nun untersuchen, wie weit sich der Ablehnungsbereich nach innen erstreckt (bis Fläche in der Testverteilung = (= 0.05) ist.
cEPKritischer Bereich
= 0.05
Durchführung des Tests 1. Stichprobe ziehen Ausbildung und Angst-Beispiel, n ist hier eigentlich zu klein für.
2. Teststatistik für die Stichprobe berechnen LR2 = 4.579.
3. Entscheidung. Wenn Teststatistik im kritischen Bereich liegt, wird H0 abgelehnt. Nullhypothese wird nicht abgelehnt, da der Testwert nicht im KB liegt.
LR2 = -2*10(-0.2289558) = 4.579
P2 = 10*0.36507 = 3.6507
(3 Zeilen, 2 Spalten), df = (3 1)(2 1) = 2
Einfachere Berechnung von P2
P2 =
1
n
I
1i
J
1j ij
2ij
e
pGenerell:
1p2p1
p2p22p21x2
p1p12p11x1
y2y1
Vierfelder-Tabelle
Spezialfall: Vierfelder-Tabelle
P2 =
2 1 2 1
221 12 22 11
n
p p ppp p pp
Zähler: Quadrat der ‚Kreuzprodukt‘-Differenzen.Nenner: Produkt aller Randanteile
H0
Normierte Maßzahlen, z.B. zwischen 0 (= kein Zusammenhang) und 1 (=starker Zusammenhang) liegende Maße.Bei qualitativen Merkmalen kann i. a. keine Richtung des Zusammenhangs definiert werden (Ausnahme: Dichotome Merkmale).
Gesucht:
P2 so zu normieren, dass die normierten Werte möglichst zwischen 0 und 1 liegen.Zwei Lösungsansätze: PRE-Maß-Konzepte für qualitative Merkmale.
1
I
1i
J
1j ij
2ij
e
pDirekt auf Grund der Anteile
2 = P2 =
1
n
I
1i
J
1j ij
2ij
e
pGenerell:
Wegen:
n
P 22 Phi-Quadrat (= )
2 1)J,I(min0 2 Die kleinere der beiden: Spalten- bzw. Zeilenanzahl
K
CRAMERs v2: 2
2v
K
1v0 2
)1J)(1I(
22t
1)J,I(1
max2t0 TSCHUPROWs t2
Korrigiertes PEARSONs c2 1c0 2
k 1 22
k cc KK
0.300.70
0.200.10Abi+0.100.20hS.
00.40VS. neinja
Gem. Anteile für Ausbildung und Angst
Ry(MIT x): Modalwerte (pro x-Ausprägung) werden prädiziert: Wenn VS, dann Angst ‚ja‘; hS ja; Abi+ nein.
Ry(OHNE x): Modalregel: Immer (OHNE x zu berücksichtigen) y = ja. (Denn: Modalwert in der Randverteilung = ja).
Der Prädiktionsfehler kann durch die Berücksichtigung von x um 33% reduziert werden.
= (0.30 – 0.20) / 0.30 0.33 .
PEARSONs c2 (Kontingenzkoeffizient) 2
22
1c
1
2c0 K
K
PRE-Maße für qualitative Merkmale
Die Regeln prädizieren die Modalausprägung; Fehlermaß ist der Anteil (bzw. Anzahl) der Fehlprädiktionen in einem Prädiktionsscenario. GOODMANs Lambda(=).
Erstellen einer Prädiktionsregel für y, die das x berücksichtigt.
Allgemeine PRE-Maß Konstruktionsschritte:
Ry(MIT x)
Speziell für Lambda ()
y-Modalausprägung für jede x-Ausprägung
Summe der gem. Anteile in den ‚Fehlerzellen‘ (das sind die Zellen, die nie prädiziert werden) Fy(MIT x)
Fehlerzellen sind alle Zellen, die nicht Modalzellen sind. Fehlermaß definieren. Fy(MIT x) ist die Summe der gem. Anteile in den Fehlerzellen: = 0 + 0.10 + 0.10 = 0.20
Prädiktionsregel für das y, die x NICHT berücksichtigt.
Ry(OHNE x) y-Modalausprägung in der y-Randverteilung
Fehlermaß definieren. Fy(OHNE x) ist die Summe der Randanteile in den Fehlerzellen: 0.30Fy(OHNE x) Summe der Randanteile in den ‚Fehlerzellen‘ (das sind die Zellen, die nicht prädiziert werden)
.PRE ,In %: Prozentuale Fehlerreduktion mit Hilfe von x.
-Fy(OHNE x)
Fy(OHNE x)Fy(MIT x)
= bei dieser Definition der
Regel und des Fehlers wird PRE ‚lambda‘ genannt:
Normierungen von P2
Zusammenhangsmaße für qualitative Merkmale
y-Randverteilung
1p2p1
p2p22p21x2
p1p12p11x1
y2y1Vierfelder-Tabelle
Spezialfall: zwei dichotome Merkmale
Direkte Berechnung von
= 2121
21122211
p p ppp p pp
11
=1=0
=1
=0
Wenn beide Merkmale zusätzlich dummy codiert werden, gilt zudem:
= PEARSON-Korrelationskoeffizient rxy. (falls die Korrelation mit den dummy codierten x bzw. y Variablen berechnet würde).
)1 ip
J ip,...,max(1
:md(y)i
Als Fehlermaß für GOODMANs Lambda wurde das Streuungsmaß: Modaldispersion verwendet;
PRE: Proportionale Fehler-reduktion mit Hilfe von x:
-Fy(OHNE x)
Fy(OHNE x)Fy(MIT x)
bei dieser Definition der des Fehlers wird PRE
‚lambda‘ genannt:
x-bedingte Anteile für y
yJ.yj.y1
pI xI
......
pi .xi
......
p1..x1 1 1p
j1p
J 1p
1 Ip
jI p
J Ip
1 ip
jip
J ip
Randanteile für die i.
Bedingung
Ausbildungs-bedingte Anteile
für Angst
0.300.670.33Abi+
0.300.330.67hS.
0.4001.00VS.
neinja
Aus
bild
ung
pJpjp1
yJ.yj.y1
y Randanteile Angst Randanteile neinja
0.300.70
J)pln( jp j1j
Entropie(in nits)
:)y(h
i1
2
3 Abi+
hS.
VS.
qv(y)i
1 ip
J ip )...(1 22
:
4/9
0
qv(y)i
4/9
jip ji
p )ln(J
1j:h(y)i
i1
2
3 Abi+
hS.
VS.
0.6365
0
h(y)i
0.6365
)p,...,pmax(1 .J.1
Modaldispersion
:)y(md
0.30 *
0.30 *
0.40 *
pi *
Fy(OHNE x) =1 – 0.70 = 0.30 -( -0.361 – 0.25) = 0.611
Fy(MIT x) =
0.20 0.266 0.382
bei dieser Definition der des Fehlers wird PRE
‚tau‘ genannt:
bei dieser Definition der des Fehlers wird PRE
‚PRU‘ genannt: PRU
= (0.42 – 0.266) / 0.42 0.357 .
PRU= (0.611 – 0.382) / 0.611 0.37 .
i1
2
3 Abi+
hS.
VS.
1/3
1/3
0
md(y)i
0.30 *
0.30 *
0.40 *
pi *
iI
1i(y)qvp i
I
1i ih(y)ip
Berechnen von Fy(MIT x)mit Hilfe der zeilen-bedingten Anteile
Dieses Fehlermaß kann durch andere Streuungsmaße für qualitative Merkmale ersetzt werden: durch die Qualitative Varianz bzw. Entropie.Das PRE-Maß zur Qualitative Varianz heißt ‚tau‘, das PRE-Maß zur Entropie heißt ‚PRU (=proportionale Reduktion der Unsicherheit).
PRE-Maße für qualitative Merkmale, Fortsetzung
i
I
1i)y(mdpi
0.30 *
0.30 *
0.40 *
pi *
= (0.30 – 0.20) / 0.30 0.33 .
Qualitative Varianz
:)y(qv )p...p(1 2J.
21.
1 – (0.49+0.09) = 0.42
Ende
Größen/Farbtest12 Punkt
11 Punkt
10 Punkt
9 Punkt
8 Punkt
12 Punkt
11 Punkt
10 Punkt
9 Punkt
8 Punkt
7 Punkt
12 Punkt
11 Punkt
10 Punkt
9 Punkt
6
12 Punkt
11 Punkt
10 Punkt
9 Punkt
12 Punkt
11 Punkt
10 Punkt
9 Punkt
8 Punkt
7 Punkt
6 Punkt
12 Punkt
11 Punkt
10 Punkt
9 Punkt
8 Punkt
7 Punkt
6 Punkt
12 Punkt
11 Punkt
10 Punkt
9 Punkt
8 Punkt
7 Punkt
6 Punkt
12 Punkt
11 Punkt
10 Punkt
9 Punkt
8 Punkt
7 Punkt
6 Punkt
12 Punkt
11 Punkt
10 Punkt
9 Punkt
8 Punkt
7 Punkt
6 Punkt
12 Punkt
11 Punkt
10 Punkt
9 Punkt
8 Punkt
7 Punkt
6 Punkt
12 Punkt
11 Punkt
10 Punkt
9 Punkt
8 Punkt
7 Punkt
6 Punkt
12 Punkt
11 Punkt
10 Punkt
9 Punkt
8 Punkt
7 Punkt
6 Punkt
12 Punkt
11 Punkt
10 Punkt
9 Punkt
8 Punkt
7 Punkt
6 Punkt
12 Punkt
11 Punkt
10 Punkt
9 Punkt
8 Punkt
7 Punkt
6 Punkt
12 Punkt
11 Punkt
10 Punkt
9 Punkt
8 Punkt
7 Punkt
6 Punkt
12 Punkt
11 Punkt
10 Punkt
9 Punkt
8 Punkt
7 Punkt
6 Punkt
12 Punkt
11 Punkt
10 Punkt
9 Punkt
8 Punkt
7 Punkt
6 Punkt
12 Punkt
11 Punkt
10 Punkt
9 Punkt
8 Punkt
7 Punkt
6 Punkt