methoden der psychologie multivariate analysemethoden und multivariates testen günter meinhardt...
TRANSCRIPT
Methoden derPsychologie
Multivariate Analysemethodenund
Multivariates Testen
Günter MeinhardtJohannes Gutenberg Universität Mainz
Weisst du, wieviel Sternlein stehen An dem blauen Himmelszelt?Weisst du, wieviel Wolken gehenWeithin über alle Welt?(W. Hey, zit. nach N. Wiener, Cybernetics, Control and Communicationin the Animal and the Machine)
23.04.2007 & 30.04.2007 & 07.05.2007
Methoden derPsychologie
Vorlesung
Multivariate Analysemethoden & Multivariates Testen
Verfahrensdarstellung in
• Überblick • Grundprinzip• wichtigsten mathematischen Beziehungen• Anwendungsbeispielen
Übung• Vertiefung mit Anwendungsbeispielen• Arbeiten an 3 Project Files
Prüfung Kenntnisse aus WS2006/07 & SS2007
• Freischussklausur: 03.08.2007• Abschlussklausur: 19.10.2007
Methoden derPsychologie
Einführung
Multivariate Analysemethoden & Multivariates Testen
Prinzipien des inferenzstatistischen Schliessens
• Konfidenzintervalle • multivariate Mittelwertsvergleiche• multivariate Varianzanalyse (MANOVA)Verfahren • Logistische Regression• Korrespondenzanalyse• Conjoint Measurement
Versuchspläne
Typische Designs aus• Allgemeine Experimentelle Psy. (Project File 1)• Klinische Psy. (Project File 2)• AOW (Project File 3) Ziele • Wissen über statistische Verfahren• Wissen über Untersuchungsstrategien• Umsetzung mit Software
Methoden derPsychologie
Literatura) b)
c) d)
Multivariate Analysemethoden & Multivariates Testen
Johnson/Wichern Backhaus
Bortz Winer
Methoden derPsychologie
Sampling - Modellvorstellung
Prinzipien des statistischen Schliessens
Population
• Herleitung der Kennwerte-Verteilung (Sampling – Distribution) und Beschreibung ihrer Parameter.• Methoden zur Schätzung der Parameter aus Stichprobendaten• sowohl für univariate, als auch für multivariate Kennwerteverteilungen
SamplingStichprobe
x
Kennwerte
TheoretischeStatistik
Welche Verteilung von Kennwerten wird sich ergeben,Wenn man den Sampling Vorgang unendlich oft wiederholt?
Methoden derPsychologie
Sampling - Modellvorstellung
Univariate - Verteilung der Stichprobenmittelwerte
Sampling Distribution (1D)
k- maliges Samplen von Stichproben derselben Größe n und Berechnen der Stichprobenmittelwerte führt auf eine Verteilung von Stichprobenmittelwerten (Sampling – Distribution)
Population
Stichprobe des Umfangs nx
Bilde Mittelwert
1. - mal:
2. - mal:
1x
2x
kxk. - mal:
1 1 kx x x
Methoden derPsychologie
Sampling - Modellvorstellung
Erwartungstreue
Population
k - Stichproben des Umfangs n
Mittelwerte
„Sampling Distribution“
Erwartungswert
E x Erwartungswert
E x
Die Sampling Distribution hat denselben Erwartungswert wie die Population, aus der die Stichproben gezogen wurden. Schätzstatistiken, die denselben Erwartungswert haben wie die Population, heissen erwartungstreu.Stichprobenmittelwerte sind erwartungstreue Schätzungen des Populationsparameters
x 1 1 kx x x
Verteilung von Stichprobenmitteln
Univariate - Verteilung der Stichprobenmittelwerte
Methoden derPsychologie
Sampling - Modellvorstellung
Erwartungstreue:
Population
k - Stichproben des Umfangs n
Varianz
Die Stichprobenvarianz unterschätzt die Populationsvarianz tendenziell: Stichprobenvarianzen sind keine erwartungstreuen Schätzungen des Populationsvarianz 2
2s 2 2 21 2 ks s s
Verteilung von Stichprobenvarianzen
Varianz2
2 2
21
Bias E s
n
2 2
2 2
1
1
nE s
n
n
Univariate - Verteilung der Stichprobenmittelwerte
Methoden derPsychologie
Sampling - Modellvorstellung
Erwartungstreue:
Bias-Faktor
Die Stichprobenvarianz berechnet aus korrigiertem Umfang n-1 ist eine erwartungstreue Schätzung der Populationsvarianz
2 2 2 2 21xE s
n
Der Bias bei der Schätzung der Pop.Varianz aus der Stichprobenvarianz ist die Varianz der Stichprobenmittelwerte.
2 2 2 21 1nE s
n n
22 2
1
1ˆ
1 1
n
ii
ns x x
n n
Univariate - Verteilung der Stichprobenmittelwerte
Methoden derPsychologie
Central LimitTheorem
Die Verteilung von Sampling-Mittelwerten nähern sich mit wachsendem Umfang der Sample-Stichproben einer Normalverteilung an. Für n > 30 ist die Approximation schon gut.
0.00
0.05
0.10
Wah
rsch
ein
lich
keit
sdic
hte
x
f x
x
xxxx
Es gilt:
E x E x 1.
popx
n
2.
TheoretischeSamplingDistribution
Die theoretische Sampling Distribution ist die Grundlage des statistischen Schliessens. Aussagen über den Zusammenhang von Stichprobenmittelwerten und Populationen werden mithilfe dieser Verteilung gewonnen (Inferenzstatistischer Schluss).
Univariate - Verteilung der Stichprobenmittelwerte
Methoden derPsychologie
Konfidenz-Intervalle
z- Verteilung
Univariate - Verteilung der Stichprobenmittelwerte
Anwendung
WK-Aussagen
1 / 2 1 / 2 1x xP x z x z
1 / 2 1 / 2 1x xP z x z 2.
1.
1. Man habe einen Mittelwert aus einer Stichprobe der Größe n vorliegen. In welchem Bereich um den Mittelwert kann man den Populationsparameter mit der Wahrscheinlichkeit 1- erwarten?
2. Der Populationsparameter sei bekannt. In welchem Bereich um ihn liegen Mittelwerte mit der Wahrscheinlichkeit 1-?
0x
xz
0 01P z z z
Mit der Verteilungsfunktion der Standardnormalverteilung. Für n < 50 sollte die t- Verteilung mit df = n – 1 verwendet werden.
Methoden derPsychologie
t - und F-Test
t2 – F- Äquivalenz
Univariate - Verteilung der Stichprobenmittelwerte
Hypothesen
Eine zweiseitige Wahrscheinlichkeitsbestimmung auf der t – Verteilung ist der (grundsätzlich einseitigen) Wahrscheinlichkeitsbestimmung auf der F - Verteilung äquivalent.
H0: H1:
0
ˆ /
xt
n
;2 1 t dfP t t t
1df n mitEs gilt
2
1;df dft F
Test- Äquivalenz:
Äquivalenz von t- und F- Test
Bemerke: 2
12 200 0ˆ
ˆ /
xt n x x
n
Methoden derPsychologie
Multivariates t
Hotelling’s T 2
Multivariate - Verteilung der Stichprobenmittelwerte
Vektoren
ein p 1 Mittelwertevektor
1
2 10 0 0 0
1 ˆ ˆT nn
x μ Σ x μ x μ Σ x μ
mit
x
Definition
ist verteilt wie
;
1p n p
n pF
n p
ein p 1 Mittelwertevektor0μ
Σ die Sample Varianz-Covarianz Matrix mit Korrektur n -1
1
1ˆ1
n
i ip p
in
Σ x x x x
11
1 n
ip
in
x x
x der Daten-Zentroid
0μ angenommener Zentroid
Verteilung T 2 2T
wenn die Stichprobe einer multivariat normalverteilten Grundgesamtheit entnommen ist.[JW-Beispiel-5.1]
Methoden derPsychologie
F- Test
Multivariate - Verteilung der Stichprobenmittelwerte
Sei
1
;
1ˆp n p
n pP n F
n p
x μ Σ x μ
1 2, , , nx x x ein Sample aus einer ,pN μ Σ
Verteilung T 2
Population
so gilt
für jedes angenommene μ egal, wie das wahre μ und Σ sind.
Konfidenz-Ellipsoide
Man lehnt die H0: daher auf Signifikanzniveau ab, wenn
2 1
0 0 ;
1ˆp n p
n pT n F
n p
x μ Σ x μ
Gleichzeitig definiert die Distanzbedingung
1
;
1ˆp n p
n pn F
n p
x μ Σ x μ
in einem p-variat normalverteilten Ellipsoid Konfidenzregionen, die man für jedes angenommene um x für ein spannen kann.[Beispiele]
Methoden derPsychologie
MultivariateCentral LimitTheorem
n x μ
Regel Für n < 50 ist die Voraussetzung der multivariaten Normalverteilung in der Stichprobe jedem Falle zu prüfen, und die T2 Statistik heranzuziehen. Bei grösseren Stichproben kann direkt die 2 Statistik angewendet werden. In jedem Fall sollte eine Ausreißerbehandlung durchgeführt werden.
Multivariate - Verteilung der Stichprobenmittelwerte
Sei
1 2, , , nx x x eine Stichprobe aus einer Population mit Erwartungsvektor Σ
ist approximativ
und Varianz-Covarianz Matrix μDann gilt
0,pN Σ
und
1ˆn x μ Σ x μ ist approximativ2p
wennn – p groß ist.
verteilt
Methoden derPsychologie
Simultane univariate Konfidenzregionen um Mittelwert
univariat
Konfidenz-region im Ellipsoid
1 2
;
1ˆp n p
n pn c F
n p
x μ Σ x μ
(1-) Konfidenzregion für in der bivariat normalverteilten Sampling-Distribution, die um gespannt ist.x
[Beispiele]
x
xx xx 2 xx 2 xx [ ]
multivariat(p=2)
ˆi i iΣe e
1
21c
n
Länge =
Länge =1
2
x
x
2c
n
Methoden derPsychologie
Univariates CI
SimultaneKonfidenzIntervalle
Σ
Ein (1-) Konfidenzintervall für eine Variablenkomponente wird im Kontext aller p univariaten Konfidenzaussagen betrachtet.
Das univariate Konfidenzintervall (CI)
1 / 2; 1
ˆ jj nx t
n
ˆ ˆj jj
das jj-te Element von
führt im Kontext aller p- möglichen Vergleiche zu einem inflationierten- Fehler und damit zu falschen, progressiven Entscheidungen.
Konfidenzintervalle pro Variablenkomponente, die alle möglichen Vergleiche auf einem (overall) -Niveau absichern, lauten
;
ˆ1
ˆ
jj p n p
jj
n pCI x F
n p n
x cn
Simultane CIs definieren die Bounding-Box der CI-Ellipse.
Simultane univariate Konfidenzintervalle
Methoden derPsychologie
Simultane univariate Konfidenzintervalle
Simultane CIs
Overall
Die simultanen CIs sind konservativ, und können durch eine Approximation für unabhängige Variablenachsen ersetzt werden.
Im simultanen Kontext kann die - Fehler Inflation durch Wahl eines neuen Niveaus für jeden Einzeltest für ein gewünschtes overall kompensiert werden. Es gilt für ein vorgegebenes overall
Konfidenzintervalle pro Variablenkomponente werden durch Wahl eines neuen -Niveaus alle auf einem (overall) -Niveau abgesichert.
all comparisons true 1 1p
P p
BonferroniApproximation
1 1 1
1 1
p
p
p
p
1/1 1
p
p
CI 1 /(2 ); 1
ˆ jj a p nCI x t
n
Methoden derPsychologie
Vergleich derCIs
2D Konfidenzregionen und 1D Konfidenzintervalle ermöglichenverschiedene Entscheidungen, je nachdem, ob Paarungen vonMittelwerten (Centroiden) oder einzelne Mittelwerte interessieren.Zu beachten ist, dass im multivariaten Kontext Aussagen für eineAchse strenggenommen nie ohne Berücksichtigung des Wertes auf den anderen Variablenachsen gemacht werden können (Bounding-Box und Bonferroni-Box hat immer mehr Fläche als die CI-Ellipse)
CI-Aussagen
Univariate - Multivariate – Konfidenzregionen
0.50
0.55
0.60
0.65
0.70
0.50 0.55 0.60 0.65 0.70
x1
alpha-CE
DataCentroid
ProbeCentroid
x2 Simultanes CI
Bonferroni
1D (falsch)
Methoden derPsychologie
Sample
Meßeinheiten
Univariate und multivariate Mittelwertevergleiche
Multivariate Mittelwertsvergleiche sind die direkte Entsprechung zu univariaten Vergleichen. Es gelten dieselben Prinzipien, lediglich angewendet auf Centroid-Vektor und Varianz-Covarianz Matrix.
Test-Statistik
Sampling-Distribution
univariat multivariat
unabhängig abhängig unabhängig abhängig
Differenzen von
Mittelwertengepoolte Varianzen
Mittelwerte von
Differenzen
Differenzvektor von
CentroidenGepoolte
Var-Covar Mat.
Centroidevon
Differenz-vektoren
t t T2 T2
Methoden derPsychologie
Hypothese
Univariate Mittelwertevergleiche
t- Test für unabhängige Stichproben
0x
H0: Der Erwartungswert der Differenzen von Mittelwerten ist Null
1 1 0:H 0 1 0:H (ungerichtet)
SamplingDistribution
0.00
0.05
0.10
Wah
rsch
ein
lich
keit
sdic
hte
x
f x
x
2 x x 2 x x
Es gilt:
1. 0x 2. x wird geschätzt aus
beiden Stichproben 3. x ist t- verteilt.
[t-Test ausführlich?]
Methoden derPsychologie
Statistik
Univariate Mittelwertevergleiche
t- Test für unabhängige Stichproben
Prüfgrösse t- verteilt mit n0 + n1 – 2 FreiheitsgradenEntscheidung:
oder
x
xt
2
0 1
1 1ˆx pooled n n
;1 / 2dft t Ablehnung von H0,sonst Beibehaltung
P t t Ablehnung von H0,sonst Beibehaltung
Voraussetzung
1. Für n0 + n1 < 50 normalverteilte Stichprobendaten2. Homogene Stichprobenvarianzen3. Unabhängige Messeinheiten innerhalb und zwischen den
Samples.
a) Krit. t-Wertb) Überschreit- ungs-WK
Methoden derPsychologie
Hypothese
Univariate Mittelwertevergleiche
t- Test für abhängige Stichproben
0
H0: Der Erwartungswert der Mittelwerte von Differenzen ist Null
1 1 0:H 0 1 0:H (ungerichtet)
SamplingDistribution
0.00
0.05
0.10
Wah
rsch
ein
lich
keit
sdic
hte
f
2 2
Es gilt:
1. 0 2. wird geschätzt aus
Differenzenstichprobe 3. ist t- verteilt.
Methoden derPsychologie
Statistik
Univariate Mittelwertevergleiche
t- Test für abhängige Stichproben
Prüfgrösse t- verteilt mit n – 2 Freiheitsgraden (n = Anzahl Paare)
oder
t
2 2
0 1 0 1
12 ( , )
1s s Cov x x
n
;1 / 2dft t Ablehnung von H0,sonst Beibehaltung
P t t Ablehnung von H0,sonst Beibehaltung
Voraussetzung
1. Für n < 30 normalverteilte Stichprobendaten2. Homogene Stichprobenvarianzen müssen nicht
vorliegen3. Korrelation der Meßreihen erhöht die Teststärke.
Entscheidung:a) Krit. t-Wertb) Überschreit- ungs-WK
Methoden derPsychologie
Hypothese
Multivariate Mittelwertevergleiche
Hotelling‘s T2 - Test für abhängige Stichproben
δ μ 0
H0: Der Erwartungswert des Differenzencentroids ist Null
1 1 0:H μ μ 0 1 0:H μ μ (ungerichtet)
Daten 1 0 1 1 1
2 0 2 1 2
0 1
i i i
i i i
i
ip ip ip
d x x
d x x
d x x
d
p- dimensionaler Differenzvektor jeder i- ten Person(Differenzen der 2 Zeitpunkte auf den p- Variablen)
Methoden derPsychologie
Kenngrößen
Multivariate Mittelwertevergleiche
Hotelling‘s T2 - Test für abhängige Stichproben
T2 - Statistik
Lehne die H0 auf Signifikanzlevel ab, wenn gilt
1
1ˆ1
n
d i ip p in
Σ d d d d
11
1 n
ip
in
d d
2 1ˆdT n d δ Σ d δ
Entscheidung
2 1
;
1ˆ 1d p n p
n pT n F
n p
d Σ d
Mit F (1-) dem (1-) Quantil der F- Verteilung mit p Zähler-freiheitsgraden und n-p Nennerfreiheitsgraden.
Methoden derPsychologie
Konfidenz-regionen
Multivariate Mittelwertevergleiche
Hotelling‘s T2 - Test für abhängige Stichproben
KomponentenKonfidenz-intervalle
definiert eine (1-) Konfidenzregion im Ellipsoid um d
1
;
1ˆ 1d p n p
n pn F
n p
d δ Σ d δ
2
;
1: 1j
j j p n p
s n pd F
n n p
für .
Wenn n-p groß ist, gilt
2
;
11 1pp n p
n pF
n p
und die Stichproben müssen nicht multivariat normalverteilt sein.
definiert univariate (1-) Konfidenzintervalle um jeden Variablen-Differenzenmittelwert. Analog sind Bonferroni-Intervalle definiert.
Methoden derPsychologie
Hypothese
Multivariate Mittelwertevergleiche
Hotelling‘s T2 - Test für unabhängige Stichproben
1 0 μ μ 0
H0: Die Differenz der Erwartungs-Centroiden ist Null
1 1 0:H μ μ 0 1 0:H μ μ (ungerichtet)
Daten 0 1 1 1
0 2 1 2
0 1
0 1
i i
i i
i i
ip ip
x x
x x
x x
x x
p- dimensionaler Messvektor jeder i- ten Person aus jeder Gruppe
Methoden derPsychologie
Kenngrößen
Multivariate Mittelwertevergleiche
1
0 01 10
1 n
ip in
x x
GepoolteVar-Covar-Matrix
Mittelwertevektoren und Varianz-Covarianz Matrizen für jede Gruppe.
1
1 11 11
1 n
ip in
x x
0
0 0 0 0 010
1ˆ1
n
i ip p in
Σ x x x x
1
1 1 1 1 111
1ˆ1
n
i ip p in
Σ x x x x
0 0 1 1
0 1
ˆ ˆ1 1ˆ2pooled
n n
n n
Σ Σ
Σ
Hotelling‘s T2 - Test für unabhängige Stichproben
Methoden derPsychologie
Kenngrößen
Multivariate Mittelwertevergleiche
T2 - Statistik
Lehne die H0 auf Signifikanzlevel ab, wenn gilt
1
21 0 1 0
0 1
1 1 ˆpooledT
n n
x x Σ x x
Entscheidung
0 1
0 12; 1
0 1
21
1 p n n p
n n pT F
n n p
Mit F (1-) dem (1-) Quantil der F- Verteilung mit p Zähler-freiheitsgraden und n0+n1-p-1 Nennerfreiheitsgraden.
Hotelling‘s T2 - Test für unabhängige Stichproben
1 1ˆ
pooledx x Σ
Methoden derPsychologie
Konfidenz-regionen
Multivariate Mittelwertevergleiche
Hotelling‘s T2 - Test für unabhängige Stichproben
KomponentenKonfidenz-intervalle
definiert eine (1-) Konfidenzregion im Ellipsoid um
1 0 d x x
0 1
0 12; 1
0 1
21
1 p n n p
n n pT F
n n p
δ
1 0 ,0 1
1 1j j jj pooledx x c s
n n
für Distanzen .
Mit
univariate (1-) Konfidenzintervalle um jede Gruppendifferenz vonVariablenmittelwerten. Sjj,pooled ist das jj-te Element der gepooltenVarianz-Covarianz Matrix. Bonferroni-Intervalle sind analog definiert.
0 1
0 12; 1
0 1
21
1 p n n p
n n pc F
n n p
definiert
Methoden derPsychologie
p D-Normal Verteilung
Multivariate Normalverteilung
Die Ellipsen der Form
2 1 2t
pc x x Σ
Eine Eigenwertzerlegung der Varianz-Kovarianz Matrix liefert somitdie Hauptachsen des p- variaten Ellipsoids der multivariaten Normalverteilung
sind zentriert inund haben Hauptachsen i ic e
mit Eigenwertbedingung
i ie eΣ
1x
2x
1c
2c
Länge =
Länge =1
2
Beispiel 2D