2 multivariate statistik
TRANSCRIPT
MS13 1
2 Multivariate Statistik
2.1 Grundbegriffe
In diesem Abschnitt sollen die ersten wichtigen Grundbegriffe der Multivaria-
ten Statistik eingefuhrt werden: Mehrdimensionale Variablen, Erwartungswerte,
Kovarianzmatrizen, affine Abbildungen.
Multivariate Daten. Sehr oft liefern Versuchspersonen oder allgemeiner Unter-
suchungseinheiten in Untersuchungen nicht nur einen Zahlenwert als Versuchs-
ergebnis, sondern mehrere. Es wird dann also nicht nur eine Variable erhoben,
sondern mehrere. In solchen Fallen ist es oft angemessen und empfehlenswert,
diese Werte oder einen Teil dieser Werte zu einem Vektor zusammenzufassen.
Gelegentlich fasst man auch zusammengehorende Gruppen von Variablen jeweils
zu Vektoren zusammen.
Beispiele:
1. Bei der Normierung eines Intelligenztests liefern alle Probanden fur jeden
Untertest einen Wert. Hat der Intelligenztest 3 Untertests (verbale, rechne-
rische, raumliche Intelligenz), so ist es sinnvoll, die Ergebnisse der Personen
in einem 3-Vektor zusammenzufassen. Ein Ergebnisvektor (10, 7, 9)′ einer
Versuchsperson bedeutet dann, dass sie in dem ersten Untertest (verbale
Intelligenz) 10 Punkte erzielt hat, in dem zweiten 7 und so weiter.
Vielleicht werden bei der Untersuchung zusatzlich Alter und Geschlecht er-
hoben. Dann konnte man die Werte in diesen Variablen (Geschlecht geeignet
als Zahl kodiert) hinzufugen und hatte nun als Ergebnis jeder Versuchsper-
son einen 5-Vektor. Ob dies sinnvoll ist oder ob man nur die Intelligenzwerte
zusammenfassen sollte, hangt von den Zielsetzungen der Untersuchung und
den Auswertungsmethoden ab.
2. In einer Studie zum Therapieerfolg wird bei allen Versuchspersonen die
Befindlichkeit vor der Therapie, zweimal wahrend der Therapie zu festge-
setzten Zeitpunkten und nach der Therapie erhoben. Hier liefert jede Person
vier Werte, die man sinnvollerweise zu einem 4-Vektor zusammenfasst. Ein
Ergebnisvektor (4, 7, 6, 8)′ bedeutet dann, dass die untersuchte Person vor
der Therapie einen Wert von 4 hatte, der sich im Laufe der Therapie uber
die Werte 7 und 6 auf 8 nach der Therapie anderte.
2.1 Grundbegriffe MS13 2
3. Man will den Zusammenhang von Personlichkeitseigenschaften und physio-
logischen Parameter untersuchen. Fur die Personlichkeit liegen 5 Variablen
vor (Extraversion, Gewissenhaftigkeit, ...), an physiologischen Maßen wur-
den 4 erhoben (Herzrate, Atemfrequenz, ...). Hier ist es angemessen, die
Personlichkeitswerte jeder Versuchsperson zu einem 5-Vektor zusammenzu-
fassen und die physiologischen Maße zu einem 4-Vektor. Jede Versuchsper-
son liefert dann zwei Vektoren, daruber hinaus vielleicht auch noch weitere
Variablen wie Alter, Geschlecht etc.
Die einfachste Situation ist die, dass man alle interessierenden Variablen zu ei-
nem Vektor zusammenfasst. Sind p solche Variablen zu untersuchen, so ist das
Ergebnis fur jede Versuchsperson ein p -Vektor.
Als Beispiel seien an 5 Probanden je drei Intelligenzwerte erhoben worden, die
Ergebnisse seien in der ublichen Weise in der folgenden Datenmatrix (Zeilen:
Personen, Spalten: Variablen) zusammengefasst:
5 10 8
4 6 3
2 3 3
6 12 3
8 14 13
Bezeichnet man diese Datenmatrix mit X, so erhalt der Ergebnisvektor der i-
ten Versuchsperson ublicherweise den Namen xi. Dieser Ergebnisvektor ist die
transponierte i-te Zeile der Datenmatrix (man rechnet ja nach Moglichkeit mit
Spaltenvektoren, daher die Transposition). Hier ist beispielsweise das Ergebnis
der dritten Versuchsperson der Vektor x3 = (2, 3, 3)′.
Es ist nicht ganz einfach, fur solche Situationen eine in jeder Hinsicht befriedi-
gende Notation zu finden. Von der univariaten Statistik her wurde es naheliegen,
Variablen (hier im informellen Sinn) mit großen Buchstaben zu bezeichnen und
auf diese Weise eine Variable X von einem moglichen Wert x oder dem Wert xieiner Versuchsperson zu unterscheiden. Nun mochte man jedoch Variablen auch
zu Vektoren von Variablen zusammenfassen, und hier musste man folgerichtig fur
einen solchen Variablenvektor das Symbol X gebrauchen, das jedoch schon fur
die Datenmatrizen reserviert und ganz ungebrauchlich ist.
Man kann also nicht alle Wunsche an die Notation befriedigen, und daher werden
im folgenden Text unterschiedliche Konventionen benutzt, wobei die leitenden
2.1 Grundbegriffe MS13 3
Gesichtspunkte die sind, dass einerseits die Sachverhalte moglichst deutlich wer-
den sollen, und dass andererseits die Diskrepanz zu ublichen Notationen nicht
zu groß werden darf. Konkret bedeutet dies, dass zur Bezeichnung von Einzelva-
riablen gelegentlich große und gelegentlich kleine Buchstaben verwendet werden;
werden solche Variablen jedoch zu Variablenvektoren zusammengefasst, so sol-
len nur kleine Buchstaben gebraucht werden. Die Bedeutungskollision bei der
Verwendung kleiner Buchstaben, dass damit namlich einerseits Variablen oder
Variablenvektoren und andererseits mogliche Werte solcher Variablen oder Va-
riablenvektoren bezeichnet werden, wird sich immer durch die Beachtung des
Kontexts auflosen lassen. Statt von’Variablenvektoren‘ redet man dabei auch
von’p-dimensionalen Variablen‘.
In dem Beispiel sollen die drei Variablen hier den fruheren Konventionen folgend
mit X1, X2 und X3 bezeichnet werden, der zugehorige Variablenvektor jedoch
mit x; es gilt dann x = (X1, X2, X3)′, und man kann dieses x dann auch eine
dreidimensionale Variable nennen. Die mogliche Kollision ist die, dass das Sym-
bol x sowohl den Variablenvektor als auch einen moglichen Wert dieses Vektors
bezeichnen kann.
Die wichtigsten deskriptiven Kennwerte in einer multivariaten Datensituation
sind die Mittelwerte der Variablen und die Varianzen und Kovarianzen. Die Mit-
telwerte fasst man dabei auch wieder zu einem Vektor zusammen, der den Namen
x erhalt, und die Varianzen und Kovarianzen stellt man zu der Kovarianzmatrix
zusammen, die oft den Namen S bekommt.
In dem Beispiel ergibt sich dann
x =
5
9
6
und S =
4 7.8 6
7.8 16 11
6 11 16
.
Wenn man n Personen unabhangig aus einer Population gezogen hat und sich fur
die Varianzen und Kovarianzen in der Population interessiert, so erhalt man dafur
bekanntlich erwartungstreue Schatzer mit den korrigierten Stichprobenvarianzen
und -kovarianzen, bei deren Bildung man nicht durch n, sondern durch n−1 teilt.
Die analog aufgebaute Matrix der korrigierten Varianzen und Kovarianzen soll
hier korrigierte Stichprobenkovarianzmatrix heißen und mit Su abgekurzt werden.
Der Index u steht dabei fur unbiased, die englische Bezeichnung fur erwartungs-
treu. Es gilt naturlich Su = (n/(n− 1))S.
2.1 Grundbegriffe MS13 4
Im Beispiel ergibt sich
Su =
5 9.75 7.5
9.75 20 13.75
7.5 13.75 20
.
Die Matrix nS = (n − 1)Su, die gewissermaßen die Vorstufe zur Bildung der
beiden Kovarianzmatrizen ist, bei der nur noch nicht durch n bzw. n−1 dividiert
wurde, tragt auch den Namen SSCP-Matrix, wobei SSCP fur’Sum of Squares
and Cross Products‘ steht.
Der Name weist auf die Rechnung hin, mit der man einen Eintrag dieser Matrix
erhalt. Fur das (i, j)-Element bildet man zunachst fur die zugehorigen Varia-
blen i und j personenweise die Abweichungen vom jeweiligen Mittelwert. Dann
multipliziert man entsprechende (zur gleichen Person gehorende) Abweichungen
miteinander (’Squares and Cross Products‘,
’Squares‘ steht fur den Fall i = j, in
dem einfach zu quadrieren ist) und summiert schließlich auf.
Im Beispiel ist die SSCP-Matrix gleich20 39 30
39 80 55
30 55 80
.
Neben den Kovarianzmatrizen ist oft auch die analog aufgebaute Korrelationsma-
trix interessant, bei der die Kovarianzen durch Korrelationen ersetzt sind, und die
daher in der Diagonalen aus Einsen besteht. Die Korrelationsmatrix des Beispiels
ist 1 0.975 0.75
0.975 1 0.6875
0.75 0.6875 1
.
Zentriermatrizen. In diesem Abschnitt sollen verschiedene deskriptive Berech-
nungen mit Hilfe von Matrizenmultiplikationen dargestellt werden. Diese Darstel-
lungsmoglichkeit ist fur theoretische Zwecke interessant und wichtig. Fur konkrete
Berechnungen – beispielsweise von Kovarianzmatrizen – sind sie allerdings meist
zu aufwendig, hier benutzt man besser die bekannten Formeln aus der Elemen-
tarstatistik.
Ein weiterer Zweck des Abschnitts ist das Einuben des Umgangs mit Matrizen.
2.1 Grundbegriffe MS13 5
Zunachst soll eine univariate Situation betrachtet werden, in der an n Versuchs-
personen eine Variable X erhoben worden ist. Die Werte der Versuchspersonen
fasst man dann oft in einem sogenannten Datenvektor zusammen, der hier x
heißen soll.
Sind beispielsweise bei 5 Personen die Werte 10, 8, 7, 6 und 14 erhoben worden,
so ist x = (10, 8, 7, 6, 14)′.
Um Verwirrungen vorzubeugen sei hier darauf hingewiesen, dass Vektoren in
unterschiedlichen Situationen unterschiedlich verwendet werden. In univariaten
Situationen wie hier fasst man mit Vektoren meist die Daten vieler Versuchsperso-
nen in einer Variablen zusammen. In multivariaten Situationen werden dagegen
Vektoren oft auch verwendet, um die Werte einer Versuchsperson in mehreren
erhobenen Variablen zusammenzufassen.
Als erstes soll der Mittelwert berechnet werden. Bezeichnet man mit 1n den
Vektor aus n Einsen (den Index n lasst man meist weg, wenn keine Unklarheiten
auftreten konnen), so kann der Mittelwert auch wie folgt dargestellt werden (links
steht die allgemeine Form, rechts das konkrete Beispiel):
x =1
n1′x x =
1
5(1, 1, 1, 1, 1)
10
8
7
6
14
=45
5= 9
Eigentlich ist hier das Ergebnis keine Zahl, sondern eine (1 × 1)-Matrix. Diese
wird jedoch hier – wie ublich – mit ihrem einzigen Element identifiziert.
Beim Berechnen der Varianzen und Kovarianzen ist meist der erste Schritt der,
dass man von allen Datenpunkten den Mittelwert abzieht. Man spricht hier auch
vom Zentrieren der Daten. Die Differenzen fasst man dann wieder zu einem
Vektor zusammen, den man den zentrierten Datenvektor nennt, und der hier mit
x bezeichnet werden soll.
Den zentrierten Vektor erhalt man also, indem man von dem Datenvektor x den
Vektor abzieht, dessen Komponenten alle gleich x sind. Diesen Vektor kann man
auch schreiben als 1(x), wobei (x) die (1× 1)-Matrix mit Element x bezeichnet.
2.1 Grundbegriffe MS13 6
x = x− 1(x)
x =
10
8
7
6
14
−
1
1
1
1
1
(9)
=
10
8
7
6
14
−
9
9
9
9
9
=
1
−1
−2
−3
5
Hier kann man nun fur (x) den gerade berechneten Ausdruck einsetzen und erhalt
nach einigen Umformungen
x = x− 1(x) = x− 1
(1
n1′x
)= x− 1
n1 (1′x) = x− 1
n(11′) x
= Ix− 1
n(11′) x =
(I− 1
n(11′)
)x = Znx ,
wobei mit Zn (oder, wenn n aus dem Kontext zu erschließen ist, kurz Z) die
Matrix I − (1/n)11′ abgekurzt wird, die auch Zentriermatrix heißt. Fur den
Spezialfall n = 5 sieht diese Matrix so aus:
Z5 =
1 0 0 0 0
0 1 0 0 0
0 0 1 0 0
0 0 0 1 0
0 0 0 0 1
−1
5
1 1 1 1 1
1 1 1 1 1
1 1 1 1 1
1 1 1 1 1
1 1 1 1 1
=
.8 −.2 −.2 −.2 −.2−.2 .8 −.2 −.2 −.2−.2 −.2 .8 −.2 −.2−.2 −.2 −.2 .8 −.2−.2 −.2 −.2 −.2 .8
Man bemerkt dabei, dass 11′ die (n × n)-Matrix aus lauter Einsen ist. Im Ge-
gensatz dazu ist das sogleich benotigte Produkt 1′1 die (1 × 1)-Matrix (n), die
auch mit der Zahl n identifiziert wird.
Die Zentriermatrix Z hat die beiden wichtigen Eigenschaften
Z′ = Z und Z2 = Z ,
wobei Z2 fur ZZ steht.
Einerseits ist namlich
Z′ =
(I− 1
n11′)′
= I′ −(
1
n11′)′
= I− 1
n(11′)′ = I− 1
n1′′1′ = I− 1
n11′ = Z
2.1 Grundbegriffe MS13 7
und andererseits
Z2 =
(I− 1
n11′)(
I− 1
n11′)
= II− I
(1
n11′)−(
1
n11′)
I +
(1
n11′)(
1
n11′)
= I− 1
n11′ − 1
n11′ +
1
n2(11′)(11′)
= I− 1
n11′ = Z
wegen
1
n2(11′)(11′) =
1
n21(1′1)1′ =
1
n21(n)1′ =
n
n21(1)1′ =
1
n11′ ,
womit beide Behauptungen gezeigt sind. �
Die beiden genannten Eigenschaften haben auch Namen. Erfullt eine quadratische
Matrix A die Bedingung A2 = A, so nennt man A auch idempotent. Gilt fur ein
quadratisches A die Bedingung A′ = A, so heißt A auch symmetrisch.
Die gerade gezeigte Behauptung uber Z lasst sich also auch mit den Worten
formulieren, dass Z symmetrisch und idempotent ist.
Die Klasse der symmetrischen und idempotenten Matrizen spielt eine sehr wich-
tige Rolle in der multivariaten Statistik – es ist die Klasse der sogenannten ortho-
gonalen Projektionen. Die Zentriermatrix ist also ein Beispiel fur eine orthogonale
Projektion.
Viele Argumente lassen sich durch die folgende Beobachtung vereinfachen:
Eine quadratische Matrix A ist genau dann symmetrisch und idempotent, wenn
sie der Bedingung
A′A = A
genugt.
Genugt namlich A der Bedingung A′A = A, so folgt einerseits durch einfache
Anwendung der Rechenregeln
A′ = (A′A)′ = A′A′′ = A′A = A ,
andererseits damit sofort
A2 = AA = A′A = A ,
2.1 Grundbegriffe MS13 8
insgesamt also Symmetrie und Idempotenz.
Ist andererseits A symmetrisch und idempotent, so gilt
A′A = AA = A ,
wobei die erste Gleichung aus der Symmetrie und die zweite aus der Idempotenz
folgt. Die behauptete Aquivalenz ist damit gezeigt. �
Insbesondere kann man die oben gezeigte Idempotenz und Symmetrie von Z nun
auch alternativ formulieren als
Z′Z = Z .
Fur Z gilt außerdem
Z1 = 0 ,
da der Vektor 1, als konstante Datenreihe interpretiert, zu einem Mittelwert von
1 fuhrt, von dem alle Komponenten die Abweichung 0 besitzen. Man macht sich
dies auch leicht formal klar:
Z1 = (I− 1
n11′)1 = I1− 1
n(11′)1 = 1− 1
n1(1′1) = 1− n
n1 = 0 .
Die Zentriermatrix kann nun dazu benutzt werden, die Bildung von Varianzen und
Kovarianzen in der Matrizensprache zu beschreiben. Da die Varianz ein Spezialfall
der Kovarianz ist, soll gleich die Kovarianz behandelt werden.
Dazu seien zwei Variablen X und Y an denselben n Versuchspersonen erhoben
worden. Die Ergebnisse werden wieder in zwei Datenvektoren x und y zusam-
mengefasst, die dann insbesondere gleiche Lange haben. Die Kovarianz KovX,Yvon X und Y berechnet sich dann bekanntlich nach der Formel
KovX,Y =1
n
n∑i=1
(xi − x)(yi − y) .
Hier werden zunachst die Abweichungen vom jeweiligen Mittelwert miteinander
multipliziert und dann die Produkte aufsummiert und durch n geteilt.
Die Abweichungen vom jeweiligen Mittelwert stehen jedoch auch in den zentrier-
ten Datenvektoren x und y, so dass man die Kovarianz auch als
KovX,Y =1
nx′y
2.1 Grundbegriffe MS13 9
schreiben kann. Sind beispielsweise die Werte fur die Variable X wie oben 10, 8,
7, 6, 14 und die von Y in der gleichen Reihenfolge 4, 6, 5, 3, 7, so gilt
x =
10
8
7
6
14
, y =
4
6
5
3
7
, x =
1
−1
−2
−3
5
, y =
−1
1
0
−2
2
und
1
5x′y =
1
5
(1 −1 −2 −3 5
)−1
1
0
−2
2
=1
5· 14 = 2.8 ,
was in der Tat gerade die Kovarianz von X und Y ist.
Die Operation des Zentrierens kann man auch mit der Zentriermatrix ausdrucken,
es gilt daher
x′y = (Zx)′(Zy) = x′Z′Zy = x′Zy
wegen der Eigenschaften der Zentriermatrix. Insgesamt erhalt man die Darstel-
lung
KovX,Y =1
nx′Zy .
Ein Spezialfall ist die Varianz von X, die man auch als (1/n)x′Zx schreiben kann.
Nun soll der Fall betrachtet werden, dass bei den untersuchten n Personen nicht
nur 2, sondern allgemein p Variablen erhoben worden sind. Die Ergebnisse seien in
einer Datenmatrix X zusammengefasst, die dann n Zeilen und p Spalten besitzt.
Man uberlegt sich leicht, dass man beispielsweise den Mittelwertvektor in der
folgenden Weise schreiben kann:
x =1
nX′1n .
Das Produkt X′1 ist namlich gerade die Summe der (als Vektoren aufgefassten)
Spalten von X′, also die Summe der Ergebnisvektoren aller Versuchspersonen,
und mit Division durch n erhalt man daraus komponentenweise die Mittelwerte.
Will man alle Spalten einer Datenmatrix zentrieren, so erhalt man das Ergebnis,
das hier naheliegenderweise zentrierte Datenmatrix genannt und mit X bezeich-
net werden soll, auch mit der Formel
X = ZX ,
2.1 Grundbegriffe MS13 10
wie man sofort sieht, wenn man sich vergegenwartigt, dass die Spalten von ZX
gerade die Produkte von Z mit den Spalten von X sind.
Die SSCP-Matrix kann man nun schreiben als
X′X .
Man erhalt namlich das (i, j)-Element der Matrix X′X als Produkt der i-ten Zeile
von X′ und der j-ten Spalte von X, also als Produkt der zentrierten Datenreihen
der i-ten und der j-ten Variable. Dieses Produkt ist aber gerade das (i, j)-Element
der SSCP-Matrix, die daher mit X′X in allen Elementen ubereinstimmt, woraus
die Gleichheit folgt.
Die Kovarianzmatrix S und die korrigierte Stichprobenkovarianzmatrix Su sind
dann
S =1
nX′X und Su =
1
n− 1X′X .
Die SSCP-Matrix kann man nun auch mit Hilfe der Zentriermatrix und der Ori-
ginaldatenmatrix als X′ZX schreiben:
X′X = (ZX)′ZX = X′Z′ZX = X′ZX .
Da man die beiden Versionen der Kovarianzmatrix dadurch erhalt, dass man die
SSCP-Matrix durch n bzw. n− 1 teilt, gilt entsprechend
S =1
nX′ZX und Su =
1
n− 1X′ZX .
Wegen (X′X)′ = X′X′′ = X′X erhalt man ubrigens auch sofort die ohnehin be-
kannte Tatsache, dass Kovarianzmatrizen und SSCP-Matrizen symmetrisch sind.
Abschließend sei noch einmal darauf hingewiesen, dass die angegebenen Matri-
zenformeln eine fur theoretische Zwecke elegante Darstellung geben, dass man
beim Berechnen von Varianzen und Kovarianzen in den meisten Fallen besser
nach den aus der Elementarstatistik bekannten Formeln vorgeht.
Affine Abbildungen. In der multivariaten Statistik spielen die sogenannten
affinen Abbildungen eine ganz zentrale Rolle. Sie sind Verallgemeinerungen der
Abbildungen, die man in der univariaten Statistik oft lineare Transformationen
nennt, auf die multivariate Situation.
2.1 Grundbegriffe MS13 11
Eine affine Abbildung ist eine Abbildung f von einem Rp in einen Rq, die die
Form
f(x) = Ax + b
besitzt. Dabei ist A eine (q × p)-Matrix und b ein q-Vektor. Die Matrix A heißt
auch der lineare Anteil der affinen Abbildung und der Vektor b auch der Ver-
schiebungsvektor.
Als Beispiel sei eine Situation betrachtet, in der man zwei Vordiplomsnoten mit
Hilfe von drei Schulnoten in der aus der multiplen Regression bekannten Weise
vorhersagen mochte. Diesen Fall kann man multivariat so behandeln, dass man
zunachst die drei Schulnoten zu einem 3-Vektor x und die beiden vorhergesagten
Vordiplomsnoten zu einem 2-Vektor y zusammenfasst. Die Vorhersagegleichungen
kann man dann in die Form
y = Ax + b
mit einer geeigneten (2 × 3)-Matrix A und einem 2-Vektor b bringen, also auf
die Form einer affinen Abbildung.
Schreibt man namlich die Gleichung y = Ax + b aus, so erhalt man
(y1y2
)=
(a11 a12 a13a21 a22 a23
)x1x2x3
+
(b1b2
)=
(a11x1 + a12x2 + a13x3 + b1a21x1 + a22x2 + a23x3 + b2
),
was man in der Tat als zwei ubereinandergeschriebene regressionsartige Gleichun-
gen lesen kann, in denen beispielsweise die erste Vordiplomsnote durch die drei
Schulnoten mit den Regressionsgewichten a11, a12 und a13 und der additiven Kon-
stante b1 vorhergesagt wird, also durch Koeffizienten, die in der ersten Zeile von
A zusammengefasst sind und durch die erste Komponente von b. Entsprechend
enthalt die zweite Zeile von A die Koeffizienten der zweiten Regressionsgleichung
und die zweite Komponente von b die zugehorige additive Konstante.
Eine Bemerkung zur Notation: Die Gleichung y = Ax+b kann wegen der Ambi-
guitat der Verwendung der Symbole auf zwei Arten gedeutet werden. Einerseits
kann man y und x als Bezeichnung von Variablenvektoren lesen; dann gibt die
Gleichung symbolisch an, wie der Variablenvektor y aus dem Variablenvektor
x hervorgeht. Andererseits kann man y und x als Bezeichnungen von moglichen
Werten lesen; dann sagt die Gleichung, wie man fur einen Wert x den zugehorigen
Wert y berechnet. Da hier beide Interpretationen denselben Grundgedanken aus-
drucken, ist diese Uneindeutigkeit nicht nur harmlos, sondern geradezu nutzlich.
2.1 Grundbegriffe MS13 12
Ein Spezialfall einer affinen Transformation einer p-dimensionalen Variablen x,
die aus den Einzelvariablen X1, . . . , Xp besteht, ist der, in dem q = 1 gilt, in
dem also nur eine neue Variable Y gebildet wird. Die Matrix A besteht dann
aus nur einer Zeile und anstelle eines Vektors b hat man eine Zahl b. Hier zieht
man es vor, die Koeffizienten in der Zeile der Matrix A zu einem Spaltenvektor
zusammenzufassen, der hier a heißen moge – es gilt dann also A = a′.
Die entstehende Gleichung Y = a′x+b kann man ausschreiben zu Y =∑ajXj+b,
und es folgt, dass dieser Spezialfall gerade das ist, was im Univariaten als eine
Linearkombination der Variablen Xj bezeichnet wurde.
Das Ergebnis dieser Uberlegungen ist einerseits, dass man Linearkombinationen
Y =∑ajXj+b von Variablen Xj auch als Y = a′x+b schreiben kann, wobei man
die Koeffizienten aj zu einem Spaltenvektor a zusammenfasst, und andererseits,
dass solche Linearkombinationen Spezialfalle von affinen Abbildungen sind, wobei
die Matrix A aus der allgemeinen Definition durch a′ ersetzt ist und der Vektor
b durch b.
Will man beipielsweise nur eine Vordiplomsnote mit Hilfe von drei Schulnoten
vorhersagen, so fasst man die Regressionsgewichte in einem 3-Vektor a zusammen
und schreibt die Vorhersagegleichung
y =3∑j=1
ajxj + b
auch kurz als
y = a′x + b ;
der lineare Anteil der zugehorigen affinen Abbildung ist hier also a′, das dann als
Matrix mit einer Zeile und drei Spalten betrachtet wird.
Ein wichtiges Beispiel einer affinen Transformation ist diejenige Transformation,
bei der man alle Variablen z-transformiert, wie nun gezeigt werden soll.
Zunachst ist es sinnvoll, einige Bezeichnungen einzufuhren. Ist x der betrachtete
p-Variablenvektor, so soll mit Vx die Diagonalmatrix mit den Varianzen der
Komponenten von x bezeichnet werden. Mit V1/2x und V
−1/2x sollen entsprechend
die Diagonalmatrizen mit den Streuungen und den Kehrwerten der Streuungen
benannt werden (wobei bei der letzten vorauszusetzen ist, dass alle Streuungen
von 0 verschieden sind).
2.1 Grundbegriffe MS13 13
Ist zum Beispiel
S =
4 7.8 6
7.8 16 11
6 11 16
die Kovarianzmatrix einer dreidimensionalen Variable x, so gilt
Vx =
4 0 0
0 16 0
0 0 16
, V1/2x =
2 0 0
0 4 0
0 0 4
und V−1/2x =
1/2 0 0
0 1/4 0
0 0 1/4
.
Die Verwendung der Exponenten 1/2 und −1/2 soll andeuten, dass bei Vx aus
den Diagonalelementen die Wurzeln bzw. die Kehrwerte der Wurzeln gebildet
werden sollen. Man kann ubrigens fur gewisse Matrizen das Potenzieren auch mit
nicht ganzzahligen Exponenten definieren, und die hier verwendeten Bezeichnun-
gen lassen sich dann in diesem Sinne interpretieren.
Oft rechnet man statt mit Varianzen und Kovarianzen mit den entspechenden kor-
rigierten Stichprobenvarianzen und -kovarianzen, also statt mit S mit Su. Auch
dann ist die Einfuhrung entsprechender Diagonalmatrizen sinnvoll, fur die eigent-
lich eigene Bezeichnungen zu wahlen waren. Da man jedoch sinnvollerweise nie
die beiden Versionen von Varianzen und Kovarianzen in Rechnungen mischt, ist
dies nicht notig, da das jeweils Gemeinte aus dem Kontext deutlich werden sollte.
Da die z-Transformation darin besteht, von den Daten den Mittelwert abzuziehen
und das Ergebnis durch die Streuung zu teilen, erkennt man sofort, dass bei
einem Datenvektor x diese komponentenweise durchgefuhrten Operationen zu
dem Ergebnis
z = V−1/2x (x− x) = V
−1/2x x−V
−1/2x x
fuhren. Die z-Transformation aller Komponenten von x lasst sich also durch die
affine Abbildung mit linearem Anteil V−1/2x und Verschiebung −V
−1/2x x beschrei-
ben.
Kennwerte bei affinen Transformationen. In diesem Abschnitt soll unter-
sucht werden, wie sich Mittelwertsvektor und Kovarianzmatrix verhalten, wenn
man Daten einer affinen Abbildung unterwirft, oder sie, wie man auch sagt, affin
transformiert.
An dieser Stelle ist zu bemerken, dass die ublichen Terminologien im Univaria-
ten und im Multivariaten leider nicht harmonieren: Eine lineare Transformation
2.1 Grundbegriffe MS13 14
im Univariaten heißt multivariat betrachtet nicht mehr linear, sondern affin. Die
multivariate Bezeichnung ist deshalb sinnvoll, weil der Begriff der linearen Ab-
bildung in der Linearen Algebra etwas anders besetzt ist. Allerdings ist hier die
Terminologie der multivariaten Statistik in der Literatur auch nicht einheitlich.
Es soll nun also eine Situation betrachtet werden, in der an n Versuchspersonen
Daten einer p-dimensionalen Variable x erhoben worden sind, die in einer (n×p)-Datenmatrix X zusammengefasst sind. Die p-dimensionale Variable x soll affin zu
einer neuen q-dimensionalen Variablen y = Ax+b transformiert werden, wobei A
eine (q×p)-Matrix ist und b ein q-Vektor. Gefragt ist nach dem Mittelwertvektor
und der Kovarianzmatrix von y.
Bei der Transformation werden also fur alle Versuchspersonen deren Datenvekto-
ren x in neue Datenvektoren y = Ax + b umgewandelt; nach dieser Umformung
gehoren dann zu jeder Versuchsperson nicht mehr p, sondern q Werte. Die trans-
formierten Daten sollen wieder in einer neuen Datenmatrix Y zusammengefasst
werden, die dann eine (n× q)-Matrix sein muss. Es soll sogleich gezeigt werden,
dass man die Matrix Y als
Y = XA′ + 1nb′ ,
erhalt.
Zuvor ein Beispiel zur Veranschaulichung: In dem Beispiel mit den Schulnoten
und den vorhergesagten Vordiplomsnoten konnten die Schulnoten von 20 Studie-
renden als (20× 3)-Matrix vorliegen. Wendet man dann die Vorhersage auf jede
einzelne Person an, so erhalt man fur alle 20 Personen je zwei Vorhersagewerte
fur die beiden Vordiplomsnoten, die man in einer neuen (20 × 2)-Datenmatrix
zusammenfassen kann.
Zur Begrundung der Formel fur Y transponiert man zunachst die Matrix X,
so dass die Datenvektoren der einzelnen Personen nun die Spalten bilden. Die
Matrix AX′ ist dann spaltenweise das Produkt von A mit den Datenvektoren
der Personen; die Spaltenvektoren sind also bis auf eine Addition des Vektors b
bereits die gesuchten transformierten Datenvektoren. Die Addition von b zu allen
Spalten bewirkt man jedoch, indem man zur Matrix AX′ die Matrix addiert, die
aus der n mal wiederholten Spalte b besteht. Die zu addierende Matrix kann
man als b1′n schreiben (man interpretiere die beiden Faktoren als Matrizen und
wende b auf die Spalten von 1′n an). Als Ergebnis der Addition erhalt man so
spaltenweise die neuen Datenvektoren fur die Versuchspersonen, also die Matrix
2.1 Grundbegriffe MS13 15
Y′. Aus
Y′ = AX′ + b1′
folgt aber durch Transponieren
Y = (AX′ + b1′)′ = (AX′)′ + (b1′)′ = X′′A′ + 1′′b′ = XA′ + 1b′ ,
wobei 1 naturlich fur 1n steht. �
Nachdem so die Matrix Y der transformierten Daten bestimmt ist, kann nach
dem Mittelwertvektor und der Kovarianzmatrix dieser Daten gefragt werden.
Eine mogliche Losung dieser Frage erhalt man mit Hilfe der Zentriermatrizen.
Da die Datenmatrix Y der transformierten Daten gleich XA′+1b′ ist, errechnet
sich der Mittelwertvektor y als
y =1
nY′1 =
1
n(XA′ + 1b′)′1 =
1
nA′′X′1 +
1
nb′′1′1
= A
(1
nX′1
)+
1
nb(n) = Ax + b .
Der Mittelwertvektor wird also genauso transformiert wie der Ergebnisvektor
jeder einzelnen Versuchsperson.
Zur Vorbereitung der Formeln fur die Kovarianzmatrix gilt zunachst
Y = ZY = Z(XA′ + 1b′) = ZXA′ + Z1b′ = XA′
wegen ZX = X und Z1 = 0.
Nun kann die Kovarianzmatrix der transformierten Daten bestimmt werden. Zur
Unterscheidung soll hier die Kovarianzmatrix der Originaldaten mit Sx und die
der transformierten Daten mit Sy bezeichnet werden. Es gilt dann
Sy =1
nY′Y =
1
n(XA′)′(XA′) =
1
nA′′X′XA′ = A
(1
nX′X
)A′ = ASxA
′ .
Man uberzeugt sich sofort, dass eine analoge Formel auch fur die SSCP-Matrix
und die korrigierte Stichprobenkovarianzmatrix gilt.
Das Ergebnis soll wegen seiner zentralen Bedeutung fur alle multivariaten Rech-
nungen noch einmal ausfuhrlich festgehalten werden:
2.1 Grundbegriffe MS13 16
Feststellung 1. Sind x und Sx Mittelwertsvektor und Kovarianzmatrix einer
Datenmatrix, und werden die Daten aller Versuchspersonen der affinen Transfor-
mation y = Ax + b unterworfen, so gelten fur den Mittelwertvektor y und die
Kovarianzmatrix Sy der transformierten Daten die Formeln
y = Ax + b und Sy = ASxA′ . �
Da die Korrelationsmatrix gleichzeitig die Kovarianzmatrix der komponentenwei-
se z-transformierten Daten ist, ergibt sich aus der Formulierung der z-Transforma-
tionen mit Hilfe der affinen Abbildung V−1/2x x−V
−1/2x x unmittelbar die Formel
V−1/2x SxV
−1/2x
fur die Korrelationsmatrix von x; hierbei ist noch zu berucksichtigen, dass wegen
der Symmetrie von V−1/2x das Transponieren des letzten Faktors unterbleiben
kann.
Es soll nun noch der Sonderfall behandelt werden, dass man die Kovarianz von
zwei Linearkombinationen (im Sinne der univariaten Statistik) der Daten einer
Datenmatrix X mit Kovarianzmatrix S berechnen will. Sind also neue Variablen
U und V durch die Vorschrift U = a′x + b und V = c′x + d definiert, so gilt
fur die zentrierten Datenvektoren der neuen Variablen u = Xa und v = Xc
(man beachte, dass die linearen Anteile der Transformationen hier durch die
transponierten Koeffizientenvektoren gegeben sind). Die Kovarianz bestimmt sich
dann zu
KovU,V =1
nu′v =
1
n(Xa)′(Xc) =
1
na′X′Xc = a′
(1
nX′X
)c = a′Sc .
Feststellung 2. Ist S die Kovarianzmatrix einer Datenmatrix X und sind die
Variablen U = a′x+b und V = c′x+d zwei Linerarkombinationen der gegebenen
Variablen, so gilt
KovU,V = a′Sc . �
Als Spezialfall kann man hier fur V auch U einsetzen, und erhalt fur die Varianz
S2U der Linearkombination U = a′x + b die Formel
S2U = a′Sa .
Der Mittelwert von U ergibt sich leicht zu a′x + b. Man hat also
2.1 Grundbegriffe MS13 17
Feststellung 3. Ist S die Kovarianzmatrix einer Datenmatrix X und ist U =
a′x + b eine Linearkombination der gegebenen Variablen, so gilt
u = a′x + b und S2U = a′Sa . �
Die Teilaussage uber die Varianz hat eine wichtige Konsequenz: Da man fur a
jeden beliebigen Vektor einsetzen kann und mit der Formel dann die Varianz
der durch a gegebenen Linearkombination erhalt, und da andererseits Varianzen
nicht negativ sein konnen, folgt, dass fur eine Kovarianzmatrix S der Ausdruck
a′Sa fur alle Vektoren a nichtnegativ ist. Fur Matrizen mit dieser Eigenschaft
gibt es eine besondere Bezeichnung:
Eine symmetrische Matrix A mit der Eigenschaft, dass fur alle Vektoren x die
Beziehung
x′Ax ≥ 0
gilt, heißt auch positiv semidefinit.
Die positiv semidefiniten Matrizen sind in gewisser Weise Verallgemeinerungen
der nichtnegativen Zahlen im Bereich der Matrizen.
Da Kovarianzmatrizen symmetrisch sind, folgt die
Feststellung 4. Kovarianzmatrizen sind symmetrisch und positiv semidefinit.
Hier schließen sich interessante Fragen an. Zunachst kann man fragen, ob jede
positiv semidefinite Matrix eine mogliche Kovarianzmatrix ist, oder ob Kovari-
anzmatrizen noch weitere einschrankende Eigenschaften haben (man stelle sich
jemanden vor, der eine Aufgabe entwirft, in der eine Kovarianzmatrix vorkommt
– genugt es hier, sich irgendeine positiv semidefinite Matrix auszudenken, oder
konnte es sein, dass diese Matrix aus noch nicht bekannten Grunden doch keine
Kovarianzmatrix sein kann?). Es wird sich herausstellen, dass tatsachlich jede
positiv semidefinite Matrix eine mogliche Kovarianzmatrix ist, genauso, wie jede
nicht negative Zahl eine mogliche Varianz ist. Nahe verwandt mit der ersten Fra-
ge ist dann das Problem, wie man bei einer gegebenen Matrix feststellen kann,
ob sie positiv semidefinit ist.
Die Antwort auf die erste Frage soll schon hier angedeutet werden. Es wird sich
spater zeigen, dass man jede positiv semidefinite (p × p)-Matrix K schreiben
kann als K = AA′ mit einer geeigneten (p × p)-Matrix A. Wenn es dann in
einer untersuchten Situation moglich ist, p unkorrelierte Variablen zu finden,
2.1 Grundbegriffe MS13 18
die die Varianz 1 besitzen, so haben diese Variablen als Kovarianzmatrix die
Einheitsmatrix I. Fasst man diese Variablen zu einem Vektor x zusammen und
definiert man y als affine Transformation y = Ax, so ist die Kovarianzmatrix
von y gerade AIA′ = AA′ = K. Dies ergibt die
Feststellung 5. Gibt es in einer Situation p unkorrelierte Variablen der Varianz
1, so ist jede positiv semidefinite (p×p)-Matrix K eine mogliche Kovarianzmatrix.
�
Die Voraussetzung, dass es p unkorrelierte Variablen der Varianz 1 gibt (was
nicht heißt, dass sie konkret vorliegen mussen, sondern nur, dass man derartige
Variablen finden kann), durfte in den meisten Situationen harmlos sein, so dass
die Begriffe’positiv semidefinite Matrix‘ und
’mogliche Kovarianzmatrix‘ im We-
sentlichen zusammenfallen. Man kann sie also (wenn man an der Voraussetzung
nicht zweifelt) auch synonym gebrauchen, was in Zukunft geschehen soll.
Gesamtvarianz. In einer Situation mit p Variablen gibt die Kovarianzmatrix
eine sehr gute Beschreibung der Variabilitat der Daten. Sie enthalt nicht nur die
Einzelvarianzen in der Diagonale, sondern auch Informationen uber den linearen
Zusammenhang der Variablen.
Ein Nachteil der Kovarianzmatrix ist, dass sie – besonders bei großem p – nicht
leicht uberschaubar ist. Hier kann der Wunsch entstehen, die Information uber
die Variabilitat in einer einzigen Zahl zusammenzufassen – naturlich unter Infor-
mationsverlust.
Eine erste naheliegende Moglichkeit, eine solche Zahl zu definieren, ist es, einfach
die Summe der Einzelvarianzen zu bilden. Diese Summe soll auch die Gesamtva-
rianz der gegebenen Variablen genannt werden.
Da die Varianzen der einzelnen Variablen gerade die Diagonale der Kovarianz-
matrix bilden, ist die Gesamtvarianz gleich der Spur der Kovarianzmatrix.
In dem Beispiel vom Anfang war die Kovarianzmatrix gleich
S =
4 7.8 6
7.8 16 11
6 11 16
,
so dass sich die Gesamtvarianz der drei betrachteten Variablen zu 4+16+16 = 36
errechnet.
2.1 Grundbegriffe MS13 19
Die Eigenschaften der so definierten Gesamtvarianz werden spater noch genauer
untersucht werden. Es ist jedoch klar, dass eine solche Definition in unterschiedli-
chen Situationen unterschiedlich sinnvoll sein wird. Wenn die Variablen inhaltlich
viel miteinander zu tun haben und die Skalen, auf denen sie gemessen werden,
miteinander’harmonieren‘, so ist das Konzept der Gesamtvarianz sicher angemes-
sener, als wenn man es mit heterogenen Variablen zu tun hat, oder mit solchen,
deren Skalen nicht in einem fur diese Zwecke geeigneten Zusammenhang stehen.
Die Problematik wird vielleicht deutlicher, wenn man sich vor Augen fuhrt, dass
die Anderung einer der Skalen durch eine Transformation, die die Werte ledig-
lich mit einer großen Zahl multipliziert, dazu fuhrt, dass diese Variable in der
Gesamtvarianz nach dieser Transformation ein erheblich großeres Gewicht erhalt
als vorher und womoglich schließlich die Gesamtvarianz vollig dominiert, obwohl
die Transformation an sich so harmlos ist wie die Umrechnung von Kilometern
in Millimeter.
Zufallsvektoren und ihre Kennwerte. Sind p eindimensionale Zufallsvaria-
blen xi auf demselben Wahrscheinlichkeitsraum definiert, so kann man sie auch zu
einem Zufallsvektor x zusammenfassen, dessen Komponenten dann die einzelnen
Variablen sind.
Man schreibt auch
x =
x1x2...
xp
.
Zur Notation: Es ware besser, wenn man Zufallsvariablen im Gegensatz zu kon-
kreten Messwerten mit Großbuchstaben bezeichnen wurde. Dies geht hier jedoch
deshalb nicht, weil die Großbuchstaben schon zur Bezeichnung von Matrizen ver-
braucht sind. Es ist daher ublich, Zufallsvariable und konkrete Messwerte mit
den gleichen Symbolen zu bezeichnen, wobei sich aus dem Kontext ergibt, was
jeweils gemeint ist.
Es folgen zwei typische Beispiele:
Immer wenn eine Versuchsperson (allgemeiner eine Untersuchungseinheit) in ei-
nem noch durchzufuhrenden Experiment mehrere Werte (z.B. Werte verschiede-
ner physiologischer Variablen) liefern soll, kann man die Zufallsvariablen, die die
Einzelergebnisse modellieren, zu einem Zufallsvektor zusammenfassen.
2.1 Grundbegriffe MS13 20
Ist in einer Datenerhebung eine Person durch ihre Werte in mehreren Variablen
gekennzeichnet (z.B. Personlichkeitsvariablen), so fasst man diese Werte auch zu
einem Zufallsvektor zusammen (beachte: hier sind nicht die konkreten Werte einer
konkreten Person gemeint, sondern die Werte, die eine noch zu ziehende Person
liefern wird; der Wahrscheinlichkeitsraum wird dann meist die Population sein,
aus der gezogen wird, und das W-Maß wird ein Modell fur die Ziehung sein).
Sofern nichts anderes gesagt wird, soll von Zufallsvariablen generell vorausgesetzt
werden, dass sie einen Erwartungswert und eine Varianz besitzen.
Als Erwartungswert oder Erwartungswertvektor E(x) des Zufallsvektors x be-
zeichnet man den Vektor, der als Komponenten die Erwartungswerte der xi be-
sitzt. Man bildet sozusagen den Erwartungswert komponentenweise. Als Symbole
fur Erwartungswertvektoren werden meist fette griechische Buchstaben wie µ mit
Komponenten µi verwendet.
Man schreibt also
E(x) = E(
x1x2...
xp
) =
E(x1)
E(x2)...
E(xp)
oder E(x) = µ =
µ1
µ2
...
µp
.
Als Kovarianzmatrix V(x) eines p−dimensionalen Zufallsvektors x bezeichnet
man diejenige (p× p)-Matrix, die als (i, j)-Element die Kovarianz von xi und xjenthalt:
V(x) =
Kov(x1, x1) Kov(x1, x2) . . . Kov(x1, xp)
Kov(x2, x1) Kov(x2, x2) . . . Kov(x2, xp)...
... · · · ...
Kov(xp, x1) Kov(xp, x2) . . . Kov(xp, xp)
Wenn x ein Zufallsvektor mit mehr als einer Komponente ist, bezeichnet V(x)
also eine ganze Matrix, und nicht etwa nur eine Zahl. Nur im Spezialfall einer
eindimensionalen Variable x ist V(x) eine Zahl, namlich die Varianz von x; hier
identifiziert man (1× 1)-Matrizen wie ublich mit ihrem einzigen Element.
Als Abkurzung werden oft Symbole wie Σ (mit Elementen σij) verwendet – in
diesem Zusammenhang ist dann σii die Varianz und nicht etwa die Streuung der
i-ten Komponente.
2.1 Grundbegriffe MS13 21
Bei eindimensionalen Variablen x soll mit σ(x) gelegentlich die Streuung von x
bezeichnet werden.
Kovarianzmatrizen von Zufallsvektoren sind naturlich symmetrisch.
Ist µ der Erwartungswert des p-Zufallsvektors x, so ist (x−µ)(x−µ)′ eine (p×p)-
’Zufallsmatrix‘ (analog definiert wie Zufallsvektoren), die als (i, j)-Element gerade
das Produkt (xi − µi)(xj − µj) enthalt. Der Erwartungswert dieses Produkts ist
die Kovarianz von xi und xj. Man bildet den Erwartungswert einer Zufallsmatrix
auch wieder komponentenweise und erhalt so mit
V(x) = E((x− µ)(x− µ)′)
eine Schreibweise der Kovarianzmatrix mit Hilfe des Erwartungswertoperators.
Auch hier definiert man die Gesamtvarianz eines Zufallsvektors als die Summe
der Varianzen der einzelnen Variablen, gleichbedeutend als die Spur der Kovari-
anzmatrix.
Gelegentlich liegt es aus inhaltlichen Grunden nahe, die betrachteten Einzelvaria-
blen zu zwei Zufallsvektoren zusammenzufassen, beispielsweise in dem Fall, dass
mehrere Personlichkeitsvariable einerseits und mehrere physiologische Variable
andererseits an den selben Versuchspersonen erhoben werden sollen.
Allgemein definiert man die Matrix der Kovarianzen C(x,y) der (auf ein- und
demselben W-Raum definierten) p- bzw. q-dimensionalen Zufallsvektoren x und y
als die Matrix der Kovarianzen der Komponenten. Die Matrix C(x,y) ist dann al-
so eine (p×q)−Matrix, deren (i, j)−Element gerade Kov(xi, yj) ist. Man beachte
den Unterschied der Bezeichnungen’Kovarianzmatrix‘ und
’Matrix der Kovari-
anzen‘.
Im Gegensatz zu Kovarianzmatrizen sind Matrizen von Kovarianzen im Allge-
meinen nicht quadratisch und erst recht nicht symmetrisch.
Es folgt ein Beispiel: Eine (noch zu ziehende) Versuchsperson sei durch zwei zu
einem 2-Zufallsvektor x zusammengefasste Personlichkeitsvariable und durch drei
zu einem Zufallsvektor y zusammengefasste Intelligenzkomponenten charakteri-
siert. Die Kovarianzen zwischen Personlichkeitsvariablen und Intelligenzvariablen
fasst man dann in der Matrix
C(x,y) =
(Kov(x1, y1) Kov(x1, y2) Kov(x1, y3)
Kov(x2, y1) Kov(x2, y2) Kov(x2, y3)
)
2.1 Grundbegriffe MS13 22
zusammen.
Offenbar gilt:
C(y,x) = (C(x,y))′ ,
außerdem
V(x) = C(x,x) .
Außerdem kann man auch die Matrix der Kovarianzen als Erwartungswert schrei-
ben: Ist µ der Erwartungswertvektor von x und ν der von y, so ist die Matrix
der Kovarianzen von x und y gleich
E((x− µ)(y − ν)′) .
Affine Transformationen. Auch im theoretischen Fall ist nun das Verhalten
der Kenngroßen bei affinen Abbildungen zu untersuchen.
Wendet man eine affine Abbildung u = Ax + b (wobei A eine (r × p)-Matrix
ist und b ein r-Vektor) auf die moglichen Werte eines p-Zufallsvektors x an, so
erhalt man einen neuen r-Zufallsvektor
u = Ax + b .
Die i−te Komponente von u ist die Zufallsvariable ui =∑aijxj+bi. Hier liegt also
eine Linearkombination (im Sinne der univariaten Statistik, nicht zu verwechseln
mit dem Begriff aus der linearen Algebra) der xj vor. Der Vektor u fasst dann die
r zu den Zeilen von A (und den Komponenten von b) gehorenden Zufallsvariablen
zu einem r-Zufallsvektor zusammen.
Man nennt u auch eine affine Transformation von x.
Die Gleichung u = Ax + b ist ubrigens wieder ein Beispiel fur die mehrfache
Verwendung von Symbolen. Einerseits gibt sie an, wie man fur einen konkreten
Datenvektor x den zugehorigen Datenvektor u berechnet; x und u stehen dann fur
mogliche konkrete Vektoren. Andererseits kann man die Gleichung jedoch auch
als Beschreibung der Transformation eines Zufallsvektors x in einen Zufallsvektor
u lesen, wobei jetzt x und u fur Zufallsvektoren stehen.
Ein Beispiel: Man kann sich vorstellen, dass man auf Grund der Werte in einem
aus drei Teilen bestehenden Intelligenztest die Leistungen in zwei Aufgaben vor-
hersagen will, die in unterschiedlicher Weise auf den drei Intelligenzkomponenten
2.1 Grundbegriffe MS13 23
beruhen. Die Vorhersage soll dabei linear sein im Sinne der multiplen linearen
Regression. Sind die Werte in den drei Untertests x1, x2 und x3, und die vorher-
gesagten Werte u1 und u2, so haben u1 und u2 die Form
u1 = a11x1 + a12x2 + a13x3 + b1
u2 = a21x1 + a22x2 + a23x3 + b2 ,
was man kurz mit Hilfe einer affinen Abbildung als
u = Ax + b
schreiben kann.
Ein einfacher Spezialfall ist wieder der, dass man nur eine neue Variable bildet;
dann ist es ublich, die Koeffizienten in einem p-Spaltenvektor a zusammenzufas-
sen. Die neue eindimensionale Variable u schreibt sich dann als
u =∑
aixi + b = a′x + b ;
hier ist die Matrix der affinen Abbildung also a′ und der Verschiebungsvektor die
Zahl b.
Bekanntlich berechnet sich der Erwartungswert einer Linearkombination ui =∑aijxj + bi von Zufallsvariablen xj als
E(ui) = E(∑
aijxj + bi
)=∑
aijE(xj) + bi .
Fasst man die Komponenten wieder zu einem Vektor zusammen, so erkennt man,
dass fur den Erwartungswert E(u) von u = Ax + b die Beziehung
E(u) = AE(x) + b
gilt, denn die i-te Komponente auf der rechten Seite stimmt nach der vorange-
henden Rechnung gerade mit der i-ten Komponente der linken Seite uberein fur
alle i.
Ist neben x ein weiterer q-Zufallsvektor y gegeben, so ist die Kovarianz der i−ten
Komponente ui von u mit der k−ten Komponente yk von y gleich
Kov(ui, yk) = Kov
(∑j
aijxj + bi, yk
)=∑j
aijKov(xj, yk); ,
und das ist genau das (i, k)−Element von AC(x,y) (Produkt der i-ten Zeile der
ersten Matrix mit der k-ten Spalte der zweiten).
2.1 Grundbegriffe MS13 24
Daher gilt fur u = Ax + b die Beziehung
C(u,y) = C(Ax + b,y) = AC(x,y) .
Wendet man auf y die affine Abbildung v = Cy + d an, so gilt analog
C(x,v) = C(x,Cy + d) = C(x,y)C′ ,
denn
C(x,v) = (C(v,x))′ = (C(Cy + d,x))′ = (CC(y,x))′ = C(x,y)C′ .
Durch Kombination ergibt sich:
C(u,v) = C(Ax + b,Cy + d) = AC(x,Cy + d) = AC(x,y)C′
Als Spezialfall erhalt man fur u = Ax + b
V(u) = C(u,u) = C(Ax + b,Ax + b) = AC(x,x)A′ = AV(x)A′
Die zentralen Regeln werden noch einmal zusammengefasst in der
Feststellung 6. Ist u = Ax + b, E(x) = µ und V(x) = Σ, so gilt
E(u) = Aµ + b
V(u) = AΣA′ . �
Man hat auch wieder den Spezialfall eines eindimensionalen u:
Feststellung 7. Ist u = a′x + b, so gilt
E(u) = a′µ + b
V(u) = a′Σa . �
Wie oben folgert man hieraus, dass Kovarianzmatrizen positiv semidefinit sind.
Die umgekehrte Frage, ob namlich jede positiv semidefinite (p× p)-Matrix auch
eine mogliche Kovarianzmatrix ist, kann genauso wie oben beantwortet werden:
Dies gilt jedenfalls dann, wenn auf dem betrachteten Wahrscheinlichkeitsraum p
unkorrelierte Zufallsvariablen mit Varianz 1 existieren.
2.1 Grundbegriffe MS13 25
Die Regeln sind ubrigens vollig analog zu denen im deskriptiven Fall, was nicht
uberraschen sollte.
Ein weiterer Spezialfall ist der, dass x mit einer Zahl a multipliziert wird:
Feststellung 8. Ist u = ax + b, so gilt
E(u) = aµ + b
V(u) = a2Σ .
Zur Begrundung kann man fur ax auch (aI)x schreiben und erhalt beispielsweise
fur die Varianz
V(u) = (aI)Σ(aI)′ = a2IΣI = a2Σ . �
Auch im theoretischen Bereich ist es im Zusammenhang mit Standardisierungen
sinnvoll, Bezeichnungen fur die Diagonalmatrizen zu haben, deren Diagonalen
aus den Varianzen der Komponenten eines Zufallsvektors x bestehen oder den
Streuungen oder deren Kehrwerten. Hierfur konnen die gleichen Bezeichnungen
Vx, V1/2x und V
−1/2x wie im deskriptiven Fall verwendet werden, da Verwechs-
lungsgefahren durch den Kontext ausgeschlossen sein sollten (man beachte jedoch
die Unterschiedlichkeit der Bezeichnungen V(x) und Vx). Es gelten dann – bei-
spielsweise bei der Bildung von Korrelationsmatrizen – die gleichen Regeln wie
im Deskriptiven.
Es sei angemerkt, dass man die Regeln fur die empirischen Kovarianzmatrizen
genauso hatte zeigen konnen wie fur die theoretischen. Der Zugang uber die
Zentriermatrix wurde vorgezogen, um einerseits die’abstrakte‘ Matrizenrechnung
zu uben, und andererseits aus dem Grund, dass diese Zentriermatrix spater noch
wichtig werden wird.
Eine weitere Anmerkung: Auch im empirischen Fall ist es gelegentlich sinnvoll,
eine Matrix der Kovarianzen fur zwei verschiedene Variablengruppen zu bilden,
so wie C(x,y); es sollte nun aber nicht schwerfallen, sich selbst zu uberlegen, wie
die Definition aussehen muss, und dass analoge Rechenregeln gelten.
Summen von Zufallsvektoren. Wichtig sind auch die Kennwerte von Summen
von Zufallsvektoren.
Sind x und y zwei p−Zufallsvektoren, die naturlich auf dem gleichen W-Raum
2.1 Grundbegriffe MS13 26
definiert sein mussen, so folgt aus Betrachtung der Komponenten unmittelbar
E(x + y) = E(x) + E(y) ,
analog fur Differenzen und allgemeiner Linearkombinationen ax + by.
Ist u ein weiterer Zufallsvektor, so gilt
C(x + y,u) = C(x,u) + C(y,u) ,
da ja das (i, j)-Element Kov(xi + yi, uj) der Matrix auf der linken Seite gleich
Kov(xi, uj) + Kov(yi, uj) ist, und das ist das (i, j)-Element der rechten Seite.
Ganz analog gilt fur einen weiteren Zufallsvektor v der gleichen Lange wie u die
Beziehung
C(x,u + v) = C(x,u) + C(x,v) ,
was man leicht durch Transponieren der letzten Regel erkennt.
Zusammen ergibt dies
C(x + y,u + v) = C(x,u) + C(x,v) + C(y,u) + C(y,v) ,
und im Spezialfall
V(x + y) = V(x) + V(y) + C(x,y) + C(y,x) ,
wobei man fur C(y,x) naturlich auch C(x,y)′ schreiben kann.
Wichtig ist vor allem der Spezialfall, dass die Matrix der Kovarianzen von x und
y die Nullmatrix ist. Meist spricht man hier eher davon, dass x und y unkorreliert
sind, womit man meint, dass jede Komponente von x mit jeder Komponente von
y die Korrelation 0 hat; daraus folgt dann unmittelbar C(x,y) = 0 (allerdings ist
die erste Formulierung allgemeiner, weil sie auch die Moglichkeit umfasst, dass bei
den Variablen auch Varianzen von 0 vorkommen). Fur diesen Spezialfall erhalt
man:
Feststellung 9. Ist die Matrix C(x,y) der Kovarianzen der p-Zufallsvektoren x
und y gleich 0, so gilt
V(x + y) = V(x) + V(y) . �
Man kann die Formeln fur die Summe zweier p-dimensionaler Zufallsvariablen x
und y auch mit Hilfe der Regeln zu partitionierten Matrizen herleiten. Man fasst
2.2 Geometrische Veranschaulichungen MS13 27
dazu die beiden Variablen zu einem Zufallsvektor z = (x,y) (eigentlich (x′,y′)′)
zusammen, und macht sich zunachst klar, dass der Erwartungswertvektor von z
gleich (E(x)
E(y)
)ist und die Kovarianzmatrix von z gleich(
V(x) C(x,y)
C(y,x) V(y)
).
Die Summe von x und y erhalt man auch, indem man auf z die durch die Matrix
(I, I) gegebene affine Abbildung anwendet, denn es gilt
(I I
)(x
y
)= Ix + Iy = x + y .
Nach den Regeln fur affine Transformationen ist daher der Erwartungswert von
x + y gleich
E(x + y) =(I I
)(E(x)
E(y)
)= I E(x) + I E(y) = E(x) + E(y) ,
und die Kovarianzmatrix von x + y gleich
V(x + y) =(I I
)( V(x) C(x,y)
C(y,x) V(y)
)(I
I
)= V(x) + C(x,y) + C(y,x) + V(y) .
Naturlich gelten ubrigens im Deskriptiven analoge Regeln, insbesondere ist die
Kovarianzmatrix der Summe von zwei unkorrelierten Variablenvektoren gleich
der Summe der Kovarianzmatrizen der beiden Vektoren.
2.2 Geometrische Veranschaulichungen
In diesem Abschnitt sollen geometrische Veranschaulichungen multivariater Si-
tuationen besprochen werden und geometrische Deutungen multivariater Kenn-
werte. Die Einzelthemen sind dabei eher heterogen.
Variablenraum und Personenraum. In diesem Abschnitt geht es um zwei
Moglichkeiten, multivariate Daten geometrisch darzustellen. Die Daten von n
2.2 Geometrische Veranschaulichungen MS13 28
Personen auf p Variablen sollen dabei wie ublich in einer (n× p)-Datenmatrix X
vorliegen.
Hier ist zunachst ein Miniaturbeispiel einer solchen Datenmatrix: Von drei Ver-
suchspersonen seien je zwei Testwerte erhoben worden. Als Datenmatrix kann
sich dann die folgende (3× 2)-Matrix ergeben haben: 1 −2
2 1
−3 1
Die erste Person hat also die Werte 1 und −2 in den beiden Tests erzielt, in der
zweiten Variablen hatten die drei Personen die Werte −2, 1 und 1, etc.
Zur geometrischen Darstellung einer Datenmatrix stehen zwei Moglichkeiten zur
Verfugung: Die Darstellung im Variablenraum und die im Personenraum.
Der Variablenraum ist bekannt: Hier entsprechen die Achsen den Variablen und
jede Person wird durch einen Punkt reprasentiert, dessen Koordinaten die Werte
der einzelnen Variablen fur diese Person sind. Man hat also eine Darstellung der
Daten im Rp.
Die Darstellung im Personenraum ist sozusagen dual dazu: Hier entsprechen die
Achsen den Personen, wahrend die Variablen als Vektoren reprasentiert sind,
deren Koordinaten die Werte sind, die die einzelnen Personen auf den jeweiligen
Variablen haben. Hier werden die Daten also im Rn dargestellt.
Wahrend bei der Darstellung der Daten im Variablenraum die einzelnen Personen
im Mittelpunkt stehen, geht es bei der Darstellung im Personenraum um eine Re-
prasentation der Variablen. Die Namensgebung richtet sich nach der Bedeutung,
die die Achsen haben.
Die folgende Abbildung zeigt fur die gerade betrachtete Datenmatrix X die Dar-
stellungen im Variablenraum und im Personenraum, wobei die Buchstaben P, p
fur die Personen und die Buchstaben X,x fur die Variablen stehen.
2.2 Geometrische Veranschaulichungen MS13 29
1
1
p
pp
p1
p2p3
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.........................
...................X2
.......................................................................................................................................................................................................................................... ...................
X1
............................................................................................................................................................... ...................
........................................
........................................
.....................................
........................................
........................................
........................................................
...................
............................................................................................................................................
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
....................
...................
...........................................................................................................................................................
..................
.........
................
........
..............
.......
..............
.......
.......
.......
.......
.......
.......
.......
................
.........
...........................................................
pppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppp pppppppppppppppp.........
....
..................
.......................
pppppppppppppppppppppppppppppppppppppppppppp
P1
P2
P3
1
11
x1
x2
Fur das Beispiel der einfachen linearen Regression bei n Versuchspersonen erhalt
man eine (n× 2)-Datenmatrix. Im zweidimensionalen Variablenraum werden die
Daten durch die bekannte Punktwolke dargestellt. Der Personenraum ist hinge-
gen n-dimensional und die Datendarstellung besteht aus zwei Vektoren, die fur
Pradiktor und Kriterium stehen.
Punktwolken im Variablenraum. Die Darstellung multivariater Daten durch
Punktwolken ist aus der bivariaten Situation (also der mit zwei Variablen) wohl-
bekannt. In diesem Abschnitt soll die Spur der Kovarianzmatrix in dieser Dar-
stellung eine geometrische Interpretation erhalten, die ihre Bezeichnung als Ge-
samtvarianz rechtfertigt.
Ausgangspunkt ist wie ublich eine (n×p)-Datenmatrix X, deren Element xij den
Wert angibt, den die i-te Versuchsperson auf der j-ten Variable hat. Die Variablen
werden mit x1, . . . , xp bezeichnet und zu einem Variablenvektor x zusammenge-
fasst. Die wie ublich mit xi bezeichnete transponierte i-te Zeile von X gibt dann
an, welchen Wert die i-te Versuchsperson auf dem gesamten Variablenvektor x
besitzt.
An dieser Stelle ist noch einmal ein Hinweis auf unterschiedliche Verwendungswei-
sen von Symbolen wie xi angebracht: Oft bezeichnet xi wie hier den Datenvektor
der i-ten Versuchsperson. In anderen Situationen, beispielsweise im Personen-
raum oder wenn eher Datenvektoren im Mittelpunkt des Interesses stehen, kann
xi aber auch den Vektor der Daten in der i-ten Variable bezeichnen. Man konnte
diesem Bezeichnungskonflikt durch die Einfuhrung getrennter Bezeichnungswei-
sen aus dem Weg gehen, was aber zu eher unhandlichen Ausdrucken fuhren wurde.
Da aus dem Kontext die Bedeutung meist klar ist, kann meist ein kurzer einlei-
tender Hinweis zur Klarung genugen, falls dieser uberhaupt notig ist.
Die wichtigsten Kennwerte der Verteilung sind der Mittelwertsvektor (das Zen-
2.2 Geometrische Veranschaulichungen MS13 30
troid) der Daten und die Kovarianzmatrix. Den Mittelwertsvektor x erhalt man,
indem man variablenweise die Mittelwerte bildet und zu einem Vektor zusam-
menfasst. Alternativ ergibt sich auch sofort
x =1
n
n∑i=1
xi .
Bei der Reprasentation der Daten im Variablenraum entspricht jeder Person
derjenige Punkt in einem p-dimensionalen Koordinatensystem, dessen Koordi-
naten die Werte der Person in den p Variablen sind. Auf diese Weise erhalt
man insgesamt eine Punktwolke. Das Zentroid kann dabei auch (in einem naher
prazisierbaren Sinn) als Schwerpunkt der Punktwolke angesehen werden.
In den folgenden Uberlegungen soll uber das Koordinatensystem vorausgesetzt
werden, dass seine Achsen senkrecht aufeinander stehen und dass die Einhei-
ten auf den Koordinatenachsen alle die gleiche Lange haben. Die folgenden geo-
metrischen Interpretationen beruhen wesentlich auf diesen Voraussetzungen, die
normalerweise auch erfullt sein sollten.
Ein Beispiel: Sind an 5 Versuchspersonen jeweils zwei Variablen x1 und x2 erhoben
worden, so konnte die Datenmatrix X so aussehen:2 1
4 3
1 1
5 2
3 3
Hier hat also zum Beispiel die vierte Versuchsperson in den beiden Variablen die
Werte 5 und 2, die man in dem Vektor x4 = (5, 2)′ zusammenfasst.
Der Mittelwertsvektor x ist hier gleich (3, 2)′. Die folgende Graphik veranschau-
licht die Daten im Variablenraum:
2.2 Geometrische Veranschaulichungen MS13 31
1
1
.................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................. ..........................
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.........................
...................
x1
x2
r
r
rr
rs
x4
x
Die Kovarianzmatrix S bildet man als Matrix der Kovarianzen. Man erhalt diese
Kovarianzmatrix offenbar auch folgendermaßen:
S =1
n
n∑i=1
(xi − x)(xi − x)′ ,
denn hier ergibt sich als (j, k)-Element gerade der Mittelwert der Produkte der
Abweichungen der j-ten und der k-ten Variable von ihrem jeweiligen Mittelwert.
Im Beispiel ergibt sich als Kovarianzmatrix die Matrix
S =
(2 .8
.8 .8
).
Nun kann die Spur der Kovarianzmatrix geometrisch gedeutet werden.
Feststellung 1. Die Spur der Kovarianzmatrix ist gleichzeitig der durchschnitt-
liche quadrierte Abstand der Datenpunkte vom Zentroid.
Der quadrierte Abstand des i-ten Datenpunktes vom Zentroid ist namlich gleich
‖xi − x‖2 = (xi − x)′(xi − x) .
Dies kann man auch kunstlich schreiben als Spur((xi − x)′(xi − x)), denn die
Spur einer (1 × 1)-Matrix ist gerade die in dieser Matrix enthaltene Zahl. Der
2.2 Geometrische Veranschaulichungen MS13 32
durchschnittliche quadrierte Abstand ist daher
1
n
n∑i=1
Spur((xi − x)′(xi − x)) =1
n
n∑i=1
Spur((xi − x)(xi − x)′)
= Spur
(1
n
n∑i=1
(xi − x)(xi − x)′
)= Spur(S) .
Hierbei werden die bekannten Eigenschaften der Spur benutzt, unter anderem
die Linearitatseigenschaften, also beispielsweise, dass die Spur einer Summe die
Summe der Spuren ist. �
Im Beispiel ist die Spur der Kovarianzmatrix gleich 2.8. Dies ist nun wegen der
letzten Feststellung gleichzeitig der durchschnittliche quadrierte Abstand der Da-
tenpunkte vom Zentroid. In der folgenden Abbildung sind die Abstande der Da-
tenpunkte vom Zentroid an den Beispieldaten veranschaulicht.
1
1
.................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................. ..........................
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.........................
...................
x1
x2
r
r
rr
rs
.............................................................................................................................................................................................................................................................................................................................................................................................................................................................................................
............................
............................
............................
............................
............................
............................................................................................................................................................................................................................................................................................................................................................................
x
Man erkennt in der Argumentation, dass die Voraussetzungen uber Achsen und
Einheiten wesentlich fur diese Deutungsmoglichkeit sind, denn nur unter diesen
Voraussetzungen ist die Summe der quadrierten Koordinatendifferenzen zweier
Punkte als quadrierter Abstand dieser Punkte interpretierbar.
Der durchschnittliche quadrierte Abstand vom Zentroid ist die naturliche Verall-
gemeinerung des univariaten durchschnittlichen quadrierten Abstands vom Mit-
telwert. Daher ist die Spur der Kovarianzmatrix auch eine naturliche Verallge-
meinerung der univariaten Varianz, und die Bezeichnung Gesamtvarianz fur die
Spur erfahrt eine zusatzliche Rechtfertigung.
2.2 Geometrische Veranschaulichungen MS13 33
Ein Sonderfall tritt dann ein, wenn die Spur der Kovarianzmatrix gleich 0 ist
(dann besteht ubrigens die gesamte Kovarianzmatrix nur aus Nullen, da ja ei-
nerseits die nichtnegativen Diagonalelemente und damit die Varianzen dann alle
gleich Null sein mussen, und da andererseits die Kovarianz zweier Variablen be-
tragsmaßig hochstens so groß ist wie das Produkt der Streuungen). Das bedeutet
namlich, dass der durchschnittliche quadrierte Abstand vom Zentroid gleich 0 ist,
dass also alle Datenpunkte mit dem Zentroid zusammenfallen. Es besteht dann
also keinerlei Variation in den Daten. Die Umkehrung ist unmittelbar klar, und
man hat damit
Feststellung 2. Die Spur einer Kovarianzmatrix ist genau dann 0, wenn die
Daten konstant sind. �
Es soll nun noch der durchschnittliche quadrierte Abstand eines beliebigen Punk-
tes v zu den Datenpunkten berechnet werden.
Der quadrierte Abstand von xi zu v ist
‖xi − v‖2 = ‖(xi − x) + (x− v)‖2
= ‖xi − x‖2 + 2<xi − x, x− v>+ ‖ x− v‖2 ,
der durchschnittliche quadrierte Abstand daher
1
n
∑‖xi − v‖2 =
1
n
∑(‖xi − x‖2 + 2<xi − x, x− v>+ ‖ x− v‖2
)=
1
n
∑‖xi − x‖2 + 2<
1
n
∑(xi − x), x− v>+ ‖ x− v‖2 .
Hier ist das Skalarprodukt gleich 0, da
1
n
∑(xi − x) =
1
n
∑xi −
1
nn x = x− x = 0
ist (dies ist die durchschnittliche Abweichung vom Zentroid). Der erste Summand
ist der durchschnittliche quadrierte Abstand vom Zentroid, also die Spur der
Kovarianzmatrix S der Punkte xi. Damit gilt:
Feststellung 3. Der durchschnittliche quadrierte Abstand eines Punktes v von
den xi ist1
n
∑‖xi − v‖2 = Spur(S) + ‖ x− v‖2 . �
Eine wichtige Folgerung hieraus ist die, dass das Zentroid derjenige Punkt ist, der
zu den Punkten einer Punktwolke den kleinsten durchschnittlichen quadrierten
2.2 Geometrische Veranschaulichungen MS13 34
Abstand hat. Fur alle vom Zentroid verschiedenen Punkte v ist ja der durch-
schnittliche quadrierte Abstand um den dann positiven Summanden ‖ x− v‖2
großer.
Die gerade fur empirische Daten formulierten Aussagen gelten analog auch fur
den theoretischen Fall eines Zufallsvektors. Die angestellten Uberlegungen las-
sen sich mit leichten Modifikationen ganz entsprechend auf theoretischer Ebene
durchfuhren, was fur besonders Interessierte nun etwas genauer erlautert werden
soll. Ausgangspunkt ist jetzt eine p-dimensionale Zufallsvariable x mit Erwar-
tungswertvektor µ und Kovarianzmatrix Σ.
Stellt man sich bei diesem Zufallsvektor vor, dass er Werte in einem p-dimensiona-
len Raum annimmt, der wie oben mit einem rechtwinkligen Koordinatensystem
mit gleichen Einheiten der Achsen versehen ist, so lassen sich die Argumenta-
tionen aus der empirischen Situation direkt ubertragen. Ein moglicher Wert des
Zufallsvektors wird dabei naturlich durch den Punkt reprasentiert, dessen Koor-
dinaten die Werte der Komponenten des Zufallsvektors sind.
Zunachst ist dann die Spur der Kovarianzmatrix gleich dem Erwartungswert des
quadrierten Abstandes von x zu µ. Die Begrundung ist ganz analog wie im empi-
rischen Fall, wobei nur die Mittelwertbildung durch die Bildung des Erwartungs-
werts zu ersetzen ist. Der Schritt, bei dem die Bildung der Spur mit der Bildung
des Erwartungswerts vertauscht wird, ist dadurch gerechtfertigt, dass die Spur
die Summe der Diagonalelemente ist, und dass der Erwartungswert einer Summe
gleich der Summe der Erwartungswerte ist. Zu berucksichtigen ist dann noch die
schon bekannte Gleichung V(x) = E((x− µ)(x− µ)′).
Damit ist auch in der theoretischen Situation die Spur der Kovarianzmatrix geo-
metrisch interpretierbar, diesmal als Erwartungswert des quadrierten Abstands
zum Erwartungswertvektor, und ist damit ebenfalls eine naturliche Verallgemei-
nerung der univariaten theoretischen Varianz.
Der Fall, dass die Spur der Kovarianzmatrix (also die Gesamtvarianz) gleich Null
ist, bedeutet daher, dass der Erwartungswert des quadrierten Abstandes der Zu-
fallsvariable zu µ gleich 0 ist. Dies bedeutet, dass dieser Abstand mit Wahr-
scheinlichkeit 1, oder wie man auch sagt fast sicher (f.s.) gleich 0 ist, was eine
etwas schwachere Formulierung ist als die, dass der Zufallsvektor konstant ist,
aber nicht wesentlich schwacher, da die Ausnahme der Abweichung von µ eben
nur mit Wahrscheinlichkeit 0 eintreten kann.
2.2 Geometrische Veranschaulichungen MS13 35
In Zukunft wird in analogen Situationen nur der Genauigkeit halber ahnlichen
Aussagen der Zusatz’(f.s.)‘ hinzugefugt.
Die Aussage uber den Erwartungswert des durchschnittlichen quadrierten Ab-
stands von x zu einem beliebigen Punkt v lasst sich im theoretischen Fall ganz
analog zum empirischen Fall formulieren und begrunden, wobei nur bei dem
Teilschritt E(<x− µ, µ− v>) = <E(x− µ), µ− v> eine kleine Schwierig-
keit auftritt, die sich aber sofort durch den Hinweis beheben lasst, dass das erste
Skalarprodukt eine Linearkombination der Komponenten von x−µ ist, bei dem
die Koeffizienten die konstanten Komponenten von µ− v sind, und dass der Er-
wartungswert einer Linearkombination die entsprechende Linearkombination der
Erwartungswerte ist.
Variablentransformationen. Ein zentrales Prinzip der multivariaten Stati-
stik besagt, dass Variablen beliebig durch Linearkombinationen ersetzt werden
durfen, solange dies insgesamt ohne’Informationsverlust‘ moglich ist. Ein solcher
Ubergang von Originalvariablen zu neuen Variablen soll auch Variablentransfor-
mation heißen.
Ob die neuen Variablen inhaltlich gut interpretierbar sind, spielt dabei nicht unbe-
dingt die Hauptrolle – oft liegen die Grunde fur solche Variablentransformationen
auch in statistischen Gesichtspunkten. Man erhalt dann gelegentlich neue Varia-
blen mit praktischen statistischen Eigenschaften, deren inhaltliche Interpretation
schwer fallt.
Der zunachst noch vage Ausdruck’ohne Informationsverlust‘ wird weiter unten
prazisiert werden. Wichtig ist der Hinweis, dass dieser’Informationserhalt‘ we-
sentlich ist fur den Begriff der Variablentransformation, wie er hier gebraucht
werden soll. Fur den in vielen Zusammenhangen mit wechselnden Bedeutun-
gen verwendeten eher informellen Begriff der’Transformation‘ trifft das hingegen
nicht notwendigerweise zu, wie man beispielsweise an der schon fruher gebrauch-
ten Bezeichnung einer’affinen Transformation‘ bei der Umformung von Daten
sieht.
Ein ganz einfaches Beispiel fur eine solche Variablentransformation ist das eines
Intelligenztests, der aus zwei Untertests x1 und x2 besteht, der sprachlichen und
der rechnerischen Intelligenz. Eine Versuchsperson ist hier also durch zwei Werte
gekennzeichnet. Aus diesen beiden Werten kann man nun einerseits die Summe
y1 = x1 + x2 bilden und andererseits die Differenz y2 = x2 − x1.
2.2 Geometrische Veranschaulichungen MS13 36
Die beiden so definierten neuen Variablen y1 und y2 sind offenbar Linearkombi-
nationen der Ausgangsvariablen, und sie sind auch inhaltlich gut interpretierbar:
die Variable y1 gibt die Gesamtintelligenz wieder, wahrend man an der Variable
y2 ablesen kann, ob die rechnerische oder die sprachliche Intelligenz uberwiegt –
man konnte y2 also auch als Spezialisierung bezeichnen. Damit die Definition der
Spezialisierung durch eine simple Differenzbildung gerechtfertigt ist, sei voraus-
gesetzt, dass x1 und x2 im Mittel gleich groß sind und auch gleiche Varianzen
besitzen.
Man kann nun aus y1 und y2 die Werte von x1 und x2 wieder rekonstruieren. Es
gilt namlich
y1 + y2 = (x1 + x2) + (x2 − x1) = 2x2 ,
woraus x2 = 1/2 (y1 + y2) folgt, und
y1 − y2 = (x1 + x2)− (x2 − x1) = 2 x1
woraus sich x1 = 1/2 (y1 − y2) ergibt.
Die beiden neuen Variablen y1 und y2 enthalten damit zusammen dieselbe Infor-
mation wie die Ausgangsvariablen x1 und x2, mit dem Unterschied, dass diese
Information mit den neuen Variablen unter anderen Gesichtspunkten dargeboten
wird.
Bis jetzt sind x1 und x2 die Ausgangsvariablen, und y1 und y2 sind gewissermaßen
nur daraus abgeleitet und haben daher einen anderen – niedereren – Status.
Wodurch ist diese Sichtweise jedoch gerechtfertigt? Kann es nicht sein, dass die
Gesamtintelligenz und die Spezialisierung die’eigentlichen‘ Variablen sind, und
dass x1 und x2 ihrerseits nur aus diesen abgeleitet sind? Rechnerisch kann man
die Beziehung zwischen x- und y-Variablen ja in beiden Richtungen explizieren.
Mit einiger Uberlegung findet man womoglich tatsachlich Argumente, die den
y-Variablen Vorrang einraumt (vor allem, wenn man sich vergegenwartigt, dass
Intelligenztests oft so hergestellt werden, dass man gegebene Items nach nicht
immer ganz nachvollziehbaren Kriterien in Gruppen zusammfasst, und diesen
dann kreativ solche Namen gibt, wie’verbale‘ oder ‘rechnerische Intelligenz‘, kann
man leicht zu zweifeln anfangen, ob nun gerade die so hergestellten Variablen in
der Realitat eine substantielle Entsprechung haben und andere Variablen, wie
hier die Gesamtintelligenz, nicht).
Solche Uberlegungen sind ganz im Sinne des multivariaten Standpunktes, der zu-
mindest technisch neuen Linearkombinationen den gleichen Status einraumt wie
2.2 Geometrische Veranschaulichungen MS13 37
den Originalvariablen. Denkt man hier konsequent weiter, so merkt man, dass der
Variablenbegriff oft keineswegs so scharf ist, wie man im ersten Moment meinen
konnte, oder dass haufig Kriterien fehlen, die es gestatten, bei unterschiedlichen
Linearkombinationen festzulegen (oder – je nach Standpunkt – festzustellen), wel-
che dieser Linearkombinationen’fundamentale‘ Variablen sind, und welche nur
’abgeleitet‘ sind. Die Hoffnung auf ein materielles Substrat, das hier weiterhel-
fen konnte, wird sich vielleicht auch nur in wenigen Fallen, wenn uberhaupt je,
erfullen. In letzter Konsequenz lost sich womoglich der Variablenbegriff selbst
auf, jedenfalls viele naiven Vorstellungen daruber.
Der multivariaten Statistik ist dies jedoch weitgehend gleichgultig, eben weil sie
nach dem Prinzip verfahrt, zunachst keine der Linearkombinationen von Varia-
blen vor anderen auszuzeichnen, letztlich auch die Variablen selbst nicht, und die
zwanglos mit Hilfe von Transformationen von einem Variablensystem zu jedem
anderen aquivalenten ubergehen kann.
Hier sollen allgemein derartige Variablentransformationen unter dem geometri-
schen Aspekt betrachtet werden. Es wird sich herausstellen, dass die Transfor-
mationen sich auch als Koordinatentransformationen interpretieren lassen, was
ihre’Harmlosigkeit‘ unterstreicht, denn dies bedeutet, dass man immer von den
gleichen Sachverhalten spricht, die man nur anders beschreibt oder betrachtet.
Zunachst sollen die Bezeichnungen fur diesen Abschnitt festgelegt werden: Die
Originalvariablen seien immer mit dem Buchstaben x bezeichnet, die durch die
Transformation gewonnen neuen mit dem Buchstaben y.
Der Ausdruck’ohne Informationsverlust‘ soll – nun etwas genauer, aber immer
noch vorlaufig – bedeuten, dass es moglich sein soll, Originaldaten aus transfor-
mierten Daten wieder vollstandig zu rekonstruieren.
Bevor sogleich die Standardfalle von Variablentransformationen im Rahmen der
multivariaten Statistik besprochen werden, soll noch auf eine Moglichkeit hinge-
wiesen werden, die Forderung des Informationserhalts auch mathematisch ange-
messen zu formulieren.
Bezeichnet man allgemein die Menge moglicher Werte der Originalvariablen mit
D und die Menge moglicher Werte der transformierten Variablen mit W , so wird
man die Forderung nach Informationserhalt so prazisieren, dass man verlangt,
dass die Funktion f : D → W , die die Transformation beschreibt, bijektiv ist.
Dies bedeutet ja bekanntlich gerade, dass einerseits unterschiedlichen Elementen
2.2 Geometrische Veranschaulichungen MS13 38
von D unterschiedliche Elemente von W zugeordnet werden, und dass anderer-
seits jedes Element von W durch die Abbildung f auch erfasst wird. Anschau-
lich heißt das, dass Verschiedenheit von Daten nach der Transformation erhalten
bleibt, und dass alle Elemente von W auch als transformierte Daten in Frage
kommen. Damit ist – jedenfalls im Prinzip – die Rekonstruierbarkeit der Origi-
naldaten aus den transformierten Daten gewahrleistet.
Als erstes wird nun der etwas einfachere Fall einer linearen Variablentransforma-
tion behandelt; der allgemeinere Fall der affinen Variablentransformation folgt
spater.
Hier sollen die neuen Variablen aus den alten als Linearkombinationen ohne ad-
ditive Konstante gebildet werden. Die Transformation der beiden Intelligenzva-
riablen vom Anfang erfullt beispielsweise diese Bedingung.
Die Koeffizienten, mit denen die neuen Variablen aus den alten gebildet werden,
sollen spaltenweise zu einer Matrix G zusammengefasst werden, die hier auch
Koeffizientenmatrix heißen soll.
In dem Eingangsbeispiel mit y1 = x1 + x2 und y2 = x2 − x1 sieht diese Koeffizi-
entenmatrix so aus:
G =
(1 −1
1 1
).
Fasst man die Originalvariablen zu einem Vektor x zusammen und die neuen
Variablen zu einem Vektor y, so gilt
y = G′x ,
denn bei der Matrix G standen die Koeffizienten zur Bildung der neuen Variablen
in den Spalten, weshalb G hier zu transponieren ist.
Am Beispiel sei dies verdeutlicht: hier gilt
y =
(y1y2
)=
(1 1
−1 1
)(x1x2
)= G′x .
Die Gleichung y = G′x ist ubrigens auf zwei Weisen interpretierbar: einerseits
auf Variablen bezogen und andererseits auf mogliche Daten.
Auf Variablen bezogen sagt die Gleichung, wie die y-Variablen aus den x-Variablen
hergestellt werden – man hat gewissermaßen die Definition des neuen Variablen-
vektors y mit Hilfe des Originalvariablenvektors x vor sich.
2.2 Geometrische Veranschaulichungen MS13 39
Man kann die Gleichung aber auch so lesen, dass x und y mogliche Datenvektoren
sind. Dann gibt die Gleichung an, wie man die Daten einer Versuchsperson, die in
den Originalvariablen ausgedruckt sind, mit Hilfe der neuen Variablen darstellt.
Dass G bei der Transformation erst noch zu transponieren ist, wirkt auf den er-
sten Blick unschon. Hatte man die Koeffizienten zur Bildung der neuen Variablen
nicht zu Spalten, sondern zu Zeilen gemacht, hatte man diesen Schritt vermeiden
konnen. Allerdings wird in vielen Verfahren traditionellerweise die hier verwen-
dete Schreibweise benutzt, da sie unter anderen, spater behandelten Aspekten
Vorteile besitzt. Daher soll sie der Einheitlichkeit halber gleich von Beginn an
verwendet werden.
Die Forderung, dass die Transformation ohne Informationsverlust vonstatten ge-
hen soll, prazisiert man nun durch die Bedingung, dass die Matrix G invertierbar
sein soll.
Dann ist auch G′ invertierbar und x lasst sich aus y in der Form x = G′−1y
zuruckgewinnen.
Die Matrix G im Beispiel erfullt die Bedingung der Invertierbarkeit; die Inverse
errechnet sich zu
G−1 =1
2
(1 1
−1 1
),
weshalb die Rucktransformation
x = G′−1y =1
2
(1 −1
1 1
)(y1y2
)=
1
2
(y1 − y2y1 + y2
)lautet, genau wie oben schon auf elementarem Weg berechnet.
Die Gleichung y = G′x, die jetzt als Datentransformation verstanden werden
soll, kann geometrisch als Koordinatentransformation interpretiert werden, und
zwar als diejenige, bei der man vom ursprunglichen Koordinatensystem ubergeht
zu dem neuen Koordinatensystem, dessen Achsen durch die Spalten von G′−1
bestimmt sind.
Berechnet man namlich allgemein fur einen Vektor x den Vektor y der neuen
Koordinaten, so erhalt man y = (G′−1)−1x = G′x, was in der Tat gerade die
Transformationsgleichung ist.
Stellt man also die Ergebnisse einer Versuchsperson in den Originalvariablen wie
ublich durch einen Punkt x im Standardkoordinatensystem dar, so erhalt man
2.2 Geometrische Veranschaulichungen MS13 40
die Werte dieser Versuchsperson in den neuen Variablen einfach durch Ablesen
der Koordinaten des Punktes in dem neuen Koordinatensystem.
Im Beispiel sind die Achsen und Einheiten des neuen Koordinatensystems gege-
ben durch die Spalten der Matrix
G′−1 =
(1/2 −1/2
1/2 1/2
).
Die folgende Abbildung zeigt die beiden Koordinatensysteme, und außerdem
einen Punkt, der einer Versuchsperson entspricht, die in den beiden Untertests
die Werte 4 und 3 besitzt.
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
........................
...................x2
.......................................................................................................................................................................................................................................................................................... ...................
x1
r
..........................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................
..................
..................
..................
..................
..................
..................
..................
..................
..................
..................
..................
..................
..................
..................
..................
.......................................................
..................................................................................................................................................................................................................................................................................................................
...................y1y2
...........
...........
...........
...........
...........
...........
...........
...........
...........
...........
...........
...........
...........
...........
...........
...........
...........
...........
...........
...........
...........
...........
...........
...........
...................................................................
..................................................
....
Fur die untersuchte Person berechnet sich der y-Vektor zu (7,−1)′, was tatsachlich
in der Abbildung direkt abgelesen werden kann.
Feststellung 4. Bildet man aus p in x zusammengefassten Variablen neue Line-
arkombinationen, fur die die Koeffizienten die Spalten einer invertierbaren Matrix
G sind und die additiven Konstanten alle 0, und fasst man die neuen Variablen
zu einem Vektor y zusammen, so gilt
y = G′x und x = G′−1y .
Die Umrechnung von x zu y kann als eine Koordinatentransformation interpre-
tiert werden, bei der das neue Koordinatensystem durch die Spalten der Matrix
G′−1 gegeben ist. �
Als nachstes soll der allgemeinere Fall der affinen Variablentransformationen be-
handelt werden, bei denen die additiven Konstanten nicht notwendigerweise gleich
0 sind.
2.2 Geometrische Veranschaulichungen MS13 41
Auch hier soll am Anfang wieder ein Beispiel stehen, das eine etwas kompliziertere
Version des ersten Beispiels ist.
Wieder soll es um zwei Teiltests eines Intelligenztests gehen (x1: verbal, x2: rech-
nerisch), von denen aus einer Normstichprobe die Mittelwerte 5 und 3 und die
Streuungen 2 und .5 bekannt seien. Jetzt soll also nicht mehr vorausgesetzt sein,
dass die Teiltests in ihren statistischen Kennwerten gleich sind. Will man die
beiden Teiltests zu einem Gesamtwert zusammenfugen oder die beiden Intelli-
genzkomponenten miteinander vergleichen, so ware eine simple Summen- und
Differenzbildung sicher nicht angemessen; eine bessere Idee ist die, zunachst z-
Werte zu berechnen und dann von diesen die Summe y1 (’Gesamtscore‘) und die
Differenz y2 (’Spezialisierung‘) zu bilden.
Der zu x1 gehorende z-Wert z1 ist gleich (x1 − 5)/2, der zu x2 gehorende z-Wert
z2 ist (x2 − 3)/(.5). Damit erhalt man
y1 = z1 + z2 = (x1 − 5)/2 + (x2 − 3)/(.5) = (1/2)x1 + 2x2 − 8.5
und
y2 = z2 − z1 = (x2 − 3)/(.5)− (x1 − 5)/2 = −(1/2)x1 + 2x2 − 3.5 .
Fasst man die Koeffizienten bei der Bildung dieser Linearkombinationen wieder
spaltenweise zu einer Koeffizientenmatrix G zusammen und die additiven Kon-
stanten zu einem Vektor h, so erhalt man
G =
(.5 −.52 2
)und h =
(−8.5
−3.5
).
Die Transformation von x zu y ist jetzt
y = G′x + h ,
auch hier ist also die Koeffizientenmatrix zu transponieren.
Die Bedingung, dass die Transformation umkehrbar sein soll, bedeutet wieder,
dass G invertierbar sein muss, was nun vorausgesetzt werden soll. Die Um-
kehrtransformation berechnet sich dann zu
x = G′−1(y − h) = G′−1y −G′−1h .
Auch hier ist nun die Gleichung y = G′x + h als Koordinatentransformation in-
terpretierbar. Wahlt man namlich ein affines Koordinatensystem, dessen Achsen
2.2 Geometrische Veranschaulichungen MS13 42
und Einheiten durch die Spalten von G′−1 gegeben sind, wahrend der Nullpunkt
nach −G′−1h verschoben ist, so errechnet sich der zu x gehorende neue Koordi-
natenvektor y zu
y = (G′−1)−1x− (G′−1)−1(−G′−1h) = G′x + h ,
was genau die Transformationsgleichung ist.
Fur das Beispiel errechnet man
G′−1 =
(1 −1
.25 .25
)und −G′−1h =
(5
3
).
Die folgende Abbildung zeigt die beiden zugehorigen Koordinatensysteme mit
dem Punkt, der zu einer Person mit x = (6, 1)′ gehort.
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......................
................... x2
........................................................................................................................................................................................................................................................................................................................................................................................................................................................................................ ...................
x1
....................................................
....................................................
....................................................
....................................................
....................................................
....................................................
....................................................
....................................................
....................................................
....................................................
...................................................................................
....................................................
....................................................
....................................................
....................................................
....................................................
....................................................
....................................................
....................................................
....................................................
....................................................
...........................................................
..............................
..............................
..............................
..............................
..............................
..............................
..............................
..............................
..............................
..............................
y1y2
r...................................................................
........................................................
............
...........
....................
Fur die betrachtete Person errechnet man y = (−3.5,−4.5)′, was man auch im
Koordinatensystem abliest (Vorsicht: Optische Tauschung).
Feststellung 5. Bildet man aus p in x zusammengefassten Variablen neue Line-
arkombinationen, fur die die Koeffizienten die Spalten einer invertierbaren Matrix
G sind und die additiven Konstanten die Komponenten eines Vektors h, und fasst
man die neuen Variablen zu einem Vektor y zusammen, so gilt
y = G′x + h und x = G′−1(y − h) = G′−1y −G′−1h .
Die Umrechnung von x zu y kann als eine affine Koordinatentransformation in-
terpretiert werden, bei der das neue Koordinatensystem durch die Spalten der
Matrix G′−1 und den neuen Nullpunkt −G′−1h gegeben ist. �
2.2 Geometrische Veranschaulichungen MS13 43
Naturlich kann man fur transformierte Daten auch ein neues Koordinatensystem
zeichnen (was oft sinnvoll ist); die Form einer Punktwolke wird sich dann oft
etwas verzerren, wie man an der folgenden Abbildung sieht:
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
..........................
................... x2
..................................................................................................................................................................................................................................................................................................................................................................... ...................
x1
....................................................
....................................................
....................................................
....................................................
....................................................
....................................................
....................................................
....................................................
............................................
....................................................
....................................................
....................................................
....................................................
....................................................
....................................................
....................................................
...........................................................
...................
......................
......................
......................
......................
......................
........... ........... ........... ........... ........... ........... ........... ........... ........... ...........
y1y2
rrrr r r r r r r
rrr r r
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
..........................
...................y2
........................................................................................................................................................................................................................................................... ...................
y1rr
rr rr
rr r
r r rrr r
Haufig hat man es mit Transformationen von Daten zu tun, die von der Form
y = Ax oder y = Ax + b sind. Ist dabei die Matrix A invertierbar, so konnen
solche Transformationen auch als Variablentransformationen interpretiert wer-
den, wie man sieht, wenn man als Koeffizientenmatrix G die Matrix A′ wahlt
und gegebenenfalls h = b setzt. In dieser Interpretation druckt dann die neue
Variable y die Information, die in den Originaldaten steckt, nur anders aus.
Transformationen der Form y = Ax oder y = Ax + b mit invertierbarem A
konnen damit auch als Koordinatentransformationen interpretiert und dargestellt
werden, was in vielen Situationen nutzlich ist.
Der einfachste Fall bei affinen Transformationen ist der, in dem nur eine Varia-
ble vorliegt, die transformiert wird. Die Transformation sei dabei von der Form
y = ax+ b mit a 6= 0. Auch eine solche Transformation kann man als affinen Ko-
ordinatenwechsel interpretieren, bei dem der Nullpunkt auf −b/a gesetzt wird,
und bei dem 1/a die neue Einheit ist.
Beispielsweise sei die Transformation y = −2x + 3 gegeben. Die transformierten
Werte lassen sich dann auf der Skala ablesen, deren Nullpunkt auf 1.5 gesetzt ist,
und deren Einheit gleich −.5 (also negative Richtung) ist.
−3 −2 −1 0 1 2 3
9 8 7 6 5 4 3 2 1 0 -1 -2 -3
x
yrZu dem eingezeichneten Punkt mit x = 2.5 gehort der Wert y = (−2)(2.5) + 3 =
−2 den man auch im oberen Koordinatensystem abliest.
2.2 Geometrische Veranschaulichungen MS13 44
Das Thermometer mit der Celsius-Skala auf der einen und der Fahrenheit-Skala
auf der anderen Seite ist ein bekanntes Beispiel, in der eine affine Transformation
durch einen Koordinatenwechsel ausgedruckt wird.
Zum Schluss soll noch besprochen werden, wie sich Linearkombinationen der al-
ten Variablen mit Hilfe der neuen Variablen schreiben lassen; insbesondere geht
es um die Umrechnung des Koeffizientenvektors einer Linearkombination u der
x-Variablen in den Koeffizientenvektor bei einer Darstellung von u als Linear-
kombination der y-Variablen.
Als Beispiel soll wieder die Umrechnung von zwei Intelligenzuntertests x1 und x2in zwei neue Linearkombinationen y1 und y2 dienen, die gerade die Summe und
die Differenz der z-transformierten x-Werte sind, und die fur Gesamtintelligenz
und Spezialisierung stehen sollen. Koeffizientenmatrix und Vektor der additiven
Konstanten seien wieder
G =
(.5 −.52 2
)und h =
(−8.5
−3.5
),
die Berechnung von y geschieht dann mit der Formel
y = G′x + h .
Nun moge es sich als praktisch erwiesen haben, zur Vorhersage des Studienerfolgs
in einem bestimmten Fach die Linearkombination u = x1 + 2x2− 7 zu benutzen.
Die Frage ist, ob sich diese Vorhersage auch mit Hilfe von y1 und y2 ausdrucken
lasst, und wie die umgerechnete Vorhersage dann aussieht.
Dies Problem ist einfach zu losen, indem man die x-Variablen mit Hilfe der y-
Variablen ausdruckt und die Ergebnisse in die Gleichung fur u einsetzt. Es ergibt
sich so x1 = y1 − y2 + 5 und x2 = (y1 + y2)/4 + 3, was eingesetzt
u = (y1 − y2 + 5) + 2 ((y1 + y2)/4 + 3)− 7 = 1.5 y1 − .5 y2 + 4
ergibt.
Im allgemeinen Fall sei wieder G die Koeffizientenmatrix und h der Vektor der
additiven Konstanten. Die Umrechnung von x in y ist
y = G′x + h
und die Umkehrung
x = G′−1(y − h) .
2.2 Geometrische Veranschaulichungen MS13 45
Die umzuformende Linearkombination u sei gegeben durch den Koeffizientenvek-
tor a und die additive Konstante b; es gilt dann also
u = a′x + b .
In dieser Gleichung wird nun x mit Hilfe von y ausgedruckt, und es ergibt sich
u = a′(G′−1(y − h)) + b
= a′G′−1y − a′G′−1h + b
= (G−1a)′y + b− a′G′−1h ,
woraus man unmittelbar abliest, dass der neue Koeffizientenvektor G−1a ist und
die neue Konstante b−a′G′−1h, was man alternativ auch als b− (G−1a)′h schrei-
ben kann.
In dem Beispiel ist a = (1, 2)′ und b = −7. Nach den beiden Formeln ist der neue
Koeffizientenvektor gleich G−1a = (1.5,−.5)′ und die neue additive Konstante
gleich b−a′G′−1h = −7+11 = 4, was mit den auf elementarem Weg gewonnenen
Ergebnissen ubereinstimmt.
Feststellung 6. Ist y = G′x + h eine Transformation von x mit invertierbarer
Matrix G, und ist u = a′x + b eine Linearkombination der Komponenten von x,
so gilt
u = a′(G′−1(y − h)) + b = (G−1a)′y + b− a′G′−1h .
Die Linearkombination u lasst sich also auch als Linearkombination der Kompo-
nenten von y schreiben, wobei der Koeffizientenvektor G−1a ist und die additive
Konstante b− a′G′−1h = b− (G−1a)′h. �
Auf die gleiche Art kann man naturlich auch affine Abbildungen der Form
u = Ax + b
auf die transformierten Variablen y umschreiben; dann ergibt sich entsprechend
u = A(G′−1(y − h)) + b = (AG′−1)y + b−AG′−1h ,
was wieder eine affine Abbildung ist, jetzt mit linearem Anteil AG′−1 und Ver-
schiebungsvektor b−AG′−1h.
Kovarianztreue Darstellungen. Ungewohnt an der Darstellung der Daten im
Personenraum ist, dass hier die Variablen und nicht die Personen reprasentiert
2.2 Geometrische Veranschaulichungen MS13 46
werden. Diese Reprasentation ist allerdings nicht in jeder Hinsicht befriedigend.
Vorteilhafter ist eine Reprasentation der Variablen durch Vektoren, bei der sich
die Kovarianz im Skalarprodukt widerspiegelt.
Der Vorteil einer solchen Reprasentation liegt darin, dass zwei Konzepte aus
unterschiedlichen Bereichen in fruchtbarer Weise miteinander in Verbindung ge-
bracht werden, namlich einerseits das Konzept der Kovarianz aus der Statistik
und andererseits das Konzept des Skalarprodukts aus der linearen Algebra mit
seinen starken geometrischen Bezugen.
Zur Motivation soll zunachst eine Moglichkeit geschildert werden, eine solche
Verbindung der statistischen Kovarianz und des linear-algebraisch-geometrischen
Skalarprodukts durch eine kleine Abanderung der Darstellung im Personenraum
zu schaffen.
In einer Stichprobe vom Umfang n seien mehrere Variable erhoben worden, unter
anderem die Variablen X und Y . Im Personenraum werden diese Variablen durch
Vektoren x und y reprasentiert, deren Komponenten die Messwerte der einzelnen
Personen in den beiden Variablen sind.
Entscheidend ist nun der Schritt, zu den zentrierten Datenvektoren x und y
uberzugehen, die aus x und y dadurch entstehen, dass man bei allen Messungen
die jeweiligen Mittelwerte abzieht. Es gilt dann namlich
< x, y> =∑
(xi − x)(yi − y) = nKovX,Y ,
was schon in der Form bekannt ist, in der das Skalarprodukt durch den aquivalen-
ten Ausdruck x′y ersetzt ist.
Man hat auf diese Weise einen engen Zusammenhang zwischen der Kovarianz
einerseits und dem Skalarprodukt andererseits, bei dem allerdings der Faktor n
noch etwas stort. Diesen Schonheitsfehler kann man jedoch dadurch beheben,
dass man die reprasentierenden Vektoren noch durch√n dividiert.
Dieser Weg soll hier jedoch nicht weiter verfolgt werden. Statt dessen soll die
Moglichkeit derartiger Darstellungen etwas abstrakter untersucht werden, womit
sich auch der theoretische Fall erfassen lasst.
Allgemein soll eine Darstellung (oder Reprasentation) einer Menge von Variablen
durch Vektoren kovarianztreu heißen, wenn die Kovarianz von zwei Variablen
gleich dem Skalarprodukt der entsprechenden Vektoren ist (die beiden Variablen
mussen dabei nicht notwendigerweise verschieden sein).
2.2 Geometrische Veranschaulichungen MS13 47
Diese Festlegung bezieht sich sowohl auf den empirischen Fall, in dem die Va-
riablen alle in einer Stichprobe erhoben wurden, als auch auf den theoretischen
Fall von Zufallsvariablen, die auf dem gleichen Wahrscheinlichkeitsraum definiert
sind.
Die folgenden Uberlegungen beziehen sich auf den theoretischen Fall von Zufalls-
variablen. Es sollte aber aus der Argumentation unmittelbar klar werden, dass
alle Aussagen auch fur empirisch in einer Stichprobe erhobene Variablen gelten,
wenn man nur die Symbole passend ersetzt (also beispielsweise ρ durch r).
Zur deutlicheren Unterscheidung sollen die Variablen mit großen Buchstaben be-
zeichnet werden wie X, Y etc. und die sie reprasentierenden Vektoren mit den
entsprechenden fetten Kleinbuchstaben, also mit x, y etc.. Die Streuung einer
Variablen X soll mit σ(X) bezeichnet werden. Fur den Winkel zwischen zwei
Vektoren x und y soll schließlich das Symbol ∠(x,y) verwendet werden.
Eine kovarianztreue Darstellung hat sehr angenehme Eigenschaften. Aus der Tat-
sache, dass die Kovarianz zweier Variablen gleich dem Skalarprodukt der enspre-
chenden Vektoren ist, dass also
Kov(X, Y ) = <x, y>
gilt, folgt fur X = Y die Beziehung σ2(X) = ‖x‖2 oder
σ(X) = ‖x‖ .
Hieraus folgt fur die Korrelation ρ(X, Y ) von X und Y die Beziehung
ρ(X, Y ) =Kov(X, Y )
σ(X)σ(Y )=<x, y>
‖x‖‖y‖= cos(∠(x,y))
(hierbei ist naturlich vorausgesetzt, dass die Streuungen und damit die Langen
der Vektoren ungleich 0 sind, damit uberhaupt sinnvoll von einer Korrelation und
einem Winkel gesprochen werden kann). Bei einer kovarianztreuen Darstellung
entspricht also nicht nur der Kovarianz das Skalarprodukt, sondern auch der
Streuung die Norm und der Korrelation (uber den Kosinus) der Winkel.
Insbesondere entspricht eine Nullkorrelation von Variablen der Orthogonalitat
der zugehorigen Vektoren.
Die gerade gefundenen Entsprechungen von Langen und Winkeln einerseits mit
Streuungen und Korrelationen andererseits ist sowohl aus geometrischer Sicht
wie aus statistischer Sicht anschaulicher als die Entsprechung von Skalarprodukt
2.2 Geometrische Veranschaulichungen MS13 48
und Kovarianz (wenngleich diese Entsprechung formal angenehmer ist). Es ist
daher erfreulich, dass sich kovarianztreue Darstellungen auch nur mit Hilfe der
anschaulicheren Konzepte charakterisieren lassen.
Feststellung 7. Eine Darstellung von Variablen durch Vektoren ist genau dann
kovarianztreu, wenn die Streuungen der Variablen gleich der Lange der entspre-
chenden Vektoren sind und die Korrelationen von je zwei Variablen, die nicht
Streuung 0 besitzen, gleich den Kosinus der Winkel zwischen den entsprechenden
Vektoren.
Dass kovarianztreue Darstellungen die angegebenen Eigenschaften besitzen, hat
sich gerade schon gezeigt, es bleibt also nur nachzuweisen, dass Darstellungen mit
den angegebenen Eigenschaften kovarianztreu sind.
Es ist nur zu zeigen, dass die Kovarianz zweier Variablen X und Y tatsachlich
mit dem Skalarprodukt der entsprechenden Vektoren x und y ubereinstimmt. Im
Falle X = Y (also x = y) folgt dies wegen
Kov(X,X) = σ2(X) = ‖x‖2 = <x, x>
und im Falle verschiedener Variablen X und Y wegen
Kov(X, Y ) = ρ(X, Y )σ(X)σ(Y ) = cos(∠(x,y)) ‖x‖‖y‖ = <x, y> ,
wobei jeweils die mittlere Gleichheit die vorausgesetzten Eigenschaften der Dar-
stellung ausnutzt. Der bei der zweiten Gleichung noch nicht erfasste Fall, dass
X oder Y (oder beide) die Streuung 0 besitzen (und damit die entsprechenden
Vektoren die Lange 0) folgt daraus, dass dann sowohl die Kovarianz als auch das
Skalarprodukt gleich 0 sind. �
Als Beispiel soll eine Situation mit zwei Variablen X und Y veranschaulicht
werden, deren Streuungen 2 und .5 sind, und deren Korrelation .5 ist. Der Winkel,
dessen Kosinus .5 ist, ist der von 60◦, womit man eine geometrische Darstellung
der statistischen Situation durch folgendes Bild erhalt (die Darstellung ist wegen
Feststellung 7 kovarianztreu):
................................................................................................................................................................................................................................................................................................................ ...................x
..............................................................................................................y
.......
.......................... .............................
.............................
.............................
.............................
.............................
.............................
.............................
.............................
.............................
.............................
.............................
.............................
.............................
.............................
.............................
.............................
.............................
.............................
.............................
.............................
.............................
.........................................................
.........................................................
......................................................................................
......................................................................................
......................................................................................
2.2 Geometrische Veranschaulichungen MS13 49
Fur die, die nachmessen wollen, sind rechts zwei Einheiten des verwendeten Maß-
stabs mit aufgenommen worden. Die Variable X ist hier durch den Vektor x
reprasentiert, dessen Lange 2 gleich der Streuung der Variable ist. Analoges gilt
fur Y und y. Der Winkel zwischen den beiden Variablen betragt 60◦, und der
zugehorige Kosinus ist .5, was gleichzeitig die Korrelation der beiden Variablen
ist.
Bei diesen angenehmen Eigenschaften ist es erfreulich, dass fur eine endliche
Anzahl von Variablen immer eine kovarianztreue Darstellung existiert:
Feststellung 8. Sind X1, . . . , Xm endlich viele Variablen, so existieren kovari-
anztreue Darstellungen dieser Variablen. Ist der Rang der Kovarianzmatrix der
Variablen gleich k, so existieren sogar kovarianztreue Darstellungen im Rk.
Zur Begrundung schreibt man die Kovarianzmatrix K der Variablen als K = BB′
mit einer geeigneten (m × k)-Matrix B. Dass eine solche Zerlegung moglich ist,
folgt daraus, dass K positiv semidefinit ist. Die Matrix BB′ kann man nun auch
interpretieren als Matrix der Skalarprodukte der Zeilen von B.
Bezeichnet man nun die transponierte i-te Zeile von B als xi und wahlt sie als
Reprasentanten fur die Variable Xi aus, so hat man das Ziel erreicht, denn nun
ist das (i, j)-Element von K gleichzeitig die Kovarianz von Xi und Xj und das
Skalarprodukt von xi und xj, weshalb tatsachlich die Kovarianzen der Variablen
gleich den Skalarprodukten der reprasentierenden Vektoren sind. Uberdies sind
nach Konstruktion alle Vektoren Elemente des Rk. �
Man sollte die Formulierung der Feststellung nicht in der Weise missverstehen, als
sei bei einer Kovarianzmatrix vom Rang k eine Darstellung nur im Rk moglich;
da man den Rk auch als Unterraum von hoherdimensionalen Raumen ansehen
kann, hat man unmittelbar auch Darstellungen in solchen hoherdimensionalen
Raumen. Praktisch kann man beispielsweise die reprasentierenden Vektoren alle
durch eine gleiche Anzahl von Nullen als neue Komponenten am Ende verlangern,
ohne dass sich die Skalarprodukte andern, und befindet sich damit schon in einem
entsprechend hoherdimensionalen Raum.
Fur den Zusammenhang zwischen dem Rang der Kovarianzmatrix und dem Rang
der Reprasentanten (der ja auch gleich der Dimension des durch die Reprasentanten
erzeugten Unterraums ist) gilt allgemein die folgende Feststellung:
Feststellung 9. Bilden die Vektoren x1, . . . ,xm eine kovarianztreue Darstellung
der Variablen X1, . . . , Xm, so ist der Rang der Vektoren xi gleich dem Rang der
2.2 Geometrische Veranschaulichungen MS13 50
Kovarianzmatrix K der Variablen.
Zur Begrundung stellt man aus den Vektoren xi als Zeilen eine Matrix B zusam-
men. Die Matrix BB′ ist dann die Matrix der Skalarprodukte der Zeilen von B
untereinander, und, da diese Skalarprodukte gleich den Kovarianzen der entspre-
chenden Variablen sind, gleichzeitig die Kovarianzmatrix K der Variablen. Der
Rang der xi ist nun gleich dem Rang von B′, der bekanntlich gleich dem Rang
von BB′ = K ist, womit die Behauptung gezeigt ist. �
Insbesondere sind die Reprasentanten der Variablen genau dann linear unabhangig,
wenn deren Kovarianzmatrix invertierbar ist.
In dem Fall, dass die Kovarianzmatrix nur Rang 2 oder 3 besitzt, ist nach Fest-
stellung 8 eine Darstellung in dem der Anschauung zuganglichen R2 bzw. R3
moglich. Mochte man sich in diesem Fall eine solche Darstellung verschaffen, so
wird man nicht unbedingt den eher komplizierten Weg aus der Begrundung der
Feststellung beschreiten, sondern eine einfachere Vorgehensweise wahlen, die nun
geschildert werden soll.
Man bestimmt zunachst die Streuungen und die Korrelationen der Variablen und
rechnet die Korrelationen in Winkel um. Dann fugt man Vektoren, die als Lange
gerade die Streuungen besitzen, so zusammen, dass die zugehorigen Winkel alle zu
den entsprechenden Korrelationen gehoren. Man erhalt dann eine Reprasentation
der Variablen durch Vektoren mit der Eigenschaft, dass die Streuungen der Va-
riablen gleich den Langen der zugehorigen Vektoren sind und die Korrelationen
gleich den Kosinus der entsprechenden Winkel. Damit hat man nach Feststellung
7 bereits eine kovarianztreue Darstellung erreicht.
Es soll gleich eine Anwendung folgen: Von drei Variablen X, Y und Z sind die
Korrelationen ρXY = .5 und ρY Z = .788 bekannt. Kann man etwas uber ρXZsagen?
Wegen Feststellung 8 gibt es eine kovarianztreue Darstellung dieser Situation
im R3. Die den Variablen entsprechenden Vektoren seien x, y und z. Fur die
Winkel zwischen den Vektoren gilt dann ∠(x,y) = 60◦ und ∠(y, z) = 38◦. Der
Winkel ∠(x, z) muss daher zwischen 60◦ − 38◦ = 22◦ und 60◦ + 38◦ = 98◦ liegen.
Diese Winkel entsprechen Korrelationen von .927 und −.139, womit man Grenzen
gefunden hat, zwischen denen die Korrelation von X und Z liegen muss.
Eine kovarianztreue Darstellung von endlich vielen Variablen durch Vektoren
mag zwar vieles veranschaulichen, sie lasst aber doch noch Wunsche offen. Einer-
2.2 Geometrische Veranschaulichungen MS13 51
seits mochte man vielleicht nicht nur die gegebenen Variablen darstellen, sondern
auch Linearkombinationen, also beispielsweise die Summe von zwei Variablen –
vielleicht kann man hierzu die Summe, allgemeiner die entsprechende Linearkom-
bination der zugehorigen Vektoren nehmen? Andererseits haben in dem Vektor-
raum bisher nur endlich viele Vektoren etwas mit Variablen zu tun – lassen sich
vielleicht auch die anderen Vektoren mit Variablen in Verbindung bringen?
Diese Wunsche laufen darauf hinaus, dass man versuchen sollte, die Darstellung
so auszuweiten, dass neben den gegebenen Variablen auch Linearkombinationen
dieser Variablen Vektoren als Reprasentanten bekommen. Schon ware es, wenn
dann Linearkombinationen von Variablen die analogen Linearkombinationen der
Vektoren entsprechen wurden.
Hier ist eine Warnung angebracht: Das Wort’Linearkombination‘ wird in zwei
verschiedenen Bedeutungen gebraucht. Wenn es um Variablen geht, so sind Li-
nearkombinationen im statistischen Sinn gemeint, also neue Variablen der Form∑aiXi + a0, wahrend bei Vektoren das Wort die Bedeutung aus der linearen
Algebra besitzt, wo eine Linearkombination die Form∑aixi hat. Abgesehen von
der Konstanten bei statistischen Linearkombinationen sind die beiden Konzep-
te formal praktisch gleich, so dass die Verwendung des gleichen Worts durchaus
naheliegend erscheint.
Wenn von’entsprechenden Linearkombinationen‘ die Rede ist, so ist damit ge-
meint, dass der Variable∑aiXi + a0 der Vektor
∑aixi entsprechen soll – die
additive Konstante a0 fallt dabei weg.
Fur besonders Interessierte soll nun geschildert werden, wie die gewunschte Er-
weiterung der Darstellung vorgenommen werden kann; das Ergebnis ist am Ende
in einer Feststellung zusammengefasst.
Als Voraussetzung sei eine kovarianztreue Darstellung von endlich vielen Varia-
blen gegeben; es seien also die Variablen X1, . . . , Xm durch Vektoren x1, . . . ,xmso reprasentiert, dass fur alle Paare (i, j) die Beziehung
Kov(Xi, Xj) = <xi, xj>
gilt.
Jetzt soll versucht werden, auch Linearkombinationen der Ausgangsvariablen als
Vektoren zu reprasentieren. Aus spater erkennbaren Grunden muss ein Umweg
eingeschlagen werden.
2.2 Geometrische Veranschaulichungen MS13 52
Zunachst wird eine Abbildung f auf dem Rm definiert durch die Vorschrift, dass
einem Vektor a = (a1, . . . , am)′ der Vektor f(a) :=∑aixi zugewiesen werden
soll. Stellt man die Vektoren xi als Spalten zu einer Matrix X zusammen, so
erkennt man, dass f(a) = Xa gilt.
Sind nun zwei Linearkombinationen Y =∑aiXi + a0 und Z =
∑bjXj + b0
gegeben, und fasst man die Koeffizienten ai und bi unter Weglassung von a0 und
b0 zu Koeffizientenvektoren a und b zusammen, so gilt nach den Rechenregeln
fur Kovarianzen einerseits und fur das Skalarprodukt andererseits:
Kov(Y, Z) = Kov(∑
aiXi + a0,∑
bjXj + b0)
=∑i
∑j
aibjKov(Xi, Xj)
=∑i
∑j
aibj<xi, xj>
= <∑aixi,
∑bjxj>
= <f(a), f(b)> .
In der Mitte dieser Gleichungskette wurde die Voraussetzung Kov(Xi, Xj) =
<xi, xj> benutzt. Wesentlich ist hierbei, dass die Rechenregeln fur Kovarian-
zen denen fur Skalarprodukte formal gleichen, so dass man abgesehen von der
Ersetzung in der Mitte zweimal die gleiche Umformung vor sich hat, nur in umge-
kehrten Richtungen und in unterschiedlichen Bereichen – einmal im statistischen
und einmal im geometrischen.
Insbesondere kann nun die Streuung einer Linearkombination Y =∑aiXi + a0
bestimmt werden, indem man auf ihren Koeffizientenvektor a die Abbildung f
anwendet und vom Ergebnis die Norm bildet; man setze namlich Z = Y und
erhalt σ2(Y ) = ‖f(a)‖2, also σ(Y ) = ‖f(a)‖.
Sind wieder zwei Linearkombinationen Y =∑aiXi + a0 und Z =
∑bjXj + b0
gegeben, so kann man sich fragen, wann f(a) = f(b) gilt. Dies gilt genau dann,
wenn f(a) − f(b) = 0 gilt. Eine einfache Umformung liefert f(a) − f(b) =
Xa−Xb = X(a−b) = f(a−b), so dass den beiden Linearkombinationen durch f
genau dann der gleiche Wert zugeordnet wird, wenn f(a−b) = 0 ist. Nun ist a−b
aber Vektor von Koeffizienten fur U := Y −Z =∑
(ai−bi)Xi+(a0−b0), und daher
gilt σ(U) = ‖f(a− b)‖. Es folgt insgesamt, dass f(a) = f(b) genau dann gilt,
wenn U als Streuung 0 besitzt, also (fast sicher) konstant ist, beziehungsweise,
wenn sich Y und Z nur um eine Konstante unterscheiden (fast sicher).
Nun ist es moglich, Variablen Y , die Linearkombinationen der Xi sind, zugehorige
2.2 Geometrische Veranschaulichungen MS13 53
Vektoren zuzuweisen. Man schreibt dazu Y in der Form Y =∑aiXi + a0 und
wahlt als Darstellung y den Vektor f(a).
Hier tritt jedoch das Problem auf, dass man Y vielleicht auch noch in einer an-
deren Form Y =∑biXi + b0 als Linearkombination schreiben kann, was dann
womoglich mit f(b) zu einem anderen Vektor fuhren wurde. Die gerade angestell-
te Uberlegung zeigt jedoch, dass dies nicht der Fall ist (man setze fur Z ebenfalls
Y ein, nur in der zweiten Schreibweise). Das Problem, dass man moglicherweise
Variablen in unterschiedlicher Weise als Linearkombination schreiben kann, war
ubrigens der Grund fur den Umweg uber die Koeffizientenvektoren.
In der bisherigen Argumentation tauchte korrekterweise mehrfach die Formu-
lierung’fast sicher‘ auf. Nachdem auf diese Weise noch einmal daran erinnert
wurde, dass bei Zufallsvariablen im allgemeinen Fall eigentlich diese Sprechwei-
se verwendet werden musste, soll in der weiteren Argumentation der glatteren
Formulierungen wegen meist darauf verzichtet werden.
Durch die Festlegung, dass eine Linearkombination Y =∑aiXi + a0 durch
y =∑aixi = f(a) reprasentiert werden soll, ist die Reprasentation auf alle
Linearkombinationen der Variablen Xi ausgeweitet (dass dabei die Xi nach wie
vor durch die xi reprasentiert werden, dass also die neue Definition nicht mit der
ursprunglichen Darstellung in Konflikt gerat, folgt aus der Darstellung von Xi
als Linearkombination mit Koeffizientenvektor ei).
Ist Z =∑biXi + b0 eine weitere Linearkombination, so zeigt die oben schon
hergeleitete Gleichung Kov(Y, Z) = <f(a), f(b)>, dass die Kovarianztreue auch
fur die Reprasentantion von Y und Z durch f(a) und f(b) und damit allgemein
fur alle Linearkombinationen und deren Reprasentanten gilt.
Hieraus folgt insbesondere, dass fur alle Linearkombinationen Y die Beziehung
σ(Y ) = ‖y‖ gilt, und dass der Kosinus des Winkels zwischen zwei reprasentieren-
den Vektoren gleich der Korrelation der entsprechenden Variablen ist.
Die Darstellung ist nicht ganz eindeutig insofern, als Linearkombinationen, bei
denen nur die additive Konstante verschieden ist, durch den gleichen Vektor re-
prasentiert werden. So reprasentiert der Nullvektor zum Beispiel alle konstanten
Variablen.
Ganz genau muss man – wie sich oben gezeigt hat – so formulieren: Zwei Variable
werden genau dann durch denselben Vektor reprasentiert, wenn sie sich fast sicher
nur um eine additive Konstante unterscheiden.
2.2 Geometrische Veranschaulichungen MS13 54
Die erweiterte Reprasentation respektiert auch Linearkombinationen in folgen-
dem Sinn: Sind Y1, . . . , Yk irgendwelche Linearkombinationen der Variablen Xi,
sind y1, . . . ,yk ihre Reprasentanten, und ist Y =∑
j bjYj + b0 eine Linearkombi-
nation der Yj, so wird Y reprasentiert durch∑
j bjyj.
Ist namlich Yj =∑
i aijXi + a0j, so ist
Y =∑j
bj∑i
aijXi +∑j
bja0j + b0 =∑i
(∑j
bjaij)Xi +∑j
bja0j + b0
und wird daher reprasentiert durch∑i
(∑j
bjaij)xi =∑j
bj(∑i
aijxi) =∑j
bjyj .
Es ist schließlich klar, dass die Reprasentanten von Linearkominationen der Xi
genau den Unterraum ausfullen, der durch die xi aufgespannt wird, da ja jedes
beliebige Element∑aixi dieses Unterraums Reprasentant beispielsweise von der
Variable∑aiXi ist.
Wahlt man als Bezeichnung der Reprasentation einer Variablen Y wieder das
entsprechende Symbol y, so hat man zusammenfassend
Feststellung 10. Eine kovarianztreue Darstellung von Variablen X1, . . . , Xm
durch Vektoren x1, . . . ,xm kann zu einer kovarianztreuen Darstellung aller Line-
arkombinationen Y der Xi erweitert werden, so dass folgende Bedingungen erfullt
sind:
(i) <y1, y2> = Kov(Y1, Y2)
(ii) ‖y‖ = σ(Y )
(iii) cos(∠(y1,y2)) = ρ(Y1, Y2)
(iv) y1 = y2 genau dann, wenn Y1 − Y2 = konstant (fast sicher)
(v)∑aiYi + b wird reprasentiert durch
∑aiyi
Die Vektoren, die Linearkombinationen der Xi reprasentieren, sind dabei genau
die Elemente des Erzeugnisses der xi. �
Es mag vielleicht als etwas unangenehm empfunden werden, dass Variablen, die
sich um Konstanten unterscheiden, durch denselben Vektor reprasentiert werden.
2.2 Geometrische Veranschaulichungen MS13 55
Dies kann man dadurch entscharfen, dass man fordert, dass der Erwartungswert
aller betrachteten Variablen gleich 0 sein soll. Dann wird offensichtlich Eindeu-
tigkeit hergestellt. Anders ausgedruckt betrachtet man nur noch zentrierte Va-
riablen – der Begriff der Linearkombination ist entsprechend zu andern: additive
Konstanten sind dann nicht mehr zulassig.
Schließlich ist zu der Feststellung noch zu bemerken, dass sie – mutatis mu-
tandis – auch fur die empirische Situation einer Stichprobe gilt. Dabei ist das
sicherheitshalber eingefugte’fast sicher‘ zu ersetzen durch den Zusatz
’fur die
zugrundeliegenden Daten‘. Hier kann es namlich vorkommen, dass zwei’eigent-
lich verschiedene‘ Variable bei allen Versuchspersonen genau die gleichen Daten
erbracht haben, oder auch, dass zwei Linearkombinationen mit unterschiedlichen
Koeffizienten immer die gleichen Werte liefern, sofern man nur Daten der Ver-
suchspersonen aus der Stichprobe einsetzt, obwohl die Werte fur weitere mogliche,
aber nicht erhobene Daten verschieden sein konnten. Solche Situationen sollten
zwar selten sein, sie konnen aber nicht ausgeschlossen werden.
Eine oft vorkommende Situation ist die, dass man von einem Vektor auf die von
einem anderen Vektor aufgespannte Gerade das Lot fallt. Die folgende Illustration
enthalt schon einige Bezeichnungen fur die folgenden Argumentationen:
................................................................................................................................................................................................................................................................................................................ ...................x
................................................................................................................................................................................................................................................................................
y
.................................................................................................................................................................. ...................
bx
..................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................
.........................................................................................................................................................................................
α............................................................
......
Der Lotfußpunkt liefert dann etwas Information uber die Kovarianz und die Kor-
relation der zugehorigen Variablen:
Feststellung 11. Sind X und Y Variablen, die in einer kovarianztreuen Darstel-
lung durch x und y reprasentiert werden, und fallt man von y das Lot auf x, so
ist der Lotfußpunkt die Spitze des Vektors bx mit
b =Kov(X, Y )
σ2(X)= ρ(X, Y )
σ(Y )
σ(X).
Die Entfernung des Lotfußpunktes vom Nullpunkt ist gleich
|Kov(X, Y ) |σ(X)
= | ρ(X, Y ) | σ(Y ) .
2.2 Geometrische Veranschaulichungen MS13 56
Den Betrag der Korrelation erhalt man also auch, indem man die Entfernung des
Lotfußpunktes zu 0 durch die Lange von y teilt.
Bekanntlich ist namlich der Lotfußpunkt gerade bx mit b = <x, y>/<x, x>,
was man wegen der Eigenschaften der kovarianztreuen Darstellung umschreibt
zu
b = <x, y>/<x, x> = Kov(X, Y )/σ2(X) = ρ(X, Y )(σ(Y )/σ(X))
und die Entfernung von bx zum Nullpunkt ist gerade ‖bx‖ = | b | ‖x‖ = | b |σ(X),
woraus man durch Einsetzen sofort den Rest der Behauptung erhalt. �
Man erhalt also beispielsweise den Betrag der Korrelation bis auf den Faktor σ(Y )
als Entfernung des Lotfußpunkts zum Nullpunkt, wahrend man das Vorzeichen
der Korrelation daran erkennt, ob der Fußpunkt vom Nullpunkt aus in gleicher
Richtung liegt wie x oder in entgegengesetzter.
Um den Betrag der Korrelation rechnerisch zu erhalten, kann man auch den
Abstand von 0 zum Lotfußpunkt durch die Lange von y teilen; die Abbildung
oben zeigt, dass dies das Verhaltnis von Ankathete zu Hypothenuse in einem
rechtwinkligen Dreieck ist, und damit der Kosinus des eingeschlossenen Winkels
α, also in der Tat die Korrelation, wie sich nun auch noch einmal direkt zeigt.
Besonders angenehm ist naturlich der Fall, dass σ(Y ) = 1 ist, weil man dann die
Korrelation direkt an der Entfernung zum Nullpunkt ablesen kann.
Die Zahl b kann man auch direkt ablesen, wenn man die durch x gegebene Achse
mit einer Skala versieht, die ihren Nullpunkt im Punkt 0 hat und ihre Eins in
der Spitze des Vektors x.
Diese Zahl b ist ubrigens das Regressionsgewicht bei einer einfachen linearen
Regression von Y auf X.
Wie man sieht, lassen sich uber den Abstand des Lotfußpunktes zu 0 zwei wichtige
Kennwerte bestimmen: Teilt man diesen Abstand durch σ(Y ), so erhalt man den
Betrag der Korrelation, teilt man ihn hingegen durch σ(X), so erhalt man den
Betrag des Regressionsgewichts. Das Vorzeichen von Korrelation und Regressi-
onsgewicht richtet sich danach, ob der Lotfußpunkt auf der Seite von x liegt oder
auf der entgegengesetzten Seite.
Kovarianztreue Darstellungen erlauben es, sich mit Hilfe der geometrischen An-
schauung Verhaltnisse klarzumachen, die sonst eher undurchsichtig waren. Ein
wichtiges Beispiel dafur ist die multiple Regression.
2.2 Geometrische Veranschaulichungen MS13 57
An dieser Stelle soll jedoch ein anderes Thema behandelt werden, namlich die
Frage, wie sich Variablentransformationen, wie sie im letzten Abschnitt behandelt
wurden, in einer kovarianztreuen Darstellung wiederspiegeln. Eine Zusatzfrage ist,
was dabei mit Linearkombinationen geschieht.
Die Situation soll also die sein, dass gewisse Originalvariablen x1, . . . , xp eine mit
Hilfe einer affinen oder linearen Variablentransformation durch neue Variablen
y1, . . . , yp ersetzt werden sollen (Variablen werden jetzt also wieder mit kleinen
Buchstaben bezeichnet). Die Koeffizientenmatrix dieser Variablentransformation
soll dabei wieder mit G bezeichnet werden. Fur die xi soll eine kovarianztreue
Darstellung durch Vektoren xi gegeben sein.
Sinnvollerweise soll dabei vorausgesetzt werden, dass die xi linear unabhangig
sind, was nach Feststellung 9 gleichbedeutend damit ist, dass die Kovarianzmatrix
der x-Variablen den Rang p besitzt.
Als Beispiel moge die im Abschnitt uber Variablentransformationen behandelte
Situation von zwei Untertests eines Intelligenztests dienen, die wieder x1 und
x2 heißen sollen. Die Fragen sind dann die, wie sich der Ubergang zu den y-
Variablen in der kovarianztreuen Darstellung ausdruckt, und was man uber die
Linearkombination u sagen kann.
Zur Erinnerung: Die Variablen x1 und x2 waren die verbale und die rechnerische
Intelligenz in einem Intelligenztest, y1 und y2 waren die Summe und die Differenz
der z-transformierten x-Werte, die als Indikatoren fur die Gesamtintelligenz und
die Spezialisierung dienen sollten. Mit der Variable u sollte der Studienerfolg
vorhergesagt werden.
Die Streuungen der Variablen x1 und x2 sollten 2 und .5 sein; hieraus ergab
sich die Koeffizientenmatrix G der Transformation, die ja in den Spalten die
Koeffizienten zur Bildung der neuen Variablen aus den alten enthalt, zu
G =
(.5 −.52 2
).
Die Variable u war als u = x1 + 2x2 − 7 definiert.
Diese Angaben reichen zur Herstellung einer kovarianztreuen Darstellung noch
nicht aus, es muss vielmehr beispielsweise noch die Korrelation zwischen x1 und
x2 bekannt sein. Diese sei hier .5.
Damit kann leicht eine kovarianztreue Darstellung der beiden x-Variablen her-
2.2 Geometrische Veranschaulichungen MS13 58
gestellt werden. Man rechnet zunachst die Korrelation in einen Winkel um, was
hier 60◦ ergibt, und wahlt als x1 und x2 dann zwei Vektoren der Lange 2 und .5,
die einen Winkel von 60◦ einschließen.
Man erhalt dann ein Bild von der folgenden Art:
................................................................................................................................................................................................................................................................................................................ ...................x1
..............................................................................................................x2 .............................
.............................
.............................
.............................
.............................
.............................
.............................
.............................
.............................
.............................
.............................
.............................
.............................
.............................
.............................
.............................
.............................
.............................
.............................
.............................
.............................
.........................................................
.........................................................
......................................................................................
......................................................................................
......................................................................................
Fur die, die nachmessen wollen, sind rechts zwei Einheiten des verwendeten Maß-
stabs mit aufgenommen worden.
Nun soll dieser Darstellung der Reprasentant fur u = x1 + 2x2 − 7 hinzugefugt
werden; dies ist u = x1 + 2 x2. Die Koeffizienten dieser Linearkombination sind
gleichzeitig die Koordinaten bezuglich des durch x1 und x2 gegebenen Koordina-
tensystems, das in der nachsten Abbildung mit angedeutet ist. Kurz gesagt ist
also der Koeffizientenvektor von u gleichzeitig der Koordinatenvektor von u.
................................................................................................................................................................................................................................................................................................................ ...................x1
..............................................................................................................x2
..............................................................................................................
..............................................................................................................
..............................................................................................................
.................................................................. ...................u
......................................................................................
..........................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................
.............................................................................................................................................................................................................................................................................................
Aus dieser Abbildung kann schon einiges uber u entnommen werden. Die Lange
von u und damit die Streuung von u ist 2.65, die Winkel mit x1 und x2 sind
19.1◦ und 40.9◦, was Korrelationen von .95 und .76 entspricht. Dass diese geo-
metrisch ermittelten Kennwerte richtig sind, kann man naturlich leicht mit den
statistischen Formeln nachrechnen.
Eine gewisse Information uber die Korrelationen erhalt man auch ohne Messung
der Winkel, wenn man die Lote von u auf die durch x1 und x2 erzeugten Geraden
fallt:
2.2 Geometrische Veranschaulichungen MS13 59
................................................................................................................................................................................................................................................................................................................ ...................x1
..............................................................................................................x2
..............................................................................................................
..............................................................................................................
..............................................................................................................
.................................................................. ...................u
.........................
......
......
......
......
......
......
......
......
..
..........................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................
........................................................................................................................................................................................................................................................................................................................................................................................................
Man erkennt nach Feststellung 11, dass beide Korrelationen positiv sind, und
dass die mit x1 etwas großer ist. Misst man die Abstande der Lotfußpunkte zu
Null und teilt sie durch die Streuung von u, die ja gleichzeitig die Lange von u
ist, so ergeben sich die gleichen Werte fur die Korrelationen wie eben.
Als nachstes soll die Variablentransformation untersucht werden. Zuerst werden
die Darstellungen der beiden neuen Variablen y1 und y2 eingezeichnet:
................................................................................................................................................................................................................................................................................................................ ...................x1
..............................................................................................................x2
........................................................................
........................................................................
........................................................................
.....................................................................y1
..........................................
..........................................
..........................................
.......................................................y2
.........................................................
.........................................................
.................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................
.............................................................................................................................................................................................................................................................................................
Wie im Falle von u kann man mit Hilfe der Zeichnung nun die Streuungen von
y1 und y2 sowie alle moglichen Korrelationen bestimmen. Fur y1 und y2 erhalt
man so beispielsweise eine Korrelation von 0, da die entsprechenden Vektoren
senkrecht aufeinander stehen. Offenbar bilden hier ferner die Vektoren y1 und y2
eine alternative Basis zu der durch x1 und x2 gegebenen.
Wie hier, so sind auch allgemein die Koeffizienten bei der Bildung der y-Variablen
die Spalten der Matrix G, diese Spalten sind also die Koordinatenvektoren der
y-Vektoren bezuglich der x-Basis. Da G invertierbar ist, stellen die y-Vektoren
eine alternative Basis des von den xi aufgespannten Unterraums dar. Die Matrix
G ist dabei gleichzeitig die, die den entsprechenden Basiswechsel definiert (dass
hier die nicht transponierte Matrix G auftaucht, die direkt in den Kontext der
Basiswechsel passt, ist womoglich ein Grund dafur, dass die Koeffizientenmatrix
2.2 Geometrische Veranschaulichungen MS13 60
der Variablentransformation gerade so definiert wurde, dass die Koeffizienten in
den Spalten und nicht in den Zeilen stehen).
Nun ist noch interessant, wie sich u bezuglich der neuen Basis ausdruckt. Man
ermittelt dazu die Koordinaten von u in dem neuen durch y1 und y2 gegebenen
Koordinatensystem:
................................................................................................................................................................................................................................................................................................................ ..............................................................................................................
...................
..............................................................................................................
..............................................................................................................
..............................................................................................................
.................................................................. ...................u
........................................................................
........................................................................
........................................................................
.....................................................................y1
..........................................
..........................................
..........................................
.......................................................y2
.........................................................................................
....................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................
...........................................................................................................................................................................................................................................................................................................................................................................................................................................
Man liest hier die Koordinaten (1.5,−.5)′ ab, es gilt also u = 1.5 y1−.5 y2. Bis auf
eine Konstante stimmt also die Variable u mit 1.5 y1−.5 y2 uberein, und das heißt,
dass man mit diesen Koordinaten auch schon die Koeffizienten gefunden hat, die
die Variable u als Linearkombination von y1 und y2 besitzt. Die Umrechnung des
Koeffizientenvektors einer Linearkombination u der xi in den Koeffizientenvektor,
den u bezuglich der yi besitzt, entspricht in der kovarianztreuen Darstellung also
einer Koordinatentransformation.
Dies kann auch formal noch einmal nachvollzogen werden: Die Koordinatentrans-
formation von dem x-Koordinatensystem zu dem y-Koordinatensystem wird be-
kanntlich durch die Matrix G−1 bewirkt; ist a dann der Koordinatenvektor von
u bezuglich der x-Koordinaten, so erhalt man den Koordinatenvektor von u
bezuglich der y-Koordinaten als G−1a. Dies ist aber andererseits genau die For-
mel, die sich im letzten Abschnitt in statistischer Sprache fur die Umrechnung
des Koeffizientenvektors a von u bezuglich der x-Variablen in den Koeffizienten-
vektor bezuglich der y-Variablen ergeben hatte. In der Tat stellt sich also diese
statistische Umrechnung der Koeffizienten auf die neuen Variablen geometrisch
als Koordinatentransformation dar.
Untersucht man ubrigens im Beispiel nun noch die Korrelationen, die u mit den
2.2 Geometrische Veranschaulichungen MS13 61
neuen Variablen y1 und y2 besitzt, so kann man die Koordinatenlinien in der
letzten Abbildung auch als Lote benutzen, da hier die Vektoren y1 und y2 senk-
recht aufeinander stehen. Die Korrelationskoeffizienten sind daher in diesem Fall
den Koeffizienten in der Darstellung von u als Linearkombination von y1 und y2proportional.
Die zwischendurch notierten allgemeinen Ergebnisse sollen nun noch einmal zu-
sammengefasst werden:
Feststellung 12. Eine Variablentransformation von x-Variablen zu y-Variablen
sei durch die Koeffizientenmatrix G gegeben und die Kovarianzmatrix der x-
Variablen sei invertierbar. Wahlt man dann in einer kovarianztreuen Darstel-
lungen die Reprasentanten xi der Variablen xi als Basis des von ihnen aufge-
spannten Unterraums, so sind die Spalten von G die Koordinatenvektoren der
Reprasentanten yi der Variablen yi. Die yi bilden ebenfalls eine Basis dieses Un-
terraums.
Die Umrechnung des Koeffizientenvektors einer Linearkombination u der x-Varia-
blen in den der Darstellung von u als Linearkombination der y-Variablen ist
dann gerade die Koordinatentransformation der Koordinaten des zu u gehorenden
Vektors u von dem x-Koordinatensystem in das y-Koordinatensystem. �
Kurz gesagt entspricht also einer Variablentransformation ein Basiswechsel und
der Umrechnung von Koeffizientenvektoren einer Linearkombination eine Koor-
dinatentransformation.
Linearkombinationen. Linearkombinationen spielen eine ganz zentrale Rolle
in der multivariaten Statistik, da es mit ihrer Hilfe gelingt, viele multivariate
Probleme auf univariate Probleme zu reduzieren.
Es geht nun um die geometrische Veranschaulichung einzelner Linearkombinatio-
nen Y =∑aiXi+b von VariablenX1, . . . , Xp (Beispiel: Bildung des Gesamtscores
eines Tests als gewichtete Summe von einzelnen Untertests). Die Koeffizienten
ai seien in einem Koeffizientenvektor a zusammengefasst. Ist x ein Vektor aus
Messwerten (im Beispiel der Vektor der Werte eines Probanden in den Unter-
tests), so erhalt man den zugehorigen Wert y als a′x + b = <a, x>+ b.
Zunachst soll der Fall betrachtet werden, dass der Vektor a die Lange 1 hat; man
spricht dann auch von einer standardisierten Linearkombination (SLK). Außer-
dem soll die additive Konstante b zunachst gleich 0 sein.
2.2 Geometrische Veranschaulichungen MS13 62
Man stellt nun wie ublich Daten als Punkte x in dem p-dimensionalen Varia-
blenraum mit orthogonalen Achsen dar. Zusatzlich wird vorausgesetzt, dass die
Einheiten auf den Achsen alle gleich lang sind.
Der von dem Vektor a erzeugte Unterraum sei V . Als’Koordinatensystem‘ auf
V wahlt man dasjenige, dessen Einheit durch die Spitze des Vektors a definiert
ist.
Dieses Koordinatensystem von V hat den Vorteil, dass seine Einheit auch im Va-
riablenraum die Lange 1 besitzt. Man misst so gewissermaßen in dem Unterraum
V mit dem gleichen Maß wie im Rp. Ein weiterer Vorteil des Koordinatensystems
ist der, dass die Nullpunkte zusammenfallen.
Der Wert y = <a, x> der Linearkombination ist dann bekanntlich gleichzeitig
interpretierbar als Koordinate des orthogonal auf den Unterraum V projizierten
Punktes x.
Beispielsweise entspricht der Vektor a = (.8, .6)′ (Lange ist 1) der standardisierten
Linearkombination Y = .8X1 + .6X2. Eine Person mit den Werten (−2, 1)′ in den
beiden X-Variablen erhalt in Y den Wert .8 · (−2) + .6 · 1 = −1, was auch in der
folgenden Zeichung ablesbar ist.
1
1
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......................
...................
X2
................................................................................................................................................................................................................................................................................................................ ...................
X1
.................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................
...............
...............
...............
...............
...............
...............
...............
...............
...............
rr
.............................
........................................................................................................a
V
In der Zeichnung erkennt man auch, dass a die Lange 1 besitzt; der fur den Un-
terraum gultige Maßstab ist also gewissermaßen derselbe wie der im R2. Gerade
dies zeichnet SLKn vor anderen Linearkombinationen aus.
Bildet man fur zwei Datenpunkte die SLKn, so lasst sich deshalb deren Differenz
deuten als Abstand, den die Datenpunkte in Richtung des Vektors a haben. Dies
2.2 Geometrische Veranschaulichungen MS13 63
wird in der nachsten Zeichnung illustriert.
1
1
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......................
...................
X2
................................................................................................................................................................................................................................................................................................................ ...................
X1
.................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................
...............
...............
...............
...............
...............
...............
...............
...............
...............
rr
.............................
rr
...............
........................................................................................................a
V
Der Fall einer beliebigen Linearkombination lasst sich auf den Fall einer standar-
disierten Linearkombination mit anschließendem affinen Koordinatenwechsel in
dem eindimensionalen Unterraum V reduzieren, wie nun gezeigt werden soll.
Ist also allgemein eine Linearkombination durch den Koeffizientenvektor a und die
additive Konstante b gegeben, so ermittelt man zunachst den Vektor in Richtung
a mit Lange 1, der a0 heißen soll, und der sich als a0 = a/‖a‖ errechnet. Es gilt
dann a = ‖a‖ a0, und den Wert der Linearkombination fur einen Vektor x erhalt
man damit als
y = <a, x>+ b = <‖a‖ a0, x>+ b = ‖a‖<a0, x>+ b .
Man erhalt y so in zwei Schritten, namlich indem man zunachst die SLK <a0, x>
bildet und dann auf dieses Ergebnis die lineare Transformation anwendet, die
einem u den Wert ‖a‖u + b zuordnet. Der erste Schritt kann als orthogonale
Projektion auf den von a erzeugten Unterraum aufgefasst werden (der naturlich
auch von a0 erzeugt wird), und der zweite Schritt kann dann als affiner Koordi-
natenwechsel auf diesem Unterraum interpretiert werden.
Ist beispielsweise die Linearkombination jetzt Y = 2X1 + 1.5X2 − 4, also a =
(2, 1.5)′ und b = −4, so ist ‖a‖ = 2.5 und a0 = (.8, .6)′; dies ist der Vektor
aus dem letzten Beispiel und daher ist die zugehorige Projektion gerade die dort
schon untersuchte. Die anschließende affine Transformation u 7→ 2.5u − 4 lasst
sich als eindimensionaler Koordinatenwechsel deuten, wobei der neue Nullpunkt
bei −(−4)/2.5 = 1.6 zu liegen kommt und wobei die neue Einheit 1/2.5 = .4 ist.
Untersucht man wieder den Punkt (−2, 1) aus dem vorigen Beispiel, so ergibt sich
2.2 Geometrische Veranschaulichungen MS13 64
y = 2 · (−2) + 1.5 · 1− 4 = −6.5, also dasselbe Ergebnis, wie wenn man auf den
Wert der SLK fur (−2, 1), der hier −1 ist, die angegebene lineare Transformation
anwendet.
In der folgenden Zeichnung ist der Unterraum V (derselbe wie im vorigen Beispiel)
mit den neuen Koordinaten versehen, und man kann in der Tat den Wert der
Linearkombination ablesen.
1
1
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......................
...................
X2
................................................................................................................................................................................................................................................................................................................ ...................
X1
.................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................
...............
...............
...............
...............
...............
...............
...............
...............
...............
...............
...............
...............
...............
...............
...............
...............
...............
...............
...............
...............
...............
...............
.............................. ............... ........
......................
...............
...............
...............
rr
.............................
V
01
In dem Spezialfall, dass der Vektor a bereits Lange 1 hat, besteht die Koordina-
tenanderung auf dem eindimensionalen Unterraum nur darin, dass der Nullpunkt
nach −b verschoben wird.
Schließlich ist anzumerken, dass die Koordinaten selber Spezialfalle von Line-
arkombinationen sind. Hier ist namlich der Vektor a der Einheitsvektor ei, der
die 1 an der Stelle i hat, die der untersuchten Koordinate entspricht. In der Tat
werden ja auch rechtwinklige Koordinaten abgelesen, indem man das Lot auf die
Koordinatenachse fallt.
Eine haufig angewendete multivariate Technik besteht darin, multivariate Pro-
bleme auf univariate zu reduzieren, indem man Linearkombinationen bildet. Hier
hat sich gezeigt, dass dies geometrisch so zu deuten ist, dass man die multivariate
Situation orthogonal auf die zu den Linearkombinationen gehorenden eindimen-
sionalen linearen Unterraume projiziert.
Orthogonale Projektionen und Quadratsummen. In diesem Abschnitt soll
die Quadratsummenzerlegung der einfaktoriellen Varianzanalyse als Anwendung
der Techniken der orthogonalen Projektionen behandelt werden. Fur spatere
Zwecke ist es wesentlich, dass die Quadratsummen quadrierte Normen des auf
2.2 Geometrische Veranschaulichungen MS13 65
orthogonale Unterraume projizierten Datenvektors sind.
Die Anzahl der Bedingungen in der untersuchten varianzanalytischen Situation
sei J , und die Anzahl der Beobachtungen in Bedingung j sei nj mit∑nj = N .
Die Ergebnisse in der untersuchten Variable Y seien zu einem langen Vektor y der
Lange N zusammengefasst, der in den ersten n1 Komponenten die Beobachtungen
der ersten Bedingung hat, etc.. Gelegentlich wird statt von’Bedingung j‘ auch
von’Gruppe j‘ gesprochen.
Ist beispielsweise J = 3, und haben sich bei einer konkreten Durchfuhrung die
Werte
1 2 3
9 1 3
9 3 2
6 7
ergeben, so wurde man diese Ergebnisse zu
y = (9, 9, 6, 1, 3, 3, 2, 7)′
zusammenfassen. Der Anschaulichkeit halber sollen solche Vektoren jedoch auch
oft in der zuerst verwendeten Form angegeben werden. Mogliche Ergebnisse einer
Varianzanalyse werden jedenfalls jetzt als Vektoren im RN aufgefasst.
Es werden nun Vektoren 1j definiert, die genau an den Stellen 1 sind, die zur
j-ten Bedingung gehoren, und sonst 0. Mit 1 wird wie ublich der Vektor aus
lauter Einsen bezeichnet. Im Beispiel sind dann die Vektoren 11, 12, 13 und 1 die
folgenden:
11:
1 2 3
1 0 0
1 0 0
1 0
, 12:
1 2 3
0 1 0
0 1 0
0 0
, 13:
1 2 3
0 0 1
0 0 1
0 1
, 1:
1 2 3
1 1 1
1 1 1
1 1
.
Die quadrierten Normen dieser Vektoren sind nj bzw. N , im Beispiel also 3, 2, 3
und 8. Die von den Vektoren 1j jeweils erzeugten eindimensionalen Unterraume
sollen Vj heißen, der von 1 erzeugte eindimensionale Unterraum sein Vm. Die
Summe der Vj sei V . Die wechselseitige Orthogonalitat der 1j ubertragt sich auf
2.2 Geometrische Veranschaulichungen MS13 66
die von ihnen erzeugten Unterraume Vj, weshalb dann (V1, . . . , VJ) eine orthogo-
nale Zerlegung von V ist. Offenbar liegt 1 in V , da 1 =∑
1j gilt, und daher gilt
auch Vm ⊆ V .
Im Beispiel haben Vektoren aus V dann die Form
1 2 3
a b c
a b c
a c
mit beliebigen Zahlen a, b und c; die Vektoren aus V zeichnen sich also gerade
dadurch aus, dass sie in den einzelnen Bedingungen konstant sind.
Nun soll die orthogonale Projektion P auf V bestimmt werden. Da man mit
den Vj eine orthogonale Zerlegung von V hat, kann man dazu beispielsweise die
orthogonalen Projektionen Pj auf Vj bestimmen und addieren, denn P ist ja die
Summe dieser Projektionen.
Die Projektion Pj auf Vj ist als Projektion auf einen eindimensionalen Unterraum
leicht bestimmt. Fur einen Vektor y ergibt sich namlich
Pj y =<1j, y>
‖1j‖21j =
<1j, y>
nj1j .
Hier ist das Skalarprodukt von y mit 1j gerade die Summe der Werte in der j-ten
Bedingung, die Division durch nj liefert damit deren Mittelwert, der yj heißen
soll. Die Projektion auf Vj ersetzt also die Werte in der j-ten Bedingung durch
ihren Mittelwert und alle anderen Werte durch 0.
Die Projektion P erhalt man, indem man die Pj addiert, daher ist Py =∑
Pj y
der Vektor, bei dem alle Werte durch die Mittelwerte ihrer Bedingung (kurz:
durch ihre Gruppenmittelwerte) ersetzt sind. Fur die Beispielsituation folgen
nacheinander der Vektor y, seine Projektionen auf die Vj und die Projektion
auf V .
1 2 3
9 1 3
9 3 2
6 7
,
1 2 3
8 0 0
8 0 0
8 0
,
1 2 3
0 2 0
0 2 0
0 0
,
1 2 3
0 0 4
0 0 4
0 4
,
1 2 3
8 2 4
8 2 4
8 4
.
2.2 Geometrische Veranschaulichungen MS13 67
Es folgt nun noch eine alternative Moglichkeit, die Projektion auf V zu bestim-
men. Man fasst dazu die Basisvektoren der Vj, die ja insgesamt eine Basis von V
bilden, zu einer Matrix X zusammen.
Im Beispiel wurde X so aussehen:
1 0 0
1 0 0
1 0 0
0 1 0
0 1 0
0 0 1
0 0 1
0 0 1
.
An der Matrix X kann man nun direkt ablesen, wieviele Bedingungen vorliegen
und wie die Bedingungen besetzt sind. Die Matrix heißt auch Designmatrix.
Die Projektion P auf den von den Spalten von X erzeugten Unterraum V ist dann
X(X′X)−1X′, und die Matrix, die die Koordinaten des projizierten Vektors liefert,
ist (X′X)−1X′. Diese beiden Matrizen und ihre Wirkung auf einen Datenvektor
sollen nun genauer untersucht werden.
Die Matrix X′X ist offenbar die Diagonalmatrix, deren Diagonalelemente die
Gruppengroßen nj sind. Ihr Inverses hat in der Diagonale also gerade die Kehr-
werte der Gruppengroßen. Multipliziert man X′ mit dem Datenvektor y, so erhalt
man jeweils die Summen der Beobachtungen in den Bedingungen; das Produkt
(X′X)−1X′y liefert folglich die Gruppenmittelwerte. Im Beispiel gilt
(X′X)−1X′y =
1/3 0 0
0 1/2 0
0 0 1/3
1 1 1 0 0 0 0 0
0 0 0 1 1 0 0 0
0 0 0 0 0 1 1 1
9
9
6
1
3
3
2
7
=
1/3 0 0
0 1/2 0
0 0 1/3
24
4
12
=
8
2
4
.
2.2 Geometrische Veranschaulichungen MS13 68
Multipliziert man das Ergebnis, also den Vektor der Gruppenmittelwerte von
links noch mit X, so erhalt man einen Vektor der Lange N , in dem alle Beobach-
tungen durch die jeweiligen Gruppenmittelwerte ersetzt sind.
Im Beispiel ergibt sich
X(X′X)−1X′y =
1 0 0
1 0 0
1 0 0
0 1 0
0 1 0
0 0 1
0 0 1
0 0 1
8
2
4
=
8
8
8
2
2
4
4
4
.
Man erhalt also in der Tat das gleiche Ergebnis wie bei der ersten Moglichkeit.
Die zu P komplementare Projektion I − P ordnet damit einem Vektor y den
Vektor zu, in dem alle Werte durch die Abweichungen von ihren Gruppenmittel-
werten ersetzt sind. Anders ausgedruckt bewirkt I−P gruppenweises Zentrieren.
Die so erhaltenen Werte sind gerade die, mit denen man SSw (die Quadratsumme
innerhalb) bildet, und deshalb soll die Projektion I−P den Namen Pw erhalten
und ihr Bild V ⊥ den Namen Vw. Es gilt dann also Pw = I−P und
‖Pwy‖2 = SSw .
Im Beispiel erhalt man folgende Vektoren:
y:
1 2 3
9 1 3
9 3 2
6 7
, Py:
1 2 3
8 2 4
8 2 4
8 4
, Pwy:
1 2 3
1 -1 -1
1 1 -2
-2 3
.
Nach Konstruktion sind die Unterraume V und Vw komplementar, ebenso die
zugehorigen Projektionen P und Pw .
Fur Pw 1 erhalt man den Wert 0, denn 1 liegt ja in V , also im Kern von Pw . Die
Gleichung Pw 1 = 0 folgt alternativ auch daraus, dass die Abweichungen von den
Gruppenmittelwerten alle 0 sind, wenn alle Daten gleich (hier gleich 1) sind.
2.2 Geometrische Veranschaulichungen MS13 69
Die Projektion Pm auf den von 1 erzeugten Unterraum Vm liefert
Pmy =<1, y>
‖1‖21 =
<1, y>
N1 .
Das Skalarprodukt ist die Summe aller beobachteten Werte, Division durch N
liefert den Mittelwert aller Werte, der mit y bezeichnet werden soll. Die Projektion
selbst ergibt damit den Vektor, bei dem alle Werte durch y ersetzt sind. Dies
Ergebnis ist auch schon von fruher bekannt.
Die zu Pm komplementare Projektion I − Pm ersetzt in einem Vektor y alle
Werte durch ihre Abweichungen vom Gesamtmittelwert, weshalb diese Matrix
gerade die Zentriermatrix ist. Da man nun mit der Projektion I−Pm die Werte
erhalt, die zur Bildung der totalen Quadratsumme SSt fuhren, soll sie hier den
Namen Pt erhalten und ihr Bild V ⊥m entsprechend den Namen Vt. Hier gilt dann
also Pt = I−Pm und
‖Pty‖2 = SSt .
Im Beispiel ergibt sich
y:
1 2 3
9 1 3
9 3 2
6 7
, Pmy:
1 2 3
5 5 5
5 5 5
5 5
, Pty:
1 2 3
4 -4 -2
4 -2 -3
1 2
.
Die Unterraume Vm und Vt sind nach Konstruktion komplementar und ebenso die
zugehorigen Projektionen Pm und Pt , was beispielsweise I = Pm + Pt bedeutet.
Es ist vielleicht nutzlich, die schon bekannte Tatsache zu wiederholen, dass die
aus I = Pm + Pt folgende Beziehung
‖y‖2 = ‖Pmy‖2 + ‖Pty‖2
mit einer Umstellung und Division durch N die Formel liefert, nach der die Va-
rianz die Differenz des Mittelwerts der quadrierten Daten und des quadrierten
Mittelwerts ist.
Es gilt ferner Pt1 = 0, was man genauso wie bei Pw sieht oder auch daran, dass
Pt ja die Zentriermatrix ist.
Entscheidend fur die weiteren Uberlegungen ist, dass Vm ⊆ V gilt.
2.2 Geometrische Veranschaulichungen MS13 70
Hieraus folgt, dass (Vm, V⊥m ∩ V ) eine orthogonale Zerlegung von V ist und
(Vm, V⊥m ∩ V, V ⊥) eine orthogonale Zerlegung von RN . Diese Zerlegungen sollen
nun genauer untersucht werden.
Zunachst ist wegen V ⊥m = Vt auch V ⊥m ∩ V = Vt ∩ V . Die Projektion auf diesen
Unterraum ist P − Pm . Wendet man diese Projektion auf ein y an, so erhalt
man mit Py − Pmy einen Vektor, in dem alle Daten durch die Abweichungen
ihres Gruppenmittelwerts vom Gesamtmittelwert ersetzt sind. Dies sind genau die
Werte, die man zur Bildung von SSw (der Quadratsumme innerhalb) benotigt,
und daher soll V ⊥m ∩ V = Vt ∩ V auch kurz mit Vb bezeichnet werden und die
zugehorige Projektion mit Pb (es gilt also Pb = P −Pm ). Hier gilt nun
‖Pby‖2 = SSb .
Im Beispiel ergeben die zugehorigen Projektionen dann die folgenden Vektoren:
y:
1 2 3
9 1 3
9 3 2
6 7
, Pmy:
1 2 3
5 5 5
5 5 5
5 5
, Pby:
1 2 3
3 -3 -1
3 -3 -1
3 -1
, Pwy:
1 2 3
1 -1 -1
1 1 -2
-2 3
.
Die orthogonale Zerlegung (Vm, V⊥m ∩ V ) von V lasst sich nun auch als (Vm, Vb)
schreiben und die orthogonale Zerlegung (Vm, V⊥m ∩V, V ⊥) von RN als (Vm, Vb, Vw).
Berechnet man auch hier Pb1, so erhalt man wieder Pb1 = 0, beispielsweise, weil
1 in Vm liegt und Vm⊥Vb gilt. Alternativ sieht man dies auch daran, dass bei kon-
stanten Daten die Abweichungen der Gruppenmittelwerte vom Gesamtmittelwert
alle 0 sind.
Aus der Zerlegung (Vm, Vb, Vw) des RN erhalt man die besonders wichtige Teil-
zerlegung (Vb, Vw) von V ⊥m = Vt. In der Sprache der Projektionen schreibt sich
diese Zerlegung als
Pt = Pb + Pw .
Damit kann man einen Datenvektor y folgendermaßen zerlegen (Multiplikation
mit y von rechts):
Pty = Pby + Pwy ,
was inhaltlich heißt, dass sich die Abweichung vom Gesamtmittelwert zusam-
mensetzt aus der Abweichung des Gruppenmittelwerts vom Gesamtmittelwert
und der Abweichung vom Gruppenmittelwert.
2.2 Geometrische Veranschaulichungen MS13 71
Außerdem folgt die Zerlegung
‖Pty‖2 = ‖Pby‖2 + ‖Pwy‖2 ,
anders ausgedruckt die angestrebte Gleichung
SSt = SSb + SSw .
Man erhalt dies auch ganz einfach dadurch, dass man die Gleichung Pt = Pb +Pwvon links mit y′ und von rechts mit y multipliziert.
Damit ist das gesteckte Ziel erreicht. Dies bestand weniger darin, die ja bekannte
Quadratsummenzerlegung der Varianzanalyse noch einmal herzuleiten, als viel-
mehr darin, zu zeigen, dass diese Quadratsummenzerlegung sich aus einer Zerle-
gung des Datenvektors mit Hilfe von orthogonalen Projektionen auf wechselseitig
orthogonale Unterraume als einfache Anwendung des Satzes von Pythagoras er-
gibt. Mit dieser Tatsache folgert man namlich spater leicht, dass der F -Bruch
tatsachlich eine F -Verteilung besitzt.
Interessant sind auch noch die Dimensionen der Unterraume Vm, Vb und Vw,
die nun bestimmt werden sollen. Offenbar hat Vm die Dimension 1 und V die
Dimension J . Hieraus folgt, dass die Dimension des Komplements Vw von V
gleich N − J ist. Da Vm und Vb eine orthogonale Zerlegung von V bilden, ist die
Summe ihrer Dimensionen gleich J , weshalb die Dimension von Vb gleich J − 1
sein muss. Die Dimensionen J − 1 von Vb und N − J von Vw sind damit gerade
die Freiheitsgrade des F -Bruchs.
Die umfassendere orthogonale Zerlegung (Vm, Vb, Vw) des RN druckt sich mit Pro-
jektionen geschrieben als
I = Pm + Pb + Pw
aus und fuhrt zur Zerlegung
y = Pmy + Pby + Pwy
der Daten in Gesamtmittelwert, Abweichung des Gruppenmittelwerts vom Ge-
samtmittelwert und Abweichung vom Gruppenmittelwert. Außerdem liefert sie
eine weitere Quadratsummenzerlegung, die man gelegentlich antrifft, namlich
‖y‖2 = ‖Pmy‖2 + ‖Pby‖2 + ‖Pwy‖2 .
Diese Zerlegung besagt, dass die Summe der quadrierten y-Werte gleich der Sum-
me des N -fachen quadrierten Mittelwerts und von SSb und SSw ist.
2.2 Geometrische Veranschaulichungen MS13 72
Aus der Tatsache, dass (Pm ,Pb ,Pw ) eine orthogonale Zerlegung von I ist, folgt
auch, dass die Produkte von je zwei dieser Projektionen gleich 0 ist. Da außerdem
P = Pm + Pb und Pt = Pb + Pw gilt, ergeben sich unmittelbar einige Tatsachen
uber die Produkte von diesen Projektionen.
Beispielsweise gilt
PtP = (Pb + Pw )(Pm + Pb ) = Pb ,
und da das Produkt symmetrisch ist, gilt auch PPt = Pb , also insbesondere
PPt = PtP.
Inhaltlich lasst sich die Gleichung PPt = Pb folgendermaßen deuten: Wenn man
die gegebenen Daten zunachst zentriert (also Pt anwendet) und fur die zentrierten
Daten dann die Gruppenmittelwerte berechnet (mit P), so erhalt man dasselbe
Ergebnis, wie wenn man die Abweichungen der Gruppenmittelwerte der Original-
daten vom Gesamtmittelwert bildet (mit Pb ). Entsprechend bedeutet PtP = Pb ,
dass das (gewichtete) Zentrieren der Gruppenmittelwerte dasselbe Ergebnis hat
wie die Bildung der Abweichung der Gruppenmittelwerte vom Gesamtmittelwert.
Analog, oder auch direkt wegen Vm ⊆ V bzw. Vw ⊆ Vt, folgen die Beziehungen
PPm = PmP = Pm bzw. PtPw = PwPt = Pw .
Auch diese Gleichungen kann man inhaltlich deuten. So bedeutet PPm = Pm ,
dass man, wenn man zuerst alle Daten durch ihren Mittelwert ersetzt und dann
die neuen Werte in den Gruppen wieder durch ihren jeweiligen Mittelwert, zum
gleichen Ergebnis kommt, wie wenn man nur die erste Operation durchfuhrt. Dies
ist offensichtlich; interessanter ist die zweite Aussage PmP = Pm , die entspre-
chend bedeutet, dass man, wenn man die Daten durch ihre Gruppenmittelwerte
ersetzt und dann durch den Mittelwert dieser neuen Werte (der offenbar das mit
den Gruppengroßen gewichtete Mittel der Einzelmittelwerte ist), dasselbe erhalt,
wie wenn man die Daten gleich durch ihren Gesamtmittelwert ersetzt. Man hat
hier also die bekannte Tatsache, dass der Gesamtmittelwert das gewichtete Mittel
der Gruppenmittelwerte ist.
Interessant ist zum Abschluss noch die Projektionen des Vektors, der entsteht,
wenn man jeden Wert durch seinen Erwartungswert ersetzt. Dieser Vektor soll µ
genannt werden. Im Beispiel schreibt sich dieser Vektor als
2.3 Kovarianzmatrizen und Verteilungen MS13 73
µ:
1 2 3
µ1 µ2 µ3
µ1 µ2 µ3
µ1 µ3
.
Die Projektion dieses Vektors auf Vm ersetzt alle Werte durch ihren Mittelwert,
der hier 1/N∑njµj =
∑(nj/N)µj ist, also gleich dem grand mean, der wie
ublich µ heißen soll. Da der Vektor µ bereits in V liegt, wird er durch P nicht
mehr geandert. Daher ist Pbµ = Pµ−Pmµ = µ−Pmµ der Vektor, der aus den
Differenzen der einzelnen Erwartungswerte µj zu µ besteht, also gerade aus den
Effektgroßen αj. Hier folgen noch einmal µ mit seinen beiden Projektionen:
µ:
1 2 3
µ1 µ2 µ3
µ1 µ2 µ3
µ1 µ3
, Pmµ:
1 2 3
µ µ µ
µ µ µ
µ µ
, Pbµ:
1 2 3
α1 α2 α3
α1 α2 α3
α1 α3
.
Der Vektor Pwµ ist ubrigens offensichtlich gleich 0. Wichtig ist nun die quadrierte
Norm von Pbµ; sie ist offenbar gleich
‖Pbµ‖2 =∑
njα2j = σ2δ2
und damit gerade das σ2-fache des Nonzentralitatsparameters δ2 des F -Bruchs.
2.3 Kovarianzmatrizen und Verteilungen
Das Thema dieses Kapitels ist die Bedeutung, die die Kovarianzmatrix fur ei-
ne Verteilung besitzt. Mit Hilfe der Kovarianzmatrix kann man sich erste Vor-
stellungen uber die Lage der Daten oder der moglichen Variablenwerte machen;
dies wird im ersten Teil genauer ausgefuhrt. Danach geht es um multivariate
z-Transformationen und ein darauf aufgebautes statistisches Distanzmaß.
Meist sollen dabei empirische Verteilungen aufgrund von Daten betrachtet werden
– es sollte aber klar werden, dass entsprechende Aussagen analog fur theoretische
Verteilungen gelten. Man hat nur die Operation der Mittelwertbildung jeweils
durch die der Bildung des Erwartungswerts zu ersetzen.
Bei Kovarianzmatrizen ist zu unterscheiden zwischen solchen, deren Rang gleich
der Anzahl der Variablen ist, und solchen, bei denen dieser Rang kleiner ist als
die Anzahl der Variablen. Zuerst wird der zweite Fall behandelt.
2.3 Kovarianzmatrizen und Verteilungen MS13 74
Kovarianzmatrizen mit Rangdefekt. Es soll untersucht werden, was man
uber die Daten sagen kann, wenn die Kovarianzmatrix einen Rangdefekt hat,
wenn der Rang also kleiner ist als die Anzahl p der Variablen.
Ausgangspunkt sind Daten fur p Variablen, die wie ublich zu einem Variablen-
vektor x zusammengefasst sind. Der Mittelwertvektor x der Daten und die Ko-
varianzmatrix S sollen schon vorliegen. Der Rang von S sei dabei r < p.
Dann ist der Kern von S ein Unterraum der Dimension p− r. Fur diesen Unter-
raum seien die Vektoren einer Basis zu einer Matrix A mit p Zeilen und p − rSpalten zusammengestellt. Dass alle Spaltenvektoren von A im Kern von S liegen,
kann man kurz durch SA = 0 ausdrucken.
Wendet man nun auf die Variable x die lineare Abbildung A′ an, so gewinnt man
einen neuen (p− r)-dimensionalen Variablenvektor y := A′x. Die Kovarianzma-
trix von y ist dann A′SA = 0; alle Datenpunkte yi = A′xi der Versuchspersonen
fallen also mit dem Zentroid y = A′x der Variable y zusammen.
Fur alle xi gilt folglich: A′xi = y, alle xi sind also Losungen des inhomogenen
Gleichungssystems A′x = y. Es folgt, dass alle xi in einem affinen Unterraum
liegen, und zwar in dem, der zum Kern von A′ parallel ist und durch eine spezielle
Losung des Gleichungssystems geht. Eine spezielle Losung ist offensichtlich x (da
ja A′x = y gilt). Es bleibt der Kern von A′ zu bestimmen.
Nun sieht man durch Transponieren von SA = 0, dass auch A′S = 0 gilt. Alle
Spalten von S liegen also im Kern von A′, damit gilt auch Bild(S) ⊆ Kern(A′).
Die Dimension von Kern(A′) ist aber p−Rang(A′) = p− (p− r) = r und stimmt
mit der Dimension r von Bild(S) uberein. Daher gilt sogar Bild(S) = Kern(A′),
so dass man zusammenfassend formulieren kann:
Feststellung 1. Hat die Kovarianzmatrix S den Rang r < p, so liegen alle Da-
tenpunkte xi in dem affinen Unterraum der Dimension r, der parallel zu Bild(S)
ist und den Punkt x enthalt. �
Hat man beipielsweise fur drei Variablen das Zentroid (1, 2, 3)′ und die Kovari-
anzmatrix 2 3 1
3 5 2
1 2 1
erhalten, so erkennt man leicht, dass die Matrix nur den Rang 2 besitzt. Es folgt,
dass alle Datenpunkte in der Ebene im dreidimensionalen Variablenraum liegen,
2.3 Kovarianzmatrizen und Verteilungen MS13 75
die parallel ist zu dem durch die Vektoren (2, 3, 1)′ und (3, 5, 2)′ aufgespannten
Unterraum, und die durch den Punkt (1, 2, 3)′ geht.
Ein noch einfacheres Beispiel ist das von zwei Variablen, die beide nicht Varianz 0
besitzen mogen. Man macht sich leicht klar, dass die Kovarianzmatrix hier genau
dann den Rang 1 besitzt, wenn die Korrelation der beiden Variablen gleich 1 oder
−1 ist. Bekanntlich bedeutet dies aber, dass alle Datenpunkte auf einer Geraden
liegen.
Es gilt ubrigens auch die Umkehrung des oben geschilderten Sachverhaltes:
Feststellung 2. Liegen alle Datenpunkte xi einer Variable x in einem r-dimen-
sionalen affinen Unterraum des Rp, so hat die Kovarianzmatrix S von x hochstens
den Rang r.
Der affine Unterraum sei namlich V + v mit dim(V ) = r. Bildet man die neue
Variable y = x−v, so liegen alle yi = xi−v in V . Da y aus x durch eine einfache
Verschiebung hervorgeht, ist die Kovarianzmatrix von y ebenfalls gleich S. Ist P
die orthogonale Projektion auf V , so gilt fur alle yi die Beziehung Pyi = yi,
weshalb die Kovarianzmatrix PSP′ der Variable Py gleich der Kovarianzmatrix
S von y ist. Da P den Rang r besitzt, kann schließlich auch S hochstens diesen
Rang haben. �
Wenn alle Datenpunkte in einem r-dimensionalen affinen Unterraum liegen, so
sollten r geeignete Angaben genugen, um einen Datenpunkt zu charakterisieren.
Zur Vorbereitung entsprechender Aussagen dient die nachste Feststellung:
Feststellung 3. Es sei S die Kovarianzmatrix von x. Wahlt man einen Teil der
Spalten von S aus, so sind diese Spalten genau dann linear unabhangig, wenn die
Kovarianzmatrix der zugehorigen Variablen regular ist.
Zur Begrundung sei zunachst daran erinnert, dass wegen der positiven Semide-
finitheit von S fur beliebige Vektoren a die Beziehung Sa = 0 genau dann gilt,
wenn a′Sa = 0 ist.
Es sollen nun Vektoren a betrachtet werden, die außerhalb der ausgewahlten
Spalten 0 sind, was vereinbarungsgemaß bedeuten soll, dass alle Komponenten
eines solchen Vektors, deren Index nicht mit dem Index einer der ausgewahlten
Spalten ubereinstimmt, gleich 0 sind. Die Linearkombination a′x aller gegebe-
nen Variablen x ist dann auch schon eine Linearkombination der ausgewahlten
2.3 Kovarianzmatrizen und Verteilungen MS13 76
Variablen (also der Variablen, die den ausgewahlten Spalten entsprechen). Ande-
rerseits lasst sich jede beliebige Linearkombination der ausgewahlten Variablen
kunstlich in dieser Form einer Linearkombination aller Variablen schreiben, in-
dem man einfach fur alle nicht ausgewahlten Variablen als Koeffizienten 0 nimmt.
Die Varianz von a′x ist a′Sa.
Die Kovarianzmatrix der ausgewahlten Variablen ist genau dann regular, wenn
sie positiv definit ist, was gleichbedeutend damit ist, dass die Varianzen nicht-
trivialer Linearkombinationen dieser Variablen alle 6= 0 sind (eine nichttriviale
Linearkombination ist naturlich eine, bei der nicht alle Koeffizienten gleich 0
sind). Dies ist nun gleichbedeutend damit, dass fur alle Vektoren a 6= 0 der oben
betrachteten Art a′Sa 6= 0 gilt.
Andererseits sind die ausgewahlten Spalten genau dann linear unabhangig, wenn
fur alle a 6= 0 der oben betrachteten Art auch Sa 6= 0 ist.
Da wegen der einleitenden Bemerkung allgemein a′Sa = 0 genau dann gilt, wenn
Sa = 0 gilt, folgt nun schließlich die Behauptung. �
Bei der oben als Beispiel betrachteten (3×3)-Kovarianzmatrix sind beispielsweise
alle Teilsysteme von je zwei Spalten linear unabhangig, weshalb auch alle Kova-
rianzmatrizen von je zwei der drei Variablen regular sind (wovon man sich auch
leicht direkt uberzeugt).
Feststellung 4. Hat die Kovarianzmatrix S von x den Rang r < p, so kann man
r Variablen aus den xi auswahlen, deren Kovarianzmatrix auch schon den Rang
r besitzt. Die restlichen p−r Variablen lassen sich dann als Linearkombinationen
der ausgewahlten r Variablen ausdrucken (jedenfalls was die erhobenen Daten
betrifft).
Zur Begrundung wahlt man r Variablen aus, die r linear unabhangigen Spal-
ten von S entsprechen. Außerdem wahlt man eine kovarianztreue Darstellung
aller Variablen. Die reprasentierenden Vektoren haben dann wegen Feststellung
9 aus Kapitel 2.2 ebenfalls den Rang r. Diesen Rang besitzen jedoch bereits die
Reprasentanten der ausgewahlten Variablen, da deren Kovarianzmatrix wegen
Feststellung 3 regular ist. Daraus folgt, dass die Reprasentanten der ubrigen Va-
riablen sich als Linearkombinationen der ausgewahlten Reprasentanten schreiben
lassen, was auf die ubrigen Variablen ubertragen bedeutet, dass sie sich von den
entsprechenden Linearkombinationen der ausgewahlten Variablen nur um Kon-
stanten unterscheiden, also Linearkombinationen der ausgewahlten Variablen im
2.3 Kovarianzmatrizen und Verteilungen MS13 77
statistischen Sinn sind (was die erhobenen Daten angeht). �
Will man die restlichen Variablen als Linearkombinationen der ausgewahlten aus-
drucken, so kann man sich beispielsweise der Technik der multiplen Regression
bedienen. Ist namlich eine Variable y =∑bixi + a Linearkombination gegebener
xi, deren Kovarianzmatrix regular ist, so muss y =∑bixi + a auch bereits die
(eindeutige) Vorhersage bei einer multiplen Regression von y auf die xi sein, denn
diese Vorhersagegleichung ist ja fehlerfrei und damit optimal.
In einer Situation mit p Variablen, deren Kovarianzmatrix den Rang r besitzt,
kann man also insgesamt r Variablen auswahlen, deren Kovarianzmatrix ebenfalls
den Rang r besitzt (man wahlt dazu r Variablen aus, fur die die zugehorigen Spal-
ten in S linear unabhangig sind). Die restlichen p− r Variablen kann man dann
als Linearkombinationen der r ausgewahlten xi ausdrucken (beispielsweise mit
Hilfe der Regression). Sie enthalten in diesem Sinne keine zusatzliche Informati-
on uber das hinaus, was bereits in den r ausgewahlten Variablen an Information
steckt, und sind gewissermaßen uberflussig. Man hat sozusagen’eigentlich‘ eine
Situation mit nur r Variablen (jedenfalls hinsichtlich der erhobenen Daten).
In dem oben betrachteten Beispiel einer (3×3)-Kovarianzmatrix vom Rang 2 kann
man beispielsweise die dritte Variable (mit Hilfe einer Regression) schreiben als
x3 = −x1 +x2 + 2. Ebenso kann man aber auch die erste Variable oder die zweite
Variable als Linearkombination der jeweils beiden anderen ausdrucken.
Haben als weiteres Beispiel zwei Variablen die Korrelation 1, so liegen alle Daten-
punkte auf einer Geraden und die eine Variable ist eine lineare Transformation
der anderen (dieses Beispiel sollte auch die Notwendigkeit des Zusatzes’was die
erhobenen Daten betrifft‘ noch einmal deutlich machen).
Zum Abschluss sei noch angemerkt, dass alle in diesem Unterabschnitt bespro-
chenen Sachverhalte analog fur Zufallsvariablen gelten; man hat dabei nur kleine
Umformulierungen vorzunehmen. In Feststellung 1 muss es dann beispielsweise
heißen, dass die Zufallsvariable x (fast sicher) nur Werte in dem angegebenen
affinen Unterraum annimmt, in Feststellung 4 sind die restlichen Variablen (fast
sicher) Linearkombinationen der r ausgewahlten.
Die Verhaltnisse fur singulare Kovarianzmatrizen sind damit ausfuhrlich behan-
delt. Im Folgenden soll von den Kovarianzmatrizen meistens vorausgesetzt wer-
den, dass sie invertierbar sind.
Regulare Kovarianzmatrizen und Tschebyscheffsche Ungleichung. Fur
2.3 Kovarianzmatrizen und Verteilungen MS13 78
den ersten noch zu untersuchenden Fall, dass die Kovarianzmatrix S von x re-
gular ist, soll nun eine Verallgemeinerung der Tschebyscheffschen Ungleichung
hergeleitet werden, mit deren Hilfe man genauere Vorstellungen uber die Lage
der Datenpunkte gewinnen kann.
Es soll hierzu die eindimensionale Variable y := (x − x)′S−1(x − x) untersucht
werden, von der als erstes der Mittelwert berechnet werden soll. Die Mittelwert-
bildung soll mit M abgekurzt werden, M(y) bezeichnet also den Mittelwert der
Variable y.
Es gilt dann
M(y) = M (Spur((y)))
= M(Spur
((x− x)′S−1(x− x)
))= M
(Spur
(S−1(x− x)(x− x)′
))= Spur
(S−1M ((x− x)(x− x)′)
)= Spur(S−1S) = Spur(Ip) = p .
Hierbei sind die bekannten Eigenschaften der Spur zu berucksichtigen, sowie die
Tatsache, dass sich der Mittelwert ja als (1/n)-fache Summe berechnet und folg-
lich die Mittelwertbildung mit der Spurbildung und der Matrizenmultiplikation
vertauschbar ist.
Steht h fur die relative Haufigkeit, so folgt aus der Markoffschen Ungleichung fur
jedes k > 0 die Beziehung h(y ≥ k2) ≤ p/k2, und daraus die verallgemeinerte
Tschebyscheffsche Ungleichung:
Feststellung 5. Ist die Kovarianzmatrix S der p-dimensionalen Variable x re-
gular, so gilt fur jedes k > 0 die Beziehung
h((x− x)′S−1(x− x) ≥ k2
)≤ p
k2. �
Dies ist tatsachlich eine multivariate Verallgemeinerung der univariaten Tscheby-
scheffschen Ungleichung, denn fur p = 1 ist der Ausdruck links vom ≥-Zeichen
gleich (x − x)2/S2, wenn man hier fur die Varianz (das einzige Element in der
(1×1)-Kovarianzmatrix) wie ublich S2 schreibt, weshalb sich hier die Ungleichung
umformen lasst zu
h (|x− x| ≥ kS) ≤ 1
k2,
was gerade eine mogliche Version der Tschebyscheffschen Ungleichung ist.
2.3 Kovarianzmatrizen und Verteilungen MS13 79
Die Bedingung (x − x)′S−1(x − x) ≥ k2 deutet man geometrisch so, dass x
außerhalb des Ellipsoids E(S, x, k) liegt. Dieses Ellipsoid ist gerade das um den
Faktor k vergroßerte Ellipsoid E(S, x, 1).
Es ist praktisch, fur das Ellipsoid E(S, x, 1) die Bezeichnung Verteilungsellipsoid
von x einzufuhren.
Abkurzend soll auch ein um den Faktor k vergroßertes Ellipsoid (bei gleichblei-
bendem Mittelpunkt) als k-faches Ellipsoid bezeichnet werden.
Man kann dann die Tschebyscheffsche Ungleichung auch so ausdrucken:
Feststellung 6. Die relative Haufigkeit von Datenpunkten, die außerhalb des
k-fachen Verteilungsellipsoids E(S, x, 1) liegen, ist hochstens p/k2.
Betrachtet man nicht Punkte außerhalb, sondern innerhalb der Ellipsoide, so
erhalt man aquivalent:
Die relative Haufigkeit von Datenpunkten, die im k-fachen Verteilungsellipsoid
E(S, x, 1) liegen, ist mindestens 1− p/k2.
Als Beispiel soll eine Situation wieder aufgegriffen werden, die bereits im Zusam-
menhang der Deutung der Spur als Gesamtvarianz untersucht wurde.
In dem Beispiel waren an 5 Versuchspersonen jeweils zwei Variablen x1 und x2erhoben worden. Fur Mittelwertvektor und Kovarianzmatrix hatten sich
x =
(3
2
)und S =
(2 .8
.8 .8
)ergeben.
Als Eigenwerte der Kovarianzmatrix errechnet man die Zahlen 2.4 und .4 mit
zugehorigen Eigenvektoren (2, 1)′ und (−.5, 1)′. Die Ellipse E(S, x, 1) hat also
ihre Achsen in Richtung dieser Eigenvektoren und besitzt als Halbmesser die
Wurzeln der zugehorigen Eigenwerte, also 1.55 und .63. In der folgenden Graphik
ist diese Ellipse und ihre Verdopplung eingezeichnet:
2.3 Kovarianzmatrizen und Verteilungen MS13 80
1
1
.................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................. ..........................
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.........................
...................
x1
x2
r
r
rr
rrx
.............................................................................................................................................
......................................................................................................................................................................................................................................................................................................................................................
...........................
.........................................................................................................
............................
............................
............................
............................
............................
............................
............................
...........
......
......
...........................................
..........
.........................................................................................................................
.........
.......
..
Nach der Tschebyscheffschen Ungleichung muss die großere Ellipse mindestens
den Anteil 1 − 2/22 = 1 − 1/2 = 1/2 der Datenpunkte enthalten – hier enthalt
sie sogar alle Datenpunkte. Die Tschebyscheffsche Ungleichung rechnet ja auch
bekanntlich mit dem schlimmsten Fall.
Analoge Ungleichungen kann man ubrigens mit ahnlicher Argumentation auch fur
anderere Ellipsoide herleiten. Das hier benutzte Ellipsoid ist jedoch im Vergleich
das mit dem kleinsten Volumen und daher am besten geeignet, Information uber
die Lage der Daten zu liefern.
In vielen Fallen spiegelt das Ellipsoid E(S, x, 1) auch gut die Form der Punktwol-
ke wieder. Auch deshalb ist die Bezeichnung als Verteilungsellipsoid angemessen.
Das Volumen des Ellipsoids ist bis auf einen von der Dimension abhangigen Faktor
gleich der Wurzel aus der Determinante der Kovarianzmatrix. Die Determinan-
te gibt daher ebenfalls Aufschluss uber das Streuungsverhalten der Punktwolke
und ist neben der Spur eine weitere mogliche Verallgemeinerung der univariaten
Varianz.
Bei diesen beiden moglichen Verallgemeinerungen der univariaten Varianz ist der
enge Bezug zu den Eigenwerten der Kovarianzmatrix zu betonen: Die Spur ist
die Summe der Eigenwerte, die Determinante deren Produkt.
Die Eigenwerte selbst charakterisieren das Streuungsverhalten noch besser, da sie
eine gewisse Vorstellung von der Form der Punktwolke liefern: die Wurzeln aus
den Eigenwerten sind ja gerade die Halbmesser des die Verteilung charakterisie-
renden Ellipsoids. Die zugehorigen Eigenvektoren geben zusatzlich die Richtung
der Achsen an.
2.3 Kovarianzmatrizen und Verteilungen MS13 81
Nun soll noch untersucht werden, wie das Ellipsoid im Eindimensionalen aussieht.
Hier besteht die Kovarianzmatrix nur aus der Varianz der einzigen Variablen, die
wie ublich als S2 bezeichnet werden soll; der Mittelwert sei x. Die Bedingung
dafur, dass Punkte x in dem Ellipsoid liegen, ist (x − x)2/S2 < 1 oder auch
|x− x| < S, so dass das Ellipsoid hier gerade das Intervall ]x−S, x+S[ ist, das ja
im Eindimensionalen auch ublicherweise zur Charakterisierung einer Verteilung
benutzt wird.
Zum Schluss sei bemerkt, dass die Tschebyscheffsche Ungleichung in analoger
Form auch fur multivariate Zufallsvariablen gultig ist. Man macht sich das ge-
nauso klar wie die deskriptive Version; man hat nur uberall Mittelwert durch
Erwartungswert, relative Haufigkeit durch Wahrscheinlichkeit etc. zu ersetzen.
Kennwerte von eindimensionalen Linearkombinationen. Betrachtet man
von einer p-dimensionalen Variablen x mit Zentroid x und positiv definiter Ko-
varianzmatrix S eine Linearkombination y = a′x + b mit Koeffizientenvektor a
und additiver Konstante b, so erhalt man als Mittelwert und Varianz von y die
Werte y = a′x + b und S2y = a′Sa.
Die Linearkombination kann auch dargestellt werden als orthogonale Projek-
tion der Datenpunkte auf den von a erzeugten Unterraum, der mit einer ge-
eigneten Skalierung versehen werden kann, an der die y-Werte direkt ablesbar
sind. Bei der Projektion wird x auf a′x + b = y abgebildet und E(S, x, 1) auf
E(a′Sa, a′x + b, 1), also das Zentroid von x auf den Mittelwert von y und das
Verteilungsellipsoid E(S2y , y, 1
)von x auf das Verteilungsellipsoid von y, also auf
das die eindimensionale Verteilung charakterisierende Intervall um den Mittelwert
mit der Lange 2Sy.
Besonders angenehm ist der Fall standardisierter Linearkombinationen, bei denen
ja die Einheit auf dem eindimensionalen Unterraum genau so lang ist wie die
Einheit im Variablenraum.
Die folgende Graphik illustriert diesen Sachverhalt fur die Daten aus dem schon
mehrfach verwendeten Beispiel und die SLK y = .96x1 + .28x2. Eingezeichnet
sind die die Verteilung charakterisierende Ellipse und ihr Bild bei Projektion auf
den von (.96, .28)′ erzeugten Unterraum – dieses Bild ist gerade das Intervall um
y mit Lange 2Sy.
2.3 Kovarianzmatrizen und Verteilungen MS13 82
1
1
.................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................. ..........................
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.........................
...................
x1
x2
r
r
rr
rrx
.............................................................................................................................................
......................................................................................................................................................................................................................................................................................................................................................
...........................
...............
...............
...............
...............
...............
...............
...............
...............
..............................................
..............................................
..............................................
..............................................
..............................................
..............................................
..............................................
..............................................
..............................................
..............................................
..............................................
..............................................
..............................................
..............................................................
...................
y
r rr
rrr......
..........................
..........
........
..............................
................
........................................................................................................................................................... y
..........................................................................................................................................................................................................................
Allgemein gilt, dass die Streuung der SLK gleich dem halben’Durchmesser‘ des
Ellipsoids in der Richtung a ist, was auch in der Zeichnung deutlich wird. Als
Durchmesser gilt hier der Abstand von zwei Tangenten (im allgemeineren Fall:
Tangentialraumen) an das Ellipsoid senkrecht zu der betrachteten Richtung.
SLKn konnen also durch ihre Streuungen eine Vorstellung von der Form des
Ellipsoids geben. Sie liefern sozusagen einen Hinweis darauf, wie groß die Streuung
der Punktwolke in der Richtung des Koeffizientenvektors ist.
Multivariate z-Transformationen. Gegeben sei wieder die Situation einer
p-dimensionalen Variablen x mit Zentroid x und positiv definiter Kovarianz-
matrix S. Eine naheliegende Verallgemeinerung des univariaten Begriffs der z-
Transformation wird in der folgenden Definition gegeben:
Eine affine Transformation z = Ax + b mit einer (p× p)-Matrix A heißt multi-
variate z-Transformation, falls z = 0 und V (z) = I gilt.
Die Komponenten von z sollen also standardisiert sein (der Mittelwert soll 0 und
die Varianz 1 sein), und sie sollen daruber hinaus auch noch unkorreliert sein.
Falls es solche Transformationen gibt, so folgt wegen 0 = z = Ax + b die Bezie-
hung b = −Ax, so dass sich die Transformation auch als z = A(x− x) schreiben
lasst. Umgekehrt fuhrt jede Transformation dieser Form zu einer neuen Variable
mit Erwartungswertvektor 0.
Es bleibt die Frage nach moglichen Matrizen A. Hier ist die Gleichung ASA′ = I
zu erfullen, weshalb ein solches A invertierbar sein muss. Eine mogliche Losung
fur A ist bereits bekannt, namlich A = S−1/2. Es gibt also multivariate z-
2.3 Kovarianzmatrizen und Verteilungen MS13 83
Transformationen. Die hier beschriebene heißt auch Mahalanobistransformation
(bezuglich S).
Die Form z = S−1/2(x− x) erinnert ubrigens unmittelbar an die eindimensionale
z-Transformation z = (x− x)/SX .
Eine andere Moglichkeit eroffnet der Spektralsatz. Schreibt man S = LL′, wobei
L eine Matrix aus orthogonalen normalisierten Eigenvektoren ist, und setzt A =
L−1, so gilt
ASA′ = L−1LL′L′−1 = I .
Auch so erhalt man also eine mogliche z-Transformation.
Diese letzte Moglichkeit hat eine anschauliche geometrische Beschreibung als Ko-
ordinatenwechsel zu dem neuen affinen Koordinatensystem, dessen Nullpunkt das
Zentroid x ist und dessen Achsen und Einheiten durch die Matrix A−1 = L ge-
geben sind. Die Achsen liegen also in Richtung der Eigenvektoren von S und die
Einheiten haben als Langen gerade die Wurzeln aus den zugehorigen Eigenwerten.
Mit anderen Worten liegen die Einheiten dieses neuen Koordinatensystems dort,
wo die Achsen die Oberflache des die Verteilung charakterisierenden Ellipsoids
E(S, x, 1) schneiden.
Hat man bereits eine Orthonormalbasis aus Eigenvektoren von S in den Spalten
von G gefunden und ist D die Diagonalmatrix der zugehorigen Eigenwerte, so
kann man fur L die Matrix GD1/2 wahlen, was zu A = L−1 = D−1/2G′ fuhrt.
Eine Matrix von orthonormalen Eigenvektoren fur das schon mehrfach verwen-
dete Beispiel ist
G =1√5
(2 −1
1 2
)mit zugehorigen Eigenwerten 2.4 und .4. Als mogliche Matrix L aus normalisierten
Eigenvektoren erhalt man
L =1√5
(2 −1
1 2
)(√2.4 0
0√.4
)=
(√48/5 −
√2/5√
12/5√
8/5
)=
(1.386 −.283
.693 .566
).
Die Matrix A ist dann(√1/2.4 0
0√
1/.4
)1√5
(2 1
−1 2
)=
( √1/3
√1/12
−√
1/2√
2
)=
(.577 .289
−.707 1.414
).
2.3 Kovarianzmatrizen und Verteilungen MS13 84
Die folgende Graphik zeigt das neue Koordinatensystem und das Ellipsoid, dane-
ben die z-transformierten Punkte in einem eigenen Koordinatensystem, in dem
die Ellipse zum Einheitskreis geworden ist.
1
1
.................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................. ..........................
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.........................
...................
x1
x2
r
r
rr
r
............................
............................
............................
............................
............................
............................
............................
............................
............................
............................
............................
............................
............................
............................
............................
............................
............................
............................
............................
.........................................................
.................................................................................................................................................................................................................................................................................................................................................................
.........
..........
..........
.........
..........
.........
.........
.........
.........
.........
......... z1z2
11
. ...
...............
.................................. . . . . . . . . .
. . .. . .
1
1
................................................................................................................................................................................................................................................ ..........................
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......................
...................
z1
z2
rrrr
r........
.....
............................ . . . . . . . .
...........
Im multivariaten Fall gibt es also womoglich mehr als eine z-Transformation. Be-
merkenswert ist jedoch, dass fur alle moglichen solchen Transformationen immer
A′A = S−1 gilt. Dies folgt unmittelbar aus der Gleichung ASA′ = I uber die
Umformung S = A−1IA′−1 = (A′A)−1 durch Invertieren.
Feststellung 7. Ist z = A(x − x) eine multivariate z-Transformation einer
Variable x mit Kovarianzmatrix S, so gilt A′A = S−1. �
Mahalanobisdistanz. Als Anwendung der z-Transformation soll nun eine Art
statistische Distanz von Punkten eingefuhrt werden.
Als motivierendes Beispiel soll eine Situation dienen, in der zwei Bewerber sich um
eine Stelle bewerben. Fur die Eignung halt man mehrere Personlichkeitsvariablen
fur relevant: Ordnung (O), Sauberkeit (S), Punktlichkeit (P) und Grundstimmung
(G). Es gibt nun ein Idealprofil der Stelle, das in den Variablen nacheinander die
Werte 4, 3, 3, 4 hat.
Bei den beiden Bewerbern hat man mit einem psychometrischen Test die Werte
in den vier relevanten Variablen festgestellt. Dabei ergaben sich bei Wilhelm
Wohlgemuth die Werte 1, 2, 1, 5, und bei Max Murrisch die Werte 5, 4, 5, 1. Nun
stellt sich die Frage, welcher Bewerber dem Idealprofil naherkommt.
Ein Bild des Sachverhalts konnte folgendermaßen aussehen:
2.3 Kovarianzmatrizen und Verteilungen MS13 85
O S P G
1....................................................................................................................................................................................................................................................................................
...................
.................................................................................................................................................................................................................................
.............
.............................................................................................................................................................................
..................................................................................................................................................................................................................................................................................
...............................................................................................................................................................................................................................................................
I
WW
MM
Eine naheliegende Moglichkeit, die Profile mit dem Idealprofil zu vergleichen,
ware nun die folgende: Man stellt das Idealprofil und die Bewerberprofile als
Punkte im vierdimensionalen Raum dar und misst dort den Abstand der beiden
zu den Bewerbern gehorenden Punkten zu dem Idealpunkt. Dann wahlt man den
Bewerber mit dem niedrigeren Abstand aus.
Anders ausgedruckt erhalt man den Abstand, indem man man auf jeder Skala
die Differenz zwischen Bewerberwert und Idealwert bildet, die quadrierten Diffe-
renzen addiert und aus dem Ergebnis die Wurzel zieht.
Diese Moglichkeit ist jedoch aus mehreren Grunden unbefriedigend. Zunachst
hangen die Abstande ganz entscheidend von der Skalierung der Variablen ab.
Wurde man eine der Variablen umskalieren, indem man zum Beispiel die Werte
dort verzehnfacht, so wurde sich die Bedeutung dieser Variablen fur den Abstand
deutlich erhohen. Wenn keine mogliche Skala vor anderen ausgezeichnet ist, ist
das Abstandsmaß also stark davon abhangig, welche der moglichen Skalierungen
nun gerade vorliegt.
Eine Moglichkeit, diesem Problem auszuweichen, ware die, die Skalen vergleich-
bar zu machen, und hier bietet sich die z-Transformation pro Variable an (die
z-Transformation bewirkt ja, dass die Streuung 1 wird, und daher wurden z-
Transformationen aller Variablen dafur sorgen, dass die statistischen Schwankun-
gen auf allen Skalen gleich sind). Solche Transformationen andern jedoch nichts
an den Korrelationen, und das Vorhandensein von Korrelationen ist ein weiteres
Problem bei der geschilderten Vorgehensweise.
Um dies zu verdeutlichen, sei angenommen, dass es nun nur zwei Variablen x1und x2 gibt. Das Idealprofil besitze die Werte 3 und 2. Zwei Bewerber A und B
haben die Profile 2.5, 2.8 und 1.9, 1.5.
Dies fuhrt zu folgenden Darstellungen: links als Profilvergleich, rechts im zweidi-
mensionalen Raum:
2.3 Kovarianzmatrizen und Verteilungen MS13 86
x1 x2
1
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
........................
...................
...........................................................................................................................
............................................
.........
.............................................................................
I
A
B
1
1
.................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................. ..........................
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.........................
...................
x1
x2
rrr.....
..............
. .. . .
xA
xB
xI
Hier ist der Abstand von xA zu xI kleiner als der von xB zu xI . Dies wurde dafur
sprechen, dass A geeigneter fur die Stelle ist.
Nun sind Idealprofile oft als Durchschnittswert von vielen erfolgreichen Stellenin-
habern gebildet. Wenn dies auch hier so ist, so gehort zu diesen vielen Messungen
auch eine Punktwolke mit zugehoriger Kovarianzmatrix. Das Verteilungsellipsoid
gibt eine Vorstellung von der Form der Punktwolke. In der nachsten Abbildung
ist links zusatzlich die Punktwolke eingetragen, rechts ist dieselbe Situation nach
einer multivariaten z-Transformation dargestellt.
1
1
.................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................. ..........................
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.........................
...................
x1
x2
rrrxA
xB
xI
.............................................................................................................................................
......................................................................................................................................................................................................................................................................................................................................................
...........................
1
................................................................................................................................................................................................................................................ ..........................
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......................
...................
z1
z2
rr
rzA
zB zI ............................................................
.........................
..........................................................................................................................................................................................................................................................................................................................................................................
Aus beiden Abbildungen geht deutlich hervor, dass B eher in die Population
der erfolgreichen Stelleninhaber passt als A. Das Auswahlkriterium ist also zu
modifizieren, und zwar naheliegenderweise so, dass man auf die Punkte, deren
2.3 Kovarianzmatrizen und Verteilungen MS13 87
Abstand zu bestimmen ist, erst eine multivariate z-Transformation anwendet
und danach den euklidischen Abstand bestimmt. Die so gebildete Distanz heißt
auch Mahalanobisdistanz.
Die Mahalanobisdistanz soll nun allgemein fur zwei beliebige Punkte x1 und x2
definiert werden (wobei ubrigens zu fragen ist, ob eine Distanz zwischen belie-
bigen Punkten inhaltlich in der jeweils betrachteten Situation ebenso zwanglos
als statistische Verschiedenheit interpretierbar ist wie die Distanz eines Punktes
zum Mittelwertvektor).
Ist z = Ax + b eine multivariate z-Transformation, so sind die zu x1 und x2
gehorenden z-Werte die Vektoren z1 = Ax1 + b und z2 = Ax2 + b. Der Abstand
dieser Punkte ist dann die Lange des Differenzvektors
z2 − z1 = (Ax2 + b)− (Ax1 + b) = A(x2 − x1) .
Das Quadrat dieser Lange ist mit Feststellung 7 gleich
(A(x2 − x1))′(A(x2 − x1)) = (x2 − x1)
′A′A(x2 − x1) = (x2 − x1)′S−1(x2 − x1)
und hangt damit nicht von der speziellen gewahlten Transformation ab.
Nun kann die Mahalanobisdistanz zwischen zwei Punkten x1 und x2 bezuglich S
definiert werden als ((x2 − x1)
′S−1(x2 − x1))1/2
.
Dass hier die Matrix S explizit erwahnt wird, hat seinen Grund darin, dass in
manchen Situationen unterschiedliche Matrizen geeignet sind, eine Streuung zu
beschreiben. Man hat dann zu spezifizieren, auf welche man sich bezieht.
Auch die Mahalanobistransformation, die ja eine spezielle z-Transformation ist,
kann in der gerade durchgefuhrten Konstruktion verwendet werden, und man
erhalt dann die Aussage, dass die Mahalanobisdistanz zwischen zwei Punkten
gleich der euklidischen Distanz zwischen den Mahalanobis-transformierten Punk-
ten ist.
Interessant ist die Frage, welche Punkte zu x die Mahalanobisdistanz r besitzen.
Die Bedingung hierfur ist
(x− x)′S−1(x− x) = r2 ,
und die Punkte x, die diese Bedingung erfullen, sind offenbar gerade die Punkte
auf der Oberflache des Ellipsoids E(S, x, r). Dieses Ellipsoid selber ist daher
2.4 Hauptkomponenten MS13 88
gerade die Menge der Punkte, deren Mahalanobisdistanz vom Zentroid kleiner
als r ist.
Man hat damit eine enge Beziehung zwischen dem Verteilungsellipsoid und der
Mahalanobisdistanz.
2.4 Hauptkomponenten
Dieses Kapitel ist den Hauptkomponenten und ihren Eigenschaften gewidmet.
Eine Situation mit vielen Variablen ist meist unubersichtlich, so dass der Wunsch
entsteht, ohne allzu viel Informationsverlust die Zahl der Variablen zu reduzie-
ren. Diesem Ziel dient die Hauptkomponentenanalyse. Die Hauptkomponenten
sind Transformationen der Originalvariablen, die in gewisser Weise nacheinander
moglichst viel der Variabilitat erfassen. Alle Hauptkomponenten zusammen ent-
halten die gesamte Information der Originalvariablen, jedoch ist ein großer Teil
der Information (im Sinne der Variabilitat) bereits in den ersten Hauptkompo-
nenten enthalten. Es liegt daher nahe, die letzten Hauptkomponenten nicht weiter
zu berucksichtigen und nur mit den ersten weiterzuarbeiten, womit das Ziel der
Reduktion der Variablen erreicht ist.
Nach der Definition wird sich zeigen, dass die Hauptkomponenten eine Losung
fur viele naheliegende Fragen liefern. Ein Hauptaspekt bei den Untersuchungen
ist der, genauer zu klaren und zu quantifizieren, inwiefern ein großer Teil der
Information bereits durch die ersten Hauptkomponenten erfasst wird, und wieso
es gerechtfertigt ist, sich bei weiteren inhaltlichen Untersuchungen womoglich auf
die ersten Hauptkomponenten zu beschranken.
Es wird sich zeigen, dass dabei die euklidische Distanz im Variablenraum eine
ganz entscheidende Rolle spielt, weshalb eine zentrale Frage die ist, ob diese
Distanz inhaltlich sinnvoll interpretiert werden kann.
Es wird in diesem Kapitel um empirische Verteilungen gehen, wobei aber auch
wieder klar werden sollte, dass entsprechende Verhaltnisse bei theoretischen Ver-
teilungen herrschen.
Definition und erste Eigenschaften. Ausgangspunkt ist eine Situation, in der
p Variablen an einer gewissen Zahl von Versuchspersonen erhoben worden sind.
Die Variablen sind zu einem Vektor x zusammengefasst; dabei ist wie ublich x
2.4 Hauptkomponenten MS13 89
das Zentroid und S die Kovarianzmatrix.
An S wird die Forderung der Invertierbarkeit meistens nicht gestellt.
Nach dem Spektralsatz kann man S schreiben als GDG′ mit einer Orthogo-
nalmatrix G und einer Diagonalmatrix D, die in der Diagonale in absteigender
Reihenfolge die Eigenwerte von S enthalt, die wie ublich λ1, . . . , λp heißen sollen.
Die Hauptkomponenten sind dann definiert als die Komponenten des Variablen-
vektors
y = G′(x− x) .
An der Umformung y = G′x−G′x sieht man, dass die Hauptkomponenten durch
eine affine Abbildung gewonnen werden, die wegen der Invertierbarkeit von G′
auch umkehrbar ist: Mit
x = Gy + x
kann x aus y vollstandig rekonstruiert werden. Man hat hier also eine Variablen-
transformation, die sozusagen ohne Informationsverlust ist.
Die Transformation von x zu y heißt auch Hauptkomponententransformation.
Es konnen gleich die wichtigsten Kennwerte der Hauptkomponenten bestimmt
werden: Das Zentroid y ist gleich G′x −G′x = 0, und die Kovarianzmatrix ist
G′SG′′ = G′GDG′G′′ = D. Die Hauptkomponenten sind also unkorreliert.
Die Koeffizientenmatrix der Hauptkomponententransformation ist die Matrix G
(verabredungsgemaß stehen hier, wie bei Koeffizientenmatrizen ublich, die Koef-
fizienten zur Bildung einer neuen Variable in der entsprechenden Spalte).
Die j-te Hauptkomponente ist also eine Linearkombination der Variablen xi, de-
ren Koeffizienten in der j-ten Spalte der Matrix G stehen. Zu einem Vektor
zusammengefasst liefern diese Koeffizienten damit gerade einen Eigenvektor zum
j-ten Eigenwert von S, der auch noch die Lange 1 besitzt, da G Orthogonalma-
trix ist. Die Hauptkomponenten sind also standardisierte Linearkombinationen
der xi.
Die additiven Konstanten bei den Hauptkomponenten sind so gewahlt, dass deren
Mittelwerte gleich 0 sind (wegen y = 0). Dies hat den Vorteil, dass man dem Wert
eines Probanden auf einer Hauptkomponente direkt am Vorzeichen ansehen kann,
ob er uber- oder unterdurchschnittlich ist.
2.4 Hauptkomponenten MS13 90
Feststellung 1. Die Hauptkomponenten sind standardisierte Linearkombinatio-
nen, die zentriert und untereinander unkorreliert sind, und die als Varianzen die
Eigenwerte von S besitzen. �
Will man ganz genau sein, so musste man eigentlich formulieren, dass die Kovari-
anzen der Hauptkomponenten untereinander alle 0 sind, denn in dem Fall, dass D
auch Nullen in der Diagonale besitzt, sind die Varianzen der letzten Hauptkom-
ponenten 0, so dass Korrelationen gar nicht definiert sind. Es sollen in solchen
Situationen jedoch auch in Zukunft die glatteren, wenn auch nicht ganz richti-
gen Formulierungen bevorzugt werden, da Missverstandnisse kaum zu befurchten
sind.
In einem Beispiel sollen nun die Hauptkomponenten bestimmt werden. Die Da-
tenmatrix ist dabei die schon mehrfach verwendete Matrix2 1
4 3
1 1
5 2
3 3
,
die die Daten von 5 Probanden in zwei Variablen enthalt. Fur diese Matrix wurden
schon
x =
(3
2
)und S =
(2 .8
.8 .8
)errechnet. Die Eigenwerte waren 2.4 und .4 mit zugehorigen Eigenvektoren
√1/5 (2, 1)′
und√
1/5 (−1, 2)′, die hier schon auf 1 normiert sind. Man kann daher
G =1√5
(2 −1
1 2
)wahlen und erhalt die Hauptkomponententransformation
y = G′(x− x) =1√5
(2 1
−1 2
)((x1x2
)−(
3
2
))=
(2√
5/5√
5/5
−√
5/5 2√
5/5
)(x1x2
)−(
8√
5/5√5/5
)=
(0.894 0.447
−0.447 0.894
)(x1x2
)−(
3.578
0.447
),
wobei die letzte Zeile gerundet ist. Ausgeschrieben erhalt man
y1 = (2√
5/5)x1 + (√
5/5)x2 − 8√
5/5
y2 = (−√
5/5)x1 + (2√
5/5)x2 −√
5/5 ,
2.4 Hauptkomponenten MS13 91
oder gerundet
y1 = 0.894x1 + 0.447x2 − 3.578
y2 = −0.447x1 + 0.894x2 − 0.447 .
Man beachte, dass die Summe der quadrierten Koeffizienten gleich 1 ist.
Die Matrix der Hauptkomponenten der 5 Probanden ist dann−1.342 −0.447
1.342 0.447
−2.236 0
1.789 −0.894
0.447 0.894
.
Geometrisch kann man die Transformation interpretieren als einen Koordinaten-
wechsel zu dem neuen affinen Koordinatensystem, dessen Nullpunkt das Zentroid
x ist, dessen Achsen parallel sind zu den Eigenvektoren von S (den Spalten von
G) und dessen Einheiten auch im alten Koordinatensystem die Lange 1 besitzen.
Die folgende Abbildung zeigt das neue Koordinatensystem in dem alten System
und getrennt fur sich mit den betrachteten Daten. Die die Verteilungsellipsen
sind mit eingezeichnet.
1
1
.................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................. ..........................
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.........................
...................
x1
x2
r
r
rr
r
............................
............................
............................
............................
............................
............................
............................
............................
............................
............................
............................
............................
............................
............................
............................
............................
............................
............................
............................
.........................................................
.................................................................................................................................................................................................................................................................................................................................................................
...............
...............
...............
...............
...............
...............
...............
...............
...............
...............
...............
y1y2
1
1
........
.............................
.......................................................................................
...........
.
1
1
................................................................................................................................................................................................................................................ ..........................
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......................
...................
y1
y2
rrr
r
r................
..........
...............
.........
......................................................................................
Es ist lehrreich, diese Transformation mit der teilweise ahnlichen multivariaten
z-Transformation zu vergleichen, die durch die Matrix D−1/2G′ definiert ist. Die
folgende Abbildung zeigt diese z-Transformation.
2.4 Hauptkomponenten MS13 92
1
1
.................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................. ..........................
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.........................
...................
x1
x2
r
r
rr
r
............................
............................
............................
............................
............................
............................
............................
............................
............................
............................
............................
............................
............................
............................
............................
............................
............................
............................
............................
.........................................................
.................................................................................................................................................................................................................................................................................................................................................................
.........
..........
..........
.........
..........
.........
.........
.........
.........
.........
......... z1z2
11
........
.............................
.......................................................................................
...........
.
1
1
................................................................................................................................................................................................................................................ ..........................
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......................
...................
z1
z2
rrrr
r...............
.......
................................................................................
..................
Der Unterschied zwischen den beiden Transformationen liegt nur darin, dass die z-
Transformation an die Hauptkomponententransformation noch eine Reskalierung
der neuen Variablen anschließt, die deren Varianzen zu 1 macht.
In den Abbildungen zur z-Transformation sieht man, dass diese Reskalierung
insbesondere eine Anderung der Distanzen zur Folge hat. Bei der Hauptkom-
ponententransformation bleiben hingegen wegen der Orthogonalitat von G die
Distanzen erhalten:
Feststellung 2. Sind x1 und x2 zwei Punkte und y1 und y2 ihre Bilder unter
der Hauptkomponententransformation, so gilt
‖y2 − y1‖ = ‖x2 − x1‖ .
Dies folgt aus
‖y2 − y1‖2 = ‖G′(x2 − x)−G′(x1 − x)‖2 = ‖G′x2 −G′x1‖2
= ‖G′(x2 − x1)‖2 = (G′(x2 − x1))′(G′(x2 − x1))
= (x2 − x1)′G′′G′(x2 − x1) = (x2 − x1)
′(x2 − x1)
= ‖x2 − x1‖2 . �
Ein wesentliches Kennzeichen der Hauptkomponententransformation ist also, dass
hier die’Metrik‘ erhalten bleibt, das heißt, dass Abstande sich bei der Transfor-
mation nicht verandern. Es wird sich zeigen, dass diese Metrik fur die unter-
schiedlichen Zugange zur Hauptkomponentenanalyse und fur ihre Interpretation
zentral ist.
2.4 Hauptkomponenten MS13 93
Dies bedeutet insbesondere, dass es wunschenswert, wenn nicht sogar unerlasslich
ist, dass die hier vorgenommene euklidische Abstandsbildung inhaltlich sinnvoll
und interpretierbar ist. Dass zwei Punktepaare gleichen Abstand besitzen, sollte
also auch bedeuten, dass die entsprechenden Unterschiede inhaltlich gleich (oder
zumindest vergleichbar) sind.
Diese Forderung impliziert insbesondere, dass die Skalen der einzelnen Variablen
nicht unabhangig voneinander geandert werden konnen, sondern vielmehr aufein-
ander bezogen sein sollen (eine isolierte Umskalierung nur einer Variable lasst die
Gleichheitsrelation von Abstanden nicht invariant; wenn also zwei Punktepaare
vor der Umskalierung gleichen Abstand hatten, so muss das danach keineswegs
so sein). In Situationen, in denen die Skalen der einzelnen Variablen nicht mitein-
ander zusammenhangen, in denen vielmehr ohne inhaltlich erkennbaren Schaden
diese Skalen unterschiedlich linear transformiert werden durfen, ist die Interpreta-
tion der Hauptkomponenten in der Art, wie sie im Folgenden besprochen werden
soll, nicht unproblematisch.
Dass das euklidische Abstandsmaß auch in Fallen, in denen die Variablen auf der
gleichen Skala gemessen werden, nicht unbedingt inhaltlich sinnvoll sein muss,
zeigt folgendes Beispiel: Zur Auswahl von Infanteristen werden die Lange des
linken (x1) und des rechten (x2) Beins erhoben, beide in cm. Der Durchschnitt
der beiden Variablen sei (90, 90)′, dieser Durchschnitt sei auch das Idealprofil (was
hier inhaltlich nicht unangemessen ist). Dann hat ein Kandidat mit (93, 94)′ von
diesem Durchschnitt den gleichen euklidischen Abstand wie einer mit (93, 86)′.
Inhaltlich wird aber die Tauglichkeit der beiden sehr unterschiedlich sein, was
sich sehr deutlich in der Mahalanobisdistanz zeigen durfte. In diesem Fall ist im
Hinblick auf den Auswahlaspekt die Verwendung der Mahalanobisdistanz wohl
angemessener als die der euklidischen Distanz.
Bei der Frage, ob in einer bestimmten Situation die Verwendung der euklidischen
Distanz sinnvoll ist, sollte man also keinesfalls schematisch vorgehen und die
Entscheidung beispielsweise oberflachlich nur auf Grund von Skaleneigenschaf-
ten treffen. Vielmehr muss sich die Wahl in jedem Einzelfall an dem jeweiligen
inhaltlichen Zweck orientieren.
Zum Schluss ist noch ein Kommentar zur Definition notig. Eigentlich ist diese
so genannte Definition gar keine, da sie uneindeutig ist. Im Falle unterschiedli-
cher Eigenwerte kann zum Beispiel jede Spalte von G durch ihr Negatives ersetzt
werden, das ja auch Eigenvektor zum entsprechenden Eigenwert ist. Der Fall mul-
tipler Eigenwerte ist noch uneindeutiger, hier konnen diejenigen Spalten von G,
2.4 Hauptkomponenten MS13 94
die die Eigenvektoren zu einem multiplen Eigenwert enthalten, durch irgendeine
andere Orthonormalbasis des entsprechenden Eigenraums ersetzt werden.
Fur praktische Zwecke haben diese Uneindeutigkeiten jedoch kaum negative Kon-
sequenzen. Was die Definition angeht, so wird man korrekter so formulieren: Jede
Transformation von der Form y = G′(x − x), bei der die Spalten von G eine
Orthonormalbasis aus Eigenvektoren von S zu Eigenwerten in absteigender Rei-
henfolge bilden, heißt Hauptkomponententransformation, und die Komponenten
von y heißen Hauptkomponenten.
Weiter oben war schon davon die Rede, dass die Hauptkomponententransforma-
tion in vielen Fallen inhaltlich sinnvoll ist, ohne dass dies genauer ausgefuhrt
wurde. Die folgenden Abschnitte sollen nun zeigen, dass die Hauptkomponenten
eine Losung fur viele unterschiedliche formal oder inhaltlich motivierte Fragestel-
lungen bieten. Eine zentrale Rolle spielt dabei der Abstandsbegriff, weshalb ein
wichtiger Aspekt immer der der Interpretierbarkeit des euklidischen Abstands
von Datenpunkten ist, also die Frage nach dem Bezug der einzelnen Skalen zu-
einander.
Charakterisierung durch varianzmaximierende Eigenschaften. Die Haupt-
komponenten besitzen die Eigenschaft, aus den Daten in gewisser Weise sukzessiv
ein Maximum an Varianz herauszuziehen. Durch diese Eigenschaft lassen sie sich
in alternativer Weise auch charakterisieren. Damit sind die Themen dieses Ab-
schnitts umrissen.
Ausgangspunkt der Uberlegungen ist der Wunsch, mit Hilfe von Linearkombina-
tionen der Daten moglichst viel von deren’Verschiedenheit‘, genauer von deren
Variation zu erfassen. Es ist sinnvoll, sich auf standardisierte Linearkombinatio-
nen (SLKn) zu beschranken, denn diese haben den Vorteil, dass man ihnen an
ihrer Varianz direkt ansehen kann, wieviel von der Datenvariation erfasst wird,
da die Varianz hier als Varianz der Daten in der Richtung des Koeffizientenvek-
tors gedeutet werden kann. Die Varianzen von SLKn haben gewissermaßen die
gleiche Einheit wie die Variation der multivariaten Daten. Da jede Linearkombi-
nation sich durch eine einfache Umskalierung zu einer SLK machen lasst, ist die
Einschrankung auf SLKn auch keine wesentliche Einschrankung.
Im Hinblick auf die Absicht, moglichst viel Variation der Daten zu erfassen,
konnen also SLKn direkt mit Hilfe ihrer Varianz bezuglich ihrer Tauglichkeit
verglichen werden.
2.4 Hauptkomponenten MS13 95
Damit ist die Frage die, welche SLK eine maximale Varianz besitzt. Von der geo-
metrischen Anschauung her kann als Antwort vermutet werden, dass die großte
Varianz in Richtung des Eigenvektors zum großten Eigenwert liegt. Ubersetzt
heißt dies, dass die erste Hauptkomponente maximale Varianz unter den SLKn
besitzen sollte.
Zur Auffindung einer Losung soll die Aufgabenstellung formal aufgeschrieben
werden. Ist dazu∑aixi + b = a′x + b eine solche SLK der xi, ist also ‖a‖ = 1,
so ist deren Varianz gleich a′Sa. Die Aufgabe ist damit die, einen Vektor a der
Lange 1 zu finden, der den Ausdruck
a′Sa
maximiert.
Die Losungen dieses Problems sind bekanntlich die Eigenvektoren a der Lange
1 zum großten Eigenwert von S, wobei der Maximalwert von a′Sa der großte
Eigenwert ist.
Eine spezielle mogliche Losung des Ausgangsproblems ist also die erste Haupt-
komponente; diese hat zusatzlich noch die angenehme Eigenschaft, zentriert zu
sein.
Umgekehrt kann man durch Ubergang zu einer alternativen Version der Haupt-
komponenten jede zentrierte Losung des Problems der Varianzmaximierung zur
ersten Hauptkomponente machen. Hierzu sei eine beliebige Losung vorgegeben,
die zusatzlich zentriert ist. Dann kann man den Koeffizientenvektor zu einer Or-
thonormalbasis des Eigenraums von S zum großten Eigenwert erganzen und dann
die ersten Spalten von G durch diese Basis ersetzen. Die modifizierte Matrix
erfullt dann ebenfalls die Eigenschaften des Spektralsatzes und kann folglich zur
Definition von alternativen Hauptkomponenten dienen. Da die Losung als zen-
triert vorausgesetzt war, muß sie dann mit der ersten modifizierten Hauptkom-
ponente ubereinstimmen.
Zusammenfassend ergibt sich so
Feststellung 3. Die erste Hauptkomponente ist eine Losung der Aufgabe, eine
SLK mit Mittelwert 0 zu finden, die maximale Varianz besitzt.
Hat man umgekehrt eine Losung der Aufgabe, eine SLK mit Mittelwert 0 zu
finden, die maximale Varianz besitzt, so gibt es eine Hauptkomponententransfor-
mation, deren erste Hauptkomponente diese Losung ist. �
2.4 Hauptkomponenten MS13 96
Die Feststellung zeigt, dass sich die erste Hauptkomponente ohne Bezug auf den
Spektralsatz auch durch die angegebene varianzmaximierende Eigenschaft cha-
rakterisieren und (in dem oben erlauterten Sinn) definieren lasst.
Analog erhalt man, dass die letzte Hauptkomponente eine entsprechende varianz-
minimierende Eigenschaft hat und sich dadurch auch charakterisieren lasst.
Auch die zweite und die weiteren Hauptkomponenten lassen sich durch eine va-
rianzmaximierende Eigenschaft charakterisieren.
Sinnvollerweise wird man bei der Aufgabe, weitere SLKn zu suchen, die moglichst
große Varianz haben, darauf achten, dass der Varianzanteil, den sich die erste
Hauptkomponente nimmt, gewissermaßen nicht mehrfach erfasst wird. Dies er-
reicht man dadurch, dass man fur weitere SLKn fordert, dass sie zu der bereits
gefundenen unkorreliert sein sollen, denn dann tragen die SLKn untereinander
im Sinne der linearen Regression nichts zur gegenseitigen Varianzaufklarung bei.
Man kann also jetzt folgende Aufgabe formulieren:
Finde eine SLK, die unter allen zu der ersten Hauptkomponente unkorrelierten
SLKn maximale Varianz besitzt!
Ist der im ersten Schritt gefundene Koeffizientenvektor a1, so ist jetzt ein weiterer
Koeffizientenvektor a mit ‖a‖ = 1 gesucht, der die Varianz a′Sa maximiert unter
der zusatzlichen Nebenbedingung, dass die Kovarianz a′Sa1 = 0 sein soll.
Genau wie oben erkennt man, dass eine Losung dieser Aufgabe die zweite Haupt-
komponente ist, und dass es zu jeder Losung, die zusatzlich Mittelwert 0 hat,
eine modifizierte Hauptkomponententransformation gibt, bei der die Losung ge-
rade die zweite Hauptkomponente ist. Die maximale Varianz ist dann der zweite
Eigenwert λ2 (der unter Umstanden mit λ1 ubereinstimmen kann).
Entsprechend kann man die weiteren Hauptkomponenten charakterisieren durch
die Forderung, varianzmaximierende SLKn mit Mittelwert 0 zu sein, wobei jeweils
die Kovarianz mit allen vorhergehenden Hauptkomponenten 0 sein soll.
Im dem Ausnahmefall, dass 0 mehrfacher Eigenwert von S ist, muss hierbei aller-
dings noch die Zusatzforderung gestellt werden, dass Koeffizientenvektoren von
SLKn mit Varianz 0 senkrecht aufeinander stehen sollen. Ist 0 Eigenwert von
S, so ist auch die Forderung nach Nullkorrelationen durch die zu ersetzen, dass
die entsprechenden Kovarianzen gleich 0 sind (die in diesem Fall nicht korrekte
2.4 Hauptkomponenten MS13 97
obige Formulierung wurde wieder nur aus Grunden der sprachlichen Glattheit
gewahlt).
Das Ergebnis soll noch einmal zusammengefasst werden, wobei zur Vereinfachung
der Formulierung der gerade behandelte Fall, dass 0 Eigenwert ist, ausgeklammert
wird.
Feststellung 4. Ist die Kovarianzmatrix S von p Variablen xi invertierbar und
q ≤ p, so bilden die ersten q Hauptkomponenten eine Losung der Aufgabe, q
zentrierte standardisierte Linearkombinationen yi der Variablen zu finden, die
die Eigenschaft haben, dass yi maximale Varianz unter allen SLKn hat, die zu
allen yj mit j < i unkorreliert sind.
Umgekehrt besteht jede Losung dieser Aufgabe aus den ersten q Hauptkompo-
nenten einer geeignet gewahlten Hauptkomponententransformation. �
Setzt man q = p, so erkennt man, dass die Hauptkomponenten alternativ auch
durch die Forderung definiert werden konnen, sukzessiv mit unkorrelierten zen-
trierten SLKn ein jeweiliges Maximum an Varianz aus den ursprunglichen Varia-
blen abzuschopfen.
Ganz analog liefern die Hauptkomponenten in umgekehrter Reihenfolge sukzes-
sive Minima der Varianzen.
Bemerkenswert bei der varianzmaximierenden Konstruktion ist die Tatsache, dass
die Koeffizientenvektoren der gefundenen Hauptkomponenten senkrecht aufeinan-
der stehen. Dies folgt keineswegs allein aus deren Unkorreliertheit, denn allgemein
fallen bei SLKn die Eigenschaften der Unkorreliertheit und der Orthogonalitat
der Koeffizientenvektoren nicht zusammen.
Beispielsweise sind die Originalvariablen im allgemeinen nicht unkorreliert, wah-
rend die Koeffizientenvektoren, mit denen sie als standardisierte Linearkombi-
nationen gewonnen werden konnen, die Einheitsvektoren ei sind, die nach Kon-
struktion alle senkrecht zueinander sind.
Die Begriffe der Unkorreliertheit und der Orthogonalitat haben ja auch im Va-
riablenraum keine Beziehung zueinander, vielmehr fallen sie bei kovarianztreuen
Darstellungen zusammen.
Nun soll noch die inhaltliche Bedeutung der Varianzmaximierung (bzw. Minimie-
rung) diskutiert werden. Fur sich genommen erscheint zunachst die Maximierung
2.4 Hauptkomponenten MS13 98
der Varianz nicht als inhaltlich interessantes oder anzustrebendes Ziel. Nun ha-
ben aber Streuungen von SLKn geometrisch die Bedeutung eines Maßes fur die
Ausdehnung der multidimensionalen Punktwolke in der durch den Koeffizienten-
vektor angegebenen Richtung. Wenn dann die Ausdehnungen in unterschiedliche
Richtungen inhaltlich sinnvoll vergleichbar sind, kann auch die Frage, in welcher
Richtung die Ausdehnung maximal ist, einen inhaltlichen Sinn bekommen.
Dies ist insbesondere dann der Fall, wenn man Abstande der Punkte unterein-
ander inhaltlich als Ausmaß der Verschiedenheit der Versuchspersonen deuten
kann. Dann entspricht eine SLK mit maximaler Varianz einer Richtung, in der
die Punktwolke maximale Ausdehnung hat, in der also die Unterschiede zwischen
den Versuchspersonen am deutlichsten hervortreten.
In einem solchen Fall ist folglich die erste Hauptkomponente eine Linearkombi-
nation der Variablen mit Mittelwert 0, in der sich die Unterschiede zwischen den
Versuchspersonen am deutlichsten zeigen.
Die zweite Hauptkomponente soll zur ersten unkorreliert sein, was man so in-
terpretieren kann, dass (jedenfalls im linearen Sinn) die erste Hauptkomponente
nichts zur Vorhersage der zweiten leistet. Die zweite liefert in diesem Sinne dann
nur Information, die nicht schon in der ersten Hauptkomponente enthalten ist.
Entsprechend ware die Interpretation der zweiten Hauptkomponente dann die
einer Linearkombination, die die Unterschiede, die nichts mit der ersten Haupt-
komponente zu tun haben (im Sinne einer linearen Regression), am deutlichsten
zeigt.
Analoges gilt fur die weiteren Hauptkomponenten.
Es ist dabei hervorzuheben, dass die Angemessenheit dieser Interpretationen we-
sentlich davon abhangt, ob die euklidischen Distanzen im p-dimensionalen Raum
inhaltlich als Maße fur die Unterschiedlichkeit der Personen benutzt werden kann.
Die Tatsache, dass die Mittelwerte 0 sein sollen, hat den angenehmen Nebeneffekt,
dass man schon am Vorzeichen sieht, ob eine Versuchsperson in den betrachteten
Hauptkomponenten uber- oder unterdurchschnittliche Werte haben.
Geometrie der Punktwolke. Ganz eng mit dem eben beschriebenen Zugang
verwandt ist ein weiterer, der nach der Ausdehnung der Punktwolke der Daten in
unterschiedlichen Richtungen fragt. Die erste Frage ist hier die, in welcher Rich-
tung die Punktwolke maximale Ausdehnung besitzt. Prazisiert man den Ausdruck
2.4 Hauptkomponenten MS13 99
’Ausdehnung‘ naheliegenderweise wieder durch die Varianz, so ist dies die Frage,
fur welche Richtung die zugehorige SLK maximale Varianz besitzt.
Diese Frage wurde im vorangehenden Abschnitt schon beantwortet: es ist die zur
ersten Hauptkomponente gehorende Richtung. Genauer muss dies so formuliert
werden: jede Richtung, fur die dies gilt, kann zur Richtung gemacht werden, die
zur ersten Hauptkomponente einer geeigneten Hauptkomponententransformation
gehort. Die Varianz in dieser Richtung ist der großte Eigenwert von S und die
Richtung selbst ist Eigenvektor dazu.
Soweit besteht kein Unterschied zum vorigen Abschnitt. Ein Unterschied tritt
jedoch dann auf, wenn man zur Charakterisierung der zweiten Hauptkomponente
jetzt die Frage stellt, in welcher Richtung die Varianz maximal ist, wenn man sich
nur noch auf Richtungen beschrankt, die zu der gefundenen ersten senkrecht sind.
Die Forderung nach Orthogonalitat der Richtungen ist vom geometrischen Stand-
punkt her angemessener als die oben benutzte nach Unkorreliertheit, die ihrerseits
vom statistischen Standpunkt her sinnvoller erscheint.
Bemerkenswert ist es, dass die Losung auch hier wieder die zweite Hauptkompo-
nente ist, so dass sich trotz unterschiedlicher Fragestellungen die gleichen Losun-
gen ergeben.
Man erhalt dann ganz analog auch die weiteren Hauptkomponenten durch die
Forderung nach Varianzmaximierung in jeweils einer Richtung, die zu allen bis-
herigen Richtungen senkrecht ist, und kann die Hauptkomponenten insgesamt
auch wieder durch diese Forderungen charakterisieren.
Formal andert sich im Vergleich zur Fragestellung des letzten Abschnitts die
Nebenbedingung, was hier am Beispiel der zweiten Hauptkomponente illustriert
werden soll. Ist die optimale erste Losung schon gefunden und durch einen Koeffi-
zientenvektor a1 gegeben, so wird im zweiten Schritt ein Koeffizientenvektor a der
Lange 1 gesucht, der a′Sa maximiert unter der Nebenbedingung <a, a1> = 0;
diese Nebenbedingung ersetzt die fruhere Nebenbedinung a′Sa1 = 0.
Die Losung der entsprechenden Aufgaben ist bekannt und wird in der folgenden
Feststellung zusammengefasst; die neue Nebenbedingung hat dabei den schonen
Nebeneffekt, dass die Sonderformulierungen fur den Fall singularer Kovarianzma-
trizen entbehrlich werden.
Feststellung 5. Ist S die Kovarianzmatrix von p Variablen xi und q ≤ p, so
2.4 Hauptkomponenten MS13 100
bilden die ersten q Hauptkomponenten eine Losung der Aufgabe, q zentrierte
standardisierte Linearkombinationen yi der Variablen mit Koeffizientenvektoren
ai zu finden, die die Eigenschaft haben, dass yi maximale Varianz unter allen
SLKn hat, deren Koeffizientenvektoren orthogonal zu allen aj mit j < i sind.
Umgekehrt besteht jede Losung dieser Aufgabe aus den ersten q Hauptkompo-
nenten einer geeignet gewahlten Hauptkomponententransformation. �
Auch hier hat man eine analoge Aussage fur die minimalen Varianzen.
Ob die Losung auch inhaltlich interessant ist, hangt wieder davon ab, ob es sinn-
voll ist, Ausdehnungen der Punktwolke in unterschiedlichen Richtungen zu ver-
gleichen.
Partitionierung der Hauptkomponenten. In den folgenden Abschnitten wird
haufig der Vektor y der Hauptkomponenten in zwei Teilvektoren partitioniert,
namlich in einen Teilvektor der als wichtig erachteten ersten Hauptkomponenten
und in einen zweiten der eher vernachlassigbaren letzten. In diesem Abschnitt
soll die Notation fur derartige Partitionierungen bereitgestellt werden.
Die Gesichtspunkte, nach denen die Trennung in zwei Teile vorgenommen wird,
beziehen sich meist auf so etwas wie’aufgeklarte Varianz‘ und werden anschlie-
ßend besprochen.
Fur ein festes q < p soll genauer der Vektor y zerteilt werden in den q-Vektor
y1 der (wichtigen) ersten q Hauptkomponenten und den (p − q)-Vektor y2 der
(unwichtigen) letzten p− q. Damit gilt y = (y1,y2), genauer: y = (y1′,y2
′)′ oder
y =
(y1
y2
).
Entsprechend wird die Matrix G zerlegt in die Teilmatrizen G1 der ersten q und
G2 der letzten p− q Spalten. Damit hat man die Partitionierung
G = (G1|G2) .
Dass G aus orthonormalen Vektoren besteht, druckt sich aus in
G1′G1 = Iq und G2
′G2 = I(p−q) .
Da G′ sich dann zusammensetzt aus dem oberen Teil G1′ und dem unteren
Teil G2′, kann man die Hauptkomponententransformation y = G′(x − x) auch
2.4 Hauptkomponenten MS13 101
partitioniert schreiben als (y1
y2
)=
(G1′
G2′
)(x− x)
und in die Teile
y1 = G1′(x− x) und y2 = G2
′(x− x)
zerlegen. Die Rucktransformation x = Gy + x schreibt sich wegen
Gy =(G1|G2
)(y1
y2
)= G1y1 + G2y2
auch als
x = G1y1 + G2y2 + x .
In gewisser Weise werden dadurch uber die Hauptkomponenten auch die Origi-
naldaten zerlegt in einen wichtigen Anteil G1y1 + x, der aus den ersten Haupt-
komponenten rekonstruierbar ist, und einen unwichtigen Rest G2y2.
Schließlich zerlegt man die Matrix D der Eigenwerte analog zu
D =
(D1 0
0 D2
),
wobei D1 und D2 die Diagonalmatrizen mit den ersten q und den letzten p − qEigenwerten von S sind.
Da D die Kovarianzmatrix von y ist, ist D1 die Kovarianzmatrix von y1 und
D2 die von y2. Mit der Gleichung x = G1y1 + G2y2 + x kann man nun die
Kovarianzmatrix S von x auf neue Weise ausdrucken: Da die Matrix der Kova-
rianzen von y1 und y2 gleich 0 ist, gilt dasselbe fur die Matrix der Kovarianzen
von G1y1 und G2y2, weshalb die Kovarianzmatrix von x einfach die Summe der
Kovarianzmatrizen der Summanden G1y1 und G2y2 ist. Es folgt
S = G1D1G1′ + G2D2G2
′ .
Hier wird die Kovarianzmatrix S zerlegt in zwei Summanden, fur die in gewisser
Weise die beiden Teilvektoren der Hauptkomponenten verantwortlich sind. Man
erhalt diese Gleichung ubrigens alternativ auch direkt, indem man auf der rechten
Seite der Gleichung S = GDG′ die partitionierten Matrizen einsetzt und das
Produkt ausrechnet.
2.4 Hauptkomponenten MS13 102
Die Matrix G1D1G1′ ist dann die Kovarianzmatrix des
’wichtigen‘ Anteils der
Daten, wahrend G2D2G2′ die des
’vernachlassigbaren‘ Teils ist.
Man macht sich auch leicht klar, dass die angegebene Zerlegung auch eine additive
Zerlegung in Matrizen mit den q großten und p− q kleinsten Eigenwerten ist; in
der Tat sind die Eigenwerte von G1D1G1′ gerade die q großten Eigenwerte von
S und die von G2D2G2′ die restlichen kleinen.
Schließlich ist die Matrix G1D1G1′ eine Matrix, die zu S unter den positiv se-
midefiniten Matrizen vom Rang ≤ q minimalen Abstand hat – der quadrierte
Abstand der beiden Matrizen ist die Summe der letzten p− q quadrierten Eigen-
werte von S.
Varianzmaximierung in mehreren Dimensionen. Es wurde schon unter-
sucht, in welcher Richtung die’Varianz‘ der mehrdimensionalen Punktwolke ma-
ximal ist, und wie man die Information uber die Lage eines Punktes in Bezug auf
diese Richtung ausdrucken kann. Bei der Prazisierung dieser Fragestellung spiel-
ten orthogonale Projektionen eine entscheidende Rolle, die Frage wurde namlich
als die Frage aufgefasst, welches die Richtung ist, in der die orthogonal auf die-
se Richtung projizierten Punkte die großte Varianz haben. Dabei war wesent-
lich, dass die Koordinatisierung der Geraden in dieser Richtung mit der Metrik
des Gesamtraumes kompatibel war, dass also eine Einheit in der Koordinatisie-
rung genauso groß war wie die Einheiten der Dimensionen des Gesamtraums. Die
Prazisierung kondensiert sich also im Begriff der SLK.
Als Losung des ersten Problems ergab sich die Richtung des ersten Eigenvektors
der Kovarianzmatrix S, die Losung des zweiten Problems, namlich die einer ein-
dimensionalen Information uber die Lage in Bezug auf diese Richtung, war die
erste Hauptkomponente.
Nun soll das Problem auf mehrere, namlich q Dimensionen verallgemeinert wer-
den. Der erste Teil des Problems ist es dann, einen q-dimensionalen Unterraum
zu finden, der die Eigenschaft hat, dass die auf ihn orthogonal projizierte Punkt-
wolke maximale Varianz besitzt. Der zweite Teil des Problems besteht darin,
die Information uber die Lage der projizierten Punkte in einem q-dimensionalen
Vektor zusammenzufassen.
Die Losung dieses Problems ermoglicht dann eine Datenreduktion: Mit moglichst
wenig Informationsverlust (im noch zu prazisierenden Sinn) werden die Proban-
den statt in p Dimensionen nun in q Dimensionen beschrieben.
2.4 Hauptkomponenten MS13 103
Nach den Ergebnissen des vorangegangenen Absatzes ist zu erwarten, dass der
optimale Unterraum von den ersten q Eigenvektoren von S aufgespannt wird, und
dass die ersten q Hauptkomponenten dann eine optimale Beschreibung liefern.
Zunachst ist allerdings zu prazisieren, was unter der Varianz der projizierten
Punkte verstanden werden soll. Zu diesem Zweck soll die Spur der Kovarianz-
matrix der projizierten Punkte benutzt werden, die ja die durchschnittliche qua-
drierte Abweichung vom Zentroid angibt.
Eine orthogonale Projektion wird durch eine Matrix P beschrieben, die die Ei-
genschaften P2 = P und P′ = P besitzt. Der Rang von P ist die Dimension des
Unterraums V , auf den projiziert wird.
Die Varianz (im Sinne der Spur) der durch P auf einen Unterraum V projizierten
Datenpunkte ist die Spur von PSP′. Wegen der Eigenschaften der Spur und von
P ergibt sich
Spur(PSP′) = Spur(P′PS) = Spur(P2S) = Spur(PS) .
Bekanntlich sind die orthogonalen Projektionen P, fur die diese Spur maximal
wird, gerade die, deren Bild von q orthogonalen Eigenvektoren zu den großten
Eigenwerten von S aufgespannt wird. Solche orthogonalen Eigenvektoren enthalt
beispielsweise die (p× q)-Matrix G1, die aus den ersten q Spalten von G besteht.
Die Spur ist dann die Summe der q großten Eigenwerte von S.
Die Projektion P beschreibt man nun sinnvollerweise mit Hilfe von G1; die Spal-
ten dieser Matrix wahlt man dabei als Orthonormalbasis des Bildes V von P.
Wegen (G1′G1) = I vereinfacht sich P zu
P = G1(G1′G1)−1G1
′ = G1G1′ ,
wahrend die Koordinaten eines projizierten Punktes mit Hilfe von
(G1′G1)−1G1
′ = G1′
ermittelt werden. Es folgt, dass diese Koordinaten bis auf (unwesentliche) additive
Konstanten die ersten q Hauptkomponenten sind.
Das auf diese Weise konstruierte Koordinatensystem auf dem Unterraum V hat
zusatzlich die Eigenschaft, dass die Einheiten der Achsen alle auch im Gesam-
traum die Lange 1 besitzen, was direkt aus G1′G1 = I folgt. Die
’Metrik‘ dieses
Koordinatensystems wird also sozusagen von der des umgebenden Raums geerbt.
2.4 Hauptkomponenten MS13 104
Es stellt sich nun noch die Frage nach der Eindeutigkeit dieser Losung. Da ein
optimaler Unterraum V immer das Erzeugnis von q orthogonalen Eigenvekto-
ren zu den großten Eigenwerten ist, ist dieses optimale V dann eindeutig, wenn
der q-te und der (q + 1)-te Eigenwert verschieden sind. Insbesondere liegt dann
Eindeutigkeit vor, wenn alle Eigenwerte verschieden sind.
Feststellung 6. Eine Losung der Aufgabe, einen q-dimensionalen Unterraum
V zu finden, der die Eigenschaft hat, dass die Varianz (im Sinne der Spur) der
auf ihn orthogonal projizierten Datenpunkte maximal ist, ist der von den ersten
q Eigenvektoren von S aufgespannte Unterraum. Die maximale Varianz ist die
Summe der ersten q Eigenwerte von S. Die Basis von V kann so gewahlt werden,
dass die Koordinaten eines projizierten Punktes bis auf additive Konstanten die
ersten q Hauptkomponenten sind. �
Vollig analog zeigt man, dass die entsprechende Minimierungsaufgabe, eine or-
thogonale Projektion auf einen Unterraum zu finden, deren Ergebnis minimale
Varianz hat, als Ergebnis die Projektion auf den von den letzten Eigenvektoren
aufgespannten Unterraum hat, wobei die Varianz gleich der Summe der entspre-
chenden Eigenwerte ist.
Die Maximierungs- und die Minimierungsaufgabe haben daruber hinaus einen
engen Zusammenhang: Ist eine orthogonale Projektion P auf V gegeben, und ist
Q = I − P die orthogonale Projektion auf das orthogonale Komplement von V ,
so gilt:
Spur(PS) + Spur(QS) = Spur((P + Q)S) = Spur(IS) = Spur(S) ,
so dass sich die Varianzen der Projektionen auf orthogonal komplementare Un-
terraume gerade zur Gesamtvarianz erganzen. Ist daher dann P eine Projektion
auf einen q-dimensionalen Unterraum mit maximaler Varianz, so ist gleichzei-
tig Q eine Projektion auf einen (p− q)-dimensionalen Unterraum mit minimaler
Varianz und umgekehrt.
Wahlt man als Unterraume die, die durch die ersten bzw. letzten Spalten von G
aufgespannt werden, so sind diese Unterraume gerade wechselseitig orthogonale
Komplemente.
Approximierende Unterraume. Eng mit der Aufgabe des letzten Abschnitts
verwandt ist das Problem, einen q-dimensionalen affinen Unterraum zu finden,
der die Punktwolke moglichst gut reprasentiert in dem Sinne, dass der durch-
schnittliche quadrierte Abstand der Punkte von diesem Unterraum minimal ist.
2.4 Hauptkomponenten MS13 105
Ist im Eingangsbeispiel q = 1, so ist hier eine Gerade gesucht, die in diesem
Sinne moglichst dicht bei den Punkten liegt; in der folgenden Abbildung ist eine
beliebige Gerade mit den dazu gehorenden Abstanden eingezeichnet. Man beachte
den Unterschied dieser Problemstellung zu der der linearen Regression, der die
Richtung betrifft, in der die Abstande gemessen werden. Bei der Regression ist
diese Richtung parallel zur zweiten Achse, hier ist die Richtung senkrecht zur
gesuchten Gerade.
1
1
.................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................. ..........................
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.........................
...................
x1
x2
r
r
rr
r
..................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................
rr
r
rr...............
...............
.............................
......................................................................................
.........................................................
Als erstes stellt sich die Frage, was genau unter einer Projektion auf einen affinen
Unterraum zu verstehen ist und wie eine solche Projektion beschrieben wird.
Die Projektion eines Punktes x soll naheliegenderweise wieder der Punkt des
Unterraums sein, der von x minimalen Abstand hat. Ob es einen eindeutigen
derartigen Punkt gibt, ist dabei naturlich auch zu klaren.
Nun andern sich die Abstande von Punkten nicht, wenn man sie um den glei-
chen Vektor verschiebt. Daher kann diese Aufgabe gelost werden, indem zuerst
alles so verschoben wird, dass der verschobene Unterraum den Nullpunkt enthalt,
also zum linearen Unterraum wird. Hier kann die Aufgabe durch eine orthogo-
nale Projektion gelost werden, und anschließend ist nur die Verschiebung wieder
ruckgangig zu machen.
Ist folglich ein affiner Unterraum V + z gegeben durch einen linearen Unterraum
V und einen Verschiebungsvektor z, ist P die orthogonale Projektion auf V und
x ein zu projizierender Punkt, so kann der affine Unterraum durch den Vektor −z
in den Nullpunkt zuruckverschoben werden, wobei x nach x−z verschoben wird.
Dieser Punkt wird auf P(x − z) projiziert und die Verschiebung zuruck liefert
2.4 Hauptkomponenten MS13 106
dann als Gesamtergebnis P(x− z) + z = Px + (z−Pz) = Px + Qz, wenn Q wie
ublich die Projektion auf das orthogonale Komplement von V ist. Die Projektion
auf den affinen Unterraum ist daher eine affine Abbildung.
Nun kommt es auf die Abstande an, also auf die Langen der Differenzvektoren von
den Originalpunkten zu ihren Projektionen. Der Differenzvektor fur den Punkt x
ist x−(Px+Qz) = Qx−Qz. Die Lange des Differenzvektors ist also gleichzeitig
der Abstand von Qx zu Qz, und die Summe – oder aquivalent den Durchschnitt
– dieser quadrierten Abstande gilt es zu minimieren.
Der Durchschnitt der quadrierten Abstande ist nach Feststellung 3 aus Abschnitt
2.2 gleich der Summe der Spur der Kovarianzmatrix der Qxi und des quadrier-
ten Abstands des Zentroids der Qxi von Qz. Die Kovarianzmatrix der Qxi ist
aber gerade die Matrix QSQ′, deren Spur bekanntlich Spur(QS) ist, wahrend
das Zentroid der Qxi gleich Qx ist. Der gesuchte durchschnittliche quadrierte
Abstand ist also gleich
Spur(QS) + ‖Q(x− z)‖2 .
Es soll zunachst der zweite Summand betrachtet werden. Er ist immer nichtne-
gativ und kann bestenfalls gleich 0 werden. Dies ist genau dann der Fall, wenn
x − z im Kern von Q liegt, also in V . Dies wiederum ist genau dann der Fall,
wenn sich x als z + v schreiben lasst fur ein v ∈ V , mit anderen Worten, wenn
x in dem affinen Unterraum V + z liegt.
Der erste Summand wird dann minimal, wenn Q die Projektion auf den von den
letzten p−q Eigenvektoren aufgespannten Unterraum ist; dies ist genau dann der
Fall, wenn das orthogonale Komplement V dieses Raumes der von den ersten q
Eigenvektoren aufgespannte Raum ist.
Insgesamt ergibt sich also:
Feststellung 7. Eine Losung des Problems, einen affinen Unterraum der Di-
mension q zu finden, zu dem die Daten minimalen durchschnittlichen quadrierten
Abstand haben, ist der affine Unterraum V + x, der parallel ist zu dem durch
die ersten q Eigenvektoren aufgespannten linearen Raum V und das Zentroid x
enthalt. Der minimale durchschnittliche quadrierte Abstand ist die Summe der
letzten p− q Eigenwerte von S. �
Die Losung ist wieder dann eindeutig, wenn alle Eigenwerte, oder sogar nur der
q-te und der (q + 1)-te, verschieden sind.
2.4 Hauptkomponenten MS13 107
Auch bei der hier betrachteten Aufgabe spielt der Abstandsbegriff eine zentrale
Rolle; die Optimalitat ist ja gerade dadurch definiert, dass der durchschnittliche
quadrierte Abstand minimiert wird.
Zum Abschluss soll noch untersucht werden, wie sich der gefundene Unterraum
und die Projektion auf ihn in dem neuen durch die Hauptkomponenten gegebenen
Koordinatensystem darstellen. Es werden die Bezeichnungen aus dem Abschnitt
uber die Partitionierung der Hauptkomponenten verwendet.
In den neuen Koordinaten entspricht nun dem optimalen Unterraum gerade das
Bild von V + x unter der Hauptkomponententransformation, also unter der durch
den linearen Anteil G′ und die Verschiebung −G′x gegebenen affinen Abbildung.
Dies Bild ist also wieder ein affiner Unterraum, und zwar der, dessen zugehoriger
linearer Unterraum U das Bild von V unter G′ ist, und dessen Verschiebungs-
vektor gleich G′x−G′x = 0 ist; das Bild U + 0 = U ist daher sogar ein linearer
Unterraum, der nun bestimmt werden soll.
Der Unterraum V besitzt als Basis die Spalten von G1. Diese Basis wird durch
G′ auf die Spalten der Matrix G′G1 abgebildet, die gerade aus den ersten q
Einheitsvektoren besteht. Damit ist U der von den ersten q Einheitsvektoren
erzeugte Unterraum, mit anderen Worten der, der dadurch gekennzeichnet ist,
dass die letzten p− q Koordinaten seiner Elemente alle 0 sind.
Zur Untersuchung der Projektion sei x ein moglicher Datenpunkt und x? der am
nachsten bei x gelegene Punkt aus V − x. Die Bilder dieser Punkte unter der
Hauptkomponententransformation seien y und y?.
Da sich nach Feststellung 2 Distanzen bei der Transformation nicht andern, ist
y? der Punkt im Bild U von V + x, der von y den kleinsten Abstand besitzt.
Man erhalt also y? aus y durch die orthogonale Projektion auf U , die sich hier
besonders einfach schreiben lasst: man setzt einfach die letzten p−q Koordinaten
von y auf 0.
Um dies einzusehen, schreibt man y = (y1,y2). Offenbar liegt (y1,0) in U ,
außerdem ist die Differenz y− (y1,0) = (y1,y2)− (y1,0) = (0,y2) senkrecht zu
U , so dass tatsachlich y? = (y1,0) gilt.
Zusammenfassend hat man also:
Feststellung 8. In den zur Hauptkomponententransformation gehorenden Ko-
ordinaten entspricht dem optimalen Unterraum V + x der lineare Unterraum U ,
2.4 Hauptkomponenten MS13 108
der das Erzeugnis der ersten q Einheitsvektoren ist.
Der am nachsten an einem Punkt x mit Koordinaten y = (y1, . . . , yp)′ gelegene
Punkt x? aus V + x hat die Koordinaten y? = (y1, . . . , yq, 0, . . . , 0)′. Man erhalt
y? aus y durch orthogonale Projektion auf U . �
Als Illustration soll wieder das Eingangsbeispiel dienen.
Ist hier q = 1, so ist die Gerade gesucht, die von den Datenpunkten kleinsten
durchschnittlichen quadrierten Abstand hat. Dies ist die Gerade in Richtung des
ersten Eigenvektors durch das Zentroid. Die (minimale) durchschnittliche qua-
drierte Abweichung ist der zweite Eigenwert, namlich .4. Im Hauptkomponenten-
koordinatensystem ist diese optimale Gerade dann die erste Koordinatenachse
und die Projektion ist die Projektion auf diese Achse, die gerade die zweite Ko-
ordinate durch 0 ersetzt. Zur Verdeutlichung ist links auch das Zentroid mit
eingezeichnet.
1
1
.................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................. ..........................
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.........................
...................
x1
x2
xr
r
rr
rr
................................
................................
..
................................................................
................................................................
pp
p
pp
............................
............................
............................
............................
............................
............................
............................
............................
............................
............................
............................
............................
............................
............................
............................
............................
............................
......................
1
1
................................................................................................................................................................................................................................................ ..........................
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......................
...................
y1
y2
rrr
r
rp pp ppp................................
..................................
.......
.......
.......
.......
.......
.......
.......
.......
.......
.
................................................................
Fur spatere Zwecke soll noch die gerade gefundene Moglichkeit festgehalten wer-
den, fur einen Punkt x den Punkt x? zu finden, der zu x in dem optimalen Unter-
raum den geringsten Abstand hat. Diese Moglichkeit besteht darin, die Losung
y? = (y1,0) im Hauptkomponentensystem zuruckzutransformieren. Man erhalt
dann mit der partitionierten Schreibweise
x? = Gy? + x = G1y1 + G20 + x = G1y1 + x .
Den Punkt x? erhalt man also auch mit Hilfe einer affinen Abbildung aus dem
Vektor y1 der ersten q Hauptkomponenten von x.
2.4 Hauptkomponenten MS13 109
Optimale Vorhersagefunktionen. In diesem Abschnitt geht es darum, die
Originalvariablen mit Hilfe von q weiteren Variablen moglichst gut vorherzusagen.
Es wird sich zeigen, dass die durchschnittliche quadrierte Abweichung bei jeder
Vorhersage mindestens gleich der Summe der letzten p − q Eigenwerte von S
ist, und dass die Vorhersage mit Hilfe der ersten q Hauptkomponenten diese
Grenze tatsachlich erreicht. Die ersten q Hauptkomponenten erweisen sich damit
als optimale Pradiktoren.
Zu prazisieren ist zunachst, dass nur Vorhersagen mit Hilfe von affinen Abbil-
dungen betrachtet werden; die durchschnittliche quadrierte Abweichung ist die
durschnittliche quadrierte euklidische Distanz zwischen den tatsachlichen Werten
und den vorhergesagen Werten.
Bei gegebenen Pradiktoren kann die optimale Vorhersage dann durch die multiva-
riate multiple Regression ermittelt werden, wobei die durchschnittliche quadrierte
Abweichung gleichzeitig die Fehlervarianz ist.
Zunachst soll nun ermittelt werden, wie gut eine Vorhersage mit Hilfe von q
Variablen bestenfalls sein kann.
Da die Vorhersage mit Hilfe einer affinen Abbildung gemacht wird, liegen alle
vorhergesagten Punkte im Bild des gesamten Rq unter dieser affinen Abbildung,
also in einem affinen Unterraum mit einer Dimension ≤ q.
Die durchschnittliche quadrierte Abweichung ist dann der durchschnittliche qua-
drierte Abstand d der Originalpunkte zu den vorhergesagten Punkten, die alle in
dem affinen Unterraum liegen mussen. Vergleicht man dies mit dem durchschnitt-
lichen quadrierten Abstand d1 der Originalpunkte zu dem affinen Unterraum im
Sinne der orthogonalen Projektion, so ist d ≥ d1, da ja die orthogonale Projekti-
on gerade die am nachsten gelegenen Punkte des Unterraums liefert. Mit d1 ist d
dann mindestens gleich der Summe der letzten p− q Eigenwerte, wie Feststellung
7 gezeigt hat.
Damit ist das erste Ziel dieses Abschnitts erreicht, namlich die Klarung der Frage,
wie gut (im Sinne des Fehlers) eine Vorhersage der Originalvariablen mit Hilfe
von q anderen Variablen bestenfalls sein kann.
Als nachstes ist die Frage zu klaren, ob sich q Variablen finden lassen, mit denen
man dieses (bislang nur theoretische) Optimum erreichen kann.
Eine Losung sind die ersten q Hauptkomponenten y1, fur die sich ja schon gezeigt
2.4 Hauptkomponenten MS13 110
hat, dass der durchschnittliche quadrierte Abstand der durch sie mit Hilfe der
affinen Abbildung
G1y1 + x
konstruierten Punkte von den Originalpunkten gleich der Summe der letzten p−qEigenwerte ist.
Da auch die optimale Vorhersage mit Hilfe der multiplen multivariaten Regression
bestenfalls diesen durchschnittlichen quadrierten Abstand erreichen kann, folgt,
dass mit der Gleichung
x = G1y1 + x
bereits die Regressionsgleichung von x auf y1 gefunden sein muss.
Sind insbesondere die letzten Eigenwerte alle 0, so gelingt die Vorhersage fehler-
frei.
Dass die angegebene Gleichung tatsachlich die Regressionsgleichung ist, kann
naturlich auch leicht direkt gezeigt werden, was nun erganzend geschehen soll.
Zur Aufstellung der Normalengleichungen braucht man die Kovarianzmatrix der
Pradiktoren (hier also der ersten q Hauptkomponenten) und die Matrix der Ko-
varianzen zwischen den Pradiktoren und den Kriteriumsvariablen (hier den Ori-
ginalvariablen). Die Kovarianzmatrix von y1 ist die Matrix D1, wahrend sich aus
y = G′x−G′x die Matrix der Kovarianzen von y und x zu G′S = G′GDG′ =
DG′ errechnet. Die Matrix der Kovarianzen von y1 und x besteht aus den ersten q
Zeilen dieser Matrix; mit Hilfe der Partitionierung errechnet man diese Teilmatrix
zu D1G1′. Die Normalengleichungen fur die Matrix B der Regressionsgewichte
lauten daher
D1B′ = D1G1
′
und besitzen offenbar die Losung B = G1.
Der Konstantenvektor der Regression ist x, da das Zentroid der Hauptkompo-
nenten gleich 0 ist. Als Vorhersagefunktion erhalt man daher
x = G1y1 + x ,
wenn x den Vektor der Vorhersagen xi bezeichnet.
In der Tat war also die oben angegeben Gleichung bereits die Regressionsglei-
chung.
2.4 Hauptkomponenten MS13 111
Es sollen gleich noch einige Zusatzanmerkungen zur Regression gemacht werden,
die an die schon bekannte Gleichung
x = G1y1 + G2y2 + x = (G1y1 + x) + G2y2
anknupfen, die die Rekonstruktion der Originalvariablen x aus den Hauptkom-
ponenten y = (y1,y2) beschreibt.
Die Vorhersage kann man sich nun so vorstellen, dass man bei der Rucktransfor-
mation der Hauptkomponenten in Originalvariablen die letzten p− q Hauptkom-
ponenten auf 0 setzt.
Den Vorhersagefehler e = x − x errechnet man nun leicht zu e = G2y2, dieser
Fehler ist also gewissermaßen die Rucktransformation des zweiten Teils y2 der
Hauptkomponenten.
Es soll nun noch die aufgeklarte Varianz und die Fehlervarianz im Sinne der
Spur bestimmt werden. Die aufgeklarte Varianz ist die Spur von G1D1G1′, was
gleichzeitig die Spur von G1′G1D1 = I D1 = D1 ist, also die Summe der ersten q
Eigenwerte. Die Fehlervarianz ist daher die Summe der letzten p− q Eigenwerte.
Die Rechnung fuhrt also in der Tat zu dem schon bekannten Ergebnis.
Als Erganzung sollen noch die Kovarianzmatrizen von Vorhersage und Fehler
genauer betrachtet werden. Die Kovarianzmatrix der Vorhersage ist G1D1G1′,
wahrend die Kovarianzmatrix des Fehlers G2y2 gleich G2D2G2′ ist. Die Zer-
legung der Kovarianzmatrix von x nimmt daher fur die multivariate multiple
Regression auf die ersten q Hauptkomponenten die Form
S = G1D1G1′ + G2D2G2
′
an (diese Gleichung ist ubrigens schon aus dem Abschnitt uber die Partitionierung
der Hauptkomponenten bekannt). Berucksichtigt man noch, dass G1D11/2 die
Matrix der ersten normalisierten Eigenvektoren ist, so erkennt man, dass es sich
bei G1D1G1′ gerade um eine positiv semidefinite Matrix vom Rang ≤ q handelt,
die S optimal approximiert. Die Kovarianzmatrix der Vorhersage von x durch die
ersten q Hauptkomponenten ist also gleichzeitig eine am nachsten bei S gelegene
positiv semidefinite Matrix vom Rang ≤ q.
Das Ergebnis dieses Abschnitts soll noch kurz zusammengefasst werden:
Feststellung 9. Eine Losung des Problems, zu den Variablen x geeignete weitere
q Variablen zu finden, die x im Sinne einer multivariaten multiplen linearen Re-
gression optimal vorhersagen, sind die ersten q Hauptkomponenten y1. Die (dann
2.4 Hauptkomponenten MS13 112
minimale) Varianz des zugehorigen Vorhersagefehlers (im Sinne der Spur) ist die
Summe der letzten p− q Eigenwerte von S. Die Vorhersage selber ist
x = G1y1 + x . �
Naturlich sind die ersten Hauptkomponenten nicht die einzige mogliche Losung
– jede (invertierbare affine) Variablentransformation erzeugt aus ihnen weitere
mogliche Losungen, da sich ja bei solchen Transformationen der Pradiktoren die
Gute der Regression nicht andert. Derartige’Rotationen‘ sollen spater noch ge-
nauer untersucht werden.
Es ist noch der Hinweis angebracht, dass die Fehlervarianz mit Hilfe der qua-
drierten euklidischen Abweichungen definiert ist, so dass auch hier der euklidische
Abstand bei der Formulierung des Problems eine entscheidende Rolle spielt.
Datenreduktion. Nun kann auch das Ziel der Datenreduktion genauer geklart
werden. Ziel einer Datenreduktion ist es, bei moglichst kleinem Fehler die Pro-
banden mit weniger Dimensionen zu beschreiben, genauer: mit q Dimensionen,
wobei q < p vorgegeben ist.
In dieser Zielbeschreibung stecken mehrere Unklarheiten, namlich zunachst die,
welche Methoden zur Datenreduktion zuzulassen sind, und dann die, wie der Feh-
ler zu definieren ist. Diese Unklarheiten sind zunachst durch genauere Absprachen
zu beseitigen.
Eine Datenreduktion soll darin bestehen, dass man auf die Daten eine affine
Abbildung anwendet, deren Bildbereich Rq eine geringere Dimension q hat als
die Anzahl p der Variablen. Wie kann man dann den Fehler quantifizieren, der
durch den Verlust von Information wohl meist vorhanden sein wird? Man wird
versuchen, die ursprunglichen Daten aus den reduzierten Daten zu rekonstruieren,
was meistens nicht vollstandig gelingen wird, und den Fehler dann mit Hilfe eines
geeigneten Abweichungsmaßes definieren.
Hier soll der Fall untersucht werden, dass zur Rekonstruktion der Daten auch
wieder nur affine Abbildungen herangezogen werden durfen, und dass zusatzlich
der Fehler als durchschnittlicher quadrierter Abstand der Originaldaten von den
rekonstruierten Daten definiert wird.
Ob diese Fehlerdefinition inhaltlich angemessen ist, hangt entscheidend wieder
davon ab, ob der euklidische Abstand im Variablenraum ein inhaltlich vertretba-
res Maß fur die Verschiedenheit von Punkten ist.
2.4 Hauptkomponenten MS13 113
Trifft man jedoch diese Vereinbarungen, so erweisen sich wieder die ersten q
Hauptkomponenten als optimal.
Offenbar kommt namlich als Methode der Rekonstruktion nur die multivariate
multiple (lineare) Regression in Frage, denn sie minimiert gerade das angegebene
Kriterium. Nun hat sich jedoch im letzten Abschnitt schon gezeigt, dass bei belie-
bigen Pradiktoren der durchschnittliche quadrierte Fehler mindestens die Summe
der letzten p−q Eigenwerte von S ist, und dass dieses Minimum durch die ersten q
Hauptkomponenten erreicht wird. Da diese Hauptkomponenten aus den Original-
daten durch die affine Abbildung y1 = G1′(x− x) gewonnen werden, erfullen sie
auch die erste Einschrankung und stellen damit insgesamt eine optimale Losung
dar.
Feststellung 10. Die Aufgabe einer optimalen Datenreduktion auf q Dimensio-
nen bestehe darin, dass die Datenreduktion durch eine affine Abbildung erreicht
werden soll, wobei die Gute gemessen wird mit der durchschnittlichen quadrier-
ten Abweichung der Originaldaten zu rekonstruierten Daten, die mit Hilfe einer
geeigneten affinen Transformation aus den reduzierten Daten gewonnen werden.
Diese Aufgabe besitzt als eine Losung die ersten q Hauptkomponenten, wobei die
minimale durchschnittliche quadrierte Abweichung die Summe der letzten p − qEigenwerte von S ist. �
Nun sollen noch die Abstande zwischen Punkten nach dem Ubergang zu den
ersten q Hauptkomponenten betrachtet werden. Hierzu seien y11 und y12 die
Vektoren der ersten q Hauptkomponenten fur zwei Personen, x∗1 = G1y11 + x
und x∗2 = G1y12 + x die zugehorigen rekonstruierten Datenpunkte. Allgemein
gilt zunachst
‖G1y1‖2 = (G1y1)′(G1y1) = y1′G1
′G1y1 = y1′y1 = ‖y1‖2 ,
da G1′G1 = I ist. Wegen
x∗2 − x∗1 = (G1y12 + x)− (G1y11 + x) = G1(y12 − y11)
ist dann
‖x∗2 − x∗1‖2 = ‖G1(y12 − y11)‖
2 = ‖y12 − y11‖2 ,
der Abstand der reduzierten Datenpunkte x∗i ist also gleich dem Abstand der y1i.
Da die x∗i im Durchschnitt moglichst nahe bei den xi liegen, sollte der Abstand
der x∗i und damit der der y1i einigermaßen den Abstand der xi wiederspiegeln
(man macht sich ubrigens leicht klar, dass der Abstand der x∗i immer hochstens so
2.4 Hauptkomponenten MS13 114
groß ist wie der der xi). Insgesamt sollte man also die Ahnlichkeit von Personen
auch noch einigermaßen gut an den Abstanden ihrer y1-Werte ablesen konnen.
Hat man das Ziel, in einer gegebenen Situation eine Datenreduktion im hier
erorterten Sinn vorzunehmen, so wird normalerweise die Anzahl q der Variablen
nach der Reduktion nicht von Beginn an feststehen. Bei den beiden Teilzielen,
die man verfolgt, namlich dem, die Anzahl der neuen Variablen moglichst gering
zu halten, und dem, den Fehler, der mit der Reduktion verbunden ist, nicht allzu
groß werden zu lassen, kommt man dem einen nur naher, wenn man an dem
anderen Abstriche macht.
Man muss hier also einen Kompromiss schließen. Als Maß fur die Große des
Fehlers nimmt man sinnvollerweise die Gesamtvarianz des Vorhersagefehlers bei
der Rekonstruktion der Originaldaten aus den reduzierten Daten mit Hilfe einer
multiplen Regression. Dieser Fehler ist dabei mit der Gesamtvarianz der Daten
zu vergleichen.
Nun kann man – wenn man sinnvollerweise die Hauptkomponenten fur die Re-
duktion benutzt – mit Hilfe der Eigenwerte der Kovarianzmatrix S den fur die je-
weiligen Zwecke angemessenen Kompromiss leicht finden. Das Maß fur den Fehler
ist ja dann gerade die Summe der Eigenwerte der nicht berucksichtigten Haupt-
komponenten, die zur Beurteilung in Beziehung zu setzen ist zur Gesamtvarianz
der Daten, also zur Spur der Kovarianzmatrix, die gleichzeitig die Summe aller
Eigenwerte ist.
Hauptkomponentenanalyse und Faktorenanalyse. An dieser Stelle liegt es
nahe, die Hauptkomponentenanalyse zur Faktorenanalyse in Beziehung zu setzen.
Schreibt man im letzten Abschnitt die Regressionsgleichung mit G2y2 = e als
x = (G1y1 + x) + e ,
so erhalt man eine Gleichung, die stark an die Grundgleichung der Faktorenana-
lyse erinnert – G1 entspricht dabei der Ladungsmatrix und y1 dem Vektor der
Faktoren.
Allerdings gibt es hier eine Menge Verschiedenheiten. Zunachst sind die ober-
flachlich auffalligen Unterschiede die, dass noch die Verschiebung x auftaucht,
und dass die Varianzen der Faktoren und Variablen nicht auf 1 normiert sind.
Diese Unterschiede sind jedoch unwesentlich, denn startet man die Hauptkom-
ponentenanalyse mit z-transformierten Variablen und skaliert anschließend die
2.4 Hauptkomponenten MS13 115
Faktoren um (bei kompensatorischer Anderung der Elemente von G1), so fallen
diese Unterschiede weg.
Wesentlicher ist schon der Unterschied im Fehler. Zwar ist auch hier der Fehler-
vektor e mit den’Faktoren‘ y1 unkorreliert, da ja y1 und y2 unkorreliert sind,
jedoch ist die Kovarianzmatrix des Fehlers nicht notwendig eine Diagonalmatrix.
Ganz entscheidend ist jedoch der folgende Unterschied: Die Hauptkomponenten
sind’konkrete‘ Variablen, die sich aus den Originaldaten mit Hilfe einer affinen
Abbildung errechnen lassen, wahrend die Faktoren der Faktorenanalyse hypo-
thetische Variablen sind, die gar nicht beobachtet, sondern bestenfalls geschatzt
werden konnen, wenn sie denn uberhaupt existieren.
Uberhaupt ist die Sichtweise bei den beiden Verfahren geradezu entgegengesetzt,
was das Verhaltnis der Faktoren/Hauptkomponenten zu den Variablen angeht.
Bei der Faktorenanalyse sind die Faktoren die eigentlich wichtigen Variablen;
die beobachtbaren Variablen werden bis auf einen Fehler von ihnen bestimmt
und konnen als sekundar angesehen werden. Bei der Hauptkomponentenanalyse
hingegen bildet man aus den gegebenen Variablen zweckgebunden neue Variablen,
deren Status eher zweitrangig ist, wenn sie auch ihren Zweck gut erfullen mogen.
Hauptkomponenten und kovarianztreue Darstellung. In diesem Abschnitt
geht es um eine weitere geometrische Veranschaulichung der Verhaltnisse bei der
Hauptkomponentenanalyse, und zwar im Rahmen einer kovarianztreuen Darstel-
lung.
Es wird sich erweisen, dass die Hauptkomponenten geometrisch die gegebenen
Variablen in noch zu prazisierender Weise optimal’approximieren‘.
Ausgangspunkt ist eine kovarianztreue Darstellung der gegebenen Variablen als
Vektoren, deren Lange gleich der Streuung der zugehorigen Variablen ist, wahrend
der Winkel zwischen zwei Vektoren der Korrelation zwischen den zugehorigen Va-
riablen entspricht, was genauer bedeutet, dass sein Kosinus gleich der Korrelation
ist. Die reprasentierenden Vektoren sollen die gleichen Bezeichnungen xi haben
wie die betrachteten Variablen. Die Bezeichnung mag etwas ungewohnt sein, ist
jedoch hier deshalb sinnvoll, weil die naheliegendere Bezeichnung xi schon fur
den Datenvektor der i-ten Versuchsperson reserviert ist; die Bezeichnung der Va-
riablen und der sie reprasentierenden Vektoren durch das gleiche Symbol sollte
dagegen eigentlich nicht zu Verwirrung fuhren.
2.4 Hauptkomponenten MS13 116
Die beiden Variablen des Eingangsbeispiels hatten die Kovarianzmatrix
S =
(2 .8
.8 .8
),
woraus sich eine Korrelation von .8/√
2 · .8 = 0.6325 ergibt. Der zugehorige Win-
kel ist 50.77◦, wahrend die Streuungen der beiden Variablen 1.414 und 0.894 sind.
Eine mogliche kovarianztreue Darstellung findet sich in der folgenden Graphik,
in der rechts auch ein Maßstab angegeben ist.
...........................................................................................................................................................................................................................................................................................................................................................................
...................
.......
...................
.......
...................
.......
...................
.......
...................
.......
...................
.......
...................
.......
...................
.......
...................
.......
...................
.......
...............................
.......
.......
.......
....
.......
.......
.......
.......
.......
...
.......
.......
.......
.......
.......
...
.......
.......
.......
.......
.......
...
0 1 2............................................................................................................................................................................................................................................................................... ...............................................
........................................................
........................................................
.........................................................
x1
x2
Ziel ist es jetzt, eine Gerade durch den Nullpunkt zu finden, die moglichst nahe
bei diesen Vektoren liegt, was wieder so prazisiert werden soll, dass die Summe
der quadrierten Abstande der Vektorspitzen von der Geraden moglichst klein sein
soll.
Die gesuchte Gerade soll das’Bundel‘ von Vektoren xi also moglichst gut re-
prasentieren; hilfreich ist vielleicht das Bild eines weitgehend zugeklappten, etwas
demolierten Regenschirms, von dem die Streben bekannt sind, wahrend der Stiel
gesucht ist.
Fur das Eingangsbeispiel sind in dem folgenden Diagramm zwei Geraden mit den
zugehorigen Abstanden eingezeichnet – hier ist offensichtlich die Gerade g1 den
beiden Vektoren naher als g2.
............................................................................................................................................................................................................................................................................... ...................
......................................................................................................................................................................................................
x1
x2
................................................
................................................
................................................
................................................
................................................
................................................
................................................
................................................
................................................
................................................
................................................
......
............................................................................................
...............................................................................
g1
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
..
......................................................................................................................................................................................................................................................
..............................................................................................................................
g2
2.4 Hauptkomponenten MS13 117
Die Aufgabe soll nun formal gefasst werden. Bezeichnet man mit xi den auf die
Gerade projizierten Vektor xi und mit ei den Differenzvektor xi− xi, so gilt nach
dem Satz des Pythagoras
‖xi‖2 = ‖ xi‖2 + ‖ei‖2 ,
wie es die folgende Abbildung fur x2 zeigt.
............................................................................................................................................................................................................................................................................... ...................
......................................................................................................................................................................................................
x1
x2
x2e2
..........................................................................................................................................................................................................................
................................................
................................................
................................................
................................................
................................................
................................................
................................................
................................................
................................................
................................................
................................................
......
g
Addiert man auf und berucksichtigt man, dass die Summe der Varianzen der
Variablen die Spur von S ist, so erhalt man
Spur(S) =∑‖xi‖2 =
∑‖ xi‖2 +
∑‖ei‖2 .
Da die Spur von S eine feste Zahl ist, ist folglich die Aufgabe, die Summe der qua-
drierten Abstande ‖ei‖2 zu minimieren, aquivalent zu der Aufgabe, die Summe
der projizierten Vektorlangen ‖ xi‖2 zu maximieren.
Der Raum, in dem sich die kovarianztreue Darstellung befindet, braucht nicht
genauer spezifiziert werden. Als seine Dimension sei m angenommen.
Nun bezeichne X die (m× p)-Matrix, die spaltenweise die xi enthalt. Die unge-
wohnte Bezeichnung wird wiederum deshalb gewahlt, weil das Symbol X schon
fur die Datenmatrix vergeben ist. Die Tatsache, dass die xi eine kovarianztreue
Darstellung bilden, schreibt sich dann als X ′X = S.
Die Richtung einer zu untersuchenden Geraden sei durch einen Vektor u gegeben,
fur den ‖u‖ = 1 angenommen werden kann. Die Projektion von xi auf die durch
u gegebene Gerade liefert dann xi = <xi, u> u, die quadrierte Lange ist
‖ xi‖2 = ‖<xi, u> u‖2 = <xi, u>2 ‖u‖2 = <xi, u>
2 .
Der Vektor X ′u enthalt als Komponenten gerade die Skalarprodukte <xi, u>,
weshalb die Summe der ‖ xi‖2 gleich
‖X ′u‖2 = (X ′u)′(X ′u) = u′XX ′u
2.4 Hauptkomponenten MS13 118
ist. Dies nun ist zu maximieren. Die Losung ist bekannt: Das Maximum ist der
großte Eigenwert vonXX ′ und wird erreicht genau von Eigenvektoren u zu diesem
Eigenwert.
Nun kann man die bekannten Beziehungen zwischen den Eigenwerten und Eigen-
vektoren von XX ′ einerseits und X ′X = S andererseits verwenden und erhalt
als Maximum den großten Eigenwert λ1 von S, wahrend die Eigenvektoren zu
diesem Eigenwert gerade die Xz sind, wobei z Eigenvektor von S zum Eigenwert
λ1 ist.
Ein Beispiel fur einen solchen Vektor z ist die erste Spalte g1 von G, und anderer-
seits kann jeder Eigenvektor z der Lange 1 zum großten Eigenwert als erste Spalte
der Matrix G einer modifizierten Hauptkomponententransformation dienen.
Da die Spalten der Matrix X die Variablen xi reprasentieren, reprasentiert Xg1
als Linearkombination dieser Variablen mit Koeffizienten in g1 gerade die erste
Hauptkomponente y1.
Die Losungen u des Problems sind also gerade die Vielfachen von Reprasentanten
von moglichen ersten Hauptkomponenten mit Lange 1. Auf die sowieso nur aus
technischen Grunden gestellte Forderung, dass die Lange des Richtungsvektors 1
sein soll, kann man nun auch wieder verzichten.
Hervorzuheben ist die geometrisch nicht unerwartete Tatsache, dass die optimale
Losung Linearkombination der Originalvariablen ist.
Erganzend ist noch die Summe der quadrierten Abweichungen von der optimalen
Geraden zu bestimmen. Da diese sich mit der Summe λ1 der quadrierten proji-
zierten Langen zur Spur von S addiert, also zur Summe aller Eigenwerte, ist die
Summe der quadrierten Abweichungen die Summe der verbleibenden Eigenwerte
λ2, . . . , λp.
Das Ergebnis wird zusammengefasst in
Feststellung 11. Die Aufgabe, in einer kovarianztreuen Darstellung der Varia-
blen x1, . . . , xp mit Kovarianzmatrix S eine Gerade zu finden, zu der die Summe
der quadrierten Abstande der die Variablen xi reprasentierenden Vektoren mi-
nimal ist, hat als Losung genau die Geraden, deren Richtungen durch mogliche
erste Hauptkomponenten gegeben sind.
Die Summe der quadrierten Abstande ist dann die Summe der letzten p − 1
2.4 Hauptkomponenten MS13 119
Eigenwerte von S. �
Auch bei dieser Aufgabe spielt die Skalierung der Variablen, und damit wieder die
Metrik des Variablenraums, eine entscheidende Rolle: die optimale Gerade wird
sich andern, wenn sich die Skalierungen andern, was sich in unterschiedlichen
Verlangerungen oder Verkurzungen der einzelnen Vektoren bei gleichbleibenden
Winkeln ausdruckt.
Wie gewohnt kann man nun die Frage anschließen, fur welche weitere Gerade die
Summe der quadrierten Abstande minimal ist unter der Nebenbedingung, dass
die neue Gerade auf der schon gefundenen senkrecht stehen soll.
Mit der gleichen Argumentation wie oben findet man hier als eine mogliche
Losung die Gerade, deren Richtung durch die zweite Hauptkomponente bestimmt
ist. Umgekehrt lasst sich jede Losung in dieser Weise aus der zweiten Hauptkom-
ponente einer gegebenenfalls modifizierten Hauptkomponententransformation ge-
winnen.
Es ist klar, wie der Prozess nun weiter fortgesetzt werden kann. Interessant ist die
Frage, wann er zu beenden ist. Wahrend er fur regulare Kovarianzmatrizen bis
zur p-ten sukzessiven Losung weitergefuhrt werden kann, ist es fur eine Matrix S
vom Rang r < p nicht sinnvoll, weitere Fragen nach Auffindung der r-ten Losung
zu stellen.
Da namlich die zu den ersten r Hauptkomponenten gehorenden Vektoren linear
unabhangig (z.B. weil orthogonal) sind und außerdem Linearkombinationen der
Variablenvektoren xi, spannen sie bereits den Unterraum auf, der alle xi enthalt,
denn dieser ist auch nur r-dimensional (Feststellung 9 aus Kapitel 2.2).
Eine (r+1)-te Richtung, die zu den ersten r gefundenen und damit auch zu allen
xi senkrecht ist, ist offenbar nicht mehr sinnvoll zur Fortfuhrung des Prozesses, der
damit an dieser Stelle abzubrechen ist (alle Variablenvektoren werden fur solche
Richtungen auf den Nullpunkt projiziert, so dass die Summe der quadrierten
projizierten Langen immer 0 ist).
Der Vollstandigkeit halber soll auch dieses Ergebnis eigens festgehalten werden:
Feststellung 12. Gegeben seien Variablen x1, . . . , xp mit einer Kovarianzmatrix
S vom Rang r ≤ p; außerdem sei q ≤ r. Dann besitzt die Aufgabe, sukzessiv q
orthogonale Geraden im Raum einer kovarianztreuen Darstellung der xi zu finden,
die jeweils von den die Variablen reprasentierenden Vektoren in der Summe einen
2.4 Hauptkomponenten MS13 120
minimalen quadrierten Abstand haben, als Losung die Geraden, die durch die
ersten q Hauptkomponenten definiert werden.
Jede Losung der Aufgabe ergibt sich in dieser Weise aus den ersten q Hauptkom-
ponenten einer geeignet gewahlten Hauptkomponententransformation. �
In dem Eingangsbeispiel ist die erste Hauptkomponente
y1 = .894x1 + .447x2 − 3.578 ,
die hier wesentlichen Koeffizienten sind also .894 und .447. Jetzt kann diese
Hauptkomponente und die durch sie bestimmte Gerade in der Graphik einge-
zeichnet werden – man erkennt dabei auch, dass die Lange des entsprechenden
Vektors gerade die Wurzel aus dem ersten Eigenwert 2.4, also 1.55 ist.
Auch die zweite Hauptkomponente y2 ist eingezeichnet. Sie steht naturlich senk-
recht auf der ersten. Die Langen von y1 und y2 geben einen Hinweis auf die Gute
der Geraden, denn diese quadrierten Langen – also die Eigenwerte – sind die
Summen der quadrierten Langen der projizierten Vektoren xi.
...........................................................................................................................................................................................................................................................................................................................................................................
...................
.......
...................
.......
...................
.......
...................
.......
...................
.......
...................
.......
...................
.......
...................
.......
...................
.......
...................
.......
...............................
.......
.......
.......
....
.......
.......
.......
.......
.......
...
.......
.......
.......
.......
.......
...
.......
.......
.......
.......
.......
...
0 1 2............................................................................................................................................................................................................................................................................... .........................................................................................................................................................................................................................
....................................................................................................................................................................................................................................................................................................... ...................
...................
...................
...................
...................
...................
........................................................
x1
x2
.........................
........................
...........
y1.................................................................
..................................................................................................................................
..................................................................................................................................
..................................................................................................................................
..........................
....................................................................................................................................................................................................................................................................................................................................................................
y2
In der nachsten Abbildung sind die Abstande von x1 und x2 zu der durch die erste
Hauptkomponente bestimmten Gerade eingezeichnet. Die Summe der quadrier-
ten Abstande ist minimal, namlich die Differenz der Spur von S und des ersten
Eigenwerts, die hier gleich dem zweiten Eigenwert .4 ist. Die Summe der qua-
drierten Langen der projizierten Vektoren hingegen ist maximal, namlich gleich
dem ersten Eigenwert 2.4.
2.4 Hauptkomponenten MS13 121
...........................................................................................................................................................................................................................................................................................................................................................................
...................
.......
...................
.......
...................
.......
...................
.......
...................
.......
...................
.......
...................
.......
...................
.......
...................
.......
...................
.......
...............................
.......
.......
.......
....
.......
.......
.......
.......
.......
...
.......
.......
.......
.......
.......
...
.......
.......
.......
.......
.......
...
0 1 2............................................................................................................................................................................................................................................................................... .........................................................................................................................................................................................................................
....................................................................................................................................................................................................................................................................................................... ...................
...................
...................
...................
...................
...................
........................................................
x1
x2
y1
..................................................................................................................................
..................................................................................................................................
..................................................................................................................................
...........................................................................................
.......
.......
.......
.......
.......
.......
.......
..
.....................................................................................................
....................................................................................................................................................................................................................................................................................................................................................................
y2
Die nachste Graphik zeigt die entsprechenden Verhaltnisse fur die zweite Haupt-
komponente. Hier ist die Summe der quadrierten Abstande 2.4 und die Summe
der projizierten quadrierten Langen .4.
...........................................................................................................................................................................................................................................................................................................................................................................
...................
.......
...................
.......
...................
.......
...................
.......
...................
.......
...................
.......
...................
.......
...................
.......
...................
.......
...................
.......
...............................
.......
.......
.......
....
.......
.......
.......
.......
.......
...
.......
.......
.......
.......
.......
...
.......
.......
.......
.......
.......
...
0 1 2............................................................................................................................................................................................................................................................................... .........................................................................................................................................................................................................................
....................................................................................................................................................................................................................................................................................................... ...................
...................
...................
...................
...................
...................
........................................................
x1
x2
y1
..................................................................................................................................
..................................................................................................................................
..................................................................................................................................
...........................................................................................
....................................................................................................................................................................................................................................................................................................................................................................
.......................................................................................................................................................................................................................................................
............................................................................................................................
y2
Die bisher behandelte Frage kann wiederum verallgemeinert werden, indem man
nicht nach einem eindimensionalen Unterraum fragt, der moglichst dicht bei den
Variablenvektoren xi liegt, sondern nach einem q-dimensionalen. Minimiert wer-
den soll dabei wieder die Summe der quadrierten Abstande zu diesem Unterraum.
Genau wie oben addiert sich diese Summe mit der Summe der quadrierten Langen
der auf den Unterraum projizierten Vektoren zur Spur von S, also zur Summe
der Varianzen.
Alternativ kann die Aufgabe also auch so gestellt werden, dass die Summe der
quadrierten Langen der auf den Unterraum projizierten Vektoren maximal wer-
den soll.
Ist nun P die Projektion auf einen moglichen derartigen Unterraum, so erhalt
man mit PX die Matrix, die spaltenweise die projizierten Vektoren xi enthalt.
2.4 Hauptkomponenten MS13 122
Die Matrix (PX)′(PX) enthalt dann in der Diagonalen gerade deren quadrierte
Langen, so dass die zu maximierende Summe gleich der Spur dieser Matrix ist.
Fur diese Spur gilt aber
Spur((PX)′(PX)) = Spur(X ′P ′PX) = Spur(X ′PX) = Spur(PXX ′)
wegen der Eigenschaften der orthogonalen Projektionen und der Spur.
Die Spur von PXX ′ ist bekanntlich maximal gleich der Summe der q großten
Eigenwerte von XX ′, wobei dieses Maximum dann erreicht wird, wenn das Bild
von P von zugehorigen orthogonalen Eigenvektoren aufgespannt wird. Wie oben
sind die großten Eigenwerte von XX ′ wieder dieselben wie die von X ′X = S,
und zugehorige Eigenvektoren erhalt man, indem man auf Eigenvektoren von S
die Matrix X anwendet, was wieder zu Reprasentanten der Hauptkomponenten
fuhrt.
Die Summe der quadrierten Abweichungen ist schließlich wieder die Summe der
restlichen Eigenwerte von XX ′, also gleichzeitig die der restlichen Eigenwerte von
S, da ja die Eigenwerte dieser Matrizen bis auf unwesentlichen Nullen dieselben
sind.
Zusammenfassend erhalt man:
Feststellung 13. Gegeben seien Variablen x1, . . . , xp mit einer Kovarianzmatrix
S vom Rang r ≤ p; außerdem sei q ≤ r. Eine Losung der Aufgabe, in einer kova-
rianztreuen Darstellung der Originalvariablen xi einen q-dimensionalen linearen
Unterraum zu finden, fur den die Summe der quadrierten Abstande zu den Va-
riablen minimal ist, ist der von den ersten q Hauptkomponenten aufgespannte
Raum.
Die (minimale) Summe der quadrierten Abstande ist die Summe der letzten p−qEigenwerte von S. �
Bemerkenswert, wenn auch nicht uberraschend ist hier wieder, dass der optimale
Unterraum durch Linearkombination der xi aufgespannt wird, und damit ganz
im Erzeugnis der xi gelegen ist.
Man kann naturlich die ersten q Hauptkomponenten auch durch beliebige Line-
arkombinationen ersetzen, solange der aufgespannte Raum derselbe bleibt.
Standardisierte Hauptkomponenten. Oft arbeitet man statt mit den Haupt-
komponenten eher mit den standardisierten Hauptkomponenten weiter, denen
2.4 Hauptkomponenten MS13 123
dieser Abschnitt gewidmet ist.
Ein Grund fur die Bevorzugung der standardisierten Komponenten mag darin
liegen, dass eine Standardisierung allgemein als angenehm empfunden wird, was
sie ja in manchen Zusammenhangen auch ist. Ein anderer Grund liegt womoglich
darin, dass man auf diese Weise die Darstellung den Darstellungen der Ergebnisse
der Faktorenanalyse anahnelt, was vielleicht an der beklagenswerten Konfusion
liegt, die im Hinblick auf Faktorenanalyse und Hauptkomponentenanalyse leider
weit verbreitet ist.
Da standardisierte Hauptkomponenten aus den eigentlichen Hauptkomponenten
durch eine affine (sogar lineare) Transformation hervorgehen, konnen sie diese in
vielen Zusammenhangen vertreten. Beispielsweise konnen bei der Datenreduktion
die ersten q standardisierten Hauptkomponenten die Originalhauptkomponenten
ersetzen, ohne dass sich etwas an der Gute der Rekonstruktion der Originaldaten
andert, da der Fehler ja gleich bleibt.
Ausgerechnet der Aspekt jedoch, der bei der Konstruktion der Hauptkomponen-
ten immer im Mittelpunkt stand, und der dieser Konstruktion eigentlich erst Sinn
verleiht, der Aspekt der Erhaltung von Distanzen namlich, ausgerechnet dieser
Aspekt also wird bei der Standardisierung pikanterweise eliminiert.
Die Bezeichnung der standardisierten j-ten Hauptkomponente sei zj. Ist dann z
der Vektor der standardisierten Hauptkomponenten, so gilt
z = D−1/2y = D−1/2G′(x− x) ,
worin man auch eine der moglichen multivariaten z-Transformationen wiederer-
kennt.
Bei den weiteren Uberlegungen sei vorausgesetzt, dass man sich dafur entschie-
den hat, nur die ersten q standardisierten Hauptkompontenten fur weitere Un-
tersuchungen zu verwenden, beispielsweise, weil der Fehler bei dieser Reduktion
vertretbar klein erscheint.
Wird mit z1 der Vektor der ersten q der zj bezeichnet, so gilt
z1 = D1−1/2y1 ,
so dass die optimale Rekonstruktion der Originaldaten mit Hilfe dieser standar-
disierten Hauptkomponenten die Form
x = G1y1 + x = G1D11/2D1
−1/2y1 + x = G1D11/2z1 + x
2.4 Hauptkomponenten MS13 124
annimmt (hier wird die gegebene Vorhersage mit Hilfe der standardisierten Haupt-
komponenten ausgedruckt, was bekanntlich gleichzeitig die neue Regression der
Originaldaten auf die standardisierten Hauptkomponenten liefert). Die Spalten
der Matrix G1D11/2, die auch mit L1 abgekurzt werden soll, sind die mit den
Wurzeln der Eigenwerte multiplizierten Eigenvektoren, also die normalisierten
Eigenvektoren – ihre Lange ist gleich der Streuung der entsprechenden Haupkom-
ponente.
Es sollen nun kurz die Eigenschaften der Matrix L1 hervorgehoben werden.
Ihre Zeilen geben die Koeffizienten an, mit denen die Originalvariablen mit Hilfe
der zj optimal vorhergesagt werden. Da die zj ebenso wie die ihnen zugrunde
liegenden yj unkorreliert sind und zusatzlich Varianz 1 besitzen, ist die Varianz
der Vorhersage von xi gleich der Summe der quadrierten Koeffizienten in der
Zeile i. Durch Relativierung an der Varianz von xi erhalt man damit sogleich den
Anteil der aufgeklarten Varianz und kann beurteilen, ob man mit der Vorhersage
zufrieden ist.
Das Skalarprodukt von zwei Zeilen i und j von L1 ist gleich der Kovarianz der
Vorhersagen xi und xj.
Die Spalten der Matrix L1 stehen senkrecht aufeinander und die Summe der qua-
drierten Koeffizienten der Spalte j ist gleich dem j-ten Eigenwert; diese Summe
gibt daher an, wieviel Varianz zj insgesamt an allen Variablen aufklart (da die zjunkorreliert sind, sind die aufgeklarten Varianzen additiv). Da die Summe aller
Eigenwerte gleich der Spur von S ist, kann man die Bedeutung von zj fur die
Vorhersage insgesamt an dem Verhaltnis des j-ten Eigenwerts zur Spur von S
beurteilen.
Praktisch ist die Standardisierung beispielsweise, wenn man sich die Verhaltnisse
in einer kovarianztreuen Darstellung veranschaulichen will. Man kann dann nam-
lich die zj als orthogonale Vektoren der Lange 1 darstellen und in dem dadurch
entstehenden (Standard-)Koordinatensystem die Vorhersagen xi als Punkte (oder
Vektoren) eintragen, deren Koordinaten durch die Zeilen der Matrix L1 gegeben
sind.
Ein Beispiel soll dies verdeutlichen: Gegeben sind vier Variablen x1, . . . , x4 mit
der Kovarianzmatrix
2.4 Hauptkomponenten MS13 125
S =
2.7 1.4 0.28 1.54
1.4 12.3 3.46 0.28
0.28 3.46 12.3 1.4
1.54 0.28 1.4 2.7
.
Man rechnet leicht nach, dass die Spalten der Matrix0.1 0.1 0.7 0.7
0.7 0.7 −0.1 −0.1
0.7 −0.7 −0.1 0.1
0.1 −0.1 0.7 −0.7
orthogonale Eigenvektoren der Lange 1 von S sind mit zugehorigen Eigenwerten
16, 9, 4, 1. Diese Matrix kann daher als Matrix G der Eigenvektoren verwendet
werden. Die Spalten geben dann die Koeffizienten zur Bildung der Hauptkompo-
nenten. Hier fallt ubrigens auf, dass in die Bildung der ersten Hauptkomponenten
vor allem die zweite und dritte Variable eingehen; dies passt gut dazu, dass die-
se Variablen die großte Varianz besitzen, denn die Hauptkomponenten sollen ja
auch sukzessiv maximale Varianz erfassen.
Nun sollen die Variablen xi mit Hilfe von 2 Variablen optimal approximiert wer-
den. Die Entscheidung fur zwei Variablen konnte dabei dadurch begrundet sein,
dass damit ein genugend hoher Anteil der Gesamtvarianz erfasst und aufgeklart
wird, namlich die Summe der ersten beiden Eigenwerte 16 + 9 = 25, die zu rela-
tivieren ist an der Gesamtvarianz, die man als Spur von S oder als Summe aller
Eigenwerte zu 30 berechnet. Der aufgeklarte Varianzanteil in diesem Sinne ist
also 25/30 = 5/6 = .833.
Wahlt man zur Vorhersage nun die standardisierten Hauptkomponenten, so sind
die Koeffizienten die Zeilen der Matrix
L1 = G1D11/2 =
0.1 0.1
0.7 0.7
0.7 −0.7
0.1 −0.1
(
4 0
0 3
)=
0.4 0.3
2.8 2.1
2.8 −2.1
0.4 −0.3
.
Zunachst sollen die oben angegebenen Eigenschaften von L1 durch das konkrete
Beispiel illustriert werden.
Die beiden Spaltenvektoren stehen senkrecht aufeinander und sind Eigenvektoren
von S. Die Summe der quadrierten Koeffizienten ergibt spaltenweise die beiden
großten Eigenwerte 16 und 9.
2.4 Hauptkomponenten MS13 126
Zeilenweise ergibt die Summe der quadrierten Koeffizienten die durch die Regres-
sion aufgeklarte Varianz der xi (absolut, nicht als Anteil), hier .25, 12.25, 12.25, .25.
Hier fallt ubrigens wieder auf, dass die zweite und dritte Variable deutlich bevor-
zugt werden, was die aufgeklarten Varianzanteile angeht.
Die Summe der aufgeklarten Varianzen ist gleich der Summe der ersten beiden
Eigenwerte, also 25. Dies kann man auch interpretieren als die Varianz, die im
Sinne der Spur insgesamt aufgeklart wird.
Das Skalarprodukt von jeweils zwei Zeilen ist die Kovarianz der entsprechenden
Vorhersagen.
Die Matrix L1 kann unmittelbar in eine kovarianztreue Darstellung der Verhalt-
nisse bei der Vorhersage der Variablen durch die standardisierten ersten beiden
Hauptkomponenten umgesetzt werden – der Vorteil der Standardisierung liegt
darin, dass ohne weitere Umrechnungen ein vorgefertigtes Koordinatensystem
mit gleichen Achsenlangen benutzt werden kann.
Die folgende Abbildung gibt eine solche Darstellung, wobei die Vorhersagen der
Originalvariablen durch Punkte markiert sind. Es ware eigentlich angemessener,
die Punkte durch Vektoren zu ersetzen und auch z1 und z2 als Vektoren einzu-
zeichnen (mit Spitzen in (1, 0)′ und (0, 1)′), aus Ubersichtlichkeitsgrunden ist der
Aufbau aber ganz analog zu den entsprechenden Diagrammen der Faktorenana-
lyse.
1
1
............................................................................................................................................................................................................................................................................ ..........................
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......................
...................
r
r
r
r z1
z2
x1
x2
x4
x3
Die Reprasentanten der beiden ersten Hauptkomponenten konnte man dem Dia-
gramm leicht hinzufugen, namlich als Vektoren in Richtung der beiden Achsen
mit den Langen 4 und 3; man erhalt so eine kovarianztreue Darstellung der
2.4 Hauptkomponenten MS13 127
Verhaltnisse bei Regressionen durch die unstandardisierten Hauptkomponenten.
Ganz analog zur Faktorenanalyse konnen solche Diagramme auch gelesen werden.
Zum Beispiel entsprechen den Winkeln zwischen zwei Verbindungsstrecken zum
Nullpunkt die Korrelationen zwischen den Vorhersagen.
Kleine Unterschiede zur Faktorenanalyse sind die folgenden: Die Koordinaten
sind hier nur Regressionsgewichte (bei der Faktorenanalyse Ladungen, die bei
einer entsprechenden Interpretation eine starkere inhaltliche Bedeutung haben
konnen), die quadrierten Abstande zum Nullpunkt sind hier aufgeklarte Varian-
zen im absoluten Sinne (wegen der Standardisierung der Variablen in der Fakto-
renanalyse sind die quadrierten Abstande dort aufgeklarte Varianzen im absolu-
ten und relativen Sinn).
Die wesentlichen Unterschiede zur Faktorenanalyse wurden schon weiter oben
diskutiert.
Rotationen. Hat man sich fur eine Datenreduktion auf q Dimensionen entschie-
den, so kann man an Stelle der ersten q Hauptkomponenten auch q Linearkom-
binationen der Hauptkomponenten verwenden, wenn die Transformation zu den
Linearkombinationen umkehrbar ist. Die Große des Fehlers bei Rekonstruktion
der Originaldaten mit Hilfe einer Regression andert sich dabei nicht. In diesem
Abschnitt sollen derartige’Rotationen‘ besprochen werden.
Solche Rotationen konnen sinnvoll sein, weil die Hauptkomponenten zwar stati-
stische Optimalitatseigenschaften haben, jedoch keineswegs zwanglos inhaltlich
interpretierbar sein mussen – ein inhaltlicher Aspekt wurde ja bei der Konstruk-
tion auch gar nicht einbezogen, es sei denn indirekt, wenn beispielsweise das
Abschopfen von einem Maximum an Varianz auch mit inhaltlichen Zielen in Ver-
bindung gebracht werden kann.
Wenn sich also in vielen Fallen die Hauptkomponenten einer inhaltlichen Deutung
entziehen, so kann man womoglich durch eine Variablentransformation auf Sei-
ten der Hauptkomponenten zu neuen Variablen kommen, die einer inhaltlichen
Deutung zuganglicher sind, ohne dabei Einbußen an dem statistischen Vorteil
hinnehmen zu mussen, mit einer gegebenen Anzahl von neuen Variablen einen
minimalen Fehler bei der Reduktion zu machen.
Als Ausgangspunkt sollen die ersten q standardisierten Hauptkomponenten ge-
wahlt werden, die ja den zugehorigen Hauptkomponenten zum gegenwartigen
2.4 Hauptkomponenten MS13 128
Zweck gleichwertig sind. Da die standardisierten Hauptkomponenten selbst eben-
falls durch eine’Rotation‘ aus den unstandardisierten hervorgehen (die Standar-
disierung lasst sich ja als eine – zudem besonders einfache – Rotation auffassen),
ist eine Rotation der standardisierten Hauptkomponenten immer auch gleichzei-
tig eine der unstandardisierten, so dass diese Wahl des Ausgangspunktes keine
Einschrankung darstellt.
Es ist zunachst nutzlich, einige Bezeichnungen einzufuhren. Die neuen Variablen
sollen mit u1, . . . , uq bezeichnet werden, zusammengefasst zu einem Vektor u.
Die Matrix, die die Rotation beschreibt, soll hier T heißen; diese (q × q)-Matrix
enthalt in der j-ten Spalte die Koeffizienten, mit denen die j-te neue Variable
aus den standardisierten Hauptkomponenten gebildet wird. Von T wird die In-
vertierbarkeit vorausgesetzt und es gilt
u = T′z1 .
Im Beispiel des letzten Abschnitts liegt es nahe, als neue Achsen die Geraden
durch jeweils zwei Punkte einzufuhren. Wenn man zusatzlich fordert, dass auch
die neuen Variablen u1 und u2 die Varianz 1 besitzen sollen, so ergibt sich das
folgende Bild.
1
1
............................................................................................................................................................................................................................................................................ ..........................
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......................
...................
r
r
r
r z1
z2
x1
x2
x4
x3
............................................................................................................................................................................................................................................................................................................................................................................................................................................. ...................
................................................................................................................................................................................................................................................................................................................................................................................................................................................................
u1
u2
...............
...............
...............
...............
...............
...............
...............
...............
...............
...............
...............
...............
Die Matrix T, die zu dieser Rotation gehort, enthalt in den Spalten die Vektoren,
die die neuen Variablen reprasentieren. Sie ist daher
T =1
5
(4 4
−3 3
).
Die neuen Variablen errechnen sich aus den alten durch Anwendung von T′, sind
2.4 Hauptkomponenten MS13 129
also
u1 =1
5(4z1 − 3z2)
u2 =1
5(4z1 + 3z2) .
Zur genaueren Untersuchung der Eigenschaften einer Rotation – insbesondere
auch beim Versuch der Beantwortung der Frage, wie denn die aus der Rotation
resultierenden neuen Variablen uj zu interpretieren sein mogen – sind neben
der Kovarianzmatrix der rotierten Hauptkomponenten drei Typen von Matrizen
wichtig, die unter verschiedenen Aspekten den’Zusammenhang‘ zwischen den
Originalvariablen xi und den rotierten ersten Hauptkomponenten uj beschreiben.
Was den Zusammenhang zwischen den Originalvariablen x und den rotierten
ersten Hauptkomponenten u angeht, so kann man erstens fragen, wie die u-
Variablen aus den x-Variablen gebildet werden, zweitens, wie groß die Kovari-
anzen oder Korrelationen sind, und drittens, wie die Regression aussieht, mit der
man die x-Variablen aus den u-Variablen naherungsweise zuruckgewinnen kann.
Der zweite und dritte Aspekt des Zusammenhangs wird ubrigens in der analogen
Situation der Faktorenanalyse durch Faktorstruktur und Faktormuster erfasst,
wahrend der erste Aspekt dort nicht auftaucht.
Die Matrizen, die diese unterschiedlichen Aspekte des Zusammenhangs beschrei-
ben, sind die Koeffizientenmatrix zur Bildung von u aus x, die Matrix der Ko-
varianzen oder Korrelationen zwischen diesen beiden Variablengruppen und die
Matrix der Regressionsgewichte bei der Regression von x auf u.
Zur besseren Vergleichbarkeit ist es sinnvoll, ein einheitliches Format fur diese
Matrizen zu wahlen. Bei dieser Form sollen immer die Zeilen den x-Variablen und
die Spalten den u-Variablen entsprechen – alle Matrizen besitzen also p Zeilen
und q Spalten.
Die Situation wird dadurch noch etwas verwickelter, dass man es oft als sinn-
voll erachtet, entweder die x-Variablen oder die u-Variablen oder auch beide
zu standardisieren, was dazu fuhrt, dass von den drei genannten Haupttypen
von Matrizen unterschiedliche Varianten je nach zusatzlicher Standardisierung
im Gebrauch sind.
Zu Standardisierungszwecken bezeichnen im Folgenden wie ublich Vx und Vu die
Diagonalmatrizen, deren Elemente die Varianzen der Komponenten von x und u
2.4 Hauptkomponenten MS13 130
sind – im Vergleich zu den Kovarianzmatrizen sind hier alle Elemente außerhalb
der Diagonalen durch Nullen ersetzt. Abgesehen von der Zentrierung erhalt man
die standardisierten Variablen durch Multiplikation mit dem Inversen der Wurzel
der entsprechenden V-Matrix, die in der Diagonalen die Kehrwerte der Streu-
ungen enthalt. Den Vektor x der x-Variablen standardisiert man beispielsweise
komponentenweise mit der Transformation V−1/2x (x− x).
Im Beispiel sind Kovarianzmatrix von x und die daraus gebildete Matrix Vx die
Matrizen
S =
2.7 1.4 0.28 1.54
1.4 12.3 3.46 0.28
0.28 3.46 12.3 1.4
1.54 0.28 1.4 2.7
und Vx =
2.7 0 0 0
0 12.3 0 0
0 0 12.3 0
0 0 0 2.7
.
In der weiteren Untersuchung sollen nun Formeln fur die genannten Matrizen und
ihre Varianten hergeleitet werden.
Als erstes kann die Kovarianzmatrix Su von u bestimmt werden. Da die Kovari-
anzmatrix der standardisierten Hauptkomponenten die Einheitsmatrix ist, ergibt
sich
Su = T′T ;
hieraus errechnet man die Korrelationsmatrix zu V−1/2u SuV
−1/2u , da ja der lineare
Anteil der komponentenweisen z-Transformation gerade durch die Matrix V−1/2u
gegeben ist.
Im Beispiel ergibt sich
Su =
(1 .28
.28 1
),
was mit der Korrelationsmatrix ubereinstimmt, da ja die Rotation so gewahlt
war, dass die Varianzen der neuen Variablen 1 waren. Varianzen und Korrelati-
on ermittelt man leicht auch aus der kovarianztreuen Darstellung mit Hilfe von
Langen und Winkel. Bei dieser Rotation sind die u-Variablen also leicht korreliert.
Als nachstes soll die affine Transformation bestimmt werden, mit der sich die
u-Variablen aus den x-Variablen errechnen. Hier gilt
u = T′z1 = T′D1−1/2y1 = T′D1
−1/2G1′(x− x) ,
der lineare Anteil der Transformation ist also T′D1−1/2G1
′. Diese Matrix enthalt
zeilenweise die Gewichte, mit denen die x-Variablen in die Bildung der u-Variablen
2.4 Hauptkomponenten MS13 131
eingehen, und ist damit die erste der Matrizen, die zur Beschreibung des Zusam-
menhangs von x und u von Bedeutung sind.
Der Einheitlichkeit halber sollten bei allen Matrizen, die sich auf den Zusammen-
hang zwischen x und u beziehen, die Zeilen den x-Variablen und die Spalten den
u-Variablen entsprechen. Bei der gerade betrachteten Matrix ist dies genau umge-
kehrt, was man aber leicht durch Transponieren beheben kann. Man erhalt dann
die Matrix G1D1−1/2T; sie enthalt spaltenweise die Koeffizienten zur Bildung
der u-Variablen aus den x-Variablen. Alternativ liefert wegen L1 = G1D11/2 die
Gleichung
G1D1−1/2T = L1D1
−1T
eine weitere Darstellungsmoglichkeit dieser Matrix.
Im Beispiel ergibt sich 0 0.04
0 0.28
0.28 0
0.04 0
,
hier geht also in u1 hauptsachlich x3 ein und in u2 hauptsachlich x2. Man erkennt
ubrigens auch hier eine deutliche Bevorzugung der Variablen mit den großen Va-
rianzen, was ja gut zur Konstruktion der Hauptkomponenten passt. Außerdem
zeigt sich nochmals, dass alle vier Originalvariablen in die Bildung der ersten
beiden Hauptkomponenten und der daraus gewonnenen Vorhersagevariablen ein-
gehen – die Datenreduktion besteht also nicht darin, dass weniger Daten erhoben
werden mussten, sondern darin, dass pro Person (mit Informationsverlust) weni-
ger (transformierte) Daten gespeichert oder weiterverarbeitet werden.
Ganz unproblematisch ist die Interpretation der Koeffizienten (’Gewichte‘) in der
Matrix G1D1−1/2T = L1D1
−1T nicht, denn ein numerisch gleiches Gewicht fuhrt
bei einer großen Varianz der entsprechenden Variablen zu einem deutlicheren
’Einfluss‘ als bei einer kleinen Varianz.
Fragt man namlich genauer danach, um wieviel sich uj andert, wenn sich xi(bei Konstanthaltung aller anderen xk) um eine Standardabweichung andert, so
ist diese Anderung gerade das Produkt des Gewichts mit dieser Standardabwei-
chung und damit um so großer, je großer die Standardabweichung ist. In vielen
Zusammenhangen kann man nun die Standardabweichung als ein Maß fur die
’naturliche Schwankung‘ einer Variablen ansehen, und in diesem Sinn hat dann
die normale Schwankung von xi deutlich starkere Anderungen bei uj zur Folge,
2.4 Hauptkomponenten MS13 132
wenn die Varianz von xi groß ist, als dies bei einer kleinen Varianz und numerisch
gleichem Gewicht der Fall ist. Es sollte ubrigens selbstverstandlich sein, dass das
Wort’Einfluss‘ im letzten Absatz nur in dem gerade erlauterten schwachen Sinn
zu interpretieren ist.
Analog zum Ubergang zu standardisierten Regressionsgewichten (’β-Gewichten‘)
bei der multiplen Regression kann man auch hier einen Ausgleich schaffen, indem
man die x-Variablen und womoglich auch die u-Variablen standardisiert und diese
Standardisierung durch Anderung der Gewichte kompensiert.
Die neuen Koeffizienten geben dann die Anderung in uj (oder dem standardisier-
ten uj) an, wenn sich xi um eine Standardabweichung andert bei Konstanthaltung
der anderen xk. Die Gleichungen (zunachst ohne Standardisierung auf u-Seite)
sind
u = T′D1−1/2G1
′(x− x) = T′D1−1/2G1
′V1/2x V
−1/2x (x− x) ,
und da die standardisierten x-Werte gerade in dem Vektor V−1/2x (x−x) enthalten
sind, ergibt sich T′D1−1/2G1
′V1/2x als linearer Anteil der Transformation auf Basis
der standardisierten xi, was nach Transponieren die Matrix
V1/2x G1D1
−1/2T = V1/2x L1D1
−1T
zur Beschreibung liefert; die Standardisierung auf u-Seite erreicht man, indem
man das Ergebnis noch mit V−1/2u multipliziert, was nach Transponieren zu der
Matrix
V1/2x G1D1
−1/2TV−1/2u = V
1/2x L1D1
−1TV−1/2u
fuhrt. Die Standardisierung auf u-Seite mag dann sinnvoll sein, wenn man die Ko-
effizienten vergleichen will, mit der eine x-Variable in unterschiedliche u-Variablen
eingeht, und wenn man dabei die Unterschiedlichkeit der Varianzen der u-Variab-
len’herausrechnen‘ will.
Im Beispiel sind die u-Variablen bereits standardisiert gewahlt, so dass sich hier
in beiden Fallen die Matrix 0 0.06573
0 0.98200
0.98200 0
0.06573 0
ergibt, die den
’Einfluss‘ der x-Variablen mit großer Varianz noch deutlicher her-
aushebt.
2.4 Hauptkomponenten MS13 133
Der zweite Matrixtyp zur Beschreibung des Zusammenhangs der x- und u-Variab-
len enthalt die Kovarianzen oder Korrelationen zwischen x- und u-Variablen (wie-
der entsprechen die Zeilen den x-Variablen und die Spalten den u-Variablen).
Zunachst ist die Matrix der Kovarianzen gleich SG1D1−1/2T , was sich mit S =
G1D1G1′ + G2D2G2
′ wegen G2′G1 = 0 und G1
′G1 = I zu G1D11/2T = L1T
umformen lasst. Die gesuchte Matrix der Korrelationen zwischen x und u ist
dann
V−1/2x G1D1
1/2TV−1/2u = V
−1/2x L1TV
−1/2u .
Fur das Beispiel ergibt sich als Matrix der Korrelationen0.08520 0.30429
0.27943 0.99797
0.99797 0.27943
0.30429 0.08520
,
was dem bisherigen Eindruck uber die Zusammenhange nicht grob widerspricht,
wenngleich an Stelle der Nullen jetzt teilweise deutliche Korrelationen auftauchen
und sich die Großenverhaltnisse dadurch deutlich geandert haben.
Man konnte auch noch die Matrizen der Kovarianzen bilden, wenn man nur eine
der beiden Variablengruppen standardisiert; diese Matrizen sind jedoch nur von
geringerem Interesse.
Der dritte Typ von Matrizen zur Beschreibung des Zusammenhangs zwischen
x und u enthalt die Koeffizienten fur die Vorhersage der x-Variablen durch die
u-Variablen und ist im Hinblick auf die Rekonstruktion der Originaldaten von
zentraler Bedeutung.
Da man z1 aus u durch die Umkehrtransformation z1 = T′−1u zuruckerhalt, und
da die Vorhersage von x mit Hilfe von z1 durch die Gleichung x = G1D11/2z1+ x
gegeben war, erhalt man durch Einsetzen die Regressionsgleichung zur Rekon-
struktion von x aus u als
x = G1D11/2T′−1u + x = L1T
′−1u + x .
Fur das Beispiel erhalt man die Matrix0 0.5
0 3.5
3.5 0
0.5 0
,
2.4 Hauptkomponenten MS13 134
deren Spalten man naturlich alternativ auch in dem Diagramm als Koordinaten
der xi in dem u-Koordinatensystem ablesen kann. Die Korreliertheit von u1 und
u2 wird hier – konstruktionsgemaß – durch besonders schone Vorhersagegleichun-
gen aufgewogen.
Auch hier kann es sinnvoll sein, zur standardisierten Form der Regressionskoef-
fizienten uberzugehen, die gerade die Regressionskoeffizienten fur die Vorhersage
der standardisierten x-Variablen durch die standardisierten u-Variablen sind. Die
Matrix dieser standardisierten Koeffizienten bestimmt man zu
V−1/2x G1D1
1/2T′−1V1/2u = V
−1/2x L1T
′−1V1/2u ,
wahrend man beispielsweise als Koeffizientenmatrix fur die Regression mit Stan-
dardisierung nur der u-Variablen die Matrix
G1D11/2T′−1V
1/2u = L1T
′−1V1/2u
erhalt.
Im Beispiel andert sich bei Standardisierung auf u-Seite nichts, wahrend man bei
zusatztlicher Standardisierung auf x-Seite die Matrix0 0.30429
0 0.99797
0.99797 0
0.30429 0
errechnet.
Zusammenfassend sind es also drei Typen von Matrizen, die unterschiedliche
Aspekte des Zusammenhangs von rotierten ersten Hauptkomponenten und Ori-
ginalvariablen erfassen; erstens namlich die Matrizen, die die Herstellung der ro-
tierten Hauptkomponenten mit Hilfe der Originalvariablen beschreiben, zweitens
die Matrizen der Kovarianzen oder Korrelationen zwischen Originalvariablen und
rotierten Hauptkomponenten und drittens die Matrizen mit den Regressionskoef-
fizienten zur Rekonstruktion der Originalvariablen aus den rotierten Hauptkom-
ponenten.
Von den erzielten Ergebnissen halt die folgende Feststellung die standardisierten
Versionen fest.
Feststellung 14. Ergibt sich u durch eine Rotation der ersten q standardisierten
Hauptkomponenten von x mit einer Rotationsmatrix T, ist L1 die Matrix der
2.4 Hauptkomponenten MS13 135
ersten q normalisierten Eigenvektoren der Kovarianzmatrix S von x, und sind D1,
Vx und Vu die Diagonalmatrizen mit den ersten q Eigenwerten von S und den
Varianzen von x und u (die Kovarianzmatrix von u ist dabei T′T), so enthalten
die Matrizen
V1/2x L1D1
−1TV−1/2u , V
−1/2x L1TV
−1/2u und V
−1/2x L1T
′−1V1/2u
nacheinander die Koeffizienten zur Herstellung der standardisierten u-Variablen
aus den standardisierten x-Variablen, die Korrelationen zwischen x- und u-Variab-
len und die Regressionskoeffizienten bei Regression der standardisierten x-Variab-
len auf die standardisierten u-Variablen. Die Korrelationsmatrix von u ist
V−1/2u T′TV
−1/2u . �
Die Verhaltnisse vereinfachen sich etwas, wenn man an die Rotation Zusatzforde-
rungen stellt. Beispielsweise hat eine Beschrankung der Rotationsmatrizen T auf
Orthogonalmatrizen die Beziehungen T′−1 = T und Su = Vu = I zur Folge und
damit die Gleichheit der Korrelationsmatrix mit der der standardisierten Regres-
sionsgewichte; ferner ist die Kovarianzmatrix von u dann die Einheitsmatrix.
Der Fall der standardisierten Hauptkomponenten z selbst ist hier der Spezialfall
mit q = p und T = I; die Kovarianzmatrix von z ist ebenfalls die Einheitsmatrix.
Von den drei oben genannten Matrizen fallen die beiden letzten zusammen, und
so bleiben nur die Matrizen
V1/2x LD−1 und V
−1/2x L
ubrig, von denen die erste die Koeffizienten zur Berechnung der standardisierten
Hauptkomponenten und die zweite die Korrelationen und die Regressionsgewich-
te zur Vorhersage der Originalvariablen enthalt. Strukturell sollten sich diese
Matrizen meist nicht allzu stark unterscheiden.
Sind die Originalvariablen bereits standardisiert, oder haben sie zumindest Vari-
anz 1, so vereinfacht sich auch noch Vx zur Einheitsmatrix.
Zur Interpretation. Oft ist es ein Ziel der Rotation, die Hauptkomponenten
durch Variablen zu ersetzen, die zusatzlich zu den vorteilhaften statistischen Ei-
genschaften sich auch noch inhaltlich deuten lassen. Es geht dann also um die
Interpretation der rotierten Hauptkomponenten.
2.4 Hauptkomponenten MS13 136
Beim Versuch einer solchen Interpretation liegt es nahe, sich der gerade behandel-
ten Matrizen zu bedienen, die ja unterschiedliche Aspekte des Zusammenhangs
der neu gebildeten Variablen mit den Originalvariablen widerspiegeln.
Ein Urteil daruber, welche der Matrizen gegebenenfalls zu einer Interpretation
heranzuziehen waren, kann nun dem mundigen Leser uberlassen werden, da zu
der Bedeutung der Matrizen alles Notige gesagt ist.
Womoglich wird man alle drei Matrizen heranziehen wollen (was bei der letzten
durch eine (uberzogene?) Analogie zur Faktorenanalyse motiviert sein mag). Im
Beispiel wiesen die drei Matrizen einer Interpretation zumindest nicht deutlich
verschiedene Richtungen. Im allgemeinen Fall kann es jedoch auch zu Konflik-
ten kommen, beispielsweise wenn entsprechende Elemente in den verschiedenen
Matrizen verschiedene Vorzeichen haben und von der Große her nicht zu ver-
nachlassigen sind. Wer an einer solchen Stelle nicht mehr weiter weiß, der frage
sich, warum Hauptkomponenten oder ihre Transformationen uberhaupt inhalt-
lich interpretierbar sein sollten – schließlich zielte die Konstruktion ja auf anderes,
namlich auf Varianzmaximierung, optimale Vorhersagen etc., oder bei Transfor-
mationen auf formale Uberschaubarkeit. Vielleicht helfen ja solche Uberlegungen,
eine zwanghafte Interpretationssucht zu uberwinden.
Dass sich die Situation etwas entspannt, wenn man beispielsweise nur orthogona-
le Rotationen zulasst, haben die Bemerkungen am Ende des letzten Abschnitts
gezeigt. Hierunter fallt beispielsweise die Interpretation der Hauptkomponenten
selber oder ihrer Standardisierungen.
Abschließende Bemerkungen. Die Hauptkomponenten erweisen sich als Li-
nearkombinationen der Originalvariablen, die viele angenehme Eigenschaften ha-
ben: Optimale Erfassung der Variabilitat, gute Beschreibung der Ausmaße der
Punktwolke, optimale Approximation der Daten durch weniger Dimensionen, op-
timale Datenreduktion, optimale Vorhersage der Originalvariablen im Sinne der
linearen Regression.
Nutzlich konnen Hauptkomponenten dann sein, wenn bei einer weiteren Verar-
beitung der Daten die Reduktion der Anzahl der Variablen sinnvoll ist.
Beispielsweise kann es darum gehen, mit den erhobenen Informationen weitere
Variable im Sinne der linearen Regression vorherzusagen, jedoch mit einer ge-
ringeren Anzahl von Pradiktoren. Benutzt man zu diesem Zweck die Hauptkom-
ponenten, so hat man den weiteren Vorteil, dass diese unkorreliert sind, was die
2.4 Hauptkomponenten MS13 137
multiple Regression technisch einfacher macht. Bekanntlich treten ja bei der mul-
tiplen Regression dann Probleme auf, wenn die Pradiktoren untereinander stark
korreliert sind (’Multikollinearitat‘). Allerdings trugt die Hoffnung, mit Hilfe der
Hauptkomponenten derartige Probleme umgehen zu konnen, denn eine großere
Prazision bei der Schatzung der Regressionsparameter wird durch eine erhohte
Unsicherheit bei der Schatzung der Koeffizienten der Hauptkomponententransfor-
mation erkauft (hier geht es beispielsweise darum, die Hauptkomponententrans-
formationsmatrix auf Populationsebene mit Hilfe einer Stichprobe zu schatzen).
Alle Zugange zur Hauptkomponentenanalyse haben gezeigt, wie wesentlich es
ist, dass Abstande im Variablenraum inhaltlich mit der Unterschiedlichkeit der
Versuchspersonen oder Untersuchungsgegenstande in Beziehung gesetzt werden
konnen.
Hat man also eine Situation, in der die Skalen, auf denen die einzelnen Varia-
blen gemessen werden, in keinem inhaltlichen Zusammenhang stehen, und folg-
lich ohne Schaden durch unterschiedliche lineare Transformationen ersetzt werden
konnten, so ist eine Hauptkomponentenanalyse wenig sinnvoll.
Die Schwierigkeit zeigt sich zum Beispiel darin, dass die Hauptkomponenten von
Variablen, deren Skalen unterschiedlich linear transformiert wurden, in keinem
leicht durchschaubaren Zusammenhang mit den Hauptkomponenten der untrans-
formierten Originalvariablen stehen. Es gibt insbesondere keine Umrechnung die-
ser beiden Systeme von Hauptkomponenten ineinander, die sich in einfacher Weise
aus den Koeffizienten fur die einzelnen Skalentransformationen gewinnen ließe.
Zur Verdeutlichung eine Analogie: Die Korrelation von zwei Linearkombinationen
der Komponenten eines Vektors x lasst sich nicht bestimmen, wenn man nur die
Korrelationsmatrix von x kennt, vielmehr mussen zu diesem Zweck auch die Vari-
anzen bekannt sein. Ebenso konnen die Hauptkomponenten von transformierten
Variablen nicht bestimmt werden, wenn nur die einzelnen Skalentransformationen
und die Hauptkomponenten der Originalvariablen bekannt sind, vielmehr braucht
man zusatzlich beispielsweise die Kovarianzmatrix der Originalvariablen, mit de-
ren Hilfe die Umrechnung jedoch dann auch nicht unkomplizierter ist als die
Bestimmung von Hauptkomponenten uberhaupt.
Die Hauptkomponenten der transformierten Variablen konnen daruber hinaus ei-
ne vollig andere inhaltliche Interpretationen nahelegen als die Hauptkomponenten
der Originalvariablen.
2.5 Verteilungen MS13 138
Manchmal versucht man diesem Problem dadurch zu begegnen, dass man die
Variablen zunachst alle z-transformiert und dann die Hauptkomponentenanalyse
durchfuhrt. Anders gesagt basiert die Analyse dann auf der Korrelationsmatrix
an Stelle der Kovarianzmatrix. Auf diese Weise rettet man sich zwar mit Hil-
fe einer Normierung formal aus dem Problem der Willkurlichkeit der Auswahl
von Skalen, ob allerdings die z-transformierten Skalen auch inhaltlich weniger
willkurlich sind, ist im Einzelfall zu beurteilen. Außerdem ware zu fragen, ob
der euklidische Abstand der Datenpunkte nach einer solchen z-Transformation
eine inhaltliche Bedeutung hat, wie sie zur Rechtfertigung der Konstruktion der
Hauptkomponenten wunschenswert ware.
Eine gewisse Rechtfertigung einer z-Transformation aller Variablen kann darin
liegen, dass die Streuungen danach alle gleich 1 und damit gleich sind. Wenn die
Daten so gewonnen wurden, dass sie die naturliche Variabilitat der Variablen in
einer Population wiederspiegeln, so ist nach einer derartigen Transformation die
Einheit der naturlichen Streuung fur alle Variablen gleich groß, was immerhing
eine statistisch begrundete Vergleichbarkeit der unterschiedlichen Skalen nach der
Transformation gewahrleistet.
2.5 Verteilungen
In diesem Abschnitt sollen die wichtigsten multivariaten Verteilungen eingefuhrt
werden. Davor sollen gewisse statistischen Eigenschaften von Mittelwerten und
Varianzen noch einmal in der Terminologie der Vektor- und Matrizenrechnung
beschrieben werden.
Empirische Mittelwerte und Varianzen. Im folgenden Abschnitt geht es um
statistische Eigenschaften von Mittelwerten und Varianzen.
Als Ausgangssituation sei das zu erwartende Ergebnis eines Einzelversuchs durch
eine Zufallsvariable x beschrieben.
Ein solcher Einzelversuch soll jetzt jedoch nicht nur einmal durchgefuhrt werden,
sondern n mal. Die Einzelergebnisse des (erst noch durchzufuhrenden!) Gesamt-
versuchs kann man dann durch Zufallsvariablen x1, . . . , xn modellieren. Meist (so
auch hier) wird in den weiteren theoretischen Uberlegungen und Ableitungen
von diesen Zufallsvariablen vorausgesetzt, dass sie alle die gleiche Verteilung wie
x haben und zusatzlich unabhangig sind. Als Abkurzung fur diesen Sachverhalt
2.5 Verteilungen MS13 139
dient die Sprechweise, dass x1, . . . , xn unabhangige Versionen von x sind.
Beispielsweise kann es darum gehen, ein bestimmtes Wahrnehmungsexperiment
(beispielsweise zur Ermittlung einer Reaktionszeit) an einer Versuchsperson nicht
nur einmal, sondern n-mal durchzufuhren, oder darum, den Wert einer Variable
nicht nur an einer Versuchsperson, sondern an n Versuchspersonen zu erheben.
Sofort stellt sich die Frage, ob fur eine solche Situation die Modellvorstellung, dass
die Einzelergebnisse xi unabhangige Versionen von x sind, wirklich angemessen
ist.
Diese Frage ist deshalb von zentraler Bedeutung, weil die allermeisten statisti-
schen Auswertungsverfahren von dieser Modellvorstellung ausgehen. Eine Recht-
fertigung dafur, dass die Modellvorstellung angemessen ist, wird immer auf die
konkrete Versuchsplanung eingehen mussen. Bei dem Wahrnehmungsexperiment
wird etwa dafur zu sorgen sein, dass die Einzelergebnisse sich nicht gegenseitig
beeinflussen konnen, und dass auch Lern- oder Ermudungseffekte weitestmoglich
ausgeschlossen werden konnen. Beim Ziehen mehrerer Versuchspersonen aus ei-
ner Gesamtpopulation ist zu verhindern, dass diese aufeinander Einfluss nehmen
konnen; eigentlich musste man sogar mit Zurucklegen ziehen (was aber wohl meist
andere Probleme zur Folge hat).
Streng genommen wird wohl die Modellvorstellung nur sehr selten als vollig ange-
messen beurteilt werden konnen. Mit dieser Diskrepanz muss man jedoch leben;
man kann und sollte nur dafur sorgen, dass versuchsplanerisch alles getan wird,
um die Diskrepanz moglichst gering zu halten.
Der einfacheren Formulierungen halber soll im Folgenden bei Veranschaulichun-
gen immer auf die Situation Bezug genommen werden, in der man eine Variable
unabhangig an mehreren Versuchspersonen erhebt; die Uberlegungen gelten je-
doch ebenso fur andere Situationen, beispielsweise fur die, dass ein Einzelversuch
an ein und derselben Versuchsperson mehrmals unabhangig durchgefuhrt wird
(ein Statistiker wird ubrigens von solchen akzidentellen Einkleidungen womoglich
uberhaupt absehen wollen und die Situation dann nur abstrakt ohne Bezug auf
irgendwelche Versuche oder Experimente einfach so beschreiben, dass x1, . . . , xnunabhangige Versionen einer Zufallsvariable x sind).
Fasst man dann die Einzelergebnisse zu einem Zufallsvektor x zusammen, so sind
die Komponenten xi von x unabhangig und besitzen alle die gleiche Verteilung,
also insbesondere den gleichen Erwartungswert und die gleiche Varianz.
2.5 Verteilungen MS13 140
Dieser Vektor x hat seine moglichen Werte im Personenraum, der daher den
weiteren Uberlegungen zugrundeliegt.
Der Zufallsvektor x ist von anderer Art als die ublicherweise bisher betrachte-
ten Zufallsvektoren, wo ja meist mehrere an ein und derselben Versuchsperson
erhobene Variablen zu einem Vektor (mit Werten im Variablenraum) zusammen-
gefasst wurden, wahrend jetzt die Werte von verschiedenen Personen auf einer
Variablen den Vektor bilden. Formal ist das Konzept des Zufallsvektors allgemein
genug, um beide Situationen zu erfassen.
Hat die Verteilung von x und damit die der einzelnen xi Erwartungswert µ und
Varianz σ2, so ist der Erwartungswertvektor von x gleich µ1 und die Kovarianz-
matrix gleich σ2I, wobei 1 der n-Vektor aus lauter Einsen und I die (n × n)-
Einheitsmatrix ist.
Der Korrektheit halber sei an dieser Stelle die Voraussetzung hinzugefugt, dass
der Erwartungswert von x tatsachlich existiert und dass die Varianz von x endlich
ist. Entsprechende Voraussetzungen sollen auch in den folgenden Abschnitten
gelten, ohne dass dies besonders erwahnt wird.
Den Mittelwert x erhalt man auch als (1/n)1′x, also durch Anwendung der linea-
ren Abbildung (1/n)1′ auf x. Nach den allgemeinen Regeln berechnet man nun
den Erwartungswert des Mittelwerts zu (1/n)1′(µ1) = µ und die Varianz von x
zu ((1/n)1′)(σ2I)((1/n)1) = σ2/n (man berucksichtige 1′1 = n); dies sind nur
alte Resultate in neuer Formulierung.
Als nachstes soll es um die Verteilung der empirischen Varianz gehen, insbeson-
dere um ihren Erwartungswert. Das schon bekannte Resultat wird erneut herge-
leitet, diesmal mit Hilfe von geometrischen Uberlegungen, wie sie auch fur viele
Argumentationen im multivariaten Bereich eine zentrale Rolle spielen werden.
Daher sollen diese wichtigen Techniken hier gleich zu Anfang an einem der ein-
fachsten Beispiele ausfuhrlich illustriert werden.
Bei der Bildung der Varianz zieht man zunachst von jedem xi den Mittelwert
x ab, wonach man die Werte quadriert, aufsummiert und durch n teilt. Diese
Schritte sollen jetzt geometrisch veranschaulicht werden.
Im ersten Schritt geht man von x uber zum zentrierten Datenvektor x, der ja
gerade dadurch entsteht, dass man komponentenweise den Mittelwert abzieht.
Bis auf den Faktor 1/n ist dann im zweiten Schritt die empirische Varianz der
Daten die quadrierte Lange von x.
2.5 Verteilungen MS13 141
Ist V der eindimensionale Unterraum des Rn, der aus allen Vielfachen des Vektors
1 besteht, und U = V ⊥ der dazu senkrechte Unterraum, so ist die Dimension von
U gleich n − 1 und man erhalt bekanntlich zunachst den Vektor x1, der zum
Zwecke des Zentrierens vom Datenvektor x zu subtrahieren ist, als orthogonale
Projektion von x auf V . Der Vektor x = x − x1 der zentrierten Daten ergibt
sich dann als orthogonale Projektion des Datenvektors x auf das orthogonale
Komplement U von V . Die Matrix, die diese Projektion beschreibt, ist bekanntlich
die Zentriermatrix Z = I − (1/n)11′. Den ersten Schritt des Ubergangs von x
zu x erhalt man geometrisch also mit einer orthogonalen Projektion auf den
Unterraum U .
Nachdem der Ubergang von x zu x geometrisch durch die orthogonale Projektion
Z beschrieben wurde, geht es im zweiten Schritt um eine dazu passende Formel
fur die Varianz S2 der empirischen Daten. Da Z eine orthogonale Projektion ist,
gelten die Beziehungen Z2 = Z und Z′ = Z, von denen im Folgenden ohne weitere
Hinweise haufig Gebrauch gemacht werden wird.
Die Varianz lasst sich nun auf folgende Weise schreiben:
S2 = (1/n)‖ x‖2 = (1/n)(Zx)′(Zx) = (1/n)x′Z′Zx = (1/n)x′Zx .
Bis auf den Faktor 1/n ist die Varianz also die quadrierte Lange des auf U pro-
jizierten Datenvektors. Geometrisch sind bei der Bildung der Varianz also die
Begriffe der orthogonalen Projektion und der Lange (Norm) von zentraler Bedeu-
tung. Diese Begriffe werden auch im Folgenden immer wieder an entscheidenden
Stellen auftauchen.
Noch eine kurze Anmerkung: Die Zerlegung von x durch die Projektionen auf die
komplementaren Unterraume U und V hat die Form
x = x + x1 ,
und der Satz des Pythagoras liefert dann, da die beiden Vektoren auf der rechten
Seite senkrecht zueinander sind, die Gleichung
‖x‖2 = ‖ x‖2 + ‖ x1‖2 .
Teilt man diese Gleichung noch durch n, so hat man auf der linken Seite den
Mittelwert der quadrierten xi und auf der rechten Seite einerseits die Varianz S2
und andererseits den quadrierten Mittelwert, so dass sich durch Umstellen die
bekannte Formel S2X = MX2 − (MX)2 ergibt.
2.5 Verteilungen MS13 142
Fur eine genauere Analyse der statistischen Eigenschaften von Varianz und Ko-
varianz ist es sinnvoll, den Unterraum U mit einer Orthonormalbasis zu versehen
und in den Koordinaten bezuglich dieser Basis zu rechnen (nicht praktisch, son-
dern nur theoretisch). Es sei also L eine (n× (n− 1))-Matrix, deren Spalten eine
Orthonormalbasis von U bilden.
Da aufgrund der Orthonormalitat L′L = In−1 gilt, errechnet sich die Projektion
auf U als
L(L′L)−1L′ = LL′ ,
was mit Z ubereinstimmen muss. Den Koordinatenvektor eines projizierten Punk-
tes bezuglich der gewahlten Orthonormalbasis berechnet man mit der Matrix
(L′L)−1L′, die sich hier zu L′ vereinfacht; der (n − 1)-Koordinatenvektor u von
x ist also u = L′x.
Man kann nun bekanntlich die quadrierte Lange von x ∈ U auch bestimmen,
indem man mit den Koordinaten in U rechnet, so dass sich ‖ x‖2 = ‖u‖2 und
mit Division durch n die Formel
S2 = ‖u‖2/n
ergibt.
Wegen Z = LL′ kann man dies auch noch einmal unmittelbar einsehen:
‖ x‖2 = x′Zx = x′LL′x = (L′x)′(L′x) = u′u = ‖u‖2 .
Als wesentlich wird es sich erweisen, dass u nicht n Komponenten besitzt wie x,
sondern nur noch n− 1.
Nun sollen die statistischen Kennwerte von u bestimmt werden. Da die Spalten
von L eine Basis des orthogonalen Komplements des Erzeugnisses von 1 bilden,
also insbesondere zu 1 senkrecht sind, gilt L′1 = 0. Als Erwartungswert von u
ergibt sich daher
E(u) = E(L′x) = L′E(x) = L′(µ1) = 0 ,
und als Kovarianzmatrix
V(u) = L′V(x)L′′ = L′(σ2In)L = σ2L′InL = σ2 In−1 ;
daruber hinaus ist die Matrix der Kovarianzen von u und x gleich
C(u, x) = C(L′x, (1/n) 1′x) = (1/n) L′V(x)1′′ = (σ2/n) L′I1 = 0 .
2.5 Verteilungen MS13 143
Zusammengefasst heißt das, dass die Komponenten von u den Erwartungswert 0
und die Varianz σ2 besitzen und außerdem untereinander und mit dem Mittelwert
unkorreliert sind.
Als kleine Anwendung soll nun noch einmal die bekannte Tatsache gezeigt wer-
den, dass der Erwartungswert von nS2 gleich (n − 1)σ2 ist, woraus ja beispiels-
weise unmittelbar folgt, dass die korrigierte Stichprobenvarianz (n/(n−1))S2 ein
erwartungstreuer Schatzer fur σ2 ist.
Zunachst gilt
nS2 = ‖ x‖2 = ‖u‖2 =n−1∑i=1
u2i .
Da der Erwartungswert von ui gleich 0 ist, ist E(u2i ) gleich der Varianz von ui,
also gleich σ2, woraus die Behauptung unmittelbar folgt.
Entscheidend bei dieser Argumentation ist es, dass man die n-fache Varianz jetzt
als Summe von n − 1 (und nicht etwa n) Variablen u2i schreiben kann, die alle
Erwartungswert 0 und Varianz σ2 besitzen, und die außerdem noch unkorreliert
sind. Diese Umformung wurde moglich durch die Darstellung von x mit Hilfe der
orthogonalen Projektion auf den (n− 1)-dimensionalen Unterraum U .
Ahnliche Uberlegungen werden sich als der Schlussel zu vielen Fragen erweisen,
die mit dem Begriff der Freiheitsgrade zusammenhangen.
Entsprechende Uberlegungen wie in diesem Abschnitt kann man auch in der
multivariaten Situation von mehreren Variablen anstellen. Die Formulierungen
werden dabei allerdings deutlich komplizierter. Einige wichtige Aspekte konnen
allerdings auf den Fall von zwei Variablen reduziert werden, der ubersichtlicher ist
als die allgemeine Situation, und dem daher der Rest dieses Abschnitts gewidmet
sein soll.
Es geht jetzt also um eine weitere Variable, fur die die Verteilung bei einem Ein-
zelversuch nun durch eine Zufallsvariable y beschrieben sei. Bei der n-maligen
Durchfuhrung – es sei wieder die Veranschaulichung von n Versuchspersonen
gewahlt – wird dann jede Versuchsperson i zwei Werte xi und yi liefern. Es sei
weiterhin vorausgesetzt, dass die Ergebnisse unterschiedlicher Versuchspersonen
unabhangig sind, wahrend die gemeinsame Verteilung von xi und yi immer die
gleiche sein soll wie beim einmaligen Versuch, dessen Ergebnisse ja durch x und
y beschrieben werden. Man kann diese Voraussetzung dann auch so formulie-
ren, dass die (xi, yi) unabhangige Versionen des zweidimensionalen Zufallsvektors
2.5 Verteilungen MS13 144
(x, y) sein sollen.
Die Ergebnisse der n Versuchspersonen in der neuen Variable werden dann analog
wie bei der ersten Variable zu einem Zufallsvektor y mit n Komponenten zusam-
mengefasst. Haben dann x und y die Kovarianz κ, so bestimmt sich die Matrix
der Kovarianzen von x und y zu
C(x,y) = κ In .
Analog wie oben errechnet sich die empirische Kovarianz der Datenvektoren x
und y zu
(1/n)< x, y> = (1/n) x′Zy = (1/n) u′v = (1/n)<u, v>
wenn man v (analog zu u) als v = L′y definiert.
Nun berechnet man die Matrix der Kovarianzen von u und v zu
C(u,v) = C(L′x,L′y) = L′C(x,y)L′′ = L′(κ In)L = κ In−1 ,
unterschiedliche Komponenten von u und v sind also unkorreliert, wahrend die
Kovarianz gleicher Komponenten gleich κ ist.
Die Matrix der Kovarianzen von x = (1/n) 1′x und v ist analog
C((1/n) 1′x,L′y) = (1/n) 1′C(x,y)L′′ = (1/n) 1′(κ I)L = (κ/n) 1′L = 0 ,
da 1 senkrecht auf allen Spalten von L steht. Entsprechend sind naturlich auch
alle Kovarianzen von y mit Komponenten von u gleich 0.
Schließlich kann man noch genau wie oben zeigen, dass der Erwartungswert der
empirischen Kovarianz gleich ((n− 1)/n)κ ist, und daraus den bekannten erwar-
tungstreuen Schatzer der Kovarianz ableiten.
Mittelwertvektor und empirische Kovarianzmatrix. In diesem Abschnitt
geht es um Kennwerte der Verteilungen des empirischen Mittelwertvektors und
der empirischen Kovarianzmatrix. Die Ergebnisse des letzten Abschnitts werden
auf die multivariate Situation verallgemeinert.
Ganz analog zur dort besprochenen Situation soll zunachst eine p-dimensionale
Zufallsvariable x das zu erwartende Ergebnis eines Einzelversuchs beschreiben.
2.5 Verteilungen MS13 145
Dieser Einzelversuch soll nun n mal wiederholt werden; beispielsweise konnten
an derselben Versuchsperson n mal mehrere physiologische Variablen nach einem
stresserzeugenden Stimulus gemessen werden, oder es konnten an n Probanden,
die aus einer großen Population gezogen werden, zur Normierung eines Tests die
Werte in p Untertests erhoben werden. Bei Veranschaulichungen der n-maligen
Durchfuhrung eines Einzelversuchs soll meist Beispiele der zweiten Art benutzt
werden; entsprechende Uberlegungen gelten aber naturlich auch fur andere Si-
tuationen.
Die zu erwartenden Ergebnisse der n Einzelversuche seien nun zusammengefasst
in Zufallsvektoren xi (i = 1, . . . , n), von denen vorausgesetzt sei, dass sie ge-
meinsam unabhangig sind und die gleiche Verteilung besitzen wie das Ergebnis
x des Einzelversuchs. Eine Rechtfertigung dieser Annahme muss wieder auf die
konkrete Versuchsplanung verweisen; es sollte sich also um unabhangige Repli-
kationen des Einzelversuchs handeln oder um unabhangige Ziehungen aus der
Gesamtpopulation.
Man kann dann auch hier die Sprechweise verwenden, dass die xi unabhangige
Versionen von x sind.
Erwartungswertvektor und Kovarianzmatrix von x und damit von allen xi seien
µ und Σ.
Wie ublich fasst man die einzelnen (transponierten) Datenvektoren xi zu einer
empirischen Datenmatrix X zusammen, die dann n Zeilen besitzt, die den Ver-
suchspersonen (allgemeiner Versuchseinheiten) entsprechen und p Spalten, die zu
den Variablen gehoren; die transponierte i-te Zeile ist der Ergebnisvektor der
i-ten Versuchsperson.
Die j-te Spalte der Datenmatrix gibt die Werte an, die die n Versuchspersonen
in der j-ten Variable geliefert haben – dies ist also der zur j-ten Variable xjgehorende Datenvektor im Sinne des vorigen Abschnitts.
Man erhalt den Mittelwertvektor x, indem man die xi aufsummiert und dann
das Ergebnis durch n teilt. Die Summe der xi hat den Erwartungswert nµ und
die Kovarianzmatrix nΣ (wegen der Unabhangigkeit). Fur Erwartungswert und
Kovarianzmatrix von x ergibt sich damit
E(x) = µ und V(x) = (1/n) Σ
ganz analog zu den bekannten Verhaltnissen im Univariaten.
2.5 Verteilungen MS13 146
Eine Moglichkeit, die Bildung des Mittelwerts in der Matrizenschreibweise dar-
zustellen, ist
x = (1/n)X′1 .
Die (empirische) Kovarianzmatrix S der Daten erhalt man, indem man die em-
pirischen Varianzen/Kovarianzen der Variablen in einer Matrix zusammenfasst.
Hierbei sollen die Varianzen und Kovarianzen mit Division durch n gebildet wer-
den. Bekanntlich kann man S auch schreiben als
S = (1/n)X′ZX ,
wobei diese Matrix leider nicht erwartungtreu fur Σ ist, was man jedoch leicht
mit dem Ubergang zu Su = (n/(n− 1))S behebt, die Erwartungswert Σ besitzt.
Der Index u steht dabei fur’unbiased‘ oder
’unverzerrt‘, d.h.
’erwartungstreu‘.
Eine dritte Matrix, die gelegentlich auftaucht, ist die SSCP-Matrix
nS = (n− 1)Su = X′ZX
(SSCP steht bekanntlich fur’Sum of Squares and Cross Products‘). Sie hat Er-
wartungswert (n− 1)Σ.
Mit der Matrix L aus dem vorigen Abschnitt gilt Z = LL′, weshalb man die
SSCP-Matrix X′ZX = X′LL′X auch schreiben kann als U′U mit U = L′X.
Die Matrix U soll nun genauer untersucht werden – sie ist die Verallgemeinerung
des analog gebildeten Vektors u aus dem letzten Abschnitt und fur theoretische
Zwecke ahnlich nutzlich. Die Matrix hat wieder p Spalten, im Gegensatz zu X
aber nur n− 1 Zeilen.
Die Spalten von U erhalt man aus den Spalten von X durch Multiplikation mit L′.
Sie entstehen also aus den Datenvektoren der Einzelvariablen so wie im letzten
Abschnitt beschrieben. Damit konnen die Ergebnisse dieses Abschnitts direkt
ubertragen werden.
Es folgt, dass die Erwartungswerte der Elemente von U alle gleich 0 sind, wahrend
die Kovarianzmatrix einer (transponierten) Zeile gleich Σ ist. Die Elemente ver-
schiedener Zeilen haben hingegen Kovarianz 0. Ferner sind alle Kovarianzen von
Komponenten von x mit Elementen von U gleich 0.
Fur das Folgende ist noch die Tatsache wichtig, dass sowohl x als auch U sich
aus X mit Hilfe von linearen Abbildungen gewinnen lassen.
2.5 Verteilungen MS13 147
Eigentlich ist dieser Satz allerdings zunachst sinnlos, da lineare Abbildungen ja
auf Vektorraumen definiert sein mussen und ihre Werte auch wieder in Vek-
torraumen annehmen. Die Schwierigkeit, dass es sich bei X und bei U gar nicht
um Vektoren handelt, raumt man aber leicht dadurch aus dem Weg, dass man
sich die Elemente von X und U ja auch leicht in irgendeiner fest vorgegebe-
nen Ordnung untereinandergeschrieben denken kann, weshalb man sie auch als
Vektoren ansehen kann.
Dass dann beispielsweise die Funktion f , die X den Wert f(X) = L′X = U
zuordnet, linear ist, erkennt man am einfachsten, indem man entsprechend der
Definition linearer Abbildungen nachpruft, dass f Addition und Skalarmultipli-
kation respektiert, dass also f(X1 + X2) = f(X1) + f(X2) und f(aX) = a f(X)
fur beliebige X1, X2, X und a gilt. Dies sei hier beispielhaft fur die Addition
durchgefuhrt. Sind also zwei Matrizen X1 und X2 vorgegeben, so gilt
f(X1 + X2) = L′(X1 + X2) = L′(X1) + L′(X2) = f(X1) + f(X2) .
Die Addition wird von f also respektiert. Vollig analog verfahrt man bei der
Skalarmultiplikation.
Die Normalverteilung. In diesem Abschnitt soll an die aus der Elementarsta-
tistik bekannten Verteilungen im Umkreis der Normalverteilung erinnert werden.
Leider reichen die zur Verfugung stehenden mathematischen Hilfsmittel nicht aus,
um die mit diesen Verteilungen zusammenhangenden Aussagen zu begrunden.
Einiges muss also hier als wahr akzeptiert werden, wobei manche Sachverhalte
wenigstens noch einigermaßen veranschaulicht werden konnen.
Eine Zufallsvariable x heißt normalverteilt, wenn sie eine Dichte der Form
g(x) =1√2π σ
e−(x− µ)2
2σ2
besitzt mit einem µ ∈ R und einem σ > 0.
Als Abkurzung schreibt man dafur auch x ∼ N(µ, σ2).
Es stellt sich heraus, dass Erwartungswert und Varianz einer solchen Variable
gleich µ und σ2 sind, womit diese beiden’Verteilungsparameter‘ sogleich auch
eine statistische Bedeutung bekommen.
2.5 Verteilungen MS13 148
Vielleicht wurde man bei der Angabe x ∼ N(µ, σ2) der Verteilung als zweiten Pa-
rameter lieber σ statt σ2 nehmen (was auch gelegentlich geschieht), jedoch passt
die hier gewahlte Form eher zur spateren Definition der Multinormalverteilung.
Die Verteilung N(0, 1) mit Erwartungswert 0 und Varianz 1 heißt auch Standard-
normalverteilung.
Die Parameter µ und σ haben fur die Form der Dichtefunktion auch eine an-
schauliche Bedeutung: Sie sind gerade die Stelle des Maximums und der Abstand
von µ zu den Wendepunkten.
Die folgende Abbildung verdeutlicht dies fur die Dichtefunktion einer Variable
mit einer N(1.4, .25)-Verteilung; die Streuung ist hier naturlich .5.
1
1
........................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................... ..........................
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......................
...................
xµ
g(x)
.........................................................................................................................................................................................................................................
.................................
.......................................................................................................................................................................................
..............................................................................................................................................................................................................................................................................................................................................................................................................................................................................................
..
..
..
..
..
..
..
..
..
..
..
.
..
..
..
..
..
..
..
..
..
..
..
...................
......
......
............................. .......................σ ......
......
......
......
......
............................. .......................σ
Die Normalverteilung bleibt bei linearen Transformationen erhalten: Ist x nor-
malverteilt und y = ax+ b mit a 6= 0, so ist auch y normalverteilt.
Man bestimmt leicht den Erwartungswert und die Varianz von y und erhalt ge-
nauer, dass aus x ∼ N(µ, σ2) folgt, dass y ∼ N(aµ+ b, a2σ2) gilt.
Eine Skizze zur Begrundung der Aussage uber lineare Transformationen findet
sich im nachsten Abschnitt.
Eine wichtige Konsequenz ist die, dass die Verteilung der z-Transformierten einer
normalverteilten Variable immer die N(0, 1)-Verteilung ist. Mit Hilfe der Verta-
felung der Standardnormalverteilung N(0, 1) kann man daher konkrete Fragen
nach Wahrscheinlichkeiten, die sich auf normalverteilte Variable beziehen, in der
Regel beantworten.
Eine wichtige Eigenschaft der Standardnormalverteilung ist ihre Symmetrie, die
sich darin ausdruckt, dass ihre Dichtefunktion symmetrisch zur Ordinatenachse
ist. Diese Symmetrie erkennt man unmittelbar an der zugehorigen Dichtefunktion
(1/√
2π) e−z2/2, die fur z und −z immer den gleichen Wert besitzt.
2.5 Verteilungen MS13 149
Von der Normalverteilung ist eine ganze Familie weiterer Verteilungen abgeleitet,
an deren prominenteste Mitglieder nun erinnert werden soll.
Sind z1, . . . , zn unabhangige standardnormalverteilte Variable, so heißt die Ver-
teilung von u =∑z2i auch χ2-Verteilung mit n Freiheitsgraden. Die Abkurzung
hierfur ist u ∼ χ2n.
Man beachte die Form der Definition, die gewissermaßen einen Umweg macht:
Es wird hier gesagt, wie man eine χ2n-verteilte Variable erzeugen kann; eigentlich
geht es jedoch nicht um die Variable selbst, sondern nur um deren Verteilung. Es
wird also ein Standardbeispiel gegeben, wie man zu dieser Verteilung gelangt.
Insbesondere bedeutet die Definition keineswegs, dass jede χ2-verteilte Variable
eine Summe von quadrierten standardnormalverteilten Variablen sein musste.
Das Wort’Freiheitsgrad‘ wird haufig mit df (
’degree of freedom‘) abgekurzt.
Die gerade definierte Verteilung lasst sich etwas verallgemeinern:
Sind z1, . . . , zn unabhangige normalverteilte Variable mit der Varianz 1, fur die
E(z1) = δ ≥ 0 und E(z2) = . . . = E(zn) = 0 gilt, so heißt die Verteilung von
u =∑z2i auch χ2-Verteilung mit n Freiheitsgraden und Nonzentralitatsparameter
δ2. Die Abkurzung hierfur ist u ∼ χ2n, δ2 .
Wie man sieht, ist die zuvor definierte χ2-Verteilung hiervon der Spezialfall, dass
δ = 0 gilt (χ2n ist also dasselbe wie χ2
n,0); diese Verteilung soll zur Unterscheidung
eine zentrale χ2-Verteilung heißen, wahrend die Verteilungen mit δ > 0 auch
nonzentrale Verteilungen genannt werden sollen.
Das Wort’Nonzentralitatsparameter‘ wird oft mit NZP abgekurzt. Leider ist die
Terminologie hier nicht einheitlich, so dass als Nonzentralitatsparameter gele-
gentlich auch eine andere Zahl als δ2 bezeichnet wird.
Ist z eine N(δ, 1)-verteilte Variable, so ist der Erwartungswert von z2 die Summe
1 + δ2 aus der Varianz und dem quadrierten Erwartungswert. Hieraus folgt un-
mittelbar, dass der Erwartungswert einer χ2n, δ2-verteilten Variable gleich n + δ2
ist.
Bei den nachsten beiden Verteilungsklassen werden gleich die allgemeinen Ver-
sionen definiert. Zunachst folgt die t-Verteilung.
Sind z ∼ N(δ, 1) und u ∼ χ2n unabhangig mit δ ∈ R, so heißt die Vertei-
2.5 Verteilungen MS13 150
lung von t = z/√u/n auch t-Verteilung mit n Freiheitsgraden und Nonzen-
tralitatsparameter δ. Die Abkurzung hierfur ist t ∼ tn, δ.
Fur δ = 0 erhalt man als Spezialfall die zentralen t-Verteilungen, die mit tnabgekurzt werden, und die nonzentralen t-Verteilungen sind entsprechend die
mit δ 6= 0.
Ebenso wie die Standardnormalverteilung sind die zentralen t-Verteilungen sym-
metrisch. Dies kann man schließen aus der Tatsache, dass aus t ∼ tn auch −t ∼ tnfolgt; diese Tatsache selber begrundet man analog zu der sogleich folgenden Aus-
sage uber den Zusammenhang von t- und F -Verteilungen.
Sind schließlich u ∼ χ2m, δ2 und v ∼ χ2
n unabhangig, so heißt die Verteilung von
F = (u/m) /(v/n) auch F -Verteilung mit m Zahler- und n Nennerfreiheitsgraden
und Nonzentralitatsparameter δ2. Die Abkurzung hierfur ist F ∼ Fm,n, δ2 .
Wieder heißen die Verteilungen mit δ2 = 0 auch zentrale F -Verteilungen und
haben die Abkurzung Fm,n; die mit δ2 > 0 heißen nonzentrale F -Verteilungen.
Man uberzeugt sich leicht davon, das fur eine tn, δ-verteilte Variable t die Bezie-
hung t2 ∼ F1, n, δ2 gilt. Als Beispiel fur spatere ahnliche Falle soll die Begrundung
hier noch einmal ausfuhrlich gegeben werden.
Man wahlt zu diesem Zweck unabhangige Variablen z ∼ N(δ, 1) und u ∼ χ2n und
bildet die Variable v = z/√
(u/n). Dann ist v definitionsgemaß tn, δ-verteilt, und
t und v besitzen folglich die gleiche Verteilung. Dann mussen auch t2 und v2 die
gleiche Verteilung besitzen.
Fur v2 = z2/(u/n) kann man jedoch die Verteilung leicht bestimmen: Der Zahler
z2 besitzt eine χ21, δ2-Verteilung und ist mit z unabhangig von u. Wegen z2 = z2/1
andert sich am Zahler auch nichts, wenn man durch die Anzahl 1 der Freiheits-
grade teilt. Nach Definion folgt, dass v2 eine F1, n, δ2 besitzt und damit auch t2
diese Verteilung besitzen muss. �
Wem diese Begrundung umstandlich erscheint, der sei daran erinnert, dass aus
der Tatsache, dass t eine t-Verteilung besitzt, keineswegs folgt, dass t auch die
Form der gleichnamigen Variable in der Definition haben muss. Daher ist der
Umweg uber v notwendig.
In der Begrundung wurde außerdem von der plausiblen Tatsache Gebrauch ge-
macht, dass mit z und u auch z2 und u unabhangig sind. Eigentlich musste
2.5 Verteilungen MS13 151
man auch dies begrunden. Die Tatsache ist aber intuitiv so einleuchtend, dass
darauf hier und in ahnlichen Situationen im Folgenden verzichtet werden kann
(abgesehen davon musste eine Begrundung sich auf den allgemeinen Fall stetiger
Zufallsvariablen beziehen, die ja hier sowieso im strengen Sinn nicht behandelt
werden konnen).
Zum Schluss sei ferner erinnert an den Begriff des α-Fraktils einer Verteilung, das
gerade der Wert ist, der bei dieser Verteilung rechts α abschneidet.
Die α-Fraktile werden meist mit der Abkurzung der zugehorigen Verteilung be-
zeichnet, bei denen im Index (gegebenenfalls nach einem Semikolon) α angegeben
ist. Das α-Fraktil der Fm,n-Verteilung ist also beispielsweise Fm,n;α, und es gilt
dann
P(F ≥ Fm,n;α) = α ,
falls F die Fm,n-Verteilung besitzt. Mit P wird hier wie ublich die Wahrschein-
lichkeit bezeichnet.
Man beachte in diesem Zusammenhang den unterschiedlichen Gebrauch von Kom-
ma und Semikolon, von denen das Komma beim Nonzentralitatsparameter ge-
braucht wird und das Semikolon bei der Abkurzung des α-Fraktils.
Gelegentlich wird von der Gleichheit t2n;α/2 = F1, n;α Gebrauch gemacht, die nun
auch noch einmal gezeigt werden soll.
Dazu sei t ∼ tn und k der kritische Wert tn;α/2. Wegen der Symmetrie der t-
Verteilung sind die Wahrscheinlichkeiten P(t ≤ −k) und P(t ≥ k) gleich groß,
namlich α/2. Das Ereignis, dass t2 ≥ k2 ist, setzt sich jedoch gerade aus diesen
beiden disjunkten Teilereignissen zusammen, weshalb P(t2 ≥ k2) = α gilt. Da t2
jedoch die F1, n-Verteilung besitzt, folgt, dass k2 bei dieser Verteilung rechts α
abschneidet, weshalb schließlich in der Tat k2 = F1, n;α gelten muss. �
Haufig sind Variable gewissermaßen nur bis auf einen Faktor χ2-verteilt, und es
ist praktisch, fur solche Situationen eine Abkurzung einzufuhren.
Gilt fur eine Variable u und ein σ2 > 0 die Beziehung u/σ2 ∼ χ2n, δ2 , so soll dies
auch als
u ∼ σ2χ2n, δ2
abgekurzt werden. Diese Abkurzung bedeutet also, dass sich aus u bei Division
durch σ2 eine χ2n, δ2 verteilte Variable ergibt.
Diese Schreibweise ist beispielsweise praktisch bei der Ermittlung kritischer Wer-
2.5 Verteilungen MS13 152
te: Ist eine Variable u gegeben mit u ∼ σ2χ2n, und fragt man nun nach dem Wert,
der bei der Verteilung von u rechts α abschneidet, so ist das gerade das σ2-fache
des Wertes, der bei der Verteilung von u/σ2 rechts α abschneidet – da
u/σ2 ≥ χ2n;α genau dann gilt, wenn u ≥ σ2χ2
n;α
gilt, ist ja
α = P(u/σ2 ≥ χ2
n;α
)= P
(u ≥ σ2χ2
n;α
).
Folglich ist das α-Fraktil der Verteilung von u ∼ σ2χ2n−1 gleich
σ2χ2n;α ,
was sich einfach merken lasst.
Mit dieser Schreibweise lassen sich einige Argumente bei der Herleitung von Ver-
teilungen etwas verkurzen; zwei der wichtigsten Falle sollen nun vorbereitend
behandelt werden.
Feststellung 1. Sind x ∼ N(µ, σ2) und u ∼ σ2χ2n unabhangig, so besitzt der
Quotient t = x/√u/n eine tn, δ-Verteilung mit δ = µ/σ.
Man beachte, dass die Varianz von x gleich dem Faktor bei u ist.
Man schreibt namlich
t =x√u/n
=x/σ√
(u/σ2)/n,
und hat auf der rechten Seite den Quotienten aus (x/σ) ∼ N(µ/σ, 1) und aus
der Wurzel der durch n geteilten Variable (u/σ2) ∼ χ2n, wobei (x/σ) und (u/σ2)
unabhangig sind. Der Quotient auf der rechten Seite – und damit auch t – besitzt
folglich in der Tat eine tn, δ-Verteilung mit δ = µ/σ. �
Feststellung 2. Sind u ∼ σ2χ2m, δ2 und v ∼ σ2χ2
n unabhangig, so hat der
Quotient (u/m)/(v/n) eine Fm,n, δ2-Verteilung.
Genau wie eben schreibt man namlich
F =u/m
v/m=
(u/σ2)/m
(v/σ2)/n
und erhalt auf der rechten Seite den Quotienten zweier unabhangiger, durch ih-
re Freiheitsgrade geteilter χ2-Variablen. Der Quotient rechts besitzt also eine
Fm,n, δ2-Verteilung und damit auch F . �
2.5 Verteilungen MS13 153
Die multivariate Normalverteilung. Zur Vorbereitung der Definition der
multivariaten Normalverteilung sei vereinbart, im Eindimensionalen auch solche
Variablen als normalverteilt zu bezeichnen, die Varianz 0 besitzen, also (fast
sicher) nur einen Wert annehmen. Diese Erweiterung des Begriffs der eindimen-
sionalen Normalverteilung um einen sozusagen degenerierten Fall ist harmlos, da
man an der Varianz einer in diesem neuen Sinn normalverteilten Variable sofort
sehen kann, ob es sich um eine ubliche Normalverteilung oder um einen degene-
rierten Fall handelt. Die Erweiterung ist von Vorteil, weil sie bei der adaquaten
Behandlung der multivariaten Normalverteilung lastige Fallunterscheidungen er-
spart, die sonst fast standig gemacht werden mussten.
Ein p-dimensionaler Zufallsvektor x heißt jetzt multinormalverteilt, wenn jede
Linearkombination der Komponenten von x normalverteilt ist.
Es wird also gefordert, dass fur jeden (Koeffizienten-)Vektor a und jede additive
Konstante die (eindimensionale) Linearkombination∑aixi + b = a′x + b der
Komponenten xi von x normalverteilt ist. Hier ist die additive Konstante b offen-
sichtlich irrelevant, da eine Variable u genau dann normalverteilt ist, wenn u+ b
normalverteilt ist; bei der Prufung, ob das Kriterium der Definition erfullt ist,
kann man also das oft lastige b auch weglassen, was in Zukunft meist so geschehen
soll.
Die Forderung, dass alle a′x normalverteilt sein sollen, ist bedeutend starker als
die Forderung, dass dies nur fur die xi gelten soll. Dass bei einem multinormal-
verteilten x auch alle xi normalverteilt sind, folgt leicht, wenn man fur a die
Einheitsvektoren ei wahlt wegen xi = e′ix.
Manchmal gebraucht man statt der Formulierung, dass x multinormalvarteilt ist,
auch die Alternativformulierung, dass die xi gemeinsam normalverteilt sind.
Aus der Definition folgt unmittelbar, dass fur ein multinormalverteiltes x auch
jeder durch eine affine Transformation y = Ax + b aus x hervorgehende Zufalls-
vektor y multinormalverteilt ist.
Ist namlich y q-dimensional und a jetzt ein beliebiger q-Vektor, so ist
a′y = a′(Ax + b) = (A′a)′x + a′b ,
was eine Linearkombination der xi ist mit Koeffizientenvektor A′a und additiver
Konstante a′b. Wegen der Multinormalverteilung von x ist also a′y normalver-
teilt, und dies impliziert, da a beliebig war, die Multinormalverteilung von y.
2.5 Verteilungen MS13 154
Nachdem multinormalverteilte Vektoren solch schone Eigenschaften haben, fragt
man sich naturlich, ob es uberhaupt welche gibt.
Hier gilt nun der folgende mathematisch schon etwas tiefere und daher hier nur
zitierte Satz:
Feststellung 3. Sind x1, . . . , xp unabhangige normalverteilte Variablen, so ist
x = (x1, . . . , xp)′ multinormalverteilt. �
Dass es unabhangige normalverteilte Variablen gibt, besser: dass sich solche kon-
struieren lassen, ist ebenfalls begrundungsbedurftig, durfte jedoch plausibel sein
und ist auch tatsachlich richtig.
Erstaunlich ist auch der nachste Satz, der partielle Umkehrung des vorangegan-
genen ist und der hier ebenfalls nur zitiert werden kann:
Feststellung 4. Sind x1, . . . , xp gemeinsam normalverteilt und paarweise unkor-
reliert, so sind sie gemeinsam unabhangig. �
Hier folgt also aus der Unkorreliertheit die Unabhangigkeit, was deutlich darauf
hinweist, wie stark der Begriff der gemeinsamen Normalverteiltheit ist.
Um auch den degenerierten Fall einzubeziehen, dass eine oder mehrere der Va-
riablen die Varianz 0 besitzen, durfte man eigentlich nicht von Korrelationen
sprechen, sondern musste fordern, dass die Kovarianzen von je zwei Variablen
immer 0 sind. Diese Formulierung ist jedoch ziemlich unhandlich, so dass es bei
der kleinen Unkorrektheit bleiben soll, die sich ja wie hier so auch in ahnlichen
Fallen im Folgenden leicht korrigieren lasst.
Der erste der beiden Satze zeigt, dass es Multinormalverteilungen gibt, deren
Kovarianzmatrix eine Diagonalmatrix ist, wobei die Diagonalelemente beliebig
vorgegeben werden konnen (sie durfen dabei naturlich nicht negativ sein).
Es stellt sich die Frage, ob es auch Multinormalverteilungen gibt, die eine beliebige
vorgegebene Kovarianzmatrix haben, die naturlich positiv semidefinit sein muss.
Auch den Erwartungswertvektor mochte man vielleicht vorschreiben. In der Tat
gilt:
Feststellung 5. Ist Σ eine positiv semidefinite (p × p)-Matrix und µ ein p-
Vektor, so gibt es eine multinormalverteilte Variable x, deren Erwartungswert µ
und deren Kovarianzmatrix Σ ist.
2.5 Verteilungen MS13 155
Man zerlegt namlich beispielsweise Σ nach dem Spektralsatz in Σ = GDG′ und
setzt dann p unabhangige normalverteilte Variablen, deren Erwartungswerte 0
sind, und die als Varianzen die Diagonalelemente von D besitzen, zu einem p-
Zufallsvektor u zusammen. Der Zufallsvektor x = Gu + µ ist dann multinormal
und hat die angestrebten Kennwerte. �
Weiterhin ist die Frage wichtig, ob eine Multinormalverteilung durch Erwartungs-
wertvektor und Kovarianzmatrix schon eindeutig bestimmt ist. Auch diese Frage
kann positiv beantwortet werden:
Feststellung 6. Durch den Erwartungswert µ und die Kovarianzmatrix Σ ist
eine Multinormalverteilung eindeutig bestimmt.
Ist namlich x eine p-dimensionale multinormalverteilte Variable mit diesen Kenn-
werten und schreibt man wieder Σ = GDG′, so ist u = G′x auch multinor-
malverteilt mit Kovarianzmatrix D. Die Komponenten von u sind daher unkor-
reliert und normalverteilt, wegen der gemeinsamen Normalverteilung also auch
unabhangig; damit ist (aufgrund der Unabhangigkeit) ihre gemeinsame Vertei-
lung eindeutig durch die Einzelverteilungen festgelegt. Damit liegt aber auch die
Verteilung von x = Gu eindeutig fest. �
Diese Erorterungen berechtigen dazu, von der Multinormalverteilung mit Erwar-
tungswert µ und Kovarianzmatrix Σ zu sprechen, die kurz mit N(µ,Σ), oder,
wenn die Dimension explizit mit aufgenommen werden soll, mit Np(µ,Σ) bezeich-
net werden soll. Dafur, dass eine Variable x diese Verteilung besitzt, schreibt man
auch kurz x ∼ Np(µ,Σ).
Ist die Kovarianzmatrix Σ einer multinormalverteilten Variable x singular, so hat
sich schon in Kapitel 2.3 gezeigt, dass dann x mit Wahrscheinlichkeit 1 Werte
in dem affinen Unterraum annimmt, dessen zugehoriger linearer Unterraum von
den Spalten von Σ aufgespannt wird und den Erwartungswertvektor µ enthalt.
Ist dagegen Σ regular, so lasst sich die Verteilung von x durch eine Dichtefunktion
charakterisieren, deren Form besonders Interessierten jetzt zumindest plausibel
gemacht werden soll.
Zunachst soll der Fall betrachtet werden, dass p unabhangige standardnormal-
verteilte Variablen z1, . . . , zp vorliegen. Die Dichtefunktion einer standardnormal-
2.5 Verteilungen MS13 156
verteilten Variable z ist bekanntlich
1√2π
e−1
2z2.
Da die zi unabhangig sind, besitzen sie eine gemeinsame Dichte, die gleich dem
Produkt der Randdichten ist. Wegen exey = ex+y ist diese gemeinsame Dichte im
Punkt z = (z1, . . . , zp)′ gleich
1√2π
p e−1
2
∑z2i
=1√2π
p e−1
2z′z
.
Man sieht, dass die Dichtefunktion auf den Oberflachen von Kugeln um den
Nullpunkt uberall den gleichen Wert annimmt.
Nun soll es um die Dichtefunktion von x ∼ Np(µ,Σ) gehen. Schreibt man mit
dem Spektralsatz Σ = GDG′ und setzt A = GD1/2, so sind wegen der In-
vertierbarkeit von Σ alle Diagonalelemente von D großer als Null, weshalb A
invertierbar ist und die Eigenschaften AA′ = Σ und A−1ΣA′−1 = I hat.
Die affine Transformation z = A−1(x−µ) (ubrigens eine multivariate z-Transfor-
mation) liefert ein z, welches multinormalverteilt ist mit dem Erwartungswert
A−1(µ − µ) = 0 und der Kovarianzmatrix A−1ΣA′−1 = I. Die Dichtefunktion
von z ist daher gerade die eben beschriebene.
Man kann den Ubergang von x zu z auch als affinen Koordinatenwechsel auffas-
sen. Tut man dies, so ist es nicht unplausibel und auch richtig, dass die Dichte-
funktion im Wesentlichen die gleiche bleibt, nur dass sie in anderen Koordinaten
geschrieben wird – genauer erhalt man die Werte der Dichtefunktion im We-
sentlichen dadurch, dass man die Werte der Dichtefunktion von z einfach fur
das zurucktransformierte x ubernimmt. Eine Anderung muss jedoch noch vorge-
nommen werden: Da sich bei der affinen Transformation die (p-dimensionalen)
Volumina andern, muss die Dichtefunktion mit einem Faktor multipliziert wer-
den, der dies kompensiert (das Gesamtvolumen (jetzt (p+ 1)-dimensional) unter
der Dichtefunkion muss ja 1 bleiben).
Betrachtet man die umgekehrte Transformation von z nach x, so ist deren li-
nearer Anteil gerade A, so dass sich Volumina bei dieser umgekehrten Transfor-
mation um den Faktor | det(A)| andern. Wurde man nun einfach die Werte der
Dichtefunktion von z bei der Rucktransformation beibehalten, so wurden sich
Volumina ebenfalls um den Faktor | det(A)| andern, da sich die Grundflachen
2.5 Verteilungen MS13 157
um diesen Faktor andern, wahrend die Hohen gleichbleiben. Die Flache unter der
rucktransformierten Dichtefunktion ware also um den Faktor | det(A)| verkehrt,
was man aber nun leicht dadurch kompensiert, dass man die rucktransformierte
Dichte noch mit 1/| det(A)| multipliziert.
In der folgenden Abbildung wird dies fur den einfachsten Fall einer eindimensio-
nalen Normalverteilung illustriert. Die Variable x soll dabei Erwartungswert 1
und Streuung 1/2 haben. In der folgenden Abbildung findet sich rechts die Dich-
tefunktion der Standardnormalverteilung (mit der Flache 1 unter der Kurve) und
links gepunktet die Funktion, die man erhalt, wenn man die Werte dieser Dichte-
funktion direkt uber die umgekehrte z-Transformation in den x-Raum ubernimmt
(diese Ubernahme ist fur drei konkrete Werte angedeutet). Offenbar wird dabei
die entstehende Flache zu klein, und zwar genauer um den Faktor 1/2, der hier
der Koeffizient bei der Umkehrung der z-Transformation ist (in diesem Fall ist
die Kovarianz’matrix‘ von x gleich (1/4), die
’Matrix‘ A also (1/2) mit Determi-
nante 1/2). Durchgezogen ist daruber die mit 2 multiplizierte rucktransformierte
Dichte, die zur richtigen Gesamtflache 1 fuhrt.
1
.............................................................................................................................................................................................................................................................................................. ..........................
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
......................
...................
z..........................................................................
...................................................................
.......................................................
................................................................................................................................................................................................................................................................................................................................................................
.......
.......
.......
.......
...
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.....
1
.................................................................................................................................................................................................................................................................................................................................................... ..........................
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
......................
...................
x...........................................
................................................................................................................................................................................................................................................................................................................................................................................................................
...........
.........
......................................................................
..
..
..
..
.
..
..
..
..
..
..
..
..
..
..
.
Die Dichtefunktion der Np(µ,Σ)-Verteilung in einem Punkt x ist also gleich der
Dichtefunktion der Np(0, I)-Verteilung im Punkt z = A−1(x−µ), dividiert durch
den Betrag der Determinante von A. Da die Determinante von Σ = AA′ nach
den Rechenregeln fur die Determinante gleich det(A) det(A′) = det(A)2 ist, ist
| det(A)| =√
det(Σ). Die Dichtefunktion der Np(µ,Σ)-Verteilung im Punkt x
wird dann insgesamt zu
1√det(Σ)
√2π
p e−1
2(A−1(x− µ))′(A−1(x− µ))
=
1√det(2πΣ)
e−1
2(x− µ)′A′−1A−1(x− µ)
=
1√det(2πΣ)
e−1
2(x− µ)′Σ−1(x− µ)
.
2.5 Verteilungen MS13 158
Man erkennt, dass die Punkte x, an denen diese Funktion einen vorgegebenen
Wert annimmt (im zweidimensionalen liefern solche Punkte eine Hohenlinie der
Dichtefunktion) gerade diejenigen sind, die eine feste Mahalanobisdistanz von µ
haben. Allgemein ist die Menge dieser Punkte also die Oberflache eines Ellipsoids
E(Σ, µ, r) fur geeignetes r.
Die folgende Graphik zeigt einige Hohenlinien der N2(µ,Σ)-Verteilung mit
µ =
(2
1
)und Σ =
(2 .8
.8 .8
):
1
1
....................................................................................................................................................................................................................................................................................................................................................................................... ..........................
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......................
...................
x1
x2
p................................................
...................................................................................................................................................................................................................
...............................................................................................................................................................................................................................................
...................................................................................................................................
.................................................................................................................................................................................................................................................................................................
................................
.................................................................................................................................
.........................................................................................................................................................................................................................................................................................................................................................
.........................................
...............................................................................................................................................................
......................................................................................................................................................................................................................................................................................................................................................................................................
.................................
................................................................................................................................................................................................
.............................................................................................................................................................................................................................................................................................................................................................................................................................................
..........................................
.............................................
..............................................................................................................................................................................................................
....................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................
............................................
.................................
.......................................................................................................................................................................................................................................................................
............................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................
..............................................
...................................
........................
....................................................................................................................................................................................................................................................................................................
.............................
............................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................
..........................................
..................................
............................
Nun sollen mehrere Zufallsvektoren auf einmal betrachtet werden. Nutzlich ist
die folgende Sprechweise:
Zwei Zufallsvektoren x und y heißen gemeinsam (multi)normalverteilt, falls der
Zufallsvektor, der dadurch entsteht, dass man x und y aneinanderfugt, multinor-
malverteilt ist.
Das Aneinanderfugen macht dabei aus einem p-Vektor x = (x1, . . . , xp)′ und
einem q-Vektor y = (y1, . . . , yq)′ den (p+q)-Vektor (x1, . . . , xp, y1, . . . , yq)
′. Dabei
mussen x und y naturlich auf dem gleichen Wahrscheinlichkeitsraum definiert
sein – man konnte beispielsweise an zwei mehrdimensionale Merkmale auf der
gleichen Population denken (die, am Rande bemerkt, dann aber uberabzahlbar
unendlich (!) groß sein musste).
Die Verteilung des aus zwei Variablen x und y zusammengesetzten Vektors soll
auch die gemeinsame Verteilung von x und y heißen.
Zwei unmittelbar folgende Eigenschaften gemeinsam normalverteilter Variablen
sollen gleich genannt werden:
Feststellung 7. Sind x und y gemeinsam multinormalverteilt und sind die Zu-
2.5 Verteilungen MS13 159
fallsvektoren u = Ax + b und v = Cy + d affine Transformationen, so sind auch
u und v gemeinsam multinormalverteilt.
Man erhalt namlich den aus u und v zusammengesetzten Vektor als affine Trans-
formation des aus x und y zusammengesetzten, wenn man als linearen Anteil die
Matrix (A 0
0 C
)wahlt und als Verschiebung den aus b und d zusammengesetzten Vektor. �
Als zweite unmittelbare Konsequenz ergibt sich beispielsweise
Feststellung 8. Die Summe x + y von zwei gemeinsam multinormalverteilten
p-Vektoren x und y ist auch multinormalverteilt.
Der Vektor x + y ergibt sich namlich aus dem aus x und y zusammengesetzten
Vektor durch Anwendung der linearen Abbildung(I I
),
die sich aus zwei (p× p)-Einheitsmatrizen zusammensetzt. �
Ebenso argumentiert man fur Differenzen und allgemeiner fur Linearkombinatio-
nen.
Ganz analog ist die gemeinsame Multinormalverteiltheit fur mehr als zwei Zu-
fallsvektoren definiert; als Konsequenzen erhalt man beispielsweise, dass affi-
ne Transformationen y1, . . . ,ym von gemeinsam multinormalverteilten Vektoren
x1, . . . ,xm auch wieder gemeinsam multinormalverteilt sind, oder dass jede Line-
arkombination∑aixi von gemeinsam multinormalverteilten Vektoren xi ihrer-
seits multinormalverteilt ist.
Dass bei gemeinsam normalverteilten Variablen Unabhangigkeit und Unkorre-
liertheit zusammenfallen, vererbt sich auf gemeinsam multinormalverteilte, wie
jetzt gezeigt werden soll.
Sind zunachst zwei unabhangige Variablen x und y jeweils multinormalverteilt,
so sind sie auch gemeinsam multinormalverteilt, denn eine Linearkombination aus
den Komponenten xi von x und yj von y lasst sich durch Umordnen als Sum-
me einer Linearkombination der xi und einer Linearkombination der yj schreiben.
Diese beiden Linearkombinationen sind jedoch unabhangig, da sie Funktionen un-
abhangiger Variablen sind, und andererseits normalverteilt. Folglich ist auch ihre
2.5 Verteilungen MS13 160
Summe normalverteilt, und das war zu zeigen. Die Matrix C(x,y) der Kovarian-
zen von zwei solchen unabhangigen Variablen x und y ist ubrigens offensichtlich
gleich 0.
Sind dagegen zwei Variablen x und y gemeinsam multinormalverteilt und ist die
Matrix ihrer Kovarianzen gleich 0, so sind sie unabhangig. Zur Begrundung be-
trachtet man zwei Variablen, die die gleiche Verteilung wie x und y haben und
zusatzlich unabhangig sind. Deren gemeinsame Verteilung hat dann den gleichen
Erwartungswert und die gleiche Kovarianzmatrix wie die gemeinsame Verteilung
von x und y und ist ebenfalls eine Multinormalverteilung. Da Multinormalver-
teilungen jedoch durch Erwartungswert und Kovarianzmatrix bereits vollstandig
bestimmt sind, mussen die beiden Verteilungen ubereinstimmen und folglich auch
x und y unabhangig sein.
Diese Definitionen und Argumente lassen sich ohne weiteres auf mehr als zwei
Variablen ubertragen, und man erhalt zusammenfassend:
Feststellung 9. Sind x1, . . . ,xm gemeinsam unabhangig und jeweils multinor-
malverteilt, so sind sie auch gemeinsam multinormalverteilt. �
Feststellung 10. Sind x1, . . . ,xm gemeinsam multinormalverteilt, so sind sie
gemeinsam unabhangig genau dann, wenn die Matrizen der Kovarianzen von je
zwei verschiedenen Variablen alle die Nullmatrix sind. �
Haufig kommt die Situation vor, dass man aus einer multinormalverteilten Va-
riable x mit Hilfe von verschiedenen affinen Abbildungen mehrere neue Variable
yi = Aix + bi herstellt. Dann kann man die aus den yi zusammengesetzte Varia-
ble auch durch eine geeignete affine Abbildung aus x gewinnen (der lineare Anteil
besteht gerade aus den untereinander zu einer großen Matrix zusammengesetzten
Ai, wahrend die Verschiebung der aus den bi zusammengesetzte Vektor ist). Die
yi sind folglich gemeinsam multinormalverteilt. Ist Σ die Kovarianzmatrix von x,
so ist die Matrix der Kovarianzen C(yi,yj) gleich AiΣA′j. Ist eine solche Matrix
C(yi,yj) gleich 0, so sind yi und yj unabhangig, sind alle (fur i 6= j) gleich der
Nullmatrix, so sind die yi sogar gemeinsam unabhangig.
Feststellung 11. Sind y1, . . . ,yk Variable, die durch affine Transformationen
mit linearen Anteilen A1, . . . ,Ak aus einer multinormalverteilten Variable x mit
Kovarianzmatrix Σ hervorgehen, so sind diese Variablen auch gemeinsam multi-
normalverteilt. Die Matrix der Kovarianzen C(yi,yj) von yi und yj ist AiΣA′j.
Ist C(yi,yj) gleich 0, so sind yi und yj unabhangig. Sind alle C(yi,yj) fur i 6= j
2.5 Verteilungen MS13 161
gleich 0, so sind die yi gemeinsam unabhangig. �
Univariate Anwendungen. Die Ergebnisse der letzten Abschnitte gestatten
es, im Univariaten einige bekannte Sachverhalte einfach zu begrunden.
Feststellung 12. Es seien x1, . . . , xn unabhangige normalverteilte Variable mit
gleichem Erwartungswert µ und gleicher Varianz σ2. Dann sind Mittelwert x und
korrigierte Stichprobenvarianz s2 unabhangig, und es gilt
x ∼ N(µ, σ2/n) und (n− 1)s2 ∼ σ2χ2n−1 .
Die Formulierung (n − 1)s2 ∼ σ2χ2n−1 ist definitionsgemaß gleichwertig zu der
Aussage (n− 1)s2/σ2 ∼ χ2n−1.
Zur Begrundung setzt man die xi zu einem Zufallsvektor x zusammen, fur den
dann x ∼ Nn(µ1, σ2I) gilt. Ist nun wie im ersten Abschnitt L eine Orthonor-
malbasis des zu 1 senkrechten Unterraums, so sind 1′x und u = L′x gemeinsam
normalverteilt, und die Matrix ihrer Kovarianzen ist
1′(σ2I)L′′ = σ21′L = 0 ,
weshalb 1′x und u unabhangig sind und damit auch Mittelwert x = 1′x/n und
korrigierte Stichprobenvarianz s2 = u′u/(n − 1), die sich ja als Funktionen aus
diesen Variablen ergeben (’damit‘ sollte intuitiv einleuchten, bedurfte jedoch ei-
gentlich noch einer Begrundung). Die Verteilung des Mittelwertes ist schon be-
kannt, es bleibt die von s2 zu bestimmen. Zunachst gilt
u ∼ N(L′(µ1),L′(σ2In)L′′) = N(0, σ2L′L) = N(0, σ2In−1) .
Teilt man also die Komponenten von u durch σ, so erhalt man (n− 1) standard-
normalverteilte Variable. Es ergibt sich
u′u/σ2 =n−1∑i=1
(ui/σ)2 ∼ χ2n−1 ,
und da s2 = u′u/(n− 1) ist, folgt die letzte Behauptung uber die Verteilung von
s2. �
Wesentlich in der Begrundung war die Moglichkeit, Mittelwert und Varianz aus
normalverteilten Variablen herzustellen, die aus x durch Projektionen auf ortho-
gonale Unterraume hervorgehen. Die Orthogonalitat der Unterraume fuhrt dann
2.5 Verteilungen MS13 162
zur Unabhangigkeit der neuen Variablen. Dies ist der zentrale Gedanke auch bei
vielen folgenden Argumentationen.
Die empirische Varianz ergab sich eben bis auf einen Vorfaktor als der quadrierte
Abstand des auf einen Unterraum projizierten Datenvektors zum Nullpunkt. Das
Ergebnis war (bis auf einen Faktor) χ2-verteilt, wobei die Anzahl der Freiheits-
grade gleich der Dimension des Unterraums war.
Derartige Situationen tauchen haufig auf und sollen deshalb etwas allgemeiner
untersucht werden.
Ausgangspunkt ist eine Variable x aus n Komponenten, die multinormalverteilt
sein soll mit einem Erwartungswert µ und der Kovarianzmatrix σ2In – die Situa-
tion ist also insofern etwas allgemeiner als die eben betrachtete, als die Erwar-
tungswerte der xi nicht ubereinstimmen mussen.
Nun soll x durch eine orthogonale Projektion P auf einen Unterraum U der
Dimension m projiziert werden. Gefragt ist nach der Verteilung von ‖Px‖2, also
der quadrierten Lange des projizierten Zufallsvektors Px.
Die zu untersuchende neue Variable ‖Px‖2 lasst sich ubrigens wegen
‖Px‖2 = (Px)′(Px) = x′P′Px = x′Px
(man beachte, dass P orthogonale Projektion ist) auch als x′Px schreiben, was
die passendere Formulierung fur spatere multivariate Verallgemeinerungen ist.
Zur Beantwortung der Frage nach der Verteilung dieser Variablen versieht man U
zunachst wieder mit einer Orthonormalbasis, die jetzt so gewahlt werden kann,
dass der erste Basisvektor ein positives Vielfaches von Pµ ist (falls Pµ gleich
0 ist, entfallt diese Bedingung). Die Vektoren der Basis seien wieder zu einer
(n × m)-Matrix L zusammengestellt. Fur diese Matrix gilt also L′L = Im und
außerdem P = L(L′L)−1L′ = LL′; ferner erhalt man die Koordinaten u von Px
bezuglich der gewahlten Basis mit Hilfe der Matrix (L′L)−1L′ = L′ als u = L′x.
Damit gilt
‖Px‖2 = x′Px = x′LL′x = (L′x)′(L′x) = u′u ,
was man auch alternativ leicht wegen der Tatsache einsieht, dass man Skalar-
produkte in einem Unterraum aquivalent auch mit den Koordinatenvektoren
bezuglich einer Orthonormalbasis bilden kann.
2.5 Verteilungen MS13 163
Es bleibt die Verteilung von u′u zu untersuchen. Fur die Verteilung von u gilt
u ∼ Nm(L′µ,L′(σ2In)L′′) = Nm(L′µ, σ2L′L) = Nm(L′µ, σ2Im) .
Zunachst ist L′µ zu bestimmen. Nach Wahl der Basis kann aber hier nur die
erste Komponente von 0 verschieden sein; sie ist genauer gleich ‖Pµ‖. Dividiert
man jetzt wieder die Komponenten von u durch σ, so erhalt man unabhangige
normalverteilte Variablen, die alle Varianz 1 haben, und von denen nur die erste
einen (moglicherweise) von Null verschiedenen Erwartungswert besitzt, namlich
δ := ‖Pµ‖/σ ≥ 0. Daher gilt
‖Px‖2/σ2 = u′u/σ2 =m∑i=1
(ui/σ)2 ∼ χ2m, δ2 mit δ2 = ‖Pµ‖2/σ2 .
Feststellung 13. Ist x ∼ Nn(µ, σ2I) und P eine orthogonale Projektion auf
einen Unterraum der Dimension m, so gilt
‖Px‖2 ∼ σ2χ2m, δ2 mit δ2 = ‖Pµ‖2/σ2 . �
Alternativ kann man dies auch formulieren als
x′Px ∼ σ2χ2m, δ2 mit δ2 = µ′Pµ/σ2 ;
in beiden Formulierungen erkennt man ubrigens, dass der Nonzentralitatspara-
meter δ2 aus µ genauso gebildet wird wie die untersuchte Variable aus x (bis auf
die Division durch σ2).
Ein Spezialfall ist der, dass die Projektion die identische Abbildung I ist, wobei
naturlich auf den Rn selber’projiziert‘ wird. Es folgt:
‖x‖2 ∼ σ2χ2n, δ2 mit δ2 = ‖µ‖2/σ2 .
Es sollen nun zunachst zwei Schlussfolgerungen gezogen werden, die die χ2-
Verteilung betreffen.
Feststellung 14. Sind x1, . . . , xn unabhangige normalverteilte Variablen, die alle
die gleiche Varianz σ2 besitzen und Erwartungswerte µi ∈ R, so gilt∑x2i ∼ σ2χ2
n, δ2 mit δ2 =∑
µ2i
/σ2 .
2.5 Verteilungen MS13 164
Hier wahlt man als orthogonale Projektion die identische Abbildung I und beruck-
sichtigt, dass der Erwartungswert der zu x zusammengefassten Variablen gleich
(µ1, . . . , µn)′ ist. �
Ein Spezialfall ist hier der, dass alle Varianzen 1 sind; dann ist die Summe
der quadrierten Variablen χ2-verteilt mit n Freiheitsgraden und dem Nonzentra-
litatsparameter, der sich als Summe der quadrierten Erwartungswerte errechnet.
Die nachste Folgerung betrifft die Summe von zwei unabhangigen χ2-Variablen.
Feststellung 15. Sind u1 ∼ χ2n1, δ21
und u2 ∼ χ2n2, δ22
unabhangig, so gilt
u1 + u2 ∼ χ2n1+n2, δ21+δ
22.
Die Summe unabhangiger χ2-verteilter Variablen ist also wieder χ2-verteilt, wobei
sich die Freiheitsgrade und die Nonzentralitatsparameter addieren.
Zur Begrundung wahlt man n1 + n2 unabhangige normalverteilte Variablen xi,
die alle die Varianz 1 haben, und deren Erwartungswerte alle 0 sind bis auf die
von x1 und xn1+1, die δ1 und δ2 sein sollen. Bildet man dann v1 als Summe der
quadrierten ersten n1 Variablen und v2 als Summe der quadrierten letzten n2,
so sind v1 und v2 unabhangig und haben die gleichen Verteilungen wie u1 und
u2. Da wegen der Unabhangigkeitsvoraussetzung auch die gemeinsame Verteilung
von (u1, u2) mit der von (v1, v2) ubereinstimmt, folgt, dass auch die Verteilungen
von u1 +u2 und v1 + v2 gleich sind. Da v1 + v2 aber die Summe aller x2i ist, ergibt
sich die Behauptung unmittelbar aus der letzten Feststellung. �
Naturlich gilt eine entsprechende Feststellung bei analoger Begrundung auch fur
die Summe von mehr als zwei unabhangigen χ2-verteilten Variablen. Allgemeiner
folgert man daraus (mit Division durch σ2) auch, dass fur die Summe u von
unabhangigen Variablen ui ∼ σ2χ2ni, δ2i
auch wieder u ∼ σ2χ2n, δ2 gilt mit n =
∑ni
und δ2 =∑δ2i .
In den hier betrachteten Situationen einer N(µ, σ2I)-verteilten Variable x kommt
es oft vor, dass man nicht nur mit einer Projektion arbeitet, sondern mit mehre-
ren, oder dass auch noch eine Linearkombination der Variablen eine Rolle spielt.
Wichtig ist es dann oft, dass die auf diese Weise entstehenden Variablen un-
abhangig sind.
Es seien also jetzt bei weiter gleichen Voraussetzungen P1 und P2 zwei ortho-
gonale Projektionen auf Unterraume U1 und U2. Sind die Unterraume, auf die
2.5 Verteilungen MS13 165
jeweils projiziert wird, orthogonal, so sind ‖P1x‖2 und ‖P2x‖2 unabhangig.
Sind namlich L1 und L2 wieder Orthonormalbasen von U1 und U2 und u1 = L′1x
und u2 = L′2x die Koordinatenvektoren der Projektionen von x bezuglich der
gewahlten Basen, so sind u1 und u2 gemeinsam normalverteilt und haben als
Matrix der Kovarianzen
C(u1,u2) = L′1(σ2I)L′′2 = σ2L′1L2 = 0
wegen der Orthogonalitat der beiden Unterraume. Folglich sind u1 und u2 und
damit auch ‖P1x‖2 und ‖P2x‖2 unabhangig. Entsprechend argumentiert man
fur mehrere Unterraume und erhalt
Feststellung 16. Ist x ∼ Nn(µ, σ2I) und sind P1, . . . ,Pk orthogonale Projek-
tionen auf paarweise orthogonale Unterraume, so sind die Variablen ‖Pix‖2 ge-
meinsam unabhangig. �
Genauso argumentiert man, wenn neben einer orthogonalen Projektion Px noch
eine affine Transformation y = Ax + b betrachtet wird. Falls dann die Zeilen
von A senkrecht auf dem Unterraum U stehen, auf den projiziert wird, so sind
y und ‖Px‖2 unabhangig. Ist namlich wie eben L eine Orthonormalbasis von U
und u = L′x, so ist die Kovarianzmatrix von y und u gleich σ2AL = 0.
Feststellung 17. Ist x ∼ Nn(µ, σ2I), ferner P eine orthogonale Projektion auf
einen Unterraum U und y = Ax + b, wobei die Zeilen von A senkrecht auf U
stehen (d.h. AP = 0), so sind die Variablen ‖Px‖2 und y unabhangig. �
In den beiden vorangehenden Feststellungen kann man naturlich ‖Pix‖2 bzw.
‖Px‖2 auch durch x′Pix bzw. x′Px ersetzen, was die Formulierungen den spateren
multivariaten Verallgemeinerungen ahnlicher macht.
Als eine letzte univariate Anwendung soll nun noch die einfaktorielle Varianzana-
lyse besprochen werden. In J Bedingungen sollen also Daten erhoben werden, wo-
bei die Anzahl der Daten yij in Bedingung j gleich nj ist. Es werden die ublichen
Voraussetzungen gemacht, namlich die, dass die yij gemeinsam unabhangig sind
und als Verteilungen Normalverteilungen mit Erwartungswerten µj und Varianz
σ2 besitzen.
Fasst man nun wie schon in Kapitel 2.2 die Daten zu einem Zufallsvektor der
Lange N zusammen, so kann man die Voraussetzungen jetzt auch so formulieren,
dass y eine N(µ, σ2IN)-Verteilung besitzt, wobei der Erwartungswertvektor µ
dadurch entsteht, dass man alle Daten yij durch ihre Erwartungswerte µj ersetzt.
2.5 Verteilungen MS13 166
Damit liegt genau die gerade besprochene Situation vor. In Kapitel 2.2 hatte
sich bereits ergeben, dass die Quadratsummen SSb und SSw auch interpretiert
werden konnen als die quadrierten Langen des auf Unterraume Vb und Vw pro-
jizierten Datenvektors; sind die zugehorigen Projektionen wieder Pb und Pw,
so war SSb = ‖Pby‖2 = y′Pby und SSw = ‖Pwy‖2 = y′Pwy, wobei die Al-
ternativschreibweisen schon im Hinblick auf die multivariate Varianzanalyse mit
angefuhrt werden.
Die beiden Unterraume Vb und Vw hatten die Dimensionen J − 1 und N − J
und waren zudem orthogonal. Es folgt nun, dass damit SSb/σ2 und SSw/σ
2
unabhangige χ2-Verteilungen mit J − 1 und N − J Freiheitsgraden besitzen,
deren Nonzentralitatsparameter ‖Pbµ‖2/σ2 und ‖Pwµ‖2/σ2 sind.
Die Werte von ‖Pbµ‖2 und ‖Pwµ‖2 wurden in Kapitel 2.2 schon bestimmt zu∑njα
2j und 0, wobei die αj gerade die Effektgroßen µj − µ sind. Die Nonzentra-
litatsparameter sind daher δ2 =∑njα
2j/σ
2 und 0.
Zusammengefasst sind also SSb ∼ σ2χ2J−1, δ2 und SSw ∼ σ2χ2
N−J unabhangig.
Damit kann schließlich die Verteilung des F -Bruchs bestimmt werden: Wegen
F =MSbMSw
=SSb/(J − 1)
SSw/(N − J)
und Feststellung 2 gilt
F ∼ FJ−1, N−J, δ2 mit δ2 =∑
njα2j
/σ2 .
Unter der Nullhypothese der Gleichheit aller µj ist der Nonzentralitatsparameter
0 und die Verteilung eine (zentrale) FJ−1, N−J -Verteilung, weshalb man nahelie-
genderweise als Regel fur den Test, ob alle µj gleich sind, auf dem Signifikanzni-
veau α die Regel wahlt, die Nullhypothese dann zu verwerfen, wenn sich
F ≥ FJ−1, N−J ;α
ergibt.
Den von den wahren µj und σ2 abhangenden Nonzentralitatsparameter δ2 kann
man schließlich zur Bestimmung der Power des Tests verwenden.
Mahalanobisdistanz bei Normalverteilung. In diesem Abschnitt soll die
Mahalanobisdistanz vom Erwartungswert bei einer Np(µ,Σ)-verteilten Variable
2.5 Verteilungen MS13 167
x mit invertierbarer Kovarianzmatrix Σ untersucht werden. Die quadrierte Ma-
halanobisdistanz eines Punktes x zu µ ist
(x− µ)′Σ−1(x− µ) ;
sie taucht beipielsweise im Exponenten der Dichtefunktion der Multinormalver-
teilung auf.
Schreibt man nun Σ = LL′ mit geeignetem L, so ist Σ−1 = L′−1L−1 und die
quadrierte Mahalanobisdistanz daher
(x− µ)′L′−1L−1(x− µ) = (L−1(x− µ))′(L−1(x− µ)) = ‖L−1(x− µ)‖2 .
Nun gilt
L−1(x− µ) ∼ Np(L−1(µ− µ),L−1ΣL′−1) = Np(0, I) ,
die quadrierte Norm dieser Variable ist also die Summe von p unabhangigen qua-
drierten standardnormalverteilten Variablen und folglich χ2p-verteilt. Insgesamt
gilt also
(x− µ)′Σ−1(x− µ) ∼ χ2p .
Hiermit kann berechnet werden, mit welcher Wahrscheinlichkeit sich Datenpunkte
in den Ellipsoiden E(Σ, µ, r) aufhalten, denn dies ist gleichbedeutend damit, dass
die Mahalanobisdistanz zu µ hochstens r ist.
Da der Mittelwert aus mehreren Beobachtungen auch wieder multinormalverteilt
ist, kann man dies Ergebnis benutzen, um Konfidenzbereiche fur µ bei bekanntem
Σ zu bestimmen, die dann wie erwartet kleiner ausfallen als die mit Hilfe der
Tschebyscheffschen Ungleichung ermittelten.
Gelegentlich braucht man auch die Verteilung der quadrierten Mahalanobisdi-
stanz zu einem Wert µ0, der vom Erwartungswertvektor verschieden sein kann.
Es wird nicht uberraschen, dass sich auch hier eine χ2-Verteilung ergibt, wenn
auch eine nonzentrale.
Zu untersuchen ist also nun (x−µ0)′Σ−1(x−µ0). Wahlt man wieder ein L mit
Σ = LL′, so ist die gesuchte quadrierte Mahalanobisdistanz wie oben
(x− µ0)′L′−1L−1(x− µ0) = (L−1(x− µ0))
′(L−1(x− µ0)) = ‖L−1(x− µ0)‖2.
Hier gilt
L−1(x− µ0) ∼ Np(L−1(µ− µ0),L
−1ΣL′−1) = Np(L−1(µ− µ0), I) .
2.6 Multivariate Varianzanalyse MS13 168
Schreibt man fur L−1(x − µ0) abkurzend y, so folgt aus der Bemerkung nach
Feststellung 13 (das dortige σ2 ist hier 1), dass ‖y‖2 eine χ2p, δ2-Verteilung besitzt
mit dem Nonzentralitatsparameter
δ2 = ‖L−1(µ− µ0)‖2
= (µ− µ0)′L′−1L−1(µ− µ0)
= (µ− µ0)′Σ−1(µ− µ0) ,
der gerade die quadrierte Mahalanobisdistanz von µ zu µ0 ist. Da ‖y‖2 die unter-
suchte quadrierte Mahalanobisdistanz von x und µ0 ist, folgt zusammenfassend
die nachste Feststellung.
Feststellung 18. Ist x eine Np(µ,Σ)-verteilte Variable mit invertierbarer Ko-
varianzmatrix Σ, so hat die quadrierte Mahalanobisdistanz
(x− µ0)′Σ−1(x− µ0)
von x zu einem festen Wert µ0 eine χ2p, δ2-Verteilung mit p Freiheitsgraden und
Nonzentralitatsparameter
δ2 = (µ− µ0)′Σ−1(µ− µ0) .
Im Fall µ0 = µ ist δ2 = 0 und die Verteilung zentral. �
2.6 Multivariate Varianzanalyse
In diesem Kapitel sollen grundlegende Aspekte der multivariaten Varianzana-
lyse behandelt werden. Nach der Aufstellung der Hypothesen werden die fur
die Prufstatistiken zentralen Matrizen B und W eingefuhrt. Danach werden die
wichtigsten Prufverfahren vorgestellt, die allerdings hier noch nicht im Detail
begrundet werden konnen, da die benotigten Verteilungen noch nicht bekannt
sind; viele fur genauere Untersuchungen notige Tatsachen werden jedoch schon
bereitgestellt.
Die Hypothesen der multivariaten Varianzanalyse. Der Unterschied zur
univariaten Varianzanalyse liegt bei der multivariaten Varianzanalyse in der Zahl
der abhangigen Variablen. Wahrend bei der univariaten Varianzanalyse nur eine
abhangige Variable untersucht wird, geht es hier um p Variablen Y1, . . . , Yp die
zu einer p-dimensionalen Variable Y zusammengefasst sein sollen (die Bezeich-
nung der Variablen mit Y und nicht mit X folgt einer verbreiteten Tradition).
Zur Terminologie ist zu bemerken, dass diese Variablen Variablen im informellen
2.6 Multivariate Varianzanalyse MS13 169
Sinn sind und keine Zufallsvariablen im statistischen Sinn; Zufallsvariablen wer-
den erst eingefuhrt im Rahmen eines Modells der Verteilung der Variablen unter
bestimmten Versuchsbedingungen oder in verschiedenen Populationen.
Man konnte sich beispielsweise nach der Auswirkung unterschiedlicher Entspan-
nungsinduktionen auf die korperliche Befindlichkeit fragen. Halt man mehrere
physiologische Werte als Entspannungsindikatoren fur relevant, so wird man al-
le diese Werte bei den Versuchspersonen messen und die Ergebnisse jeweils in
einem Datenvektor zusammenfassen, dessen Lange p gerade gleich der Anzahl
der untersuchten physiologischen Variablen ist. Statt nur eines Wertes liefert jede
Versuchsperson jetzt also einen ganzen Datenvektor mit p Komponenten.
Wenn allgemein die Anzahl der Versuchsbedingungen gleich J ist, so soll nun
in jeder dieser Bedingungen der p-dimensionale Datenvektor (bestehend aus den
Werten der Variablen Y1, . . . , Yp) mehrfach erhoben werden, in den Standardbei-
spielen an mehreren Versuchspersonen oder Versuchsobjekten.
Da man das Ergebnis einer einmaligen Erhebung eines Datenvektors in einer
Bedingung als Resultat auch von Zufallseinflussen betrachtet (da es beispielsweise
von der zufallig ausgewahlten Versuchsperson abhangen kann), wird man dieses
Ergebnis mit Hilfe eines p-dimensionalen Zufallsvektors modellieren wollen. Fur
die j-te Bedingung sei dieser Zufallsvektor gleich yj.
Der (unbekannte) Erwartungswertvektor von yj sei nun µj, und die Frage, die
durch die Untersuchung zu beantworten ist, ist die, ob sich die µj aus den ver-
schiedenen Bedingungen unterscheiden oder nicht. Dass man so die Ausgangs-
fragestellung prazisiert, liegt nahe, da man ja annehmen wird, dass sich in den
µj die systematischen, vom Zufall gereinigten Wirkungen der Bedingungsstufen
widerspiegeln.
Die zu testenden Hypothesen der multivariaten Varianzanalyse sind analog zu
denen der univariaten
H0 : µ1 = µ2 = . . . = µJ
H1 : nicht H0 .
Hier wird also gleichzeitig in p Dimensionen nach Unterschieden gesucht; die
Betrachtungsweise ist daher nicht mehr eindimensional wie in der univariaten
Varianzanalyse sondern p-dimensional.
2.6 Multivariate Varianzanalyse MS13 170
Die Matrizen T, B und W. Zur Beantwortung der in den Hypothesen formu-
lierten Frage liegt es in Analogie zur univariaten Varianzanalyse nahe, zunachst
in jeder Bedingung den Mittelwertvektor der Beobachtungen zu bilden, der ja
als Schatzung fur den Erwartungswertvektor dienen kann. Danach wird man un-
tersuchen, wie groß die Variation dieser Mittelwertvektoren ist, und ob sich An-
haltspunkte fur die Annahme ergeben, dass mehr als nur der Zufall fur deren
Verschiedenheit verantwortlich ist. Dazu wird man in geeigneter Weise die Va-
riation der Mittelwertvektoren vergleichen mit der Variation der Beobachtungen
innerhalb der einzelnen Bedingungen, die als ausschließlich zufallsbedingt ange-
sehen werden.
Die Untersuchung soll nun konkret so aussehen, dass in der j-ten Bedingung njWerte (also Datenvektoren) erhoben werden, wobei
∑nj = N gilt. In dem Fall,
dass die Daten von unterschiedlichen Versuchspersonen geliefert werden, ist njalso die Anzahl der Versuchspersonen in der j-ten Bedingung oder – wie man
auch sagt – in der j-ten Zelle.
Zur besseren Illustration der Datenverrechnung soll nun in einem Beispiel ange-
nommen werden, dass bereits Daten einer Untersuchung vorliegen, bei der in drei
Bedingungen zwei Variable Y1 und Y2 erhoben worden sind. Konkret konnte es
sich darum handeln, die Auswirkungen von zwei Entspannungsverfahren auf die
Herzrate und den Hautwiderstand zu untersuchen, wobei als dritte Bedingung
noch eine Kontrollgruppe vorhanden ist.
Die Anzahl der Beobachtung in den einzelnen Bedingungen sei 3, 2 und 3; es gilt
hier also insgesamt J = 3, n1 = 3, n2 = 2, n3 = 3, N = 8 und p = 2.
Die folgende Datenmatrix Y enthalt nacheinander die Ergebnisse aus den einzel-
nen Bedingungen; zur besseren Verdeutlichung der Grenzen zwischen den Zellen
sind die entsprechenden Zwischenraume etwas großer.
Y =
8 2
7 1
6 3
3 2
1 4
7 3
4 5
4 4
2.6 Multivariate Varianzanalyse MS13 171
Als erstes wird man hier die Mittelwertvektoren der drei Zellen bestimmen, die
hier yj heißen sollen; auch der Mittelwertvektor aller Beobachtungen y wird
gelegentlich gebraucht. Es ergibt sich
y1 =
(7
2
), y2 =
(2
3
), y3 =
(5
4
)und y =
(5
3
).
Da hier die Dimension p des Datenvektors nur 2 ist, kann man sich die Datensi-
tuation auch graphisch leicht veranschaulichen:
1
1.................................................................................................................................................................................................................................................................................................................................................................................................................... .......................................................................................................................................................................................................................................................................................................
...................
y1
y2
rrrb
bue
Die Werte in unterschiedlichen Zellen sind hier mit verschiedenen Symbolen ein-
getragen und die Zentroide der einzelnen Zellen mit dem jeweils zugehorigen
vergroßerten Symbol.
In der univariaten Varianzanalyse zerlegt man die durch SSt erfasste Gesamt-
variation der Daten in einen Anteil SSb, der die Variation der Zellmittelwerte
wiederspiegelt, und einen Anteil SSw, der die Variation innerhalb der Zellen wie-
dergibt. Man erhalt so die Quadratsummenzerlegung
SSt = SSb + SSw .
Es hat sich schon gezeigt, dass man die Quadratsummen aus dem Datenvektor
y mit Hilfe von orthogonalen Projektionen erhalt, genauer gilt SSt = y′Pty,
SSb = y′Pby und SSw = y′Pwy. Die Bilder der Projektionen Pt, Pb und Pw
haben dabei die Dimensionen N − 1, J − 1 und N − J , wobei die Bilder von Pb
und Pw orthogonal sind. Die Matrix Pt ist die Zentriermatrix. Ferner gilt
Pt = Pb + Pw ,
woraus durch Multiplikation von y′ von links und y von rechts noch einmal die
Quadratsummenzerlegung folgt:
y′Pty = y′Pby + y′Pwy
SSt = SSb + SSw .
2.6 Multivariate Varianzanalyse MS13 172
Es ist naheliegend, in der multivariaten Varianzanalyse analog vorzugehen. Der
Unterschied ist nur, dass der Datenvektor durch die Datenmatrix ersetzt wird.
Man erhalt so die folgende Gleichung, deren Bestandteile in der nachsten Zeile
noch einmal abgekurzt werden:
Y′PtY = Y′PbY + Y′PwY
T = B + W .
Die Matrizen in der unteren Zeile sind offenbar symmetrische (p × p)-Matrizen.
Da orthogonale Projektionen positiv semidefinit sind (sie sind ja symmetrisch
und haben keine negativen Eigenwerte), sind auch die Matrizen T, B und W
positiv semidefinit.
Dabei ist der Rang von B hochstens J − 1, denn er kann nicht großer sein als der
Rang von Pb, und dieser ist gleich der Dimension des Bildes von Pb, also J − 1.
Die Matrizen B und W spielen bei der statistischen Behandlung der multivariaten
Varianzanalyse eine ahnlich wichtige Rolle wie die Quadratsummen SSb und SSwim Univariaten, deren Verallgemeinerung sie ja auch sind.
Tatsachlich spiegeln auch hier die Matrizen T, B und W die Gesamtvariation der
Daten, die Variation der Mittelwertvektoren und die Variation der Daten inner-
halb der Zellen wider, so dass man auch in dieser Hinsicht eine Verallgemeinerung
der univariaten Varianzzerlegung vor sich hat. Dies wird schon von der Definition
nahegelegt, soll jedoch auch noch weiter begrundet werden.
Zunachst sollen jedoch die Matrizen T = Y′PtY, B = Y′PbY und W = Y′PwY
fur die Beispieldaten bestimmt werden. Hier ergibt sich
T =
(40 −12
−12 12
), B =
(30 −6
−6 6
), W =
(10 −6
−6 6
),
womit man auch die Gleichung T = B + W unmittelbar nachpruft.
Nun sollen die Matrizen T, B und W genauer in Augenschein genommen werden.
Da Pt die Zentriermatrix ist, erweist sich zunachst T als SSCP-Matrix aller
Daten ohne Berucksichtigung der Gruppierung in einzelne Zellen. Als Vorstufe
der Kovarianzmatrix ist T ein Indikator dafur, wie stark die Daten (multivariat)
um den Gesamtmittelwertvektor streuen.
Bei der Untersuchung der Matrizen B und W ist die Projektion P nutzlich, die
bei einem Datenvektor alle Werte durch die zugehorigen Zellmittelwerte ersetzt.
2.6 Multivariate Varianzanalyse MS13 173
Diese Projektion ist schon aus der Behandlung der univariaten Varianzanalyse
mit Hilfe von Projektionen bekannt, wo auch die Gleichung Pb = PtP = PPt
hergeleitet wurde.
Wendet man P auf die Datenmatrix Y an, so erhalt man das Ergebnis, indem
man P auf die Spalten von Y anwendet und die Ergebnisspalten wieder zu einer
Matrix zusammensetzt. Die Spalten von Y sind jedoch gerade die Datenvektoren
der einzelnen Variablen. Im Produkt PY sind also variablenweise alle Daten
durch die zugehorigen Zellmittelwerte ersetzt.
Analog sieht man, dass PwY wegen der Eigenschaften von Pw aus Y dadurch
entsteht, dass alle Daten variablenweise durch die Abweichungen vom zugehorigen
Zellmittelwert ersetzt werden.
Zur Veranschaulichung sollen PY und PwY fur die Beispieldaten Y bestimmt
werden. Es gilt hier
Y =
8 2
7 1
6 3
3 2
1 4
7 3
4 5
4 4
, PY =
7 2
7 2
7 2
2 3
2 3
5 4
5 4
5 4
, PwY =
1 0
0 −1
−1 1
1 −1
−1 1
2 −1
−1 1
−1 0
.
In der Tat werden also bei beiden Variablen die Daten durch die zugehorigen
Zellmittelwerte beziehungsweise durch die Abweichungen der Daten von den Zell-
mittelwerten ersetzt.
Da P eine orthogonale Projektion ist, gilt P2 = P und P′ = P, woraus man in
Verbindung mit der Vertauschbarkeit von P und Pt folgert, dass Pb = PtP =
PtP2 = PPtP = P′PtP gilt. Damit kann man umformen:
B = Y′PbY = Y′(P′PtP)Y = (PY)′Pt(PY) .
Da Pt die Zentriermatrix ist, folgt, dass B die SSCP-Matrix von PY ist, also der
Matrix, in der jeder Datenvektor durch den zugehorigen Zellenmittelwert ersetzt
ist. Sie ist damit ein Indikator fur die multivariate Variation der Gruppenzentro-
ide, die mit der Große der zugehorigen Gruppen gewichtet ist.
2.6 Multivariate Varianzanalyse MS13 174
Bekanntlich hat die affine Hulle von (mehrdimensionalen) Daten die Dimension r,
falls ihre Kovarianzmatrix den Rang r besitzt; der zugehorige lineare Unterraum
ist dabei das Bild der Kovarianzmatrix. Hier ist nun B die SSCP-Matrix der
Gruppenzentroide (wobei jedes Zentroid so oft auftaucht, wie Personen/Objekte
in der zugehorigen Gruppe sind). Dividiert man B noch durch N , so erhalt man
die Kovarianzmatrix der (so’gewichteten‘) Zentroide. Da sich bei Division durch
N weder Rang noch Bild andern, folgt, dass der Rang von B gleich der Dimension
der affinen Hulle der Zentroide ist, und dass das Bild von B der zu dieser affinene
Hulle gehorende lineare Unterraum ist.
Die Matrix W kann man wegen der Beziehung Pw = P′wPw, die sofort daraus
folgt, dass Pw eine orthogonale Projektion ist, auch als
W = Y′PwY = Y′P′wPwY = (PwY)′(PwY)
schreiben.
Zur Deutung dieses Produkts soll zunachst die Datenmatrix Y selber partitioniert
werden in die zu den einzelnen Gruppen j gehorenden Teile Yj; diese Partitionie-
rung wird oben im Beispiel schon durch die großeren Abstande veranschaulicht.
Es gilt also
Y =
Y1
...
YJ
.
Da die entsprechenden Teile von PwY dadurch entstehen, dass man von den
Daten die Gruppenmittelwerte abzieht, sind sie gerade die zentrierten Yj und
sollen daher Yj heißen.
Fur die erste Gruppe im Beispiel gilt beispielsweise
Y1 =
8 2
7 1
6 3
und Y1 =
1 0
0 −1
−1 1
,
tatsachlich stimmt also die obere Teilmatrix von PwY mit der Matrix uberein,
die man aus Y1 durch Zentrieren erhalt.
Damit berechnet man W = (PwY)′(PwY) zu
W =(Y′1 . . . Y′J
)Y1
...
YJ
=∑
Y′jYj ,
2.6 Multivariate Varianzanalyse MS13 175
und da man in den Y′jYj die SSCP-Matrizen der Teilmatrizen Yj erkennt, sieht
man insgesamt, dass W die Summe der SSCP-Matrizen der Daten der einzelnen
Bedingungen ist, was die Eignung zum Indikator der Variation innerhalb der
Gruppen deutlich macht.
Fur das Beispiel lassen sich die SSCP-Matrizen der drei Bedingungen leicht be-
rechnen. Die Gleichung W =∑
Y′jYj kontrolliert man leicht nach – es gilt
tatsachlich
W =
(10 −6
−6 6
)=
(2 −1
−1 2
)+
(2 −2
−2 2
)+
(6 −3
−3 2
).
Die bisherigen Uberlegungen haben gezeigt, dass die Matrizen T, B und W auch
interpretierbar sind als die SSCP-Matrizen der Daten, der Gruppenzentroide und
der’Residuen‘. Dividert man diese Matrizen noch durch N , so erhalt man die
entsprechenden Kovarianzmatrizen, und die ebenfalls durch N dividierte Glei-
chung T = B + W sagt dann gerade, dass sich die Kovarianzmatrix der Daten
zerlegen lasst in die Summe der Kovarianzmatrix der Zentroide (die dabei in der
Haufigkeit der jeweiligen Zellbesetzungen auftreten) und der Kovarianzmatrix der
Residuen.
Da die Diagonalelemente der Matrizen T, B und W gerade dadurch zustande-
kommen, dass man die Matrizen Pt, Pb und Pw von rechts und links mit der
entsprechenden Spalte von Y multipliziert (links ist die Spalte vorher noch zu
transponieren), und da die Spalten von Y gerade die Datenvektoren der einzelnen
Komponenten Yi der multivariaten Variable Y sind, folgt, dass diese Diagonalele-
mente gerade die Quadratsummen SSt, SSb und SSw fur die einzelnen Yi sind. In
der Diagonale der Matrizengleichung T = B + W stehen folglich die univariaten
Quadratsummenzerlegungen der Komponenten Yi von Y .
Im Beispiel sind daher die Quadratsummenzerlegungen SSt = SSb +SSw fur die
univariate Varianzanalyse mit Y1 gerade 40 = 30 + 10 und fur die mit Y2 gleich
12 = 6 + 6.
Was die praktische Berechnung der Matrizen T, B und W angeht, so wird man
diese naturlich nicht so durchfuhren, dass man zunachst die Matrizen Pt, Pw
und Pw bestimmt, die ihren Platz eher in den theoretischen Uberlegungen haben.
Vielmehr wird man auf andere Methoden zuruckgreifen.
Die Matrix T ist die SSCP-Matrix der Daten Y, man bekommt sie also als
Vorstufe der Kovarianzmatrix, wobei nur jeweilige Division durch den Stichpro-
2.6 Multivariate Varianzanalyse MS13 176
benumfang N am Ende zu unterlassen ist. Liegt hingegen die Kovarianzmatrix
der Daten vor, so ist diese einfach mit N zu multiplizieren.
Zur Berechnung der Matrix B schreibt man beispielsweise B = Y′PbY als
Y′P′bPbY = (PbY)′(PbY). Hier ist also das Produkt von (PbY)′ mit PbY zu
bilden.
Ist wie bei der einfaktoriellen Varianzanalyse Pm die Projektion auf den von 1
erzeugten Unterraum, so hatte sich dort die Gleichung Pb = P − Pm ergeben.
Man sieht nach den bisherigen Uberlegungen sofort, dass bei PY im Vergleich
zu Y alle Zeilen durch die zugehorigen Gruppenzentroide ersetzt sind, wahrend
bei PmY in allen Zeilen das Gesamtzentroid steht.
Fur die Beispieldaten erhalt man zur Veranschaulichung
Y =
8 2
7 1
6 3
3 2
1 4
7 3
4 5
4 4
, PY =
7 2
7 2
7 2
2 3
2 3
5 4
5 4
5 4
, PmY =
5 3
5 3
5 3
5 3
5 3
5 3
5 3
5 3
, PbY =
2 −1
2 −1
2 −1
−3 0
−3 0
0 1
0 1
0 1
.
Die aktuelle Aufgabe besteht darin, B als das Produkt von (PbY)′ und PbY zu
bestimmen. Partitioniert man die erste Matrix in ihre Spalten und die zweite in
ihre Zeilen, so erkennt man, dass man dieses Produkt auch erhalt, indem man
die Summe der z′izi bildet, wo zi fur die i-te Zeile von PbY steht. Diese Zeilen
stimmen jedoch zum großen Teil uberein: In dem zu einer Zelle j gehorenden Teil
sind sie namlich alle gleich der transponierten Differenz (yj− y) des Zellenzentro-
ids yj und des Gesamtzentroids y. Da die Anzahl der zu einer Zelle gehorenden
Zeilen gleich nj ist, erhalt man schließlich
B =∑
nj(yj − y)(yj − y)′ ,
worin man unmittelbar auch eine Verallgemeinerung der univariaten Formel fur
SSb erkennt.
Im Beispiel erhalt man so
B = 3
(2
−1
)(2 −1
)+ 2
(−3
0
)(−3 0
)+ 3
(0
1
)(0 1
)=
(30 −6
−6 6
)
2.6 Multivariate Varianzanalyse MS13 177
in Ubereinstimmung mit der Rechnung oben.
Dass die Matrix W die Summe der SSCP-Matrizen der einzelnen Zellen ist, hatte
sich oben schon ergeben, und dies durfte in vielen Fallen auch eine gute Berech-
nungsmoglichkeit sein.
Naturlich mussen von den drei Matrizen T, B und W nur zwei bestimmt werden,
da sich die dritte auf Grund der Gleichung T = B + W dann unmittelbar ergibt.
Es soll nun noch fur spatere Zwecke eine Moglichkeit bereitgestellt werden, die
Zentroide der Daten mit Hilfe einer Matrixmultiplikation herzustellen; Ziel ist es,
eine Matrix A zu finden, so dass das Produkt AY als Zeilen gerade die Zentroide
der Gruppen besitzt. Die Losung ist aus der univariaten Varianzanalyse schon
bekannt.
Ist namlich A die (J×N)-Matrix, die in der j-ten Zeile nur Nullen enthalt außer
an den Stellen, die zu Beobachtungen in der j-ten Bedingung gehoren, wo dann
die Elemente dann 1/nj sind, so liefert die j-te Zeile von A multiplizert mit Y
gerade die durch nj geteilte Summe der zur j-ten Bedingung gehorenden Zeilen,
also in der Tat das j-te Zentroid.
Im Beispiel ist diese Matrix gleich1/3 1/3 1/3 0 0 0 0 0
0 0 0 1/2 1/2 0 0 0
0 0 0 0 0 1/3 1/3 1/3
,
und man uberzeugt sich unmittelbar, dass das Produkt
AY =
7 2
2 3
5 4
tatsachlich zeilenweise die Gruppenzentroide enthalt.
Da in A′ innerhalb der zu einzelnen Zellen gehorenden Bereiche die Zahlen va-
riablenweise konstant sind, folgt die Beziehung PwA′ = 0, die ebenso wie die
Beziehung PwPb = 0 bei der genauen Begrundung der statistischen Behandlung
eine zentrale Rolle spielt.
Vom Rang von B wurde schon weiter oben gezeigt, dass er hochstens J − 1 ist.
Die Range von T und W lassen sich entsprechend abschatzen; sie sollten im
Allgemeinen gleich p sein, was auch in der weiteren Auswertung vorausgesetzt
2.6 Multivariate Varianzanalyse MS13 178
wird. Kritisch ist dann naturlich der Fall, dass die Zahl der Versuchspersonen
klein ist, denn der Rang von W = Y′PwY ist hochstens gleich dem Rang N − Jvon Pw. Dies bedeutet, dass die weitere Auswertung nur dann moglich ist, wenn
N −J ≥ p oder N ≥ p+J gilt, was nun zusatzlich fur die Zukunft vorausgesetzt
sei.
Verteilungsvoraussetzungen. Die Matrizen B und W spielen bei der statisti-
schen Auswertung der multivariaten Varianzanalyse eine ahnlich zentrale Rolle
wie die entsprechenden Quadratsummen SSb und SSw im univariaten Fall. Es ist
daher wichtig, uber die Verteilung dieser Matrizen Bescheid zu wissen.
Da sich B und W aus der Datenmatrix Y bestimmen lassen, hangt ihre Verteilung
von der von Y ab. Damit ist das Thema der Verteilungsvoraussetzungen der
multivariaten Varianzanalyse angesprochen.
Diese Verteilungsvoraussetzungen sehen so aus, dass man analog zur univariaten
Varianzanalyse fordert, dass die Datenvektoren der Versuchseinheiten insgesamt
unabhangig sind und dass sie jeweils normalverteilt sind mit Erwartungswert µj
und einer invertierbaren Kovarianzmatrix Σ, die in allen Bedingungen gleich ist.
Man hat also wie im Univariaten die Voraussetzungen der Unabhangigkeit, der
Normalverteiltheit und der Varianzhomogenitat.
Auf diesem Modell baut nun die Auswertung der Daten auf, und man hat sich
naturlich zu fragen, ob man das Modell fur angemessen halt, ob man also denkt,
dass die Realitat des Versuchs mit diesem Modell hinreichend gut vertraglich ist
(naturlich wird niemand annehmen, dass das Modell perfekt passt – schon bei
einer solchen bloßen Formulierung liegt der Verdacht nahe, dass die empirische
Welt und die theoretische Welt gedanklich nicht angemessen getrennt werden).
Ein wichtiger Aspekt ist hier die Unabhangigkeitsvoraussetzung, bei der eine
angemessene Versuchsplanung zu gewahrleisten hat, dass die statistische Un-
abhangigkeitsannahme nicht allzu deutlich mit der Praxis der Datenerhebung
kollidiert.
Fasst man die Verteilungsvoraussetzungen noch einmal zusammen, so bedeuten
sie, dass die Zeilen der Matrix Y unabhangig sind und Np(µj,Σ)-Verteilungen
besitzen mit einem invertierbaren Σ. Bei Gultigkeit der Nullhypothese sind zu-
dem die Erwartungswertvektoren aller Zeilen von Y gleich.
Die Matrix Y ist jetzt naturlich keine konkrete Datenmatrix mehr, sondern eine
2.6 Multivariate Varianzanalyse MS13 179
Zufallsmatrix, deren Elemente Zufallsvariable sind, da es ja um die Modellie-
rung eines moglichen Experimentes geht und nicht um ein bereits konkret durch-
gefuhrtes.
Spatere Abschnitte werden sich mit Datenmatrizen beschaftigen, die den fur Y
gemachten Voraussetzungen genugen.
Aus den Voraussetzungen folgt, dass W/(N − J) erwartungstreuer Schatzer fur
Σ ist. Es hatte sich schon gezeigt, dass W die Summe der SSCP-Matrizen der
Gruppen ist. Da die Beobachtungen in den Gruppen unabhangig sind mit gleicher
theoretischer Kovarianzmatrix Σ, ist der Erwartungswert der SSCP-Matrix der
j-ten Gruppe gleich (nj−1)Σ, der Erwartungswert von W ergibt sich daher durch
Aufsummieren zu (∑
(nj − 1)) Σ = (N−J) Σ. Nach Division durch (N−J) folgt
daher
E(W/(N − J)) = Σ .
Teststatistiken. In diesem Abschnitt sollen die vier am haufigsten verwendeten
Statistiken zum Testen der Nullhypothese der multivariaten Varianzanalyse vor-
gestellt werden. Anders als im Univariaten, wo bei der Varianzanalyse eigentlich
nur der F -Bruch zum Einsatz kommt, gibt es hier mehrere Alternativen zum
Testen.
Die vier Teststatistiken sind Wilks’ Λ, Roys Maximalwurzel, die Pillai-Bartlett-
Spur und die Hotelling-Lawley-Spur
Die Alternativen beruhen teilweise auf unterschiedlichen Herangehensweisen an
das Testproblem. Fur spezifische Situationen und Ziele eignen sich einige Tests
besser als andere, ohne dass man jedoch einen als fur alle Situationen optimal
bezeichnen konnte.
Im Spezialfall der univariaten Varianzanalyse sind ubrigens die Tests alle zum F -
Test aquivalent, wesentliche Unterschiede gibt es also erst bei p ≥ 2. Hier kann es
sein, dass in derselben Situation einer der Tests signifikant wird und ein anderer
nicht.
Genauere Fragen nach der Verteilung der Teststatistiken sollen auf spater ver-
schoben werden.
Alle Tests beruhen auf den Matrizen B und W, bei genauerer Untersuchung
sogar nur auf den Eigenwerten von W−1B. Die Matrizen W und T sind praktisch
2.6 Multivariate Varianzanalyse MS13 180
immer regular und damit positiv definit, wenn die Anzahl der Versuchspersonen
groß genug ist (es muss N ≥ p+ J gelten).
Fur die Beispieldaten wurden folgende Matrizen berechnet:
T =
(40 −12
−12 12
), B =
(30 −6
−6 6
), W =
(10 −6
−6 6
).
Die erste Teststatistik ist Wilks’ Λ, das definiert ist als
Λ =det(W)
det(W + B)=
det(W)
det(T).
Fur die Beispieldaten ist die Determinante von W gleich 24 und die von T gleich
336, womit sich
Λ =det(W)
det(T)=
24
336= .0714
ergibt.
Da die Determinante ein multivariates Streuungsmaß ist, kann diese Statistik
interpretiert werden als Vergleich der Streuung innerhalb der Gruppen zur Ge-
samtstreuung. Allerdings sind die Matrizen T und W keine Kovarianzmatrizen,
sondern SSCP-Matrizen. Aus diesen entstehen jedoch Kovarianzmatrizen bei Di-
vision durch N , wobei die Determinante sich um den Faktor (1/N)p andert.
Geht man also im Zahler und im Nenner zu den entsprechenden Kovarianzma-
trizen uber, so andern sich Zahler und Nenner um den gleichen Faktor, der sich
wegkurzt. Mit Kovarianzmatrizen erhalt man daher denselben Wert fur den Quo-
tienten der Determinanten wie mit SSCP-Matrizen, so dass die gerade gegebene
Deutung von Λ gerechtfertigt ist.
Hier spricht ein kleiner Wert gegen die Nullhypothese, die daher fur kleine Λ zu
verwerfen ist.
Die Verteilung von Λ unter der Nullhypothese ist eine sogenannte Wilks’-Λ-
Verteilung. Diese Verteilungen sind gekennzeichnet durch drei Parameter, namlich
die Anzahl p der Variablen, die Anzahl ne der Fehlerfreiheitsgrade und die Anzahl
nh der Hypothesenfreiheitsgrade. Im Falle der multivariaten Varianzanalyse ist
ne = N − J und nh = J − 1, dies sind ja auch die Freiheitsgrade im univariaten
Fall. Die Abkurzung fur die Wilks’-Λ-Verteilung ist Λ(p, ne, nh).
Im Beispiel ist die Verteilung von Λ unter H0 also eine Λ(2, 5, 2)-Verteilung.
Als Wert, der bei dieser Verteilung links (!) gerade 5% abschneidet, findet man
2.6 Multivariate Varianzanalyse MS13 181
.117368. Da das empirische Λ kleiner ist als dieser kritische Wert, kann die Null-
hypothese verworfen werden.
Es ist anzumerken, dass die Bezeichnung der Parameter der Λ-Verteilungen nicht
ganz einheitlich ist. Oft trifft man auch auf Approximationen durch geeignete
F -Verteilungen, in einigen Fallen ist auch eine exakte Transformation in eine
geeignete F -Verteilung moglich.
Die zweite Teststatistik ist Roys Maximalwurzel. Leider ist die Definition unein-
heitlich. Nach einer Definition ist dies der großte Eigenwert θ1 von T−1B, nach
einer anderen der großte Eigenwert λ1 von W−1B.
Hier sollen diese beiden Moglichkeiten dadurch unterschieden werden, dass zur
Bezeichnung’Roys Maximalwurzel‘ entweder θ1 oder λ1 hinzugefugt wird.
Die Matrizen T−1B und W−1B sind im Allgemeinen nicht symmetrisch, wes-
halb es nicht selbstverstandlich ist, dass sie Eigenwerte besitzen. Da sie jedoch
das Produkt einer positiv definiten Matrix und einer mindestens positiv semide-
finiten Matrix sind, besitzen sie unter Berucksichtigung der Multiplizitat doch
p nichtnegative Eigenwerte, so dass insbesondere auch der großte Eigenwert exi-
stiert und nichtnegativ ist.
Die Bezeichnung’Wurzel‘ kommt daher, dass der großte Eigenwert die großte
Nullstelle des charakteristischen Polynoms ist, und Nullstellen von Polynomen
bezeichnet man gelegentlich auch als’Wurzeln‘. Man findet alternativ auch die
Bezeichnung großter Eigenwert.
Fur die Beispieldaten errechnet man
T−1B =
(6/7 0
5/14 1/2
)und W−1B =
(6 0
5 1
).
Die erste Matrix besitzt die Eigenwerte 6/7 und 1/2, wahrend die Eigenwerte der
zweiten 6 und 1 sind. Hier ist folglich θ1 = 6/7 = 0.8571 und λ1 = 6.
Die beiden Versionen der Maximalwurzel stehen nicht beziehungslos nebeneinan-
der, vielmehr lassen sie sich ineinander umrechnen. Genauer gilt
λ1 =θ1
1− θ1und θ1 =
λ11 + λ1
,
wie man auch unmittelbar im Beispiel bestatigt.
Die Umrechnungsformeln gelten ubrigens auch fur die weiteren Eigenwerte.
2.6 Multivariate Varianzanalyse MS13 182
Die Funktionen, die die Umrechnungen beschreiben, sind streng monoton, wes-
halb Tests mit λ1 und θ1 im Endergebnis zu den gleichen Resultaten fuhren. Die
beiden Versionen der Maximalwurzel sind damit aquivalent und ihre Verschie-
denheit ist nur oberflachlich.
Die Interpretation der Maximalwurzel fallt zunachst schwerer als bei Wilks’ Λ,
man erkennt jedoch, dass in gewisser Weise das Streuungsverhalten der Gruppen-
mittelwerte mit dem der Daten insgesamt bzw. mit dem innerhalb der Gruppen in
Beziehung gesetzt wird. Diesmal sprechen große Werte gegen die H0. Eine genaue-
re Untersuchung der Maximalwurzel, die ihren Wert als Teststatistik deutlicher
macht, folgt spater.
Die Verteilung von θ1 unter der Nullhypothese wird meist mit θmax(p, ne, nh)
bezeichnet, wobei die Bedeutung der Parameter dieselbe ist wie bei Wilks’ Λ.
Im Beispiel ist die Verteilung von θ1 unter H0 also eine θmax(2, 5, 2)-Verteilung.
Der Wert, der bei dieser Verteilung rechts gerade 5% abschneidet, ist .8577. Da das
empirische θ1 = .8571 kleiner ist als dieser kritische Wert, kann die Nullhypothese
nicht verworfen werden.
Da der Test mit Λ auf dem 5%-Niveau signifikant war, hat man hier bereits
ein Beispiel dafur, dass die verschiedenen Tests der multivariaten Varianzanalyse
tatsachlich zu unterschiedlichen Ergebnissen fuhren konnen und daher insbeson-
dere nicht aquivalent sind.
Die Anmerkungen zu Λ bezuglich der Uneinheitlichkeit der Bezeichnungen und
der Moglichkeit einer approximativen oder manchmal exakten Transformation in
eine F -Verteilung gelten analog auch fur θ1 und λ1.
Die dritte gebrauchliche Teststatistik fur die multivariate Varianzanalyse ist die
Spur der Matrix T−1B, die auch Pillai-Bartlett-Spur heißt. Im Beispiel erhalt
man den Wert 6/7 + 1/2 = 19/14 = 1.3571.
Auch bei dieser Statistik ist die Interpretation zunachst schwierig. In gewisser
Weise wird die Variation innerhalb der Gruppen mit der Gesamtvariation vergli-
chen, wobei der Vergleich mit Hilfe der Spur geschieht.
Große Werte der Statistik sprechen fur H1. Die Verteilung der Statistik unter
der Nullhypothese findet man in geeigneten Tabellen. Leider sind im Beispiel die
Zellbesetzungen so klein, dass die gangigen Tabellen versagen.
2.6 Multivariate Varianzanalyse MS13 183
Alternativ wird auch diese Statistik oft in eine Statistik transformiert, deren Ver-
teilung unter der Nullhypothese naherungsweise mit einer geeigneten F -Verteilung
ubereinstimmt.
Die letzte der am meisten verwendeten Statistiken ist die Spur von W−1B, die
auch Hotelling-Lawley-Spur heißt. Im Beispiel berechnet sie sich zu 6 + 1 = 7.
Was die Interpretation angeht, wird hier in gewisser Weise die Variation zwischen
den Gruppen diesmal mit der innerhalb der Gruppen verglichen, wieder mit Hilfe
der Spur.
Auch hier sprechen große Werte fur H1; im Ubrigen gelten auch hier die bei der
Pillai-Bartlett-Spur gemachten Bemerkungen.
Spezialfalle. In zwei Fallen sind alle vier Teststatistiken aquivalent, namlich im
Fall p = 1 und im Fall J = 2. Im zweiten Fall gibt es eine weitere Statistik, die
ebenfalls zu den genannten aquivalent ist und die außerdem bis auf einen Faktor
eine F -Verteilung besitzt, namlich Hotellings T 2.
Zunachst soll kurz der Fall p = 1 betrachtet werden. In diesem Fall enthalten die
Matrizen T, B und W nur jeweils eine Zahl, namlich SSt, SSb und SSw. Die
Matrizen T−1B und W−1B enthalten entsprechend nur die Zahlen SSb/SSt und
SSb/SSw.
Da im Fall von (1 × 1)-Matrizen die Determinante, die Spur und der großte
Eigenwert mit dem einzigen Element der Matrix ubereinstimmen, errechnet man
sofort Λ = SSw/SSt, θ1 = SSb/SSt, λ1 = SSb/SSw, ferner die Pillai-Bartlett-
Spur zu SSb/SSt und die Hotelling-Lawley-Spur zu SSb/SSw.
Von den zunachst funf Werten bleiben also nur drei ubrig, namlich SSw/SSt,
SSb/SSt und SSb/SSw. Bezeichnet man zur Abkurzung SSb/SSw mit λ, so zeigt
sich, dass man die beiden anderen Statistiken in λ umrechnen kann und umge-
kehrt. Da die Umrechnungen streng monoton sind, folgt (unter Berucksichtigung
der Tatsache, dass die Werte, die fur H1 sprechen, an der jeweils passenden Seite
der Verteilungen liegen), dass alle vier Tests aquivalent sind. Da durch einfache
Multiplikation mit (N − J)/(J − 1) aus λ der univariate F -Bruch wird, sind die
vier Tests schließlich auch noch mit dem univariaten F -Test aquivalent.
Es bleibt noch zu zeigen, dass sich SSb/SSt und SSw/SSt monoton in λ trans-
formieren lassen (mit’monoton‘ soll nun immer
’streng monoton‘ gemeint sein).
Wegen SSt = SSb + SSw folgt SSw/SSt = 1 − SSb/SSt, so dass sich diese bei-
2.6 Multivariate Varianzanalyse MS13 184
den Zahlen in der Tat durch eine einfache monotone Transformation ineinander
umrechnen lassen. Es genugt daher zu zeigen, dass sich SSb/SSt durch eine mono-
tone Transformation in λ und umgekehrt (man beachte, dass die Hintereinander-
ausfuhrung monotoner Transformationen wieder eine monotone Transformation
ergibt).
Setzt man zur Abkurzung SSb/SSt = θ, so gilt
θ =SSbSSt
=SSb
SSb + SSw=
SSb/SSw(SSB + SSw)/SSw
=λ
1 + λ.
Man hat damit θ als eine Funktion von λ ausgedruckt. Die Transformations-
funktion wird in anderem Zusammenhang noch einmal gebraucht und soll daher
genauer untersucht werden. In der ublichen Schreibweise mit x und y geht es also
um die Funktion
y = f(x) =x
1 + x,
deren Graph folgendermaßen aussieht:
1
1
....................................................................................................................................................................................................................................................................................................................................................................................... ..........................
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
......................
...................
x
yy = x/(1 + x)
..................................................
...............................................
.......................................................................................................
.......................................................................................................................................................................
Hier vermittelt f bijektiv zwischen den Mengen [ 0,∞) und [ 0, 1). Dass die Funk-
tion streng monoton wachsend ist, rechnet man auch leicht nach, indem man die
Differenz f(x2)− f(x1) fur x2 > x1 bildet. Bringt man alles auf einen Hauptnen-
ner, so ist dieser Hauptnenner (1 + x1)(1 + x2) positiv, wahrend im Zahler nur
x2−x1 stehen bleibt. Die Differenz ist also großer als 0 und die Monotonie damit
bewiesen.
Um die Umkehrfunktion zu bestimmen, sei y = f(x) = x/(1 + x). Multiplikation
mit (1 + x) liefert die Gleichung y + xy = x oder y = x− xy = x(1− y), woraus
x = y/(1− y) folgt. Die Umkehrfunktion g von f ist also
g(y) =y
1− y
und ist jetzt passend zum Wertebereich von f nur auf dem Intervall [ 0, 1) zu
betrachten. Der Graph der Funktion g sieht dort so aus:
2.6 Multivariate Varianzanalyse MS13 185
1
1
.................................................................................................................................................................. ..........................
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
........................
...................
y
x
x = y/(1− y)
........................................................................................................................................................................................................................................................................................................
Kehrt man zur Ausgangsfrage zuruck, so sieht man mit Hilfe dieser Tatsachen
einerseits, dass θ eine monotone Funktion von λ ist, und andererseits auch, dass
sich λ umgekehrt aus θ als
λ =θ
1− θzuruckgewinnen lasst, also auch mit Hilfe einer monotonen Funktion.
Insgesamt sieht man, dass im Falle p = 1 die multivariaten Tests alle aquivalent
zum bekannten univariaten F -Test sind.
Der zweite Spezialfall ist der Fall J = 2, also der Fall, dass nur zwei Gruppen
untersucht werden. Hier gibt es eine weitere verbreitete Teststatistik, namlich
Hotellings T 2, die als erstes besprochen werden soll, und von der auch gleich die
Aquivalenz zur Hotelling-Lawley-Spur gezeigt werden soll.
Zunachst soll eine spezielle Formel zur Berechnung von B hergeleitet werden. Zu
diesem Zweck seien y1 und y2 die beiden Gruppenzentroide und n1 und n2 die
Gruppengroßen. Dann berechnet sich y zu
y =1
n1 + n2
(n1y1 + n2y2) ,
woraus
y1 − y =n2
n1 + n2
(y1 − y2) und y2 − y =n1
n1 + n2
(y2 − y1)
folgt. Nach der oben gegebenen Formel zur Berechnung von B mit Hilfe der
2.6 Multivariate Varianzanalyse MS13 186
Zentroide erhalt man daraus
B = n1(y1 − y)(y1 − y)′ + n2(y2 − y)(y2 − y)′
=n1n
22
(n1 + n2)2(y1 − y2)(y1 − y2)
′ +n21n2
(n1 + n2)2(y2 − y1)(y2 − y1)
′
=n1n2(n1 + n2)
(n1 + n2)2(y2 − y1)(y2 − y1)
′
=n1n2
n1 + n2
(y2 − y1)(y2 − y1)′ ,
wobei ausgenutzt wurde, dass sich y2 − y1 und y1 − y2 nur um den Faktor
(−1) unterscheiden, so dass die Produkte der beiden Vektoren mit sich selbst in
transponierter Form gleich sind.
Nun kann beispielsweise die Hotelling-Lawley-Spur auch folgendermaßen berech-
net werden:
Spur(W−1B) = Spur
(W−1 n1n2
n1 + n2
(y2 − y1)(y2 − y1)′)
=n1n2
n1 + n2
Spur((y2 − y1)′W−1(y2 − y1))
=n1n2
n1 + n2
(y2 − y1)′W−1(y2 − y1) .
Es ist sinnvoll, hier (analog zum Gebrauch im Einstichprobenfall) die Bezeichnung
Su =1
n1 + n2 − 2W =
1
n1 + n2 − 2(n1S1 + n2S2)
einzufuhren, wo S1 und S2 die Kovarianzmatrizen der Daten in den beiden Grup-
pen sind. Wegen Su = W/(N − 2) besitzt man in Su einen erwartungstreuen
Schatzer fur Σ. Schreibt man ubrigens Suj fur (nj/(nj − 1))Sj, so sind diese Sujerwartungstreue Schatzer fur Σ auf der Basis der Einzelstichproben (j = 1, 2).
Die Umformulierung
Su =1
n1 + n2 − 2((n1 − 1)Su1 + (n2 − 1)Su2)
erkennt man dann unmittelbar als Verallgemeinerung der Formel fur die gemein-
same Varianzschatzung s2 aus dem Zweistichproben-t-Test.
Die Statistik
T 2 =n1n2
n1 + n2
(y2 − y1)′S−1u (y2 − y1)
2.6 Multivariate Varianzanalyse MS13 187
heißt auch Hotelligs T 2 (fur den Zweistichprobenfall). Wegen der Beziehung
S−1u = (n1 + n2 − 2)W−1 ist T 2 das (N − 2)-fache der Hotelling-Lawley-Spur,
wobei fur die Gesamtstichprobengroße n1 + n2 wieder N geschrieben wird. Der
Test mit T 2 und der mit der Hotelling-Lawley-Spur sind daher aquivalent.
Die Kovarianzmatrix der Differenz der Mittelwertvektoren y2 und y1 errechnet
man zu (1/n2)Σ + (1/n1)Σ = ((n1 + n2)/(n1n2))Σ. Die Inverse dieser Matrix ist
((n1n2)/(n1 + n2))Σ−1. Schatzt man Σ durch Su, so kann man T 2 interpretie-
ren als die quadrierte Mahalanobisdistanz der Mittelwertvektoren bezuglich einer
Schatzung der Kovarianzmatrix der Differenz dieser Vektoren.
Fur p = 1 ist Su die Matrix, die die erwartungstreue Schatzung s2 der Fehlerva-
rianz enthalt, weshalb man hier fur
T 2 =n1n2
n1 + n2
(y2 − y1)2
s2
gerade die quadrierte t-Statistik im Zweistichprobenfall erhalt – in dieser Hinsicht
passt die Bezeichnung T 2 also gut bis auf die Großschreibung.
Es leuchtet unmittelbar ein, dass die Nullhypothese, dass die beiden (theoreti-
schen) Zentroide ubereinstimmen, bei großen Werten von T 2 zu verwerfen ist.
Unter der Nullhypothese hat T 2 eine sogenannte Hotellings-T 2-Verteilung mit
den Parametern p und N − 2, die auch mit T 2(p,N − 2) abgekurzt wird. Die
Parameter sind dabei die Anzahl p der Variablen und die Differenz N − 2 aus
der Zahl der Beobachtungen und der Gruppen, die ja auch in der Varianzanalyse
und beim t-Test als Zahl der Nennerfreiheitsgrade eine wichtige Rolle spielt.
Diese Verteilung ist eng mit einer F -Verteilung verwandt, genauer kann man
zeigen, dass
T 2(p,N − 2) =(N − 2)p
N − p− 1Fp,N−p−1
gilt, was so zu interpretieren ist, dass die T 2(p,N − 2)-Verteilung mit der Ver-
teilung einer mit dem Faktor ((N − 2)p)/(N − p − 1) multiplizierten Fp,N−p−1-
verteilten Variable ubereinstimmt (die Tatsache, dass die Summe der Freiheits-
grade der zugehorigen F -Verteilung gerade N−1 ist, bietet sich als Merkhilfe fur
die Freiheitsgrade an).
Dies kann auf zwei Arten fur einen Signifikanztest genutzt werden. Zur Erlauterung
sei F eine Fp,N−p−1-verteilten Variable. Die H0-Verteilung von T 2 ist dann die
von ((N − 2)p)/(N − p − 1)F , weshalb die von (N − p − 1)/((N − 2)p)T 2
2.6 Multivariate Varianzanalyse MS13 188
eine Fp,N−p−1-Verteilung ist. Die erste Moglichkeit besteht also darin, T 2 zu
(N−p−1)/((N−2)p)T 2 zu transformieren, das unterH0 eine Fp,N−p−1-Verteilung
hat, und dann rechtsseitig zu testen. Die Entscheidungsregel ist dann die, H0 dann
zu verwerfen, wennN − p− 1
(N − 2)pT 2 ≥ Fp,N−p−1;α
gilt; der Ausdruck rechts ist dabei das α-Fraktil der Fp,N−p−1-Verteilung, also der
Wert, der rechts bei dieser Verteilung α abschneidet. Ausfuhrlich kann man die
Teststatistik auch so schreiben:
N − p− 1
(N − 2)pT 2 =
n1n2(N − p− 1)
N(N − 2)p(y2 − y1)
′S−1u (y2 − y1)
=(N − p− 1)
pSpur
(W−1B
).
Die letzte Form gibt die Umrechnung der Hotelling-Lawley-Spur in eine F -verteilte
Statistik.
Die zweite Moglichkeit besteht darin, nicht die T 2-Statistik zu transformieren,
sondern den kritischen Wert der F -Verteilung. Hierzu sei wieder F eine Fp,N−p−1-
verteilten Variable. Das α-Fraktil der Verteilung von ((N−2)p)/(N−p−1)F ist
dann das ((N − 2)p)/(N − p− 1)-fache des α-Fraktils der Fp,N−p−1-Verteiltung,
und da die Verteilung von ((N − 2)p)/(N − p − 1)F mit der von T 2 unter H0
ubereinstimmt, auch das der T 2(p,N−2)-Verteilung. Das α-Fraktil T 2(p,N−2;α)
der T 2(p,N − 2)-Verteilung ist also
T 2(p,N − 2;α) =(N − 2)p
N − p− 1Fp,N−p−1;α ,
und H0 ist zu verwerfen, wenn T 2 ≥ T 2(p,N − 2;α) gilt. Ausfuhrlich formuliert
heißt das, dass
T 2 ≥ (N − 2)p
N − p− 1Fp,N−p−1;α
sein muss – man sieht sofort, dass dies nur eine Umformulierung der ersten gege-
benen Regel ist.
Das Verfahren soll gleich an einem Beispiel illustriert werden. Dazu seien in zwei
2.6 Multivariate Varianzanalyse MS13 189
Gruppen mit je drei Personen die folgenden Daten erhoben worden:
Y =
8 2
7 1
6 3
7 3
4 5
4 4
Zu untersuchen ist, ob sich die zugehorigen Zentroide µ1 und µ2 sich unterschei-
den. Man berechnet dazu die entsprechenden Mittelwerte zu
y1 =
(7
2
)und y2 =
(5
4
)und die SSCP-Matrizen der beiden Gruppen zu(
2 −1
−1 2
)und
(6 −3
−3 2
).
Hieraus bestimmt man
y2 − y1 =
(−2
2
)und Su =
1
4
(8 −4
−4 4
)=
(2 −1
−1 1
).
Mit
S−1u =
(1 1
1 2
)errechnet man damit
T 2 =n1n2
n1 + n2
(y2 − y1)′S−1u (y2 − y1) =
3 · 33 + 3
(−2 2
)(1 1
1 2
)(−2
2
)= 6 .
Nebenbei ergibt sich die Hotelling-Lawley-Spur zu 6/4 = 1.5.
Unter H0 besitzt T 2 eine T 2(p,N − 2)-Verteilung, also eine T 2(2, 4)-Verteilung.
Zum Test auf dem 5%-Niveau kann einerseits T 2 in eine F -Statistik transformiert
werden. Hierzu ist T 2 mit (N − p− 1)/((N − 2)p) = (6− 2− 1)/((6− 2)2) = 3/8
zu multiplizieren, was 6 · 3/8 = 2.25 ergibt. Dieser Wert ist zu vergleichen mit
dem .05-Fraktil der Fp,N−p−1-Verteilung, also mit F2, 3; .05 = 9.55. Offensichtlich
ist das Ergebnis nicht signifikant.
2.6 Multivariate Varianzanalyse MS13 190
Andererseits kann der T 2-Wert direkt mit dem zugehorigen kritischen Wert ver-
glichen werden, der hier das ((N − 2)p)/(N − p− 1)-fache, also das 8/3-fache des
gerade schon bestimmten .05-Fraktils F2, 3; .05 = 9.55 ist, also (8/3) · 9.55 = 25.47.
Naturlich ist auch hier T 2 = 6 nicht signifikant, und man sieht an der Rechnung
auch noch einmal, dass beide Alternativen zum gleichen Ergebnis fuhren mussen.
In dem Spezialfall J = 2 der multivariaten Varianzanalyse steht neben den
vier ublichen Teststatistiken also auch noch Hotellings T 2 als Teststatistik zur
Verfugung. Es hat sich oben schon herausgestellt, dass Hotellings T 2 aquivalent
zur Hotelling-Lawley-Spur ist; aber auch alle drei anderen Tests sind zu diesen
beiden aquivalent, so dass im Fall J = 2 alle funf moglichen Tests aquivalent
sind. Dies lasst sich recht einfach mit Hilfe der Eigenwerte von W−1B zeigen,
was in einem der nachsten Abschnitte geschehen soll. Entscheidend ist dabei die
Tatsache, dass fur J = 2 der Rang von B hochstens 1 ist, was auch die gerade
hergeleitete Alternativformel fur B noch einmal deutlich zeigt.
Vielleicht ist es nicht uberflussig, zum Abschluss genauer auf Situationen einzu-
gehen, in denen zwei Teststatistiken in monotoner Beziehung stehen. In diesen
Fallen wurde gesagt, dass die zugehorigen Tests aquivalent sind, was bedeuten
sollte, dass sie immer zum gleichen Resultat fuhren mussen. Diese eigentlich ein-
leuchtende Aussage soll nun begrundet werden.
Zuvor sei der Vollstandigkeit halber an den Begriff der streng monotonen Funktion
erinnert. Ist D eine Teilmenge von R, so heißt eine Funktion f : D → R streng
monoton wachsend, falls fur alle x1 < x2 aus D auch f(x1) < f(x2) gilt.
Eine solche Funktion respektiert also die Ordnungsrelation. Neben den streng
monoton wachsenden Funktionen gibt es noch die streng monoton fallenden, bei
denen die Ordnung umgekehrt wird. Bei solchen Funktionen soll fur alle x1 < x2aus D die Beziehung f(x1) > f(x2) gelten.
Da nun es offenbar bei solchen Funktionen nie sein kann, dass zwei verschiedene
x-Werte denselben Funktionswert zugewiesen bekommen, ist es moglich, aus den
Funktionswerten die x-Werte eindeutig zu rekonstruieren; mit anderen Worten
sind solche Funktionen umkehrbar. Dabei erben die Umkehrfunktionen offenbar
die Eigenschaft der strengen Monotonie: Umkehrfunktionen von streng monoton
wachsenden Funktionen sind ebenfalls streng monoton wachsend und Umkehr-
funktionen von streng monoton fallenden ebenfalls streng monoton fallend.
Der Zusatz’streng‘ wird, da hier ausschließlich streng monotone Funktionen be-
2.6 Multivariate Varianzanalyse MS13 191
trachtet werden, der Kurze halber wie auch schon oben meist weggelassen.
Zur Begrundung der Aquivalenz von Tests mit Statistiken, die sich monoton in-
einander transformieren lassen, seien nun fur dieselben Daten zwei Teststatistiken
T1 und T2 gegeben, wobei die Statistik T2 sich aus T1 als T2 = f(T1) mit Hilfe
einer streng monotonen Funktion f berechnen lasst. Es sei vorausgesetzt, dass f
monoton wachsend ist, fur monoton fallende Funktionen argumentiert man ana-
log, außer dass sich die Richtung der Tests andert – aus einem rechtsseitigen Test
wird also ein linksseitiger und umgekehrt.
Als Beispiel kann man an die beiden Versionen λ und θ von Roys Maximalwurzel
fur den Fall p = 1 denken, von denen sich ja gezeigt hatte, dass sie sich durch
monotone Transformationen ineinander uberfuhren lassen.
In beiden Tests soll nun die Nullhypothese fur große Werte verworfen werden (fur
linksseitige Tests argumentiert man analog, bei monoton fallenden Transforma-
tionen ware dagegen vorauszusetzen, dass die Nullhypothese bei dem einen Test
fur große Werte verworfen wird und bei dem anderen fur kleine). Die kritischen
Werte auf Niveau α seien k1 und k2; der Einfachheit halber sei vorausgesetzt,
dass diese kritischen Werte eindeutig sind in dem Sinne, dass sie die einzigen
sind, die bei den zugehorigen Verteilungen rechts α abschneiden, was in den hier
behandelten Situationen immer der Fall ist. Die Statistik Ti wird also genau dann
signifikant, wenn Ti ≥ ki gilt.
Da die Werte ki bei den Verteilungen von Ti unter H0 beide rechts α abschneiden,
gilt P(Ti ≥ ki) = α, wobei P die Wahrscheinlichkeit unter H0 bezeichnet. Nun
ist wegen der Monotonie von f die Gleichung T1 ≥ k1 genau dann erfullt, wenn
f(T1) ≥ f(k1) ist. Insbesondere ist die Wahrscheinlichkeit dafur, das T1 ≥ k1 gilt,
gleich der Wahrscheinlichkeit, dass f(T1) ≥ f(k1) gilt. Nun ist aber f(T1) = T2,
woraus P(T2 ≥ f(k1)) = α folgt, und dies bedeutet, dass f(k1) bei der Verteilung
von T2 unter H0 rechts gerade α abschneidet, mit anderen Worten, dass f(k1)
der kritische Wert fur den Test T2 ist. Dieser kritische Wert ist andererseits k2,
wegen der Eindeutigkeit muss also k2 = f(k1) gelten.
Damit ist die Aquivalenz der beiden Tests gezeigt, denn da nun T1 ≥ k1 genau
dann gilt, wenn T2 ≥ k2 gilt, wird offenbar T1 genau dann signifikant, wenn T2signifikant wird.
Die Argumentation hat ubrigens auch gezeigt, dass man den kritischen Wert fur
den Test mit T2 einfach dadurch erhalt, dass man auf den kritischen Wert k1 des
2.6 Multivariate Varianzanalyse MS13 192
Tests mit T1 die Funktion f anwendet, der kritische Wert k2 fur T2 ist also f(k1).
Eigenwerte. In diesem Abschnitt soll gezeigt werden, dass sich alle Teststatisti-
ken der multivariaten Varianzanalyse mit Hilfe der Eigenwerte von W−1B aus-
drucken lassen. Es wird sich dabei auch die Aquivalenz der verschiedenen Tests
fur J = 2 ergeben.
Da die behandelten Sachverhalte auch in anderen Situationen wichtig sind, sol-
len die allgemeinere Bezeichnungen gewahlt werden, die nicht so stark mit der
Situation der Varianzanalyse assoziiert sind.
Die Ausgangssituation ist die, dass zwei symmetrische positiv semidefinite (p×p)-Matrizen A und B gegeben sind, wobei A invertierbar, also sogar positiv definit
ist.
Bei der multivariaten Varianzanalyse ubernimmt dann W die Rolle von A, wah-
rend die Bezeichnung B bereits passt.
In dieser Situation werden nun mehrere Fragen behandelt, die sich mit Eigenwer-
ten von Matrizen beschaftigen, die sich aus A und B zusammensetzen.
Zunachst erkennt man leicht, dass A + B positiv definit und damit auch inver-
tierbar ist: Offenbar ist A+B symmetrisch, und fur jedes x 6= 0 ist der Ausdruck
x′(A + B)x = x′Ax + x′Bx wegen x′Ax > 0 und x′Bx ≥ 0 großer als 0, woraus
die positive Definitheit folgt.
Bekanntlich stimmen die Eigenwerte von A−1B = A−1/2A−1/2B mit denen von
A−1/2BA−1/2 uberein. Diese letzte Matrix ist jedoch symmetrisch und positiv
semidefinit und besitzt daher p nichtnegative Eigenwerte, die in absteigender
Reihenfolge λ1, . . . , λp heißen sollen (man erinnere sich hier ubrigens an die Kon-
vention, nach der Eigenwerte so oft aufzulisten sind, wie ihre geometrische Mul-
tiplizitat angibt).
Diese Eigenwerte λ1, . . . , λp sind also auch die Eigenwerte von A−1B. Was zu-
gehorige Eigenvektoren angeht, so gilt hier, dass y genau dann ein Eigenvek-
tor von A−1/2BA−1/2 ist, wenn A−1/2y Eigenvektor von A−1B ist (und zwar
zum selben Eigenwert). Wahlt man nun fur A−1/2BA−1/2 eine Orthonormalba-
sis y1, . . . ,yp von Eigenvektoren zu den λi, und setzt man xi = A1/2yi, so sind
die xi Eigenvektoren zu λi von A−1B, die wegen der Invertierbarkeit von A1/2
zusatzlich linear unabhangig sind. Man hat mit den xi also eine Basis des Rp aus
Eigenvektoren von A−1B.
2.6 Multivariate Varianzanalyse MS13 193
Die nachste Frage, die es zu losen gilt, ist die nach den Eigenwerten von I+A−1B.
Ist x ein Eigenvektor zu einem Eigenwert λ von A−1B, gilt also (A−1B)x = λx,
so gilt auch
(I + A−1B)x = x + (A−1B)x = x + λx = (1 + λ)x ,
was gerade bedeutet, dass x auch Eigenvektor zum Eigenwert (1+λ) von I+A−1B
ist.
Mit den xi besitzt man also bereits p linear unabhangige Eigenvektoren von
I+A−1B zu Eigenwerten 1+λi. Die Summe der Dimensionen der Eigenraume zu
diesen Eigenwerten ist daher ≥ p, woraus folgt, dass man bereits alle Eigenwerte
von I + A−1B gefunden hat.
Als Ergebnis kann festgehalten werden, dass die Eigenwerte von I+A−1B gerade
(1 + λ1), . . . , (1 + λp) sind, wobei die zugehorigen Eigenvektoren dieselben sind
wie die von A−1B zu den Eigenwerten λi. Offenbar sind die Eigenwerte (1 + λi)
auch schon in absteigender Reihenfolge angeordnet.
Nun soll mit Hilfe dieser Eigenwerte ein Quotient von Determinanten bestimmt
werden (im Falle der Varianzanalyse gerade Wilks’ Λ), namlich
Λ =det(A)
det(A + B)
(da A + B positiv definit ist, taucht hier kein Problem wegen einer moglichen
Division durch 0 auf). Wegen
det(A + B) = det(A(I + A−1B)) = det(A) det(I + A−1B)
kann man diesen Quotienten auch als
1/(det(I + A−1B))
schreiben. Da die Determinante von I+A−1B gleich dem Produkt der Eigenwerte
1 + λi dieser Matrix ist, lasst sich der Quotient folgendermaßen umformen:
Λ =det(A)
det(A + B)=
p∏i=1
1
1 + λi
(∏
ist dabei naturlich – vollig analog zum Summenzeichen∑
– die Abkurzung
fur ein Produkt). Da alle λi nichtnegativ waren, folgt weiter, dass der untersuchte
Quotient großer als 0 ist und maximal den Wert 1 annehmen kann, was allerdings
nur in dem Extremfall A−1B = 0, also B = 0 vorkommen kann.
2.6 Multivariate Varianzanalyse MS13 194
Das nachste Problem ist das der Eigenwerte von (A+B)−1B, die θi heißen sollen.
Es soll gezeigt werden, dass diese Eigenwerte in enger Beziehung zu den λi stehen.
Im Falle der Varianzanalyse geht es ubrigens um die Eigenwerte von T−1B.
Ist λ irgendein Eigenwert von A−1B mit Eigenvektor x, so gilt A−1Bx = λx,
woraus Bx = λAx und
(1 + λ)Bx = Bx + λBx = λAx + λBx = λ(A + B)x
folgt, was wiederum (A+B)−1Bx = (λ/(1+λ))x impliziert. Dies bedeutet aber,
dass λ/(1 + λ) Eigenwert von (A + B)−1B mit Eigenvektor x ist.
Genau wie eben folgert man daraus, dass die Eigenwerte von (A + B)−1B gerade
die λi/(1+λi) fur i = 1, . . . , p sind, wobei die zugehorigen Eigenvektoren dieselben
sind wie die von A−1B zu den Eigenwerten λi.
Wie man sieht, erhalt man die Eigenwerte θi aus den λi durch Anwendung der
Funktion f(x) = x/(1 + x), die sich ja gerade als streng monoton wachsend
erwiesen hat. Mit den λi sind also auch die θi bereits in absteigender Reihenfol-
ge angeordnet, was insbesondere bedeutet, dass der großte Eigenwert θ1 gleich
λ1/(1 + λ1) ist.
Offenbar ist θ1 kleiner als 1 und damit auch alle weiteren θi.
Wegen der Umkehrbarkeit der Funktion f kann man aus den θi auch wieder
ruckwarts die λi bestimmen. Man erhalt so die folgenden Beziehungen:
θi =λi
1 + λiund λi =
θi1− θi
.
Nun konnen die gewonnenen Ergebnisse auf den Fall der multivariaten Varianz-
analyse angewendet werden. Die Rolle von A spielt hier die Matrix W, wahrend
B schon den passenden Namen tragt.
Eine zentrale Rolle spielen die Matrizen W−1B und T−1B. Sind λ1, . . . , λp die
Eigenwerte von W−1B in absteigender Reihenfolge, und θ1, . . . , θp die von T−1B
(ebenfalls in absteigender Reihenfolge), so gilt
θi =λi
1 + λiund λi =
θi1− θi
.
Die Transformation ist in beiden Richtungen streng monoton wachsend. Entspre-
chende Eigenwerte haben dabei die gleichen Eigenvektoren.
2.6 Multivariate Varianzanalyse MS13 195
Damit konnen die multivariaten Statistiken mit Hilfe der Eigenwerte ausgedruckt
werden. Zunachst gilt fur Wilks’ Λ die Gleichung
Λ =
p∏i=1
1
1 + λi=
p∏i=1
(1− θi) ,
deren erster Teil oben schon gezeigt wurde. Der zweite Teil folgt beispielsweise
aus1
1 + λi+ θi =
1
1 + λi+
λi1 + λi
= 1 ,
was 1/(1 + λi) = 1− θi zur Folge hat.
Roys Maximalwurzel ist entweder θ1 oder λ1; diese beiden Werte lassen sich durch
die angegebenen monotonen Transformationen ineinander umrechnen.
Die Pillai-Bartlett-Spur ist
Spur(T−1B) =
p∑i=1
θi =
p∑i=1
λi1 + λi
und die Hotelling-Lawley-Spur
Spur(W−1B) =
p∑i=1
λi =
p∑i=1
θi1− θi
,
da die Spur dieser Matrizen die Summe der Eigenwerte ist (hier ist die Tatsache
wichtig, dass T−1B und W−1B jeweils – mit Berucksichtigung der Multiplizitat
– gerade p Eigenwerte besitzen).
Damit ist es gelungen, alle multivariaten Statistiken durch die Eigenwerte λi von
W−1B oder alternativ durch die Eigenwerte θi von T−1B auszudrucken.
Die Formeln sollen nun auch noch einmal durch das Beispiel der Varianzanalyse
mit den drei Bedingungen illustriert werden. Die notigen Eigenwerte waren schon
bestimmt worden – die Eigenwerte von W−1B sind λ1 = 6 und λ2 = 1, wahrend
die von T−1B gleich θ1 = 6/7 und θ2 = 1/2 sind.
Als erstes sieht man, dass die Umrechnungsformeln zum richtigen Ergebnis fuhren,
beispielsweise ist θ1 = λ1/(1 + λ1) = 6/(1 + 6) = 6/7 oder λ2 = θ2/(1 − θ1) =
(1/2)/(1− 1/2) = 1.
Wilks’ Λ ist das Produkt der 1/(1 + λi), also das Produkt von 1/7 und 1/2,
was 1/14 = .0174 ergibt, in Ubereinstimmung mit der Rechnung oben. Mit dem
Produkt der (1− θi) erhalt man naturlich das gleiche Ergebnis.
2.6 Multivariate Varianzanalyse MS13 196
Die Pillai-Bartlett-Spur ist die Summe der θi, also 19/14 = 1.3571, wahrend die
Hotelling-Lawley-Spur die Summe der λi ist, also 7. Beides stimmt mit den schon
berechneten Werten uberein.
Zum Abschluss ist noch der Fall zu behandeln, dass B (im Fall J = 2) hochstens
den Rang 1 besitzt. Es soll gezeigt werden, dass alle multivariaten Statistiken
aus Roys Maximalwurzel λ1 durch eine monotone Transformation hervorgehen.
Damit sind dann diese Statistiken alle aquivalent.
Wenn B hochstens Rang 1 hat, besitzt auch W−1B hochstens den Rang 1, und
die Eigenwerte dieser Matrix sind alle gleich 0 bis auf hochstens λ1, der dann
auch der großte ist.
Den großten Eigenwert θ1 von T−1B errechnet man zu λ1/(1+λ1). Die restlichen
θi sind alle 0. Die Maximalwurzel θ1 ist also (was ja auch schon bekannt war)
eine monotone Funktion von λ1.
Wilks’ λ ist hier 1/(1 + λ1), da alle weiteren Faktoren 1/(1 + λi) in der Pro-
duktdarstellung gleich 1 sind. Wilks’ λ ist also eine monotone Funktion von λ1 –
diesmal eine monoton fallende (weshalb ja auch hier linksseitig getestet wird).
Da die θi und die λi fur i > 1 alle 0 sind, ist die Pillai-Bartlett-Spur gleich θ1 =
λ1/(1 + λ1) und die Hotelling-Lawley-Spur gleich λ1. Die Spuren sind also hier
gleich den beiden Versionen der Maximalwurzel und folglich ebenfalls monotone
Transformationen von λ1.
Insgesamt sind im Fall J = 2 also alle Statistiken monotone Funktionen von λ1und damit aquivalent. Dass auch Hotellings T 2 als ein Vielfaches der Hotelling-
Lawley-Spur aquivalent zu λ1 ist, hat sich oben schon gezeigt.
Invarianz. Die vier Tests der multivariaten Varianzanalyse sind invariant ge-
genuber bijektiven affinen Transformationen; die Teststatistiken andern sich also
nicht, wenn man die Daten einer solchen Transformation unterzieht. Hierunter
fallt insbesondere die Moglichkeit, dass man die Skalen der einzelnen Variablen
durch andere ersetzt, die sich durch’lineare Transformationen‘ ergeben(damit
sind hier solche der Form u = ay + b mit a 6= 0 gemeint).
Mit geeigneten Transformationen kann man auch den vier Statistiken eine noch
anschaulichere Interpretation geben.
Zur Begrundung dieser Invarianzeigenschaft sei also u = Ay+b eine affine Trans-
2.6 Multivariate Varianzanalyse MS13 197
formation von y mit einer invertierbaren (p×p)-Matrix A. Die neuen Erwartungs-
werte fur die Bedingungen sind hier Aµj +b, und wegen der Invertierbarkeit von
A erkennt man sofort, dass die neuen Erwartungswerte genau dann alle gleich
sind, wenn die µj gleich sind; die Nullhypthese gilt fur die transformierten Daten
also genau dann, wenn sie fur die Origialdaten gilt.
Nun sollen die B-, die W- und die T-Matrix fur die transformierten Daten be-
stimmt werden; zur Unterscheidung sollen sie B, W und T heißen. Hierzu wird
die neue Datenmatrix benotigt, die U heißen soll und sich aus der Originalda-
tenmatrix Y bekanntlich als U = YA′ + 1b′ ergibt.
Die Matrizen B, W und T erhalt man dann als U′PbU, U′PwU und U′PtU,
wo Pb, Pw und Pt die entsprechenden Projektionsoperatoren sind. Da Pb1, Pw1
und Pt1 bekanntlich alle gleich 0 sind, folgt
B = U′PbU = (YA′)′Pb(YA′) = AY′PbYA′ = ABA′
und entsprechend W = AWA′ und T = ATA′ . Hieraus ergibt sich
W−1
B = (AWA′)−1ABA′ = A′−1W−1A−1ABA′ = A′−1W−1BA′ ,
und wegen der Invertierbarkeit von A′ sind die Eigenwerte dieser Matrix diesel-
ben wie die von A′A′−1W−1B = W−1B. Aus der Gleichheit der Eigenwerte von
W−1
B und W−1B folgt aber unmittelbar die Gleichheit der aus diesen Eigen-
werten zusammengesetzten Teststatistiken.
Erganzend werden noch die zugehorigen Eigenvektoren bestimmt. Da nach einem
bekannten Satz aus der linearen Algebra ein Vektor x genau dann Eigenvektor zu
einem Eigenwert λ von W−1
B = A′−1W−1BA′ ist, wenn A′x Eigenvektor von
A′A′−1W−1B = W−1B zum selben Eigenwert ist, erhalt man die Eigenvektoren
von W−1
B zum Eigenwert λi genau als die A′−1v, wo v Eigenvektor von W−1B
zu λi ist.
Anschauliche Deutung der Statistiken. Mit Hilfe der Invarianzeigenschaft
kann nun den Statistiken der multivariaten Varianzanalyse eine anschaulichere
Deutung gegeben werden.
Zunachst soll Wilks’ Λ betrachtet werden. Hierzu wird in der folgenden Abbil-
dung die Darstellung der Beispieldaten wieder aufgegriffen, zusatzlich werden
aber noch Ellipsen eingezeichnet, die in gewisser Weise die Matrizen T, B und
W reprasentieren.
2.6 Multivariate Varianzanalyse MS13 198
1
1.................................................................................................................................................................................................................................................................................................................................................................................................................... .......................................................................................................................................................................................................................................................................................................
...................
y1
y2
rrrb
bue
............................................................................................................
.....................
..........................
.....................................................................................................
............................................................................................................
.....................
..........................
.....................................................................................................
............................................................................................................
.....................
..........................
.....................................................................................................
..............................................................................................................................................................
.....................
.........................
................................
............................................................................................................................................................................................................................................................
..........
.......
...........
.....................................................
Die großte Ellipse, die zu T gehort, ist die Ellipse, die im ublichen Sinn die
Verteilung der Daten insgesamt charakterisiert: die Kovarianzmatrix aller Daten
ist T/N und das zugehorige Ellipsoid E(T/N, x, 1) ist gerade die großte Ellipse.
Die etwas kleinere Ellipse gehort zu B; hier handelt es sich um die Ellipse, die die
Verteilung der Gruppenmittelwerte charakterisiert, wobei jeder Gruppenmittel-
wert so oft auftritt, wie in der zugehorigen Zelle Beobachtungen sind. Die Kova-
rianzmatrix der Daten, bei denen die Beobachtungen durch ihre Gruppenmittel-
werte ersetzt sind, ist gerade B/N , wahrend der Mittelwertvektor dieser Daten
wieder x ist. Die Ellipse zu der Verteilung der Gruppenmittelwerte gehorende
Ellipse ist daher E(B/N, x, 1), und dies ist hier die kleinere Ellipse um x.
Hier ist anzumerken, dass in vielen Fallen die Matrix B singular ist, womoglich
notwendigerweise, wenn beispielsweise die Anzahl der Gruppen nicht großer ist
als die der Variablen. In diesem Fall kann B nicht durch ein Ellipsoid reprasentiert
werden. Als Hinweis auf diesen Sachverhalt ist hier die zu B gehorende Ellipse
auch nur gepunktet umrandet.
Schließlich konnte man auch noch die Verteilungen der Abweichungen der Werte
von ihrem jeweiligen Gruppenzentroid durch Ellipsen reprasentieren. Da die ent-
sprechenden theoretischen Kovarianzmatrizen voraussetzungsgemaß gleich sind,
ist es jedoch sinnvoll, diese Abweichungen uber alle Gruppen hinweg zusammen-
zufassen. Die Kovarianzmatrix der Abweichungen ist dann gerade W/N , und die
Ellipse, die diese Kovarianzmatrix charakterisiert, ist hier fur jede Gruppe ein-
mal mit dem jeweiligen Zentroid als Mittelpunkt eingezeichnet; die drei kleinen
Ellipsen sind also die Ellipsen E(W/N, xj, 1).
Nun ist Wilks’ Λ gleich det(W)/ det(T). Die beiden Determinanten sind aber
bis auf einen Faktor, der in beiden Fallen gleich ist und sich damit weghebt, die
quadrierten Volumina der zu W und T gehorenden Ellipsoide E(W, ?, 1) und
E(T, ?, 1) (der Stern bedeutet, dass es auf den Mittelpunkt nicht ankommt).
2.6 Multivariate Varianzanalyse MS13 199
Das Volumen des hier eingezeichneten zu T/N gehorenden Ellipsoids ist nun
gerade das√
(1/N)p-fache des zu T gehorenden Ellipsoids, und entsprechend
verhalt es sich mit den zu W/N und zu W gehorenden Ellipsoiden. Damit ist
das Verhaltnis der Volumina der zu W und T gehorenden Ellipsoide dasselbe wie
das der Volumina der zu W/N und T/N gehorenden, und diese beiden Ellipsen
befinden sich auch in der Zeichnung (die zu W/N gehorende dreimal). Wenn
man nun das Verhaltnis der Flacheninhalte der W/N - und T/N -Ellipsen in der
Abbildung quadriert, so erhalt man folglich gerade Wilks’ Λ (von den W/N -
Ellipsen nimmt man dabei naturlich nur eine).
Wilks’ Λ ist damit anschaulich als ein quadriertes Verhaltnis von Volumina von
Ellipsoiden gedeutet, und offenbar sprechen hier kleine Werte gegen die Nullhy-
pothese, da sie bedeuten, dass die Variabilitat des Fehlers klein ist im Verhaltnis
zur Gesamtvariabilitat der Daten.
Um auch die anderen Statistiken geometrisch interpretieren zu konnen, ist es
sinnvoll, zunachst geeignete affine Transformationen mit den Daten vorzuneh-
men; der vorangehende Abschnitt hat ja gezeigt, dass die Statistiken bei solchen
Transformationen ihren Wert beibehalten.
Beide hier verwendetete Transformationen lassen sich als Mahalanobis-Transfor-
mationen auffassen, wobei die eine die Kovarianzmatrix der Fehler zur Einheits-
matrix macht und die andere die Kovarianzmatrix aller Daten.
Zunachst soll die Mahalanobistransformation bezuglich der Fehlerkovarianzma-
trix W/N durchgefuhrt werden; die Konstante wird dabei so gewahlt, dass hin-
terher 0 der Mittelwert aller transformierten Daten ist. Die Transformation ist
dann
u = (W/N)−1/2(y − y) .
Die folgende Abbildung zeigt die transformierten Daten mit den zugehorigen El-
lipsen; den Eigenschaften der Transformation entsprechend ist nun 0 der Gesamt-
mittelwert, und aus den zum Fehler gehorenden Ellipsen sind Kreise mit Radius 1
geworden. Zum Vergleich findet sich links noch einmal die Originaldatensituation.
2.6 Multivariate Varianzanalyse MS13 200
1
1.................................................................................................................................................................................................................................................................................................................................................................................................................... .......................................................................................................................................................................................................................................................................................................
...................
y1
y2
rrrb
bue
............................................................................................................
.....................
..........................
.....................................................................................................
............................................................................................................
.....................
..........................
.....................................................................................................
............................................................................................................
.....................
..........................
.....................................................................................................
..............................................................................................................................................................
.....................
.........................
................................
............................................................................................................................................................................................................................................................
..........
.......
...........
.....................................................
......................................................................................................................................................................................................................................... ..........................
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......................
...................
u1
u2
rrr
bb ue
.......
...............................
.......................................................................................................................................................................................................................................
.......
...............................
.......................................................................................................................................................................................................................................
.......
...............................
.......................................................................................................................................................................................................................................
............................................................................................................................................................
......................................................................................................................................................................................................................................................................................................................................................................
...................................
........
......................................
...................................................................................
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
.......
Die Berechnung der W- und B-Matrizen der transformierten Daten, die wieder
W und B heißen sollen, liefert wie im letzten Abschnitt
W = (W/N)−1/2W(W/N)−1/2 = NI
und B = (W/N)−1/2B(W/N)−1/2. Die Kovarianzmatrix W/N des Fehlers ist
also in der Tat die Einheitsmatrix, weshalb die entsprechenden Ellipsen Kreise mit
Radius 1 sind. Fur W−1
B erhalt man damit B/N , was jetzt die Kovarianzmatrix
der Gruppenzentroide ist. Es sei noch einmal darauf hingewiesen, dass damit
hier und im Folgenden immer gemeint ist, dass jedes Gruppenzentroid in der
Haufigkeit der Beobachtungen in der zugehorigen Zelle auftritt.
Die Eigenwerte von W−1
B, die wegen des vorangehenden Abschnitts gleichzeitig
die Eigenwerte λi von W−1B sind, lassen sich jetzt also auch verstehen als Eigen-
werte der Kovarianzmatrix B/N der Gruppenzentroide nach der Mahalanobis-
Transformation, die die Fehlerkovarianzmatrix zur Einheitsmatrix gemacht hat.
Insbesondere lassen sich diese Eigenwerte damit in der Weise deuten, wie dies
allgemein bei Eigenwerten von Kovarianzmatrizen der Fall ist.
Die Spur von W−1B, also die Hotelling-Lawley-Spur, ist die Summe dieser Ei-
genwerte und kann als Spur der Kovarianzmatrix B/N der Gruppenzentroide
jetzt als verallgemeinerte Varianz dieser Zentroide gedeutet werden im Sinne ih-
res durchschnittlichen quadrierten Abstands zum Gesamtzentroid, das nun ja der
Nullpunkt ist.
Kurz gesagt ist also die Hotelling-Lawley-Spur die Varianz (im Sinne der Spur)
der Gruppenzentroide nach einer Mahalanobistransformation bezuglich der Feh-
lerkovarianzmatrix.
2.6 Multivariate Varianzanalyse MS13 201
Große Werte dieser Statistik sprechen also fur eine Verschiedenheit der entspre-
chenden Gruppenerwartungswerte und damit gegen die Nullhypothese, womit
auch die Regel gerechtfertigt ist, die Nullhypothese bei großen Werten zu verwer-
fen.
Der an mehreren Stellen wichtige großte Eigenwert λ1 ist insbesondere interpre-
tierbar als die maximale Varianz der Gruppenzentroide in einer Richtung, wobei
diese maximierende Richtung gerade durch den zugehorigen Eigenvektor gegeben
ist.
In der Abbildung ist die Richtung der maximalen Varianz als gepunktete Li-
nie mit eingezeichnet; die Richtung fallt naturlich mit der Richtung der ersten
Hauptachse der zu B/N gehorenden Ellipse zusammen.
Zur Deutung der restlichen beiden Statistiken soll nun eine Mahalanobistransfor-
mation bezuglich der Kovarianzmatrix T/N aller Daten vorgenommen werden.
Die Transformation ist jetzt
u = (T/N)−1/2(y − y) .
Die folgende Abbildung zeigt die transformierten Daten mit den zugehorigen El-
lipsen; den Eigenschaften der Transformation entsprechend ist 0 der Gesamtmit-
telwert, und die zur Gesamtvarianz gehorende Ellipse ist ein Kreis vom Radius
1. Zum Vergleich findet sich links wieder die Originaldatensituation.
1
1.................................................................................................................................................................................................................................................................................................................................................................................................................... .......................................................................................................................................................................................................................................................................................................
...................
y1
y2
rrrb
bue
............................................................................................................
.....................
..........................
.....................................................................................................
............................................................................................................
.....................
..........................
.....................................................................................................
............................................................................................................
.....................
..........................
.....................................................................................................
..............................................................................................................................................................
.....................
.........................
................................
............................................................................................................................................................................................................................................................
..........
.......
...........
.....................................................
1
1
........................................................................................................................................................................................................................................................... ..........................
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
....................
...................
u1
u2
rr
r
b
bue .......
..........................................
..........................................................................................................................................................................................................
...............................................................................
..........................................
..........................................................................................................................................................................................................
........................................................................
.................................................
..........................................................................................................................................................................................................
........................................................................
.......
.......
.......................................................................
...........................
......................................................................................................................................................................................................................................................................................................................................................................
...............................................................................................................
......................................
.......
...................................................................................
..........
..........
..........
..........
..........
..........
..........
..........
..........
..........
..........
.
Die Berechnung der T- und B-Matrizen der transformierten Daten, die wieder
T und B heißen sollen, liefert analog zur Rechnung bei der Transformation mit
2.6 Multivariate Varianzanalyse MS13 202
(W/N)−1/2 die Matrizen
T = (T/N)−1/2T(T/N)−1/2 = NI
und B = (T/N)−1/2B(T/N)−1/2. Die Kovarianzmatrix T/N aller neuer Daten ist
also in der Tat die Einheitsmatrix, weshalb die entsprechende Ellipse ein Kreis mit
Radius 1 ist. Fur T−1
B erhalt man damit B/N , also wieder die Kovarianzmatrix
der neuen Gruppenzentroide (nach wie vor werden die Gruppenzentroide so oft
aufgenommen wie Beobachtungen in den entsprechenden Zellen sind).
Die Eigenwerte von T−1
B sind, wie man ganz analog zur Argumentation bei der
Transformation mit (W/N)−1/2 sieht, gleichzeitig die Eigenwerte θi von T−1B.
Sie lassen sich also auch wieder verstehen als Eigenwerte der Kovarianzmatrix
B/N der Gruppenzentroide nach der Mahalanobis-Transformation, die die Ge-
samtkovarianzmatrix zur Einheitsmatrix gemacht hat.
Die Spur von T−1B, also die Pillai-Bartlett-Spur, ist die Summe dieser Eigenwer-
te und kann als Spur der Kovarianzmatrix B/N der Gruppenzentroide wieder als
verallgemeinerte Varianz dieser Zentroide gedeutet werden im Sinne ihres durch-
schnittlichen quadrierten Abstands zum neuen Gesamtzentroid 0.
Kurz gesagt ist also die Pillai-Bartlett-Spur die Varianz (im Sinne der Spur) der
Gruppenzentroide nach einer Mahalanobistransformation bezuglich der Gesamt-
kovarianzmatrix.
Große Werte dieser Statistik sprechen also fur eine Verschiedenheit der entspre-
chenden Gruppenerwartungswerte und damit gegen die Nullhypothese, womit
auch die Regel gerechtfertigt ist, die Nullhypothese bei großen Werten zu verwer-
fen.
Der großte Eigenwert θ1, also Roys Maximalwurzel, ist insbesondere interpre-
tierbar als die maximale Varianz der Gruppenzentroide in einer Richtung, wobei
diese maximierende Richtung gerade durch den zugehorigen Eigenvektor gegeben
ist.
In der Abbildung ist die Richtung der maximalen Varianz als gepunktete Li-
nie mit eingezeichnet; die Richtung fallt naturlich mit der Richtung der ersten
Hauptachse der zu B/N gehorenden Ellipse zusammen.
Es deutet sich hier schon eine Besonderheit der Maximalwurzel an, namlich die,
dass sie womoglich besonders empfindlich ist, wenn die Abweichungen der Grup-
penzentroide vom Gesamtzentroid in einer Richtung sehr stark ausgepragt sind,
2.6 Multivariate Varianzanalyse MS13 203
denn sie berucksichtigt nur die starkste Varianz in einer Richtung, im Gegensatz
zu Pillai-Bartlett-Spur und Hotelling-Lawley-Spur, die auf die Gesamtvarianz der
Gruppenzentroide ansprechen, also auch die anderen Richtungen mit einbeziehen.
Die geometrischen Deutungen konnen noch zu weiteren Vermutungen daruber
Anlass geben, bei welchen Datensituationen womoglich die eine oder die ande-
re Statistik besonders vorteilhaft ist, was das Erzielen signifikanter Ergebnisse
angeht.
Wahl der Statistik. Da man in der Situation der multivariaten Varianzanalyse
die Auswahl zwischen vier ublichen Teststatistiken hat, drangt sich die Frage auf,
welche man wahlen soll.
Die Auswahl wird oft durch Tradition bestimmt sein, jedoch lassen sich auch
Argumente anfuhren, die in unterschiedlichen Situationen fur oder gegen die ein-
zelnen Statistiken sprechen.
Ein Aspekt fur die Wahl kann die Robustheit gegen Verletzung der Verteilungs-
annahmen sein. Hier zeigt die Erfahrung, dass viel fur die Pillai-Bartlett-Spur
spricht.
Ein zweiter Aspekt kann das Bedurfnis sein, nach einer signifikanten Varianz-
analyse, die ja nur eine ganz allgemeine und unspezifische Alternativhypothese
besitzt, und bei der folglich ein signifikantes Ergebnis noch wenig aussagt, gewis-
sermaßen genauer nach der Ursache der Signifikanz zu forschen. Will man sich
nicht mit Problemen der Alpha-Inflation auseinandersetzen mussen, so ware zu
wunschen, eine Statistik zu besitzen, die nach dem UI-Prinzip konstruiert ist,
da dann ja ohne Adjustierprobleme entsprechende post-hoc-Tests durchgefuhrt
werden konnen.
Spezifischere Fragen konnen dabei einerseits auf Unterschiede zwischen bestimm-
ten Gruppen gerichtet sein, allgemeiner auf (multivariate) Kontraste, andererseits
konnen sie sich auch auf Linearkombinationen der Variablen beziehen, speziell al-
so beispielsweise fragen, ob auch in den einzelnen Originalvariablen Unterschiede
vorliegen.
Hier erweist sich der Test mit der Maximalwurzel als UI-Test fur beide Arten
von Fragen (und fur noch weitere). Wahlt man diesen Test, so kann man also
besonders einfach Fragen uber die genauere Form der Unterschiedlichkeit der Er-
wartungswertvektoren nach einem signifikanten Testergebnis beantworten, ohne
2.6 Multivariate Varianzanalyse MS13 204
sich uber die Alpha-Inflation Gedanken machen zu mussen.
Leider hat der Test mit der Maximalwurzel jedoch den Nachteil, dass er wenig
robust gegenuber Verletzungen der Verteilungsannahmen ist.
Ein weiterer wichtiger Aspekt ist die Power der Testverfahren. Hier kann man
keine allgemeingultige Empfehlung aussprechen, vielmehr weist je nach Konstel-
lation der µj und Form von Σ mal das eine und mal das andere Verfahren die
großere Power auf. Hinweise konnen die Veranschaulichung des letzten Abschnitts
liefern, die jedoch voraussetzen, dass man schon recht genaue Vorstellungen uber
die µj und Σ hat.
Variieren beispielsweise die Erwartungswerte µj im Wesentlichen nur ein einer
Richtung, liegen sie also dicht bei einer Geraden, so spricht man auch von einer
eher konzentrierten Nonzentralitatsstruktur. In diesem Fall empfiehlt sich die
Maximalwurzel als Test, was sich ja auch im letzten Abschnitt schon angedeutet
hat.
Variieren hingegen die Erwartungswerte in den J − 1 ihnen zur Verfugung ste-
henden Dimensionen in etwa gleichem Maße (man hat hier die Fehlerstreuung
zu berucksichtigen, also zunachst eine Mahalanobistransformation bezuglich Σ
durchzufuhren), so spricht man auch von einer eher diffusen Nonzentralitatsstruk-
tur. In diesem Fall sind die drei anderen Statistiken uberlegen.
Noch grundsatzlicher ist schließlich auch die Alternative zu prufen, statt einer
multivariaten Varianzanalyse mehrere univariate Varianzanalysen mit den p Ori-
ginalvariablen durchzufuhren. Auch hier ist nicht unbedingt klar, welchem Weg
der Vorzug zu geben ist.
Zunachst ist eine grundsatzliche Entscheidung zu treffen, namlich die, ob man
sich ausschließlich fur die Originalvariablen interessiert, oder ob man bereit ist,
neben den abhangigen Variablen auch Linearkombinationen dieser Variablen zu
betrachten.
Ein Argument fur die zweite Alternative kann das sein, dass in manchen Fallen
Unterschiede, die sich in den Einzelvariablen noch nicht deutlich genug zeigen,
dann deutlicher werden, wenn man geeignete Linearkombinationen betrachtet –
das Zulassen beliebiger Linearkombinationen ist ja gerade ein Aspekt der multiva-
riaten Vorgehensweise. Beispielsweise ist es oft so, dass bei allen abhangigen Va-
riablen etwa dasselbe Ergebnismuster vorliegt; dann kann dieses vielleicht durch
Summenbildung deutlicher von den sich gegenseitig neutralisierenden’Fehlern‘
2.6 Multivariate Varianzanalyse MS13 205
abgehoben werden.
Interessiert man sich also fur Unterschiede der Effekte der Stufen der unabhangi-
gen Variable, ohne sich darauf festlegen zu wollen oder zu konnen, wo genau sich
diese Effekte zeigen, so spricht einiges fur den multivariaten Zugang.
Interessiert man sich jedoch (aus welchem Grund auch immer) ausschließlich fur
Effekte in den einzelnen abhangigen Variablen, so wird der univariate Zugang oft
uberlegen sein, insbesondere dann, wenn man bei den Einzeltests meint, auf eine
Adjustierung des Signifikanzniveaus verzichten zu konnen.
Legt man jedoch in diesem Fall (in dem ausschließlich nach den abhangigen Va-
riablen gefragt wird, ein Interesse an Linearkombinationen jedoch ausgeschlossen
wird) Wert auf eine Adjustierung, so konnte man trotz der eingschrankten Fragen
doch auch ein multivariates Verfahren wahlen, da hier eine solche Adjustierung
enthalten ist, wobei sich allerdings anschließend noch die Frage nach passenden
post-hoc-Tests stellt (nach ihrer Konstruktion ist hier Roys Maximalwurzel ge-
eignet). Die Adjustierung mit Hilfe des multivariaten Verfahrens muss jedoch kei-
nesfalls optimal sein – univariate Varianzanalysen mit Bonferroni-Adjustierung
werden meistens vorzuziehen sein.
Wesentlich schoner ist der Fall, dass man vor dem Experiment schon genauere
Vorstellungen hat, wo sich die Unterschiede zeigen sollten, wenn man also eine
Linearkombination der abhangigen Variablen, in der dies der Fall sein sollte, schon
vorher spezifizieren kann. In diesem Fall wird man womoglich nur eine einzige
univariate Varianzanalyse mit dieser Linearkombination rechnen und kann sich
die Uberlegungen zur Adjustierung sparen.
Noch besser ist es, wenn man zusatzlich vorher angeben kann, zwischen welchen
Gruppen die Unterschiede auftreten sollten, oder wenn man allgemeiner Kon-
traste spezifizieren kann, die von Null verschieden sein sollten. In diesem Fall
kann man die Hypothesen so formulieren, dass sie mit Hilfe univariater Kontrast-
statistiken der vorher festgelegten Linearkombination oder Linearkombinationen
der abhangigen Variablen uberprufbar sind.
Ein zentraler Gesichtspunkt bei der Entscheidung zwischen univariaten Tests der
Originalvariablen und einem multivariaten Test ist zusammenfassend die Frage,
ob man beliebige Linearkombinationen der Originalvariablen mit in die Betrach-
tung einbeziehen will oder nicht. Will man dies tun, so sollte man den multiva-
riaten Zugang wahlen, ist man hingegen ausschließlich an den Originalvariablen
2.6 Multivariate Varianzanalyse MS13 206
interessiert, so ist der univariate Zugang wohl meist sinnvoller, insbesondere, wenn
man auf Adjustierung verzichten will.
In der Praxis ist ubrigens immer mit Uberraschungen zu rechnen, wenn man
parallel univariat und multivariat rechnet und die Ergebnisse vergleicht.
Zu erwahnen sind in diesem Zusammenhang noch Vorschriften der Art, man
musse (!) multivariat rechnen, wenn es deutliche Korrelationen zwischen den Ori-
ginalvariablen gibt, konne oder durfte oder sollte jedoch im Fall geringer Korre-
lationen univariat rechnen und durfe (?) dann auch auf Adjustierung verzichten.
Wenn sich solche Vorschriften auch plausibel anhoren, so ist, gerade wegen ihrer
Schlichtheit, um so kritischer nach einer Rechtfertigung zu fragen (in diesem Zu-
sammenhang ist auch zu klaren, welche Korrelationen gemeint sind: die zwischen
den Fehlern oder die zwischen den Variablen insgesamt ohne Berucksichtigung
der Gruppenzugehorigkeit).
Zur Illustration soll das Beispiel aus der Einleitung noch einmal aufgegriffen wer-
den. Hier wurde zumindest Wilks’ Λ signifikant auf dem 5%-Niveau. Erganzend
ist es nun interessant, nach den Ergebnissen fur univariate Varianzanalysen der
beiden Variablen zu fragen.
Die F -Bruche berechnet man (unter Zuhilfenahme der Diagonalelemente von B
und W) leicht zu (30/2)/(10/5) = 7.5 und (6/2)/(6/5) = 2.5. Der kritische
Wert auf dem 5%-Niveau ist F2, 5; .05 = 5.79. Der Einzeltest wird bei der ersten
Variable also signifikant, wobei nicht adjustiert wurde. Fuhrt man hingegen eine
Bonferroni-Adjustierung durch, so sind die beiden univariaten Tests auf dem
2.5%-Niveau durchzufuhren, was zu einem kritischen Wert F2, 5; .025 = 8.43 fuhrt.
Mit Adjustierung wird also keiner der univariaten Tests signifikant.
Betrachtet man nun auch noch die Linearkombination U = Y1 + Y2, und fuhrt
man fur U eine einfaktorielle Varianzanalyse durch, so erhalt man den F -Wert
(24/2)/(4/5) = 15, der deutlich großer ist als der maximale F -Wert 7.5 der Origi-
nalvariablen. Dies ist ein Hinweis darauf, dass die multivariate Betrachtungsweise
womoglich mehr in den Daten finden kann als getrennte univariate Betrachtungs-
weisen nur der Originalvariablen. Charakteristisch multivariat ist ja die Einbezie-
hung beliebiger Linearkombinationen der Originalvariablen in die Untersuchung.
Hatte man allerdings schon vor der Datenerhebung die begrundete Vermutung
gehabt, dass sich der Effekt in der Variable U besonders deutlich zeigt, so ware
ein einziger univariater Test mit U naturlich eine bessere Strategie gewesen, da
2.6 Multivariate Varianzanalyse MS13 207
man bei ausschließlicher Durchfuhrung dieses Tests sich auch keine Gedanken
uber Adjustierung zu machen braucht. Es ist ja generell besser, nach Moglichkeit
spezifische Fragen zu stellen und angemessen zu beantworten. In vielen Fallen
konnen sich dann sowohl die multivariate Varianzanalyse als auch die univariaten
erubrigen.
Diskriminanzfunktionen. Im Anschluss an die bisherige Diskussion, die die ele-
mentareren Aspekte der multivariaten Varianzanalyse behandelte, soll nun noch
eine spezielle Frage behandelt werden, die schon auf die komplexeren Aspek-
te dieses Verfahrens verweist, namlich die Frage, in welcher Linearkombination
oder, geometrisch gesprochen, in welcher Richtung die Unterschiede zwischen den
Gruppen besonders groß sind.
Naturlich ist bei dieser Frage auch das Streuungsverhalten innerhalb der Gruppen
zu berucksichtigen. Daher liegt es nahe, die Frage so zu prazisieren, dass eine
Linearkombination der Originalvariablen gesucht wird, fur die eine univariate
Varianzanalyse einen moglichst großen F -Bruch liefert.
Es sei also irgendeine Linearkombination U =∑aiYi + b der Originalvariablen
gegeben, deren Koeffizienten wie ublich zu einem Koeffizientenvektor a zusam-
mengefasst seien. Die Verwendung von Großbuchstaben bei der Bezeichnung soll
darauf hinweisen, dass jetzt die Variablen als Variablen im informellen Sinn auf-
gefasst werden (und nicht etwa als Zufallsvariablen).
Es geht nun zunachst darum, den zugehorigen F -Bruch zu bestimmen. Ist Y die
Datenmatrix, so erhalt man den Datenvektor der neuen Variable U als Ya + 1b.
Da die Projektion Pb den Vektor 1 auf 0 abbildet, erhalt man wie bei den Un-
tersuchungen zur Invarianz
SSb = (Ya)′Pb(Ya) = a′(Y′PbY)a = a′Ba ,
wobei SSb naturlich die zu der neuen Variable U gehorende Quadratsumme zwi-
schen den Gruppen bezeichnet.
Ganz analog bestimmt man SSw zu a′Wa. Der F -Bruch zum Testen der Nullhy-
pothese, dass die Zellen-Erwartungswerte von U ubereinstimmen, ist dann
F =SSb/(J − 1)
SSw/(N − J)=N − JJ − 1
SSbSSw
.
2.6 Multivariate Varianzanalyse MS13 208
Da der Vorfaktor (N − J)/(J − 1) immer der gleiche ist, ist nun
SSbSSw
=a′Ba
a′Wa
zu maximieren.
Hierfur ist die Losung jedoch bekannt: Das Maximum existiert und ist gleich
dem großten Eigenwert λ1 von W−1B, wobei fur a ein zugehoriger Eigenvektor
zu wahlen ist.
Der gesuchte maximale F -Bruch ist dann gleich (N − J)/(J − 1)λ1.
Wie man sieht, besteht also eine enge Beziehung zwischen dem großten Eigenwert
und dem maximalen F -Bruch bei der Untersuchung von Linearkombinationen.
Dies sollte die oben gemachten Andeutungen uber die Vorteile der Maximalwurzel
als Teststatistik im Zusammenhang mit post-hoc-Fragestellungen etwas plausi-
bler machen; so wie der F -Bruch der univariaten Varianzanalyse eng mit der
maximalen Kontrastatistik zusammenhangt, so hangt hier der großte Eigenwert
eng mit dem großten F -Bruch zusammen, den man bei Linearkombinationen er-
halten kann. Ein wesentliches Argument auf dem Weg zu einem entsprechenden
UI-Test ist damit bereits geliefert.
Fur die Daten des einleitenden Beispiels war
W−1B =
(6 0
5 1
).
Der großte Eigenwert wurde schon zu λ1 = 6 bestimmt, und ein zugehoriger
Eigenvektor ist der Vektor (1, 1)′.
Eine Linearkombination der y-Variablen mit maximalem F -Bruch ist also bei-
spielsweise U = Y1 + Y2. Der F -Bruch der univariaten Varianzanalyse mit dieser
Variable ist dann
F =N − JJ − 1
λ1 =8− 3
3− 16 = 15 .
Zum Vergleich ist F2, 5; .05 = 5.79. Weiter oben waren auch schon die F -Bruche
fur die Originalvariablen Y1 und Y2 zu 7.5 und 2.5 bestimmt worden – in der Tat
ist der hier gefundene F -Bruch großer.
Man kann nun auch die Linearkombination in der Darstellung der Daten als
die durch den Koeffizientenvektor erzeugte Gerade reprasentieren. Die Werte der
2.6 Multivariate Varianzanalyse MS13 209
einzelnen Personen in der Linearkombination U erhalt man dann einfach durch
Projektion der zugehorigen Punkte auf die Gerade, die noch mit einem geeigneten
Koordinatensystem zu versehen ist.
Hier ist zunachst die Datensituation mit Zentroiden und der Gerade, die die
optimale Linearkombination reprasentiert; die Ellipsen deuten dabei das Streu-
ungsverhalten innerhalb der einzelnen Gruppen an.
1
1.................................................................................................................................................................................................................................................................................................................................................................................................................... .......................................................................................................................................................................................................................................................................................................
...................
y1
y2
rrrb
bue
............................................................................................................
.....................
..........................
.....................................................................................................
............................................................................................................
.....................
..........................
.....................................................................................................
............................................................................................................
.....................
..........................
.....................................................................................................
.......................................................................................................................................................................................................................................................................................................................................................................................................................................
In der nachsten Abbildung sind die Ellipsen auf die Gerade projiziert; man er-
kennt, dass sich nun in der Tat die Gruppen deutlich voneinander unterschei-
den (jedenfalls eine Gruppe von den beiden andern). Wesentlich ist dabei das
’Uberlappungsverhalten‘ der
’Streuungsintervalle‘: Hier ist eines dieser Intervalle
deutlich von den andern beiden getrennt.
1
1.................................................................................................................................................................................................................................................................................................................................................................................................................... .......................................................................................................................................................................................................................................................................................................
...................
y1
y2
............................................................................................................
.....................
..........................
.....................................................................................................
r............................................................................................................
.....................
..........................
.....................................................................................................
r ............................................................................................................
.....................
..........................
.....................................................................................................
r.........
..................
..................
..................
..................
..................
..................
..................
..................
..................
..
..................
..................
..................
..................
..................
..................
..................
....
.............................................................
..................
..................
................
.........
.........................................................................................................................................................................................................................................................................................................................................................................................................
rr rrr
r.........
..................
..................
..................
..................
..................
..................
..................
................
...............................
..................
.............
Zum Vergleich folgt die entsprechende Zeichnung fur die Linearkombination Y2(also die Betrachtung der zweiten Variable fur sich genommen). In diesem Fall
hat man eine deutliche Uberlappung der drei’Streuungsintervalle‘, was auch an-
schaulich erwarten lasst, dass der F -Bruch fur diese Linearkombination wohl nicht
so hoch ausfallen wird.
2.6 Multivariate Varianzanalyse MS13 210
1
1.................................................................................................................................................................................................................................................................................................................................................................................................................... .......................................................................................................................................................................................................................................................................................................
...................
y1
y2
............................................................................................................
.....................
..........................
.....................................................................................................
r............................................................................................................
.....................
..........................
.....................................................................................................
r ............................................................................................................
.....................
..........................
.....................................................................................................
r......................................................................................................................................................................................................................................................................
................................................................................................................................................................................................................................................................................................................................................
.................................................
...........................................................................................................................
.................................................................................................................................................................................
...........................................................................................................................................................................................................................................................
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
....
rr rrrr
...........................................................................................................................................................................................................................................................................................................
......................................................................................
......................................................................................................................................................................................................................
Die Frage nach der Linearkombination mit dem maximalen F -Bruch hat vie-
le Losungen, da alle Eigenvektoren zum großten Eigenwert λ1 von W−1B eine
Losung liefern. Insbesondere ist jede lineare Transformation cU + d einer Losung
U mit c 6= 0 wieder eine Losung, da der neue Koeffizientenvektor gerade das
c-fache des alten und damit wieder Eigenvektor zu λ1 ist.
Es ist daher naheliegend, eine Art Standardisierung durch eine Zusatzforderung
vorzunehmen.
Da man solche Standardisierungen nicht nur in dieser Situation durchfuhrt, son-
dern auch bei anderen Linearkombinationen, soll dies nun auch allgemein be-
sprochen werden. Es sei also irgendeine Linearkombination U =∑aiYi + b der
Originalvariablen gegeben, deren Koeffizienten wie ublich zu einem Koeffizien-
tenvektor a zusammengefasst seien.
Im Einstichprobenfall ist die ubliche Standardisierung gerade die z-Transforma-
tion, die bewirkt, dass der Mittelwert zu 0 wird und die Varianz zu 1. Analog
soll hier eine Standardisierung eine lineare Transformation cU +d von U sein, die
ahnliche Eigenschaften besitzt.
Was den Mittelwert angeht, wird man fordern, dass der Mittelwert aller Daten
nach der Standardisierung 0 ist. Hingegen hat man bei der Verallgemeinerung der
Varianz-Bedingung zwei Optionen. Einerseits konnte man fordern, dass die Vari-
anz aller Daten nach der Standardisierung 1 sein soll, andererseits aber auch, dass
die Varianz innerhalb zu 1 werden soll. Hier entscheidet man sich ublicherweise
fur die zweite Alternative, was auch sinnvoll erscheint, da die Auswahl der Ver-
suchsbedingungen, die ja die Gesamtvarianz beeinflusst, oft willkurlich sein wird,
wahrend die Varianzen innerhalb der Gruppen in vielen Fallen als naturliche
Schwankung interpretierbar sind.
Dabei ist zunachst zu klaren, was unter der Varianz innerhalb der Gruppen zu
verstehen ist. Fur die Variable U , deren Koeffizientenvektor a ist, ist die (theore-
2.6 Multivariate Varianzanalyse MS13 211
tische) Varianz innerhalb jeder Gruppe gleich a′Σa, da ja Σ die Kovarianzmatrix
der Werte in jeder Gruppe ist. Es liegt daher nahe, als (empirische) Varianz inner-
halb der Gruppen einen erwartungstreuen Schatzer dieser theoretischen Varianz
zu wahlen.
Aus der bekannten Tatsache, dass W/(N − J) die theoretische Kovarianzmatrix
Σ erwartungstreu schatzt, folgt nun, dass fur alle p-Vektoren a und b die Statistik
a′(W/(N − J))b = a′Wb/(N − J) ein erwartungstreuer Schatzer fur a′Σb ist,
denn bezeichnen σij und wij die Elemente von Σ und W, so gilt fur alle i und j
die Beziehung E(wij/(N − J)) = σij und daher
E(a′(W/(N − J))b) = E(∑
aibjwij/(N − J))
=∑
aibjE(wij/(N − J)) =∑
aibjσij = a′Σb .
Insbesondere gilt fur den Koeffizientenvektor a von U , dass a′Wa/(N − J) die
Varianz a′Σa von U innerhalb der Gruppen erwartungstreu schatzt, weshalb
a′Wa/(N − J) nun die Rolle der empirischen Varianz innerhalb der Gruppen
spielen soll. Dies steht im Einklang damit, dass es sich dabei ja gerade um
MSw = SSw/(N − J) der Variable U handelt und damit um den bekannten
erwartungstreuen Schatzer der Fehlervarianz aus der univariaten Varianzanalyse.
Spater wird auch die Kovarianz und die Korrelation von zwei Variablen innerhalb
der Gruppen gebraucht werden. Haben diese beiden Variablen die Koeffizienten-
vektoren a und b, so ist die (theoretische) Kovarianz innerhalb jeder Gruppe
gleich a′Σb, was von a′Wb/(N − J) erwartungstreu geschatzt wird. Daher soll
a′Wb/(N − J) auch als (empirische) Kovarianz der gegebenen Variablen inner-
halb der Gruppen bezeichnet werden.
Als Korrelation dieser Variablen innerhalb der Gruppen bezeichnet man dann
naheliegenderweise die Zahl
a′Wb/(N − J)√a′Wa/(N − J)
√b′Wb/(N − J)
=a′Wb√
(a′Wa)(b′Wb).
Ersetzt man links (N − J) uberall durch N , so bleibt das Ergebnis gleich, die
linke Seite ist dann jedoch eine Korrelation im ublichen Sinn, namlich die der
Daten, die entstehen, wenn man in beiden Variablen alle Werte durch ihre Ab-
weichung von den Gruppenmittelwerten ersetzt. Dies erkennt man unmittelbar
daran, dass die entsprechenden Datenvektoren gleich PwYa bzw. PwYb sind
und die Kovarianz folglich gleich (1/N)(PwYa)′(PwYb) = (1/N)a′Wb (fur den
2.6 Multivariate Varianzanalyse MS13 212
Nenner argumentiert man analog). Da also der als Korrelation bezeichnete Aus-
druck auch tatsachlich eine Korrelation ist, besitzt er auch die Eigenschaften einer
Korrelation, kann also beispielsweise nur Werte zwischen −1 und 1 annehmen.
Die so definierten Korrelationen innerhalb der Gruppen sollen auch kurz Inner-
gruppen-Korrelationen heißen.
Die Forderung, dass die Innergruppenkorrelation von zwei von Variablen mit von
0 verschiedenen Koeffizientenvektoren a und b gleich 0 ist, ist offenbar aquivalent
zur Forderung, dass
a′Wb = 0
gelten soll.
Man pruft ubrigens leicht nach, dass die Innergruppenkorrelation von zwei Line-
arkombinationen U und V der Variablen Yi sich nicht andert, wenn wenn man U
und V durch lineare Transformationen aU + b und cV + d ersetzt, sofern a und
c großer als 0 sind.
Nun soll die Linearkombination U =∑aiYi + b der Originalvariablen stan-
dardisiert werden in dem gerade prazisierten Sinn. Mittelwert und SSw von U
sind a′y + b und a′Wa, woraus sich Mittelwert und SSw von cU + d bestim-
men als c(a′y + b) + d und c2a′Wa, letzteres, da ca der Koeffizientenvektor
von cU + d bezuglich der Originalvariablen ist. Die Forderung, dass die Vari-
anz SSw/(N−J) innerhalb der Gruppen zu 1 werden soll, ist genau dann erfullt,
wenn c = ±√
(N − J)/a′Wa gilt, die Forderung fur den Mittelwert genau dann,
wenn d = −c(a′y + b) ist. Es ergeben sich also genau zwei mogliche Standar-
disierungen, die durch Multiplikation mit (−1) auseinander hervorgehen. Am
einfachsten nimmt man hier die positive Losung fur c (man kann naturlich auch
die andere nehmen, wenn irgendwelche Grunde dafur sprechen, wie beispielsweise
eine zwanglosere’Interpretierbarkeit‘).
Die standardisierte Variable ist dann insgesamt
cU + d = c(∑
aiYi + b)− c(a′y + b) =
√N − Ja′Wa
(∑aiYi − a′y
),
was man auch noch als √N − Ja′Wa
∑ai(Yi − Yi)
schreiben kann, wobei Yi den Mittelwert aller Daten in der Variable Yi bezeichnet.
2.6 Multivariate Varianzanalyse MS13 213
Der Koeffizient von Yi nach der Standardisierung ist also√
(N − J)/(a′Wa) aiund der neue Koeffizientenvektor folglich
√(N − J)/(a′Wa) a; er ist also ein
Vielfaches des alten. Die additive Konstante ist dann −√
(N − J)/(a′Wa) a′y.
Im Sonderfall der Standardisierung der i-ten Originalvariablen ist a der i-te Ein-
heitsvektor und folglich a′Wa gerade das i-te Diagonalelement von W.
Zur Illustration sollen nun die beiden Originalvariablen des Beispiels in diesem
Sinne standardisiert werden. Hier galt
y =
(5
3
)und W =
(10 −6
−6 6
).
Fur N − J ergibt sich 8 − 3 = 5. Nennt man die standardisierten Variablen
naheliegenderweise Zi (womit naturlich jetzt nicht die z-Transformierten gemeint
sind), so erhalt man
Z1 =√
5/10 (Y1 − 5) = .707Y1 − 3.535
und
Z2 =√
5/6 (Y2 − 3) = .913Y2 − 2.739 .
Ausgangspunkt der gerade angestellten Uberlegungen war der Wunsch nach ei-
ner Art Standardisierung der Losung der Frage nach der Linearkombination mit
maximalem F -Bruch. Dies kann nun prazisiert werden durch die Forderung, dass
eine Losung zusatzlich standardisiert sein soll im gerade definierten Sinn, dass
das zugehorige MSw also 1 sein soll und der zugehorige Gesamtmittelwert 0.
Erfullt eine Losung diese Forderung (wobei die Teilforderung hinsichtlich des
Mittelwerts gelegentlich auch wegfallt), so nennt man sie eine erste Diskrimi-
nanzfunktion.
Man findet eine solche erste Diskriminanzfunktion nach dem bisher Gesagten ein-
fach dadurch, dass man irgendeine Losung des Maximierungsproblems standar-
disiert; den Koeffizientenvektor erhalt man also ausgehend von einem beliebigen
Eigenvektor a von W−1B zum großten Eigenwert λ1 als√
(N − J)/(a′Wa) a;
dieser neue Koeffizientenvektor soll auch d1 heißen – er ist ein Vielfaches von a.
Die additive Konstante ist dann −√
(N − J)/(a′Wa) a′y.
Im Beispiel war
W =
(10 −6
−6 6
),
2.6 Multivariate Varianzanalyse MS13 214
so dass fur den schon gefundenen Eigenvektor (1, 1)′ der Ausdruck a′Wa gleich
4 wird. Der Eigenvektor ist daher noch mit dem Faktor√
5/4 = 1.118 zu multi-
plizieren mit dem Ergebnis d1 = (1.118, 1.118)′. Die additive Konstante ist dann
−√
5/4 a′y, wegen y = (5, 3)′ also −√
5/4 · 8 = −8.944
Die erste Diskriminanzfunktion, die D1 genannt werden soll, ist folglich
D1 = 1.118Y1 + 1.118Y2 − 8.944 .
Man rechnet unschwer nach, dass die drei Gruppenmittelwerte in dieser neuen
Variable gleich 1.118, −3.354 und 1.118 sind, wahrend der Gesamtmittelwert
naturlich 0 ist.
Naturlich stellt sich als erstes die Frage nach der Eindeutigkeit der ersten Diskri-
minanzfunktion. Da eine solche definitionsgemaß den F -Bruch maximieren muss,
muss ihr Koeffizientenvektor ein Eigenvektor von W−1B zum großten Eigenwert
λ1 sein. Hier sind nun zwei Falle zu unterscheiden, namlich der, dass die Multi-
plizitat dieses Eigenwerts 1 ist und der, dass sie großer als 1 ist.
Ist die Multiplizitat von λ1 gleich 1, so hat man Eindeutigkeit bis auf das Vor-
zeichen. Da namlich die Koeffizientenvektoren von zwei moglichen ersten Diskri-
minanzfunktionen U1 und U2 Eigenvektoren zu λ1 sein mussen, ist der eine ein
Vielfaches des andern. Daher ist U2 eine lineare Transformation von U1. Es hat
sich aber gezeigt, dass nur zwei lineare Transformationen einer Linearkombina-
tion der Originalvariablen standardisiert sind, und dass diese sich dann nur im
Vorzeichen unterscheiden. Da definitionsgemaß U1 und U2 standardisiert sind,
muss U2 = U1 oder U2 = −U1 gelten. Naturlich ist andererseits das (−1)-fache
einer ersten Diskriminanzfunktion wieder eine solche.
In dem Fall, dass die Multiplizitat von λ1 gleich 1 ist, gibt es also genau zwei
erste Diskriminanzfunktionen, die sich nur im Vorzeichen unterscheiden.
In dem Fall, dass die Multiplizitat von λ1 großer als 1 ist, gibt es hingegen un-
endlich viele mogliche erste Diskriminanzfunktionen, da man ja aus jedem Ei-
genvektor zwei herstellen kann, und da sich dann unendlich viele Eigenvektoren
finden lassen, von denen keiner ein Vielfaches eines andern ist (weshalb dann auch
die zugehorigen Diskriminanzfunktionen nicht gleich sein konnen). Dieser Fall ist
allerdings die Ausnahme.
Wenn in Zukunft von der ersten Diskriminanzfunktion gesprochen wird, ist dies
also streng genommen nicht korrekt. Vielmehr ist eine solche erst auszuwahlen.
2.6 Multivariate Varianzanalyse MS13 215
Genau wie bei den (ebenfalls nicht eindeutigen) Hauptkomponenten ist diese
Sprechweise jedoch nicht schadlich und vermeidet umstandliche Formulierungen.
Hat man das Bedurfnis, die erste Diskriminanzfunktion auch inhaltlich zu inter-
pretieren, so wird man einerseits die Koeffizienten heranziehen, mit denen sie sich
als Linearkombinationen der Yi ergeben, andererseits die Korrelationen mit den
Yi. Diese beiden Moglichkeiten sollen nun genauer beleuchtet werden.
Die Koeffizienten waren im Beispiel 1.118 und 1.118. Wie in vielen anderen Fallen
auch (beispielsweise bei den β-Gewichten in der Regression) wird man es jedoch
vielleicht vorziehen, die’standardisierten‘ Koeffizienten zu verwenden, mit denen
sich die Diskriminanzfunktion aus den standardisierten Variablen Zi berechnet.
Zur Bestimmung dieser Koeffizienten hat man nur die schon berechnete Linear-
kombination der Yi in der bekannten Weise zu einer Linearkombination der Ziumzuschreiben. Dabei erhalt man die neuen Koeffizienten, indem man die alten
Koeffizienten durch diejenigen Koeffizienten dividiert, die zur Berechnung der Ziaus den Yi dienen.
Da die Zi bereits standardisiert sind, ist ihr Mittelwert gleich 0. Der Mittelwert
irgendeiner Linearkombination der Zi ist daher gleich der additiven Konstante
dieser Linearkombination. Damit dieser Mittelwert gleich 0 ist, muss also die
additive Konstante 0 sein. Da der Mittelwert der Diskriminanzfunktion gleich 0
ist, muss insbesondere die additive Konstante bei ihrer Darstellung durch die Zigleich 0 sein und kann daher wegfallen.
Im Beispiel ergeben sich die neuen Koeffizienten also zu 1.118/.707 = 1.581 und
1.118/.913 = 1.225. Die erste Diskriminanzfunktion ausgedruckt mit standardi-
sierten Variablen ist daher
D1 = 1.581Z1 + 1.225Z2 .
Will man diese standardisierten Koeffizienten direkt aus einem Eigenvektor a
von W−1B zu λ1 erhalten, so sieht man leicht, dass sie gleich√wii/a′Wa ai
sind, wo wii das i-te Diagonalelement von W ist; fur konkrete Rechnungen mag
die Darstellung√wiiai/
√a′Wa oft praktischer sein.
Die standardisierten Koeffizienten sind so eine mogliche Grundlage fur eine In-
terpretation der ersten Diskriminanzfunktion. Eine weitere mogliche Grundlage
bilden die Korrelationen mit den Originalvariablen (vgl. die entsprechenden Dis-
kussionen bei der Faktorenanalyse).
2.6 Multivariate Varianzanalyse MS13 216
Allerdings ist hier nicht klar, welche’Korrelationen‘ zu nehmen sind – man hat ja
einerseits die Korrelationen insgesamt (ohne Berucksichtigung der Gruppen) und
andererseits die Innergruppen-Korrelationen. Die Argumente im Zusammenhang
mit der Standardisierung von Linearkombinationen der Yi sprechen womoglich oft
dafur, die Korrelationen innerhalb der Gruppen zu verwenden, die ja in vielen
Fallen eher eine naturliche Interpretation besitzen.
Nach den weiter oben angestellten Uberlegungen ist die Innergruppen-Korrelation
von D1 und irgendeiner weiteren Linearkombination mit Koeffizientenvektor b
gleichd′1Wb√
(N − J)b′Wb,
da nach Konstruktion d1′Wd1/(N−J) = 1, also d1
′Wd1 = N−J gilt. Auch hier
ist es praktisch, eine Formel mit dem Eigenvektor a von W−1B zu besitzen, der
zu d1 gefuhrt hat. Wegen d1 =√
(N − J)/(a′Wa) a erhalt man durch Einsetzen
d′1Wb√(N − J)b′Wb
=a′Wb√
(a′Wa)(b′Wb).
Die Form rechts erhalt man auch unmittelbar: Ist U die mit dem Koeffizienten-
vektor a gebildete Linearkombination, so steht rechts die Innergruppenkorrelation
von der zu b gehorenden Linearkombination V mit U ; diese Korrelation ist je-
doch die gleiche wie die von V mit D1, da D1 ja nur eine lineare Transformation
von U ist.
Die womoglich zur Interpretation nutzlichen Innergruppen-Korrelationen von D1
und den Variablen Yi erhalt man nun leicht, indem man fur b jeweils den i-ten
Einheitsvektor ei einsetzt, wodurch aus b′Wb das i-te Diagonalelement von W
wird und aus a′Wb das i-te Element von Wa.
Im Beispiel berechnet man mit a = (1, 1)′ zunachst Wa zu (4, 0)′ und daraus die
Innergruppen-Korrelationen von D1 mit Y1 und Y2 zu
4√4 · 10
= .632 und0√4 · 6
= 0 .
Ob man bei einer Interpretation nun die standardisierten Koeffizienten benutzen
will oder die Korrelationen, ist eine inhaltlich zu beantwortende Frage; vielleicht
nimmt man aber auch bei weiterem Nachdenken davon Abstand, die Diskrimi-
nanzfunktion ernsthaft interpretieren zu wollen.
2.6 Multivariate Varianzanalyse MS13 217
Zum Abschluss dieser Diskussion soll noch kurz auf eine varianzanalytisch moti-
vierte Deutung der Eigenwerte λ1 und θ1 hingewiesen werden.
Der Eigenwert λ1 von W−1B hat sich als der Quotient von SSb und SSw bei
der Varianzanalyse derjenigen Linearkombination D1 herausgestellt, die zu einem
maximalen F -Bruch fuhrt. Diesen Quotienten kann man auch noch erweitern:
λ1 =SSbSSw
=SSb/N
SSw/N.
Im Ausdruck rechts kann man nun Zahler und Nenner deuten als (empirische)
Varianzen zwischen den Gruppen und innerhalb der Gruppen. Auf theoretischer
Ebene entspricht SSw/N in gewisser Weise σ2, wahrend SSb/N eine Entsprechung
in∑
(nj/N)α2j besitzt (αj ist hier die j-te Effektgroße µj − µ bei der univariaten
Varianzanalyse der VariablenD1). Dem Quotienten (SSb/N)/(SSw/N) entspricht
damit auf theoretischer Ebene der Quotient∑
(nj/N)α2j/σ
2, der bekanntlich auch
als Effektstarke f 2 bezeichnet wird.
So gesehen gibt also λ1 einen Hinweis auf die Effektstarke der Varianzanalyse mit
D1, die ja zum maximalen F -Bruch fuhrt. Als Schatzer dieser Effektstarke ist λ1nicht die beste Wahl, daher die vorsichtige Formulierung. Immerhin erhalt man
mit(J − 1)F
N=
(N − J)SSbN SSw
=(N − J)
Nλ1
einen eher gebrauchlichen Schatzer der Effektstarke – man bringt dabei bei λ1nur einen
’Korrekturfaktor‘ (N − J)/N an. Ob man hiermit eine befriedigende
Schatzung erhalt, sei dahingestellt (erwartungstreu ist sie offenbar nicht, was man
beispielsweise im Fall der Gultigkeit der Nullhypothese leicht sieht). Bekanntlich
ist ubrigens in der univariaten Varianzanalyse der Ausdruck (J − 1)F ein oft
verwendeter Schatzer des Nonzentralitatsparameters δ2, was wegen δ2 = Nf 2
gut zu der gerade angegebenen Schatzung von f 2 passt.
Als alternative Moglichkeit der Beschreibung der Große des Effekts im Sinne der
’aufgeklarten Varianz‘ dient in der univariaten Varianzanalyse auch der Kennwert
ω2 =∑
(nj/N)α2j/(σ
2 +∑
(nj/N)α2j ), der ja oft durch
R2 =SSbSSt
=(J − 1)F
(J − 1)F + (N − J)
geschatzt wird (gelegentlich wird auch hier noch eine’Adjustierung‘ angebracht,
mit der eine Verbesserung der Schatzung angestrebt wird). Hier ist von Interesse,
2.6 Multivariate Varianzanalyse MS13 218
dass das zur Varianzanalyse von D1 gehorende R2 sich zu
SSbSSb + SSw
=SSb/SSw
SSb/SSw + 1=
λ1λ1 + 1
= θ1
errechnet. Auf diese Weise bekommt θ1 also die Deutung als das R2 der Varian-
zanalyse von D1.
Da das R2 fur unterschiedliche Linearkombinationen hier eine monotone Funktion
des zugehorigen F ist, kann die erste Diskriminanzfunktion auch als diejenige
Linearkombination gekennzeichnet werden, die zu einem maximalen R2 fuhrt;
dieses maximale R2 ist dann der erste Eigenwert θ1 von T−1B.
Die Wurzel aus θ1 wird manchmal auch als erste kanonische Korrelation bezeich-
net. Der Hintergrund sei nur kurz angedeutet: Bei der kanonischen Korrelation
versucht man, aus zwei Variablengruppen jeweils eine Linearkombination so zu
bilden, dass die beiden Linearkombinationen maximale Korrelation besitzen (da-
nach geht es um weitere Linearkombinationen mit maximalen Korrelationen unter
entsprechenden Nebenbedingungen). Im Fall der multivariaten Varianzanalyse ist
die eine Variablengruppe die mehrdimensionale abhangige Variable und die an-
dere besteht aus den Einzelvariablen, die jeweils in einer Gruppe den Wert 1
annehmen und in den anderen den Wert 0. Die maximale Korrelation (dies ist
dann√θ1) wird erzielt mit der ersten Diskriminanzfunktion einerseits und einer
Linearkombionation der anderen Variablen, die in gewisser Weise dem aus der
univariaten Varianzanalyse bekannten Maximalkontrast entspricht.
Die erste Diskriminanzfunktion ist damit ausreichend behandelt; sie ist diejenige
Linearkombination D1 der abhangigen Variablen, fur die bei einer univariaten
Varianzanalyse ein maximaler F -Bruch erzielt wird (wie sich gerade gezeigt hat,
auch ein maximales R2). Dem Schema der Hauptkomponentenanalyse folgend
liegt nun die Frage nahe, bei welcher weiteren Linearkombination der F -Bruch
am zweitgroßten wird. Wie bei der Hauptkomponentenanalyse wird diese Frage
allerdings erst dann sinnvoll, wenn eine geeignete Nebenbedingung eingefuhrt
wird.
Der Ubersichtlichkeit halber sollen die bisher benutzten Bezeichnungen oben et-
was modifiziert werden. Die Linearkombination U , die oben zum maximalen F -
Bruch gefuhrt hatte soll nun den Namen U1 bekommen, ebenso soll der zugehorige
Koeffizientenvektor nun nicht mehr a sondern a1 heißen (genauer musste man sa-
gen’die oben gewahlte Linearkombination‘ etc., da ja alle linearen Transformatio-
nen ebenso gut sind). Die aus U1 entstehende standardisierte Linearkombination
2.6 Multivariate Varianzanalyse MS13 219
D1 hat, ebenso wie ihr Koeffizientenvektor d1 den Index 1 gleich von Anfang an
bekommen.
Gesucht ist nun also eine Linearkombination U2, die wiederum einen maximalen
F -Bruch besitzt, wobei die Nebenbedingung die ist, dass die Innergruppenkor-
relation zur bereits gefundenen ersten Diskriminanzfunktion D1 (oder auch –
gleichbedeutend – zu U1) gleich 0 sein soll.
Dass diese Nebenbedingung in vielen Fallen auch inhaltlich sinnvoll sein wird,
wurde oben schon diskutiert.
Die Bedingung dafur, dass die Innergruppenkorrelation von U2 zu D1 gleich 0 ist,
wurde oben schon gefunden: sie lautet a′2Wd1 = 0. Die Forderung nach einem
maximalen F -Bruch ubersetzt sich wie oben in die Forderung, dass
a′2Ba2
a′2Wa2
maximal werden soll – jetzt eben unter der gerade formulierten Nebenbedingung.
Da d1 mit a1 ein Eigenvektor von W−1B zum großten Eigenwert λ1 ist, ist die
Losung dieser Aufgabe bekannt: fur a2 kann ein beliebiger Eigenvektor von W−1B
zum zweiten Eigenwert λ2 gewahlt werden, wobei das gesuchte Maximum gerade
λ2 ist. Es gibt hier einen Sonderfall zu beachten, namlich den, dass λ2 = λ1gilt, dass also mit anderen Worten die Multiplizitat von λ1 großer als 1 ist (zur
Erinnerung: Eigenwerte sind vereinbarungsgemaß so oft aufzufuhren, wie ihre
Multiplizitat angibt). In diesem Fall muss bei dem gewahlten zweiten Eigenvektor
die Bedingung a′2Wd1 = 0 eigens beachtet werden, sie ist dann namlich nicht wie
im Fall λ1 6= λ2 automatisch erfullt.
Der F -Bruch, der zu der gefundenen Linearkombination gehort, ist dann
F =N − JJ − 1
λ2 .
Naheliegenderweise wird man auch diese Linearkombination standardisieren. Das
Ergebnis ist die zweite Diskriminanzfunktion, die hier D2 heißen soll; ihr Koeffi-
zientenvektor soll entsprechend d2 heißen.
Dieses d2 erhalt man aus a2 wie oben als√
(N − J)/(a′2Wa2) a2; es ist naturlich
wieder ein Vielfaches von a2 und damit ebenfalls ein Eigenvektor zu λ2. Die addi-
tive Konstante ist entsprechend −√
(N − J)/(a′2Wa2) a′2y. Bei der Standardisie-
rung andert sich offenbar weder der F -Bruch noch die Innergruppenkorrelation
von 0 mit der ersten Diskriminanzfunktion.
2.6 Multivariate Varianzanalyse MS13 220
Die zweite Diskriminanzfunktion ist dann eine – im geschilderten Sinne stan-
dardisierte – Linearkombination der abhangigen Variablen, fur die eine univaria-
te Varianzanalyse einen maximalen F -Bruch liefert unter der Nebenbedingung,
dass die Innergruppenkorrelation mit der ersten Diskriminanzfunktion gleich 0
sein soll.
Was die Frage der Eindeutigkeit angeht, so gelten die bei der ersten Diskrimi-
nanzfunktion gemachten Bemerkungen sinngemaß.
Auch die weiteren Ausfuhrungen zur ersten Diskriminanzfunktion lassen sich
sinngemaß ubertragen. So kann kann man die zweite Diskriminanzfunktion auch
mit Hilfe der standardisierten Variablen ausdrucken, und man kann die Inner-
gruppenkorrelationen mit den Originalvariablen bestimmen und womoglich zur
Interpretation benutzen.
Man kann nun auch λ2 als Hinweis auf die Effektstarke verwenden und erhalt mit
θ2 das R2 der Varianzanalyse mit D2. Alternativ kann man die zweite Diskrimi-
nanzfunktion dann auch dadurch charakterisieren, dass die zugehorige Varianz-
analyse ein maximales R2 besitzt unter der Nebenbedingung, dass die Innergrup-
penkorrelation zur ersten Diskriminanzfunktion gleich 0 sein soll.
Die Wurzel aus θ2 nennt man ubrigens auch die zweite kanonische Korrelation;
die genaue Herkunft dieser Bezeichnung ist an dieser Stelle jedoch nicht wichtig.
Im Beispiel mit den drei Gruppen war der zweite Eigenwert von W−1B gleich
1, ein Eigenvektor dazu ist (0, 1)′. Damit ist die zweite Diskriminanzfunktion in
diesem Fall die standardisierte zweite Variable Y2. Die zugehorigen Berechnungen
wurden oben schon durchgefuhrt, die Ergebnisse konnen nun einfach ubertragen
werden.
Es gilt also
D2 = .913Y2 − 2.739 ,
in standardisierten Variablen ausgedruckt noch einfacher
D2 = Z2 .
Die Innergruppenkorrelation dieser Diskriminanzfunktion mit der ersten Variable
Y1 errechnet sich hier zu −6/√
10 · 6 = −.775, wahrend die Innergruppenkorrela-
tion mit der zweiten Variable Y2 naturlich 1 ist. Beim Versuch, die Funktion D2
zu interpretieren, gerat man also auch hier in Schwierigkeiten, wenn man sowohl
2.6 Multivariate Varianzanalyse MS13 221
die Koeffizienten berucksichtigen will, mit denen die Funktion aus den Variablen
Y1 und Y2 gebildet wird, als auch die Innergruppenkorrelationen. Im Fall von
Y1 ist der Koeffizient namlich 0, wahrend die entsprechende Korrelation −.775
deutlich negativ ist.
Die Veranschaulichung zu dieser Diskriminanzfunktion kann ebenfalls von oben
ubernommen werden; zum Vergleich links noch einmal die Veranschaulichung der
ersten Diskriminanzfunktion:
1
1.................................................................................................................................................................................................................................................................................................................................................................................................................... .......................................................................................................................................................................................................................................................................................................
...................
y1
y2
............................................................................................................
.....................
..........................
.....................................................................................................
r............................................................................................................
.....................
..........................
.....................................................................................................
r ............................................................................................................
.....................
..........................
.....................................................................................................
r.........
..................
..................
..................
..................
..................
..................
..................
..................
..................
..
..................
..................
..................
..................
..................
..................
..................
....
.............................................................
..................
..................
................
.........
.........................................................................................................................................................................................................................................................................................................................................................................................................
rr rrr
r.........
..................
..................
..................
..................
..................
..................
..................
................
...............................
..................
.............
1
1.................................................................................................................................................................................................................................................................................................................................................................................................................... .......................................................................................................................................................................................................................................................................................................
...................
y1
y2
............................................................................................................
.....................
..........................
.....................................................................................................
r............................................................................................................
.....................
..........................
.....................................................................................................
r ............................................................................................................
.....................
..........................
.....................................................................................................
r......................................................................................................................................................................................................................................................................
................................................................................................................................................................................................................................................................................................................................................
.................................................
...........................................................................................................................
.................................................................................................................................................................................
...........................................................................................................................................................................................................................................................
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
....
rr rrrr
...........................................................................................................................................................................................................................................................................................................
......................................................................................
......................................................................................................................................................................................................................
Es ist vielleicht nicht unwichtig, darauf hinzuweisen, dass die Geraden, auf die
bei der ersten und zweiten Diskriminanzfunktion projiziert wird, nicht senkrecht
sind (was man womoglich etwas voreilig aus der Tatsache, dass die Innergrup-
penkorrelation 0 ist,’schließen‘ konnte). Die Assoziation senkrecht-unkorreliert
ist also nicht in allen Situationen angebracht.
Schließlich ist in diesem Beispiel der Eigenwert 1 nicht nur der zweitgroßte, son-
dern auch der kleinste Eigenwert. Mit ganz analogen Argumentationen wie bei
der ersten Diskriminanzfunktion erkennt man, dass die zweite Diskriminanzfunk-
tion daher in diesem Fall gleichzeitig eine Linearkombination ist, die die Gruppen
am schlechtesten trennt.
Es ist klar, dass der Prozess nun so weitergehen kann; nach der zweiten Diskrimi-
nanzfunktion sucht man nach einer dritten, wiederum mit maximalem F -Bruch,
diesmal unter der Nebenbedingung, dass die Innergruppenkorrelation mit den er-
sten beiden (schon gefundenen) Diskriminanzfunktionen gleich 0 sein soll. Eine
solche Funktion findet man wie oben: man nimmt einen geeigneten Eigenvektor
a3 zum dritten Eigenwert λ3 von W−1B als vorlaufigen Koeffizientenvektor und
standardisiert diesen dann. Den maximalen F -Bruch erhalt man aus λ3 genau
wie oben.
Die Formulierung, dass ein’geeigneter‘ Eigenvektor zu wahlen ist, ist nur fur
multiple Eigenwerte von Bedeutung; in diesem Fall ist analog zu verfahren, wie
2.6 Multivariate Varianzanalyse MS13 222
oben bei der zweiten Diskriminanzfunktion beschrieben.
Nach der dritten Diskriminanzfunktion kann man eine vierte bestimmen, danach
eine funfte und so weiter.
Es fragt sich, wann dieser Prozess abzubrechen ist. Diese Frage kann man unter-
schiedlich stellen; einerseits kann man fragen, wie lange der Prozess uberhaupt
weitergetrieben werden kann, andererseits, wie lange die Fortsetzung sinnvoll ist.
Ein Ende ist auf alle Falle dann erreicht, wenn man soviele Diskriminanzfunktio-
nen gefunden hat, wie Variablen vorhanden sind, also p solche Funktionen. Die
Bedingung, dass fur die Koeffizientenvektoren di die Bedingung d′iWdj = 0 gel-
ten muss fur i 6= j, hat namlich zur Folge, dass die di linear unabhangig sind (die
Vektoren W1/2di sind namlich offenbar orthogonal und 6= 0 und damit linear un-
abhangig, weshalb auch die di als Bilder dieser Vektoren unter der invertierbaren
linearen Abbildung W−1/2 linear unabhangig sein mussen). Da alle di Vektoren
des Rp sind, folgt, dass ihre Zahl hochstens gleich p sein kann.
Dass der Prozess tatsachlich solange fortgesetzt werden kann, bis man p Diskri-
minanzfunktionen besitzt, ist aus der linearen Algebra bekannt.
In vielen Fallen sind allerdings die letzten Diskriminanzfunktionen ziemlich unin-
teressant, da sie oft zu einem F -Bruch von 0 fuhren, also zwischen den Gruppen
uberhaupt nicht mehr unterscheiden.
In der Tat sind ja die sukzessiven maximalen F -Bruche bis auf einen Vorfaktor
gerade die Eigenwerte von W−1B, und da diese Matrix p reelle Eigenwerte besitzt,
ist die Anzahl der von 0 verschiedenen Eigenwerte gleich dem Rang von W−1B.
Der Kern dieser Matrix ist namlich genau dann von {0} verschieden, wenn 0
ein Eigenwert ist, und in diesem Fall ist der Kern gerade der Eigenraum zu 0,
seine Dimension also die Multiplizitat m von 0. Falls 0 kein Eigenwert ist, ist der
Rang von W−1B folglich gleich p, und im anderen Fall ist er gleich p − m. In
jedem Fall ist er gleichzeitig die Zahl der von 0 verschiedenen Eigenwerte (mit
Berucksichtigung der Multiplizitat).
Falls also der Rang r von W−1B kleiner als p ist, so folgt, dass die letzten p− rDiskriminanzfunktionen zu einem F -Bruch von 0 fuhren.
Da W−1 invertierbar ist, ist der Rang r von W−1B gleich dem von B, so dass man
die bisherigen Ergebnisse folgendermaßen zusammenfassen kann: Ist r der Rang
von B, so fuhren die letzten p−r Diskriminanzfunktionen zu einem F -Bruch von
2.6 Multivariate Varianzanalyse MS13 223
0 und sind in diesem Sinne uninteressant.
Wenn man also die Frage nach der sinnvollen Anzahl der Diskriminanzfunktio-
nen so beantwortet, dass der zugehorige F -Bruch von 0 verschieden sein soll, so
ist diese Anzahl gerade gleich dem Rang von B, der ja bekanntlich seinerseits
hochstens gleich J − 1 ist.
In diesem Zusammenhang bemerkt man ubrigens auch unmittelbar, dass alle Li-
nearkombinationen der Yi, deren Koeffizientenvektoren a im Kern von B liegen,
zu einem F -Bruch von 0 fuhren (genauer: genau diese Linearkombinationen, wo-
bei naturlich a = 0 auszunehmen ist). Der zu einer derartigen Linearkombination
gehorende F -Bruch ist namlich genau dann gleich 0, wenn der Faktor a′Ba im
Zahler 0 ist. Wegen der positiven Semidefinitheit von B ist dies aber genau dann
der Fall, wenn Ba = 0 gilt, wenn also a im Kern von B liegt.
Der Rang von B hat auch eine geometrische Bedeutung: er ist gleich der Di-
mension der affinen Hulle der Mittelwertvektoren yj, also des kleinsten affinen
Unterraums, der die yj enthalt; dabei ist der zugehorige lineare Unterraum gerade
das Bild von B. Dies hatte sich schon oben bei der Einfuhrung von B gezeigt.
Eine weitere mogliche Antwort auf die Frage nach der sinnvollen Anzahl der Dis-
kriminanzfunktionen kann auch auf die Große des zugehorigen F -Bruchs Bezug
nehmen und nur solche Diskriminanzfunktionen zulassen, die zu einem hinrei-
chend großen F -Bruch fuhren, oder alternativ, da die F -Bruche sich von den
Eigenwerten λi nur um einen festen Faktor unterscheiden, zu einem hinreichend
großen Eigenwert gehoren. Wie groß dieser Eigenwert sein soll, ware dann auf
Grund inhaltlicher Kriterien zu beantworten.
Ein solches Vorgehen findet sich beispielsweise bei der Diskriminanzanalyse. Dort
werden Funktionen gesucht, die gut zwischen den Gruppen unterscheiden, auch
mit dem Ziel, neue Falle spater einer der Gruppen zuzuordnen. Das Verfahren
soll nun erganzend oberflachlich skizziert werden.
Beipielsweise konnte es sein, dass verschiedene klinische Gruppen (gekennzeich-
net durch unterschiedliche Krankheitsbilder) mit mehreren Diagnoseverfahren
(die den Variablen Yi entsprechen) untersucht werden. Man mochte dann die
Einzeldiagnosen in geeigneter Weise zu Linearkombinationen zusammenfassen,
die besonders gut zwischen den Gruppen unterscheiden. Als Losung erhalt man
naturlich die Diskriminanzfunktionen.
Nachdem man diese Funktionen gewonnen hat, mochte man oft weitere neue
2.6 Multivariate Varianzanalyse MS13 224
Patienten den klinischen Gruppen zuordnen. Dazu werden diese neuen Patienten
den Diagnoseverfahren unterworfen, aus deren Ergebnissen dann die Werte der
neuen Patienten auf den Diskriminanzfunktionen berechnet werden konnen. Die
Zuordnung zu einem Krankheitsbild geschieht danach auf Grund dieser Werte
mit Hilfe einer geeigneten Entscheidungsregel.
Naturlich konnen dabei Fehler gemacht werden, und eine zentrale Aufgabe ist
es dann, diese Fehler oder deren Kosten durch eine optimale Wahl der Entschei-
dungsregel zu minimieren.
In diesem Zusammenhang zeigt sich bei geeigneten Voraussetzungen, dass die
Anzahl der benotigten Diskriminanzfunktionen gleich der Dimension der affi-
nen Hulle der Erwartungswertvektoren µj ist. Obwohl die Mittelwertvektoren
yj Schatzer dieser Erwartungswertvektoren sind, mussen die Dimensionen der
affinen Hullen keineswegs ubereinstimmen.
Um zu einer Vorstellung uber die Dimension der affinen Hulle der µj zu kommen,
kann man geeignete Tests verwenden, bei denen die Nullhpyothese jeweils die ist,
dass diese Dimension gleich einer gegebenen Zahl k ist, und die Alternativhypo-
these die, dass die Dimension großer als k ist.
Insgesamt fallt jedenfalls die Entscheidung uber die Zahl sinnvoller Diskriminanz-
funktionen dann auf der Basis derartiger Tests, die sich auf die Dimension der
affinen Hulle der µj beziehen.
Es folgen nun noch zwei erganzende Anmerkungen zu den Diskriminanzfunktio-
nen. Bei der Konstruktion der Diskriminanzfunktionen wurde als einschrankende
Bedingung die verwendet, dass die Innergruppenkorrelationen von je zwei Dis-
kriminanzfunktionen alle 0 sein sollen. Nun kann man naturlich auch die Korre-
lation von je zwei Diskriminanzfunktionen bilden, wenn man die Originaldaten
zugrundelegt und die Gruppeneinteilung nicht berucksichtigt. Interessanterwei-
se ist dann auch diese Korrelation zwischen jeweils zwei Diskriminanzfunktionen
gleich 0, was aus der Linearen Algebra bekannt ist, da die Diskriminanzfunktionen
ja mit Hilfe von Eigenvektoren von W−1B konstruiert wurden.
Dass dies ein Sonderfall ist, dass also aus dem Verschwinden der Innergruppen-
korrelation allgemein keineswegs folgt, dass die’globale‘ Korrelation gleich 0 ist,
macht man sich leicht an Beispielen klar. So rechnet man leicht nach, dass in
dem gerade verwendeten Beispiel die Innergruppenkorrelation der beiden Line-
arkombinationen Y1 und 3Y1 + 5Y2 (mit Koeffizientenvektoren a = (1, 0)′ und
2.6 Multivariate Varianzanalyse MS13 225
b = (3, 5)′) gleich 0 ist, die Gesamtkorrelation jedoch nicht, da sich ja die (un-
korrigierte) Kovarianz dieser beiden Linearkombinationen sofort zu
1
Na′Tb =
1
8
(1 0
)( 40 −12
−12 12
)(3
5
)= 7.5
berechnet.
Die nachste Anmerkung betrifft die Bestimmung der Diskriminanzfunktion im
Fall von zwei Gruppen. Hier ist hochstens der erste Eigenwert von W−1B ungleich
0, so dass in der Tat nur die erste Diskriminanzfunktion interessant ist, die daher
hier auch kurz als die Diskriminanzfunktion bezeichnet werden soll.
Aus der besonders einfachen Datenlage ergibt sich eine Vereinfachung in der
Berechnung dieser Diskriminanzfunktion. Das Ergebnis soll mit Hilfe der hier
angemesseneren Matrix Su und der beiden Zentroide y1 und y2 formuliert werden;
fur die Differenz y2 − y1 soll kurz v geschrieben werden.
Der Zusammenhang mit den Matrizen W und B wurde oben schon hergestellt;
es ergab sich
W = (n1 + n2 − 2) Su
und
B =n1n2
n1 + n2
vv′ .
Hieraus folgt sofort
W−1B =n1n2
(n1 + n2 − 2) (n1 + n2)S−1u vv′ .
Fur Matrizen dieser Art sind – wie aus der Linearen Algebra bekannt ist – Ei-
genwerte und Eigenvektoren besonders einfach zu bestimmen. Falls die Zahl
λ1 =n1n2
(n1 + n2 − 2) (n1 + n2)v′S−1u v
ungleich 0 ist, so hat die Matrix genau einen Eigenwert 6= 0, namlich dies λ1.
Ist hingegen λ1 = 0, so gibt es keinen Eigenwert 6= 0; dann muss aber auch
W−1B = 0 gelten, was wegen der vorausgesetzten positiven Definitheit von Sunur dann der Fall ist, wenn v = 0 gilt, wenn also die beiden Mittelwertvekto-
ren ubereinstimmen – dieser uninteressante Fall soll im Folgenden nicht mehr
berucksichtigt werden, denn hier ist dann mit Linearkombinationen auch keine
Unterscheidung zwischen den Gruppen moglich.
2.6 Multivariate Varianzanalyse MS13 226
Der zugehorige F -Bruch ist dann
F =N − JJ − 1
λ1 =N − 2
1λ1 =
n1n2
(n1 + n2)v′S−1u v ,
also Hotellings T 2.
Ein Eigenvektor zu dem Eigenwert λ1 ist dann bekanntlich beispielsweise S−1u v.
Insgesamt erhalt man damit das Ergebnis, dass im Falle J = 2 der großte Eigen-
wert λ1 von W−1B gleich
λ1 =n1n2
(n1 + n2 − 2) (n1 + n2)v′S−1u v
ist, wobei im Falle λ1 6= 0 alle Eigenvektoren dazu Vielfache von S−1u v sind (der
Vektor v ist hierbei die Differenz y2 − y1 der Zentroide).
Will man den Eigenvektor standardisieren, so hatte man allgemein den gefunde-
nen Eigenvektor mit√
(N − J)/a′Wa zu multiplizieren, was sich hier zu√N − 2
(S−1u v)′(N − 2) Su(S−1u v)=
√1
v′S−1u v
vereinfacht. Der Koeffizientenvektor ist dann
d1 =√
1/ (v′S−1u v) S−1u v ,
wahrend sich als additive Konstante
−√
1/ (v′S−1u v) v′S−1u y
ergibt.
Die Standardisierung der Variablen selber lasst sich hier auch mit Hilfe von Suausdrucken; dazu mogen die Diagonalelemente dieser Matrix naheliegenderweise
s2i heißen (in der Tat sind diese Elemente ja gerade die Fehlervarianzschatzungen,
die man bei univariaten t-Tests der Einzelvariablen benutzen wurde). Der Zusam-
menhang mit den weiter oben wii genannten Diagonalelementen von W ist dann
naturlich s2i = wii/(N − 2). Die standardisierten Variablen Zi erhalt man dann
aus den Variablen Yi, indem man sie durch si(=√s2i ) teilt und davon noch yi/si
abzieht, also als
Zi =1
si(Yi − yi) =
1
siYi −
yisi.
2.6 Multivariate Varianzanalyse MS13 227
Damit erhalt man schließlich die Koeffizienten der mit Hilfe von standardisierten
Variablen ausgedruckten standardisierten Diskriminanzfunktion, indem man die
Komponenten von d1 mit dem jeweils zugehorigen si multipliziert.
In dem weiter oben behandelten Beispiel mit zwei Gruppen waren die Zentroide
y1 = (7, 2)′ und y2 = (5, 4)′ und
Su =
(2 −1
−1 1
),
woraus sich
S−1u =
(1 1
1 2
)ergab. Hier ist dann v = y2− y1 = (−2, 2)′ und wegen der gleichen Zellbesetzung
y = (6, 3)′.
Damit sind zunachst die standardisierten Variablen
Z1 = Y1/√
2− 6/√
2 = .707Y1 − 4.243
und
Z2 = Y2/√
1− 3/√
1 = Y2 − 3 .
Zur Bestimmung des großten Eigenwerts ist zunachst v′S−1u v = 4, woraus sich
wegen n1 = n2 = 3 der großte Eigenwert λ1 zu
3 · 3(3 + 3− 2)(3 + 3)
· 4 =3
2= 1.5
errechnet. Das (N − 2)-fache dieser Zahl, also 6, ist dann in der Tat der schon
errechnete Wert von Hotellings T 2.
Als zugehorigen Eigenvektor bestimmt man zunachst
S−1u v =
(0
2
),
was nur noch durch√
4 = 2 zu teilen ist, um den standardisierten Koeffizi-
entenvektor d1 = (0, 1)′ zu liefern. Die additive Konstante errechnet sich zu
−√
1/4 · 6 = −3, so dass schließlich die erste Diskriminanzfunktion
D1 = Y2 − 3
2.6 Multivariate Varianzanalyse MS13 228
ist und hier interessanterweise bis auf eine additive Konstante mit der zweiten
Variable ubereinstimmt. Das heißt ubrigens naturlich nicht, dass die erste Va-
riable nicht zwischen den beiden Gruppen unterscheidet, vielmehr ist die zweite
Diskriminanzfunktion hier eine lineare Transformation der Summe der beiden
Variablen (und nicht etwa die erste Variable); in der Summe zeigt sich ja auch in
der Tat kein Unterschied zwischen den Mittelwerten der Gruppen.
Will man die erste Diskriminanzfunktion mit Hilfe der standardisierten Variablen
ausdrucken, so hat man ihre Koeffizienten 0 und 1 noch mit den Wurzeln der
entsprechenden Diagonalelemente von Su multipliziert, also mit√
2 und√
1. Das
Ergebnis ist
D1 = Z2 .
Die folgende Graphik veranschaulicht die Daten mit den beiden Zentroiden:
1
1.................................................................................................................................................................................................................................................................................................................................................................................................................... .......................................................................................................................................................................................................................................................................................................
...................
y1
y2
rrr b
bbu
e
....
....
....
....
....
....
....
....
....
....
....
....
.
....
....
....
....
....
....
.
In dieser Graphik ist auch die Verbindung der beiden Zentroide eingezeichnet.
Ohne die vorangehenden Uberlegungen wurde man vielleicht vermuten, dass eine
optimale Trennung dann vorliegt, wenn auf die zu dieser Strecke parallele Gerade
projiziert wird, die ebenfalls dargestellt ist.
Diese Projektion ist in der folgenden Graphik veranschaulicht, in der die Variation
innerhalb der Gruppen wie schon fruher durch die zu W/N gehorenden Ellipsen
charakterisiert wird.
2.6 Multivariate Varianzanalyse MS13 229
1
1.................................................................................................................................................................................................................................................................................................................................................................................................................... .......................................................................................................................................................................................................................................................................................................
...................
y1
y2
rrr b
bbu
e..................................................................
.......
..................................
.......................
................................
................................................................................................
r...........................................................................................................................................................................................................................................................................................................................................................................................................................................
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.....
...........................................................................................................................................................................................................................................................................................
.....................................................................................................................................................................................................................................................................
...........................................................................................................................................................................................................................................................................................................................................................................
r
r
................................................................................................................................................................................................................................................................................
...........................................................................................................
.......................
................................
................................................................................................
r
...........................................................................................................................................................................................................................................................................................................................................................................................................................................
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.....
...........................................................................................................................................................................................................................................................................................
.....................................................................................................................................................................................................................................................................
...........................................................................................................................................................................................................................................................................................................................................................................
r
r
................................................................................................................................................................................................................................................................................
....
....
....
....
....
....
.
Wie die vorangehende Rechnung zeigt, gehort jedoch zur ersten Diskriminanz-
funktion nicht diese Gerade, sondern vielmehr die zweite Achse; hier ist das zu-
gehorige Bild:
1
1.................................................................................................................................................................................................................................................................................................................................................................................................................... .......................................................................................................................................................................................................................................................................................................
...................
y1
y2
rrr b
bbu
e..................................................................
.......
..................................
.......................
................................
................................................................................................
r
...........................................................................................................................................................................................................................................................................................................................................................................................................................................
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.....
...................................................................................................................................................................................
.........................................................................................................................................................................................................................................................
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.... rr ......................................................................................................................................................................................................................
...........................................................................................................
.......................
................................
................................................................................................
r...........................................................................................................................................................................................................................................................................................................................................................................................................................................
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.....
........................................................................................................................................................................................................................................................................
..............................................................................................................................................................................................................................................................................................................................................
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
....
rr ...........................................................................................................................................................................................................................................................................................................
In der Tat ist der Abstand der projizierten Ellipsen hier großer – wenn man ihn
an ihrer Ausdehnung relativiert.
Ensprechend wird allgemein nur in sehr wenigen Fallen die die Diskriminanz-
funktion veranschaulichende Gerade parallel zur Verbindung der Zentroide sein.
Der Grund liegt darin, dass in den meisten Fallen die Variablen nicht die gleichen
Streuungen besitzen und untereinander zusatzlich korrelieren werden.
Interessant ist auch noch die Abbildung zur zweiten Diskriminanzfunktion; hier
stimmen die Bilder der beiden Ellipsen sogar uberein, was der Tatsache ent-
spricht, dass die Mittelwerte dieser Linearkombination sich nicht unterscheiden.
Zu bemerken ist ferner, dass die Geraden, auf die beim Bilden der Diskriminanz-
funktionen projiziert wird, auch in diesem Beispiel nicht senkrecht sind.
2.6 Multivariate Varianzanalyse MS13 230
1
1.................................................................................................................................................................................................................................................................................................................................................................................................................... .......................................................................................................................................................................................................................................................................................................
...................
y1
y2
rrr b
bbu
e..................................................................
.......
..................................
.......................
................................
................................................................................................
r...........................................................................................................................................................................................................................................................................................................................................................................................................................................
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.....
..................
..................
..................
..................
..................
..................
..................
..................
..................
..............
..................
..................
..................
..................
..................
..................
..................
.
.......................................................................................................................................................................................................................................................................................................................................................................................................................................
rr
..................
..................
..................
..................
..................
..................
..................
..................
.......
...........................................................................................................
.......................
................................
................................................................................................
r
...........................................................................................................................................................................................................................................................................................................................................................................................................................................
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.....
..................
..................
..................
.
......
.......................................................................................................................................................................................................................................................................................................................................................................................................................................
rr.........
..................
....