matrizen und vektoren in der computerlinguistikmicha/kurse/mathei-ws0607/begleitmat… · eine...

Matrizen und Vektoren in der Computerlinguistik

Christian Seidel

November 2006, Version 0,5

1 Terminologie

Die folgenden Seiten entstanden teilweise im Zuge meiner Magisterarbeit undwurden mit der Zeit erweitert.Dieses Skript ist besonders für Leute gedacht, denen der Zugang zurMathematik nicht so leicht fällt wie so manch anderem.

Matrizen und Vektoren sind häufig verwandte Modelle in der Computerlingu-istik, seien es Term-Dokumenten-Matrizen oder das Vektorraummodel imInformation Retrieval. Aus diesem Grund ist es unvermeidlich sich mit diesemThema zu beschäftigen.

Grundsätzliches:

Summe:

€

aii=1

n

∑ := a1 + a2 + ...+ an

Produkt:

€

aii=1

n

∏ := a1 ⋅ a2 ⋅ ...⋅ an

Vektor v:

€

r v

Länge von

€

r v :

€

| r v |

2 Kurzer Überblick zu Methoden der Linearen Algebra

Hier soll ein kurzer Überblick über den Umgang mit Vektoren und Matrizengegeben werden. Eine ausführliche Einführung in die Lineare Algebra würdehier zu weit führen. Dazu verweise ich auf des Literaturverzeichnis am Ende.

2.1 Matrizen und Vektoren

Die Verwendung linearer Gleichungssysteme reicht bis ins 6. Jahrhundert n.Chr. nach Indien. Seitdem wurden sie immer weiter ausgebaut, zum Beispielvon François Viète (1540 – 1603) oder Gottfried Wilhelm Leibniz (1646 – 1716).Der Begriff Matrix wurde dagegen erst Mitte des 18. Jahrhunderts von JamesJoseph Sylvester (1814 – 1897) und Arthur Cayley (1821 – 1895) eingeführt1.Einfach gesagt, ist eine Matrix nichts anderes als eine Tabelle, die in Zeilen

1 Lanczos, Applied Analysis: S. 49 - 50

2

und Spalten unterteilt ist. Die Einträge in der Matrix lassen sich über dieKoordinaten aus Zeilen und Spalten mit den Indizes m und n direktansprechen.

Eine m x n – Matrix besteht demnach aus m Zeilen und n Spalten.

A =

€

a11 a12 K a1n

a21 a22 K a2n

M M O M

am1 am2 K amn

Beispiel 2.1:

Eine Matrix mit der Dimension 2 x 3 :

A =

120

101

Ist die Anzahl der Spalten mit der Anzahl der Zeilen identisch, spricht manvon einer quadratischen Matrix.Ein Vektor kann als eine Matrix aufgefasst werden, die nur aus einer Zeile

€

r z i = (ai1,ai2,...,ain ) (Zeilenvektor) oder nur aus einer Spalte

€

r s k = (a1k,a2k,...,amk )

(Spaltenvektor) besteht.

2.2 Transponierte Matrix

Bei der transponierten Matrix

€

AT werden Spalten und Zeilen vertauscht, d.h.die Matrix wird an der Hauptdiagonalen (fett dargestellt) gespiegelt.Die Elemente der Hauptdiagonalen bleiben dabei fest. Aus einer m x n – Matrixwird eine n x m – Matrix.

Beispiel 2.2:

A =

€

0 11 0−2 1

TA =

€

0 1 −21 0 1

Wird die transponierte Matrix

€

AT nochmals transponiert, erhält man wieder dieAusgangsmatrix:

( ) AATT =

Die Tabellennotation kann die Transponierung einer Matrix gut verdeutlichen.

3

Beispiel 2.3:

Angenommen wir haben zwei Texte. In die Tabelle wird die Häufigkeit dervorkommenden Wörter eingetragen.

A Suppe Buch Tisch

text 1 4 1 3text 2 0 6 8

AT text 1 text 2

Suppe 4 0Buch 1 6Tisch 3 8

2.3 Matrixaddition

Mit der Matrixaddition werden die jeweiligen Komponenten aij, bij miteinanderaufsummiert. Die Anzahl der Spalten und Zeilen der zu addierenden Matrizenmüssen übereinstimmen.

€

A + B = aij + bij( ) i=1...m, j=1...m= C

Beispiel 2.4:

€

0 2 11 0 1

+

1 2 30 1 1

=

0 +1 2 + 2 1+ 31+ 0 0 +1 1+1

=

1 4 41 1 2

Die Matrixaddition ist kommutativ:

A + B = B + A

2.4 Matrixmultiplikation

Das Produkt zweier Matrizen A, mit der Dimension m x n, und B, mit derDimension n x p ergibt eine Matrix C mit der Dimension m x p.Die Anzahl der Zeilen der linken Matrix muss demnach mit der Anzahl derSpalten der rechten Matrix übereinstimmen.

€

AB = C = (cij )i=1...m, j=1...p

Die Einträge in der Matrix C lassen sich folgendermaßen berechnen:

€

cij =

€

aik ⋅ bkjk=1

m

∑

Im Klartext bedeutet das: man multipliziert den Wert aus Zeile 1, Spalte 1 vonMatrix A mit dem Wert aus Spalte 1, Zeile 1 von Matrix B, dann den Wert ausSpalte 2, Zeile 1 von Matrix A mit dem Wert aus Spalte 1, Zeile 2 von Matrix B,usw. Diese Werte werden addiert und ergeben den Eintrag in Matrix C an derStelle Zeile 1, Spalte 1. Für die weiteren Einträge nimmt man dementspre-chend die restlichen Spalten und Zeilen.

4

Beispiel 2.5:

€

0 11 0−2 1

⋅−1 0 42 0 1

=

0 ⋅ (−1) +1⋅ 2( ) 0 ⋅ 0 +1⋅ 0( ) 0 ⋅ 4 +1⋅1( )1⋅ (−1) + 0 ⋅ 2( ) 1⋅ 0 + 0 ⋅ 0( ) 1⋅ 4 + 0 ⋅1( )−2 ⋅ (−1) +1⋅ 2( ) −2 ⋅ 0 +1⋅ 0( ) −2 ⋅ 4 +1⋅1( )

=

€

−

2 0 11 0 44 0 −7

An dieser Stelle ist allerdings zu beachten, dass die Matrixmultiplikation nichtkommutativ ist!

€

A ⋅B ≠ B ⋅ A

Sonderfall: Matrix-Vektor-Multiplikation.

Die Multiplikation von Matrix und Vektor birgt ein besonderes Phänomen:multipliziert man eine Matrix A mit einem Vektor v

r erhält man wieder einen

Vektor. Auch hier ist aber auf die Übereinstimmung der Dimensionen zuachten.

Beispiel 2.6:

€

0 11 02 1

€

⋅21

=

€

125

Bei der Vektor-Vektor-Multiplikation müssen die Dimensionen ebenfallsübereinstimmen:

€

(r v 1)T ⋅

r v 2 =

€

v1,v2

Beispiel 2.7:

€

1 0 1( )T

€

⋅

012

=

€

1⋅ 0( ) + 0 ⋅1( ) + 1⋅ 2( )( ) = 2

Das Ergebnis des Produkts des Spalten- und Zeilenvektors ist das kanoni-sches Skalarprodukt

€

v1,v2 der beiden Vektoren.Würden die beiden Vektoren in der anderen Reihenfolge miteinandermultipliziert, erhielte man als Ergebnis eine Matrix.

Beispiel 2.8:

€

r v 2 ⋅ (

r v 1)

T = A

€

012

⋅

€

1 0 1( )T=

€

0 0 01 0 12 0 2

5

Die Matrixmultiplikation ist assoziativ, d.h. man kann beliebig Klammernsetzen oder weglassen.

Beispiel 2.9:

€

A ⋅B( ) ⋅C = A ⋅ B ⋅C( ) = A ⋅B ⋅C

Diese Assoziativität kann für die Multiplikation großer Matrizen und Vektorennützlich sein, da sich dadurch die Laufzeit der Matrixmultiplikation deutlichverbessern lässt.

Beispiel 2.10:

€

(AB ) ⋅ r v = A ⋅ (B ⋅r v ) = A ⋅

r v ′ =

r v ′′

Anstelle einer möglicherweise rechenintensiven Matrixmultiplikation derMatrizen A und B, wird zuerst Matrix B mit dem Vektor

€

r v multipliziert. Ausdiesem Produkt entsteht der Vektor

€

r v ′. Im zweiten Schritt wird nun der

Zwischenergebnisvektor

€

r v ′ mit der Matrix A multipliziert. Das Ergebnis ist der

Vektor

€

r v ′′.

Man kann sich leicht vorstellen, wenn man sich die Matrixmultiplikationnochmals ins Gedächtnis ruft, dass bei sehr großen Matrizen zwei Matrix-Vektor-Multiplikationen schneller zu berechnen sind, als eine Matrix-Matrix-Multiplikation und eine Matrix-Vektor-Multiplikationen.

2.5 Einheitsmatrix

Die Einheitsmatrix E ist eine n x n – Matrix, deren Hauptdiagonale mit Einsenausgefüllt ist. Die restlichen Komponenten haben den Wert 0.

E =

€

1 0 0 L 00 1 0 L 00 0 1 L 0M M M O 00 0 0 L 1

Die Einheitsmatrix fungiert als neutrales Element. Multipliziert man einebeliebige Matrix A mit der Einheitsmatrix E erhält man als Ergebnis wieder dieMatrix A:

€

A ⋅ E = E ⋅ A = A

2.6 Normierung

Die Normierung eines Vektors bedeutet, ihn auf eine bestimmte Längebezüglich einer Norm, in der Regel Länge 1, zu verkürzen oder zu verlängern,ohne dabei seine Richtung zu verändern. Ist man nur an der Richtung eines

6

Vektors interessiert, ist es mit dieser Methode leichter, Vektoren untereinan-der zu vergleichen, da jetzt alle dieselbe Länge aufweisen.Die Normierung eines Vektors

€

r v auf die Länge 1 geschieht mit folgenderFormel:

€

r n = 1

| r v |⋅r v

€

r n ist jetzt der auf Länge 1 normierte Vektor.

Bemerkung: Länge 1 bedeutet nicht, dass der Vektor etwa 1 cm lang seinmuss. Die mit der selben Norm normierten Vektoren haben lediglich alle diegleiche Länge.

Die Länge

€

| r v | des Vektors

€

r v kann mit einer der folgenden Normen berechnetwerden. Die Abbildungen 1 bis 3 zeigen Beispiele für die entsprechendenNormen im zweidimensionalen Raum.

Die L1-Norm (Manhattan) wird aus der Summe der Beträge der einzelnenKomponenten errechnet.

€

|

€

r x

€

|L1 =

€

| xi |i=1

n

∑

Abbildung 1: L1-Norm

Die Endpunkte jedes nach L1 normierten Vektors liegen auf der Raute.

Beispiel 2.11, Manhattannorm:

€

r v =

4−2

€

| r v |L1= 4 + 2 = 6

€

r n L1

=16⋅r v =

0,66−0,33

Die L2-Norm (Euklidische) wird aus der Wurzel der quadrierten aufsummier-ten Werte der einzelnen Komponenten gebildet. Die Wurzel ist immer positivzu nehmen.Die Endpunkte des nach L2 normierten Vektors liegen auf dem Einheitskrei-ses.

€

|

€

r x

€

|L2 =

€

(xi2)

i=1

n

∑

Abbildung 2: L2-Norm

7

Beispiel 2.12, Euklidische Norm:

€

r v =

4−2

€

| r v |L2= 42 + (−2)2 = 4,5

€

r n L2

=1

4,5⋅r v =

0,88−0,44

Bei der Maximums-Norm fungiert einfach die betragsgrößte Komponente alsLänge.

€

| r x |∞= max(| x1 |,| x2 |,...,| xn |)

Abbildung 3: Maximums-Norm

In der Graphik ist der auf 1 normierte x- oder y-Wert auf dem Rand desQuadrats.

Beispiel 2.13, Maximums-Norm:

€

r v =

4−2

€

| r v |Lmax= max(| 4 |,|−2 |) = 4

€

r n Lmax

=14⋅r v =

1−0,5

Nochmals zur Verdeutlichung:Der Vektor der drei obengenannten Beispiele ist jedes Mal der selbe; lediglichdie mit der Norm erhaltene Länge variiert. Dadurch entstehen die unter-schiedlichen Ergebnisse.Innerhalb jeder Norm wird folglich die gesuchte Länge, die von der Normzurückgegeben wird, anders berechnet. Abbildung 4 soll das verdeutlichen.

Abbildung 4: Vektor mit seinen normierten Vektoren

8

Bei sehr hochdimensionalen Vektoren bietet sich eine möglichst einfach zuberechnende Norm an, wie etwa die Manhattan Norm, um unnötige Rechenzeitzu sparen. (In einem 10.000-dimensionalen Vektor beispielsweise könnte mansich so die Quadrate der einzelnen Komponenten (L2-Norm) sparen.)

Die hier aufgeführten Normen stellen nur die geläufigsten Normen dar. Esexistieren deutlich mehr.

2.7 Distanz- und Ähnlichkeitsmaße

Ein besonderes Interesse in der Computerlinguistik liegt in der Ähnlichkeitbzw. der Unähnlichkeit mehrerer Datensätze (z.B.: Texte). Werden Texte, wieim Vektorraummodell, als Vektoren repräsentiert, bestehen mit Distanz- undÄhnlichkeitsmaßen gute Möglichkeiten das Ausmaß der Übereinstimmung zuüberprüfen.

Gegeben seien zwei Vektoren mit

€

r x = (x1,...,xn ) und

€

r y = (y1,...,yn ).

Distanzmaße:

Manhattan-Distanz:

€

distL1(r x , r y ) = | xi − yi |

i=1

n

∑

Euklidische Distanz:

€

distL 2(r x , r y ) = (xi − yi)

2

i=1

n

∑

Maximums-Distanz:

€

distLmax(r x , r y ) = max(| x1 − y1 |,...,| xn − yn |)

Beispiel 2.14:

€

r x = (0; 1; 1) ;

€

r y = (0; 0,8; 1)

€

distL 2(r x , r y ) =

€

(0 − 0)2 + (1− 0,8)2 + (1−1)2

€

= 0,2

Zwei Vektoren haben eine geringe Distanz, d.h. sie sind sich sehr ähnlich,wenn die Distanz, der Abstand zwischen ihnen, gegen 0 geht.(

€

dist(r x , r y ) = 0 bedeutet, dass die Vektoren identisch sind)

Ähnlichkeitsmaße:

Ein mögliches Ähnlichkeitsmaß ist das Kosinusmaß, das den Winkel

€

αzwischen den Vektoren

€

r x und

€

r y beschreibt.

Kosinusmaß::

€

simcos(r x , r y ) = cosα( r

x , r y ) =r x ⋅

r y

| r x | ⋅ | r

y |=

(xi ⋅ yi)i=1

n

∑

(xi)2

i=1

n∑ ⋅ (yi)

2

i=1

n∑

Skalarprodukt::

€

simSkalar (r x , r y ) =

r x ⋅

r y = (xi ⋅ yi)

i=1

n

∑

9

Beispiel 2.15:

€

r x = (0; 1; 1) ;

€

r y = (0; 0,8; 1)

€

simcos(r x , r y ) =

€

(0 ⋅ 0) + (1⋅ 0,8) + (1⋅1)02 +12 +12 ⋅ 02 + 0,82 +12

=1,8

1,4 ⋅1,3≈ 0,98

Anders als bei den Distanzmaßen sind bei

€

sim(r x , r y ) = 0 die Vektoren sehrunähnlich. Beim Kosinusmaß bedeutet

€

simcos(r x , r y ) =1, dass die Vektoren

identisch sind (cos 0 = 1).

Wie schon bei der Normierung von Vektoren gibt es auch hier eine ganzeMenge weiterer Maße, auf die hier nicht weiter eingegangen wird.

2.8 Die Determinante

Die Determinante einer n x n Matrix ist eine Funktion, die der Matrix eine Zahlzuordnet.

€

A =a bc d

€

det(A) =a bc d

= ad − bc

Rest kommt noch ...

2.9 Eigenwert und Eigenvektor

Das Eigenwertproblem beschreibt folgende Aufgabe:zu einer reellen2 Matrix A ist eine Zahl

€

λ und ein Vektor xr

≠

€

r 0 gesucht, so

dass gilt:

€

A ⋅r x = λ ⋅

r x

Die Zahl

€

λ wird in diesem Zusammenhang Eigenwert und der Vektor xr

Eigenvektor genannt.Lineare Gleichungssysteme werden mit den gaußschen Eliminationsverfahren3

gelöst. Unter Zuhilfenahme der Determinanten (det) lassen sich die Eigenwerteder Matrix A berechnen. Diese Gleichung wird charakteristische Gleichunggenannt.

det

€

(A − λ ⋅ E) = 0

Für jeden Eigenwert

€

λ kann man mit der Lösung folgender Gleichung denentsprechenden Eigenvektor bestimmen:

€

A − λ ⋅ E( ) ⋅r x = 0

2 auf komplexe Matrixwerte wird hier nicht eingegangen3 für weitere Informationen siehe: Literaturverzeichnis

10

Der größte, reelle, nicht negative Eigenwert

€

λ einer Matrix A , hat einenEigenvektor x

r, der Haupteigenvektor, oder dominanter Eigenvektor genannt

wird.Für große Matrizen ist die Berechnung der Eigenwerte mittels der charakte-ristischen Gleichung sehr aufwendig. Schneller kann man den Haupteigen-vektor durch ein Iterationsverfahren errechnen: eine Matrix wird mit einembeliebigen Vektor multipliziert. Die gegebene Matrix wird wiederholt mit demjedes Mal daraus resultierenden Vektor multipliziert, bis der Vektor gegen denHaupteigenvektor konvergiert. Dieses Verfahren wird Iterationsmethode oderPotenzmethode genannt.

Beispiel 2.16:

€

A ⋅r a (1) =

r a (2)

€

A ⋅r a (2) =

r a (3) ...

€

A ⋅r a (k−1) =

r a (k )

Nach k Iterationen konvergiert der Vektor

€

r a (k ) gegen den Haupteigenvektor der

Matrix A.

2.10 Adjazendenz-Matrix

Die Adjazendenz-Matrix4 eines einfachen Graphen ist eine Matrix in der dieZeilen und Spalten der Knotenstruktur des Graphen folgend markiert werden,wenn es eine Kante von einem Knoten zum anderen gibt. Existiert eine Kantevon Seite i zu Seite j, erhält die Matrix an der Stelle

€

ai, j den Eintrag 1, sonst

den Eintrag 0. Wenn in dem Graph kein Knoten auf sich selbst verweist, sinddie Werte in der Hauptdiagonalen der Matrix 0.

Beispiel 2.17:

€

A =

0 1 1 11 0 0 01 0 0 01 0 0 0

Abbildung 4

Ist der Graph ungerichtet, so ist die Adjazendenz-Matrix symmetrisch5.

2.11 Sparse-Matrix

Eine Sparse-Matrix6 besteht hauptsächlich aus Einträgen mit dem Wert 0. Esgibt also relativ wenige Einträge, die „interessant“ sind. Das heißt, bei derImplementierung der Matrix werden nur die Einträge angesprochen, derenWert ungleich 0 ist. Dargestellt werden kann die Sparse-Matrix als eine Liste

4 von lat. adiacere angrenzen, benachbart sein5 symmetrisch: A = AT6 von engl. sparse: karg, spärlich, wenig

11

von Listen von Einträgen – jede Liste repräsentiert die Koordinaten und denWert zu einem Eintrag. In den Listen notiert die erste Zahl dabei die Zeile, diezweite die Spalte und die dritte den Wert aus der Matrix A.

Beispiel 2.18:

A =

€

0 1 00 0 0

−2,5 0 0

Asparse =

€

[1 2] => 1[3 1] => −2,5

Anstelle von 9 Einträgen in der Matrix, die jeweils zwei Koordinatenindizeshaben, müssen jetzt nur noch 2 Einträge und eine Liste der Koordinatenverwaltet werden.Man kann sich leicht vorstellen, dass das für den Computer bei sehr großenMatrizen eine Geschwindigkeitssteigerung bedeuten kann, da schon bei derobigen Beispielmatrix nur etwa ein Drittel der Werte verwendet wird.Eine häufige Verwendung großer Matrizen in der Computerlinguistik ist derGebrauch einer Term-Dokumenten-Matrix. Eine Term-Dokumenten-Matrixmit 100.000 Termen x 20.000 Dokumente bestünde also aus 2.000.000.000Einträgen. Werden diese Einträge jeweils mit vier Bytes Speicherbedarf7 einerGleitkommazahl multipliziert, ergibt diese Matrix eine Speicherbelegung vonca. 8 GB. Allerdings werden in den 20.000 Dokumenten nicht jeweils alle100.000 Terme vorkommen, sondern nur ein geringer Bruchteil. Der Großteilder Einträge werden folglich Nulleintäge sein. Bei einem angenommenenDurchschnittsvorkommen von 100 unterschiedlichen Termen pro Dokumentlässt sich der Speicherverbrauch auf ca. 8MB reduzieren (100 x 20.000 x4Byte).

7 Anmerkung: bei single precision

12

3 Literaturverzeichnis

Acton, Forman S.: Numerical Methods that work. The MathematicalAssociation of America, Washington D.C., 31990

Aleksandrov, A.D./ Kolmogorov, A.N./ Lavrent’ev, M.A.: Mathematics – ItsContent, Methods and Meaning. Dover Publications, Inc. Mineola, New York.1999

Berry, M.W./ Dumais, S.T./ O'Brien, G.W.: Using Linear Algebra for IntelligentInformation Retrieval. SIAM Review 37(4): S. 573-595. 1995

Björck, Åke/ Dahlquist, Germund: Numerische Methoden. R. OldenburgVerlag, München, Wien. 1972

Krenn Brigitte/ Samuelsson Christer: The Linguist's Guide to Statistics –Don't Panic (1997). als PDF oder PS auf:

http://citeseer.ist.psu.edu/krenn97linguists.html

Lanczos, Cornelius: Applied Analysis. Dover Publications, Inc. New York. 1988

Manning, Christopher D./ Schütze, Hinrich: Foundations of Statistical NaturalLanguage Processing. MIT Press, Cambridge Massachusetts, London England.32000

Precht, M./ Voit, K./ Kraft, R.: Mathematik 1 für Nichtmathematiker –Grundbegriffe, Vektorrechnung, Lineare Algebra und Matrizenrechnung,Kombinatorik, Wahrscheinlichkeitsrechnung. Oldenbourg. 72005.

Precht, M./ Voit, K./ Kraft, R.: Mathematik 2 für Nichtmathematiker –Funktionen, Folgen und Reihen, Differential- und Integralrechnung,Differentialgleichungen, Ordnung und Chaos. Oldenbourg. 72005.

13

4 Stichwortverzeichnis

Ähnlichkeitsmaße, 8

Kosinusmaß, 8

Skalarprodukt, 8

Assoziativgesetz, 5

Distanzmaße, 8

Euklidische Distanz, 8

Manhattan-Distanz, 8

Maximums-Distanz, 8

Eigenvektor, 9

Eigenwert, 9

Eigenwertproblem, 9

Haupteigenvektor, 10

Iterationsmethode, 10

Kommutativgesetz, 3

Matrix, 1, 2

Adjazendenz-Matrix, 10

Assoziativgesetz, 5

Determinante, 9

Eigenwert, 9

Eigenwertproblem, 9

Einheitsmatrix, 5

Kommutativgesetz, 3

Matrixaddition, 3

Matrixmultiplikation, 3

Matrix-Vektor-Multiplikation, 4

quadratische Matrix, 2

Sparse-Matrix, 10

symmetrisch, 10

Term-Dokument-Matrix, 11

transponierte Matrix, 2

Normierung, 5

L1-Norm (Manhattan), 6

L2-Norm (Eukildische), 6

Maximums-Norm, 7

Skalar

kanonisches Skalarprodukt, 4

Vektor, 2

Haupteigenvektor, 10

Länge bestimmen, 6

Normierung, 6

Spaltenvektor, 2

Vektor-Vektor-Multiplikation, 4

Zeilenvektor, 2

Vektorraummodell, 8

matrizen und vektoren in der computerlinguistikmicha/kurse/mathei-ws0607/begleitmat… · eine...

Documents