burrows' „delta“ verstehenkallimachos.de/.../7/7d/presentationfau.pdf · dickens: oliver...

32
Burrows’ „Delta“ verstehen Stefan Evert, Thomas Proisl Friedrich-Alexander-Universität Erlangen-Nürnberg Fotis Jannidis, Steffen Pielström, Isabella Reger, Christof Schöch, Thorsten Vitt Julius-Maximilians-Universität Würzburg <philtag n="13"/>, Würzburg, 26. Februar 2016

Upload: others

Post on 29-Jul-2020

2 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Burrows' „Delta“ verstehenkallimachos.de/.../7/7d/PresentationFAU.pdf · Dickens: Oliver Twist. Parameter:Transformationderz-Werte 10 20 50 100 200 500 1000 2000 5000 10000 0

Burrows’ „Delta“ verstehen

Stefan Evert, Thomas ProislFriedrich-Alexander-Universität Erlangen-Nürnberg

Fotis Jannidis, Steffen Pielström, Isabella Reger, ChristofSchöch, Thorsten Vitt

Julius-Maximilians-Universität Würzburg

<philtag n="13"/>, Würzburg, 26. Februar 2016

Page 2: Burrows' „Delta“ verstehenkallimachos.de/.../7/7d/PresentationFAU.pdf · Dickens: Oliver Twist. Parameter:Transformationderz-Werte 10 20 50 100 200 500 1000 2000 5000 10000 0

Authorship attribution(Juola 2006; Koppel et al. 2008; Stamatatos 2009)

I Vordergründiges Ziel: Identifikation unbekannter oder strittigerAutoren anhand stilistischer Merkmale

I Federalist Papers: Hamilton vs. Madison(Mosteller and Wallace 1963)

I Gab es Shakespeare wirklich?I Robert Galbraith (The Cuckoo’s Calling) = J. K. Rowling

http://www.scientificamerican.com/article/how-a-computer-program-helped-show-jk-rowling-write-a-cuckoos-calling/

I Interessanter: Was sind die charakteristischen stilometrischenMerkmale eines bestimmten Schriftstellers?

+ Merkmale, die besonders zur erfolgreichen Attribution beitragen

I Können auf diese Weise auch gattungsspezifische Merkmalegefunden und von autorenspezifischen unterschieden werden?

Page 3: Burrows' „Delta“ verstehenkallimachos.de/.../7/7d/PresentationFAU.pdf · Dickens: Oliver Twist. Parameter:Transformationderz-Werte 10 20 50 100 200 500 1000 2000 5000 10000 0

Authorship attribution(Juola 2006; Koppel et al. 2008; Stamatatos 2009)

I Autorschaftsattribution als KlassifikationI vorgegebene Liste von in Frage kommenden AutorenI Trainingsdaten: bekannte Texte dieser AutorenI überwachte Lernverfahren Ü relevante Merkmale + GewichtungI Evaluation: Genauigkeit (accuracy)

I Autorschaftsattribution als ClusteringI unüberwachtes Lernverfahren auf Basis einer TextsammlungI Texte des gleichen Autors sollen in ein Cluster gruppiert werdenI Basis: stilometrisches Abstandsmaß für TexteI Evaluation: adjusted Rand index (ARI, Hubert and Arabie 1985)

+ kann auch zur Klassifikation genutzt werden (nearest neighbour)

I Einfaches und erfolgreiches Abstandsmaß: Burrows Delta

Page 4: Burrows' „Delta“ verstehenkallimachos.de/.../7/7d/PresentationFAU.pdf · Dickens: Oliver Twist. Parameter:Transformationderz-Werte 10 20 50 100 200 500 1000 2000 5000 10000 0

Burrows Delta (∆B)(Burrows 2002)

I Relative Häufigkeiten der 100–5000 häufigsten Wörter (MFW)als stilistischer „Fingerabdruck“ eines Autors

standardisierte z-Werte: zi(D) = fi(D)− µiσi

the and to of a I in was that he herz(Madding Crowd) = ( .53, -.23, -.32, .20, 1.66, -.37, 1.04, .52, -.44, -.92, .03, . . .)z(Tess of the d’U.) = ( .75, -.48, -.08, .51, -.24, -.87, .60, .41, -.14, -.47, 1.39, . . .)

z(Oliver Twist) = (1.05, .15, -.71, -.56, .37, -1.01, -.06, -.74, -.28, .48, -.94, . . .)

−2

−1

01

2

Hardy: Far from the Madding CrowdHardy: Tess of the d'Urbervilles

Page 5: Burrows' „Delta“ verstehenkallimachos.de/.../7/7d/PresentationFAU.pdf · Dickens: Oliver Twist. Parameter:Transformationderz-Werte 10 20 50 100 200 500 1000 2000 5000 10000 0

Abstandsmaße für Texte

I Ähnlichkeit zwischen zwei „Fingerabdrücken“, d.h. Vektorenz(D1) und z(D2), muss quantifiziert werden

I Vektor = Punkt in einem nw -dimensionalen RaumI nw = Anzahl MFW = Dimensionalität des Vektors

Metrik =geometrischesAbstandsmaß B

A

x

y

1 2 3 4 5

1

2

3

4

5

6

6

Manha%an:d1(A,,B),=,5

Euclidean:d2(A,,B),=,3.6

Cosine:α(A,,B),=,41.6°α

Page 6: Burrows' „Delta“ verstehenkallimachos.de/.../7/7d/PresentationFAU.pdf · Dickens: Oliver Twist. Parameter:Transformationderz-Werte 10 20 50 100 200 500 1000 2000 5000 10000 0

Die Delta-Familie(Burrows 2002; Hoover 2004; Argamon 2008; Smith and Aldridge 2011)

I Burrows Delta = Manhattan-Abstand (Burrows 2002)

∆B(D1,D2) = ‖z(D1)− z(D2)‖1 =nw∑i=1|zi(D1)− zi(D2)|

I Quadratic Delta = Euklidischer Abstand (Argamon 2008)

∆Q(D1,D2) = ‖z(D1)− z(D2)‖22 =nw∑i=1

(zi(D1)− zi(D2))2

I Cosine Delta = Winkelabstand (Smith and Aldridge 2011)

cos∆∠(D1,D2) =∑nw

i=1 zi(D1) · zi(D2)‖z(D1)‖2 · ‖z(D2)‖2

Page 7: Burrows' „Delta“ verstehenkallimachos.de/.../7/7d/PresentationFAU.pdf · Dickens: Oliver Twist. Parameter:Transformationderz-Werte 10 20 50 100 200 500 1000 2000 5000 10000 0

Delta verstehen„In theory, theory and practice are the same. In practice, they are not.“

I Empirische Studie zu Delta-Maßen (Jannidis et al. 2015)I drei Romankorpora (Deutsch, Englisch, Französisch)I jeweils 75 Romane von 25 verschiedenen AutorenI Zeitraum: frühes 19. Jhd. bis Mitte des 20. Jhd.I unüberwachtes Clustering in 25 Gruppen mit allen bekannten

Delta-Varianten und nw = 100, 1000, 5000 MFW+ Beste Maße: Burrows Delta ∆B und Cosine Delta ∆∠

I Gemeinsame Folgestudie (Evert et al. 2015)I systematische Untersuchung von nw und anderen ParameternI besseres Clusteringverfahren, Evaluation mit ARI

+ Längennormalisierung spielt entscheidende Rolle

I Neue Ergebnisse (philtag / DHd 2016)I Gründe für positive Auswirkung der LängennormalisierungI Hypothesen: (i) Outlier vs. (ii) „Schlüsselprofil“

Page 8: Burrows' „Delta“ verstehenkallimachos.de/.../7/7d/PresentationFAU.pdf · Dickens: Oliver Twist. Parameter:Transformationderz-Werte 10 20 50 100 200 500 1000 2000 5000 10000 0

Parameter: Anzahl nw von MFW10 20 50 10

0

200

500

1000

2000

5000

1000

0

020

4060

8010

0

German (z−scores)

# features

adju

sted

Ran

d in

dex

(%)

Burrows DeltaQuadratic DeltaCosine Delta

(im folgenden nur noch Ergebnisse für deutsches Romankorpus)

Page 9: Burrows' „Delta“ verstehenkallimachos.de/.../7/7d/PresentationFAU.pdf · Dickens: Oliver Twist. Parameter:Transformationderz-Werte 10 20 50 100 200 500 1000 2000 5000 10000 0

Parameter: Anzahl nw von MFW10 20 50 10

0

200

500

1000

2000

5000

1000

0

020

4060

8010

0

English (z−scores)

# features

adju

sted

Ran

d in

dex

(%)

Burrows DeltaQuadratic DeltaCosine Delta

(im folgenden nur noch Ergebnisse für deutsches Romankorpus)

Page 10: Burrows' „Delta“ verstehenkallimachos.de/.../7/7d/PresentationFAU.pdf · Dickens: Oliver Twist. Parameter:Transformationderz-Werte 10 20 50 100 200 500 1000 2000 5000 10000 0

Parameter: Anzahl nw von MFW10 20 50 10

0

200

500

1000

2000

5000

1000

0

020

4060

8010

0

French (z−scores)

# features

adju

sted

Ran

d in

dex

(%)

Burrows DeltaQuadratic DeltaCosine Delta

(im folgenden nur noch Ergebnisse für deutsches Romankorpus)

Page 11: Burrows' „Delta“ verstehenkallimachos.de/.../7/7d/PresentationFAU.pdf · Dickens: Oliver Twist. Parameter:Transformationderz-Werte 10 20 50 100 200 500 1000 2000 5000 10000 0

Parameter: Längennormalisierung der Vektoren10 20 50 10

0

200

500

1000

2000

5000

1000

0

020

4060

8010

0

German (z−scores)

# features

adju

sted

Ran

d in

dex

(%)

Burrows DeltaQuadratic DeltaCosine DeltaBurrows Delta / L1Burrows Delta / L2Quadratic Delta / L1

Längennormalisierung ist entscheidend für gutes Clustering!

Page 12: Burrows' „Delta“ verstehenkallimachos.de/.../7/7d/PresentationFAU.pdf · Dickens: Oliver Twist. Parameter:Transformationderz-Werte 10 20 50 100 200 500 1000 2000 5000 10000 0

Warum ist Längennormalisierung so wichtig?

I Hypothese 1: wenige „extreme“ z-Werte (outlier) üben großenEinfluss auf Abstandsmaße aus und verzerren die Ergebnisse

I derartige Ausreißer sind oft charakteristisch für einzelnen Text

I Hypothese 2: charakteristisches Autorenprofil findet sich imgrundsätzlichen Muster positiver und negativer Abweichungen,unabhängig vom Grad ihrer Ausprägung („Schlüsselprofil“)

Page 13: Burrows' „Delta“ verstehenkallimachos.de/.../7/7d/PresentationFAU.pdf · Dickens: Oliver Twist. Parameter:Transformationderz-Werte 10 20 50 100 200 500 1000 2000 5000 10000 0

Evidenz für Hypothese 1: Minkowski-Abstand

I Minkowski-Delta als Verallgemeinerung: ∆B = ∆1, ∆Q = ∆2I ∆p ist umso anfälliger für Ausreißer, je größer p wird

∆p(D1,D2) = ‖z(D1)− z(D2)‖p = p

√√√√ nw∑i=1

|zi(D1)− zi(D2)|p

10 20 50 100

200

500

1000

2000

5000

1000

0

020

4060

8010

0

German (z−scores, not normalized)

# features

adju

sted

Ran

d in

dex

(%)

Cosine DeltaBurrows (L1) DeltaL1 2−DeltaQuadratic (L2) DeltaL4−Delta

Page 14: Burrows' „Delta“ verstehenkallimachos.de/.../7/7d/PresentationFAU.pdf · Dickens: Oliver Twist. Parameter:Transformationderz-Werte 10 20 50 100 200 500 1000 2000 5000 10000 0

Evidenz für Hypothese 1: Minkowski-Abstand

I Minkowski-Delta als Verallgemeinerung: ∆B = ∆1, ∆Q = ∆2I ∆p ist umso anfälliger für Ausreißer, je größer p wird

∆p(D1,D2) = ‖z(D1)− z(D2)‖p = p

√√√√ nw∑i=1

|zi(D1)− zi(D2)|p

10 20 50 100

200

500

1000

2000

5000

1000

0

020

4060

8010

0

German (z−scores, L2−normalized)

# features

adju

sted

Ran

d in

dex

(%)

Cosine DeltaBurrows (L1) DeltaL1 2−DeltaQuadratic (L2) DeltaL4−Delta

Page 15: Burrows' „Delta“ verstehenkallimachos.de/.../7/7d/PresentationFAU.pdf · Dickens: Oliver Twist. Parameter:Transformationderz-Werte 10 20 50 100 200 500 1000 2000 5000 10000 0

Evidenz für Hypothese 2: Vektorlänge (Norm)

0.0 0.2 0.4 0.6 0.8 1.0 1.2

0.2

0.4

0.6

0.8

1.0

German (L2, 500 mfw)

mean positive score

mea

n ne

gativ

e sc

ore

●●

●●

●●

ArnimDohmEbner EschenbachFischerFontaneFouquéFrançoisFreytagGoetheGutzkowHahn HahnHauffHuber

Jean PaulKafkaKellerLewaldMarlittMayRaabeSchopenhauerSpielhagenTieckWassermannWieland

Page 16: Burrows' „Delta“ verstehenkallimachos.de/.../7/7d/PresentationFAU.pdf · Dickens: Oliver Twist. Parameter:Transformationderz-Werte 10 20 50 100 200 500 1000 2000 5000 10000 0

Neuer Ansatz: Transformation der z-Werte

I Längennormalisierung der Vektoren

I Abschneiden von Ausreißern (z.B. |z | > 1) H1I Ternarisierung: −1 (selten) / 0 (normal) / +1 (häufig) H2I optional: Ternarisierung nur für seltenere Wörter

−0.

2−

0.1

0.0

0.1

0.2 Hardy: Far from the Madding Crowd

Hardy: Tess of the d'Urbervilles

Page 17: Burrows' „Delta“ verstehenkallimachos.de/.../7/7d/PresentationFAU.pdf · Dickens: Oliver Twist. Parameter:Transformationderz-Werte 10 20 50 100 200 500 1000 2000 5000 10000 0

Neuer Ansatz: Transformation der z-Werte

I Längennormalisierung der Vektoren

I Abschneiden von Ausreißern (z.B. |z | > 1) H1

I Ternarisierung: −1 (selten) / 0 (normal) / +1 (häufig) H2I optional: Ternarisierung nur für seltenere Wörter

−2

−1

01

2

Hardy: Far from the Madding CrowdHardy: Tess of the d'Urbervilles

Page 18: Burrows' „Delta“ verstehenkallimachos.de/.../7/7d/PresentationFAU.pdf · Dickens: Oliver Twist. Parameter:Transformationderz-Werte 10 20 50 100 200 500 1000 2000 5000 10000 0

Neuer Ansatz: Transformation der z-Werte

I Längennormalisierung der VektorenI Abschneiden von Ausreißern (z.B. |z | > 1) H1

I Ternarisierung: −1 (selten) / 0 (normal) / +1 (häufig) H2

I optional: Ternarisierung nur für seltenere Wörter

−1.

5−

1.0

−0.

50.

00.

51.

01.

5

Hardy: Far from the Madding CrowdHardy: Tess of the d'Urbervilles

Page 19: Burrows' „Delta“ verstehenkallimachos.de/.../7/7d/PresentationFAU.pdf · Dickens: Oliver Twist. Parameter:Transformationderz-Werte 10 20 50 100 200 500 1000 2000 5000 10000 0

Neuer Ansatz: Transformation der z-Werte

I Längennormalisierung der VektorenI Abschneiden von Ausreißern (z.B. |z | > 1) H1

I Ternarisierung: −1 (selten) / 0 (normal) / +1 (häufig) H2

I optional: Ternarisierung nur für seltenere Wörter

−1.

5−

1.0

−0.

50.

00.

51.

01.

5

Hardy: Far from the Madding CrowdDickens: Oliver Twist

Page 20: Burrows' „Delta“ verstehenkallimachos.de/.../7/7d/PresentationFAU.pdf · Dickens: Oliver Twist. Parameter:Transformationderz-Werte 10 20 50 100 200 500 1000 2000 5000 10000 0

Parameter: Transformation der z-Werte10 20 50 10

0

200

500

1000

2000

5000

1000

0

020

4060

8010

0

German (z−scores clamped to range [−2, 2])

# features

adju

sted

Ran

d in

dex

(%)

Cosine DeltaBurrows (L1) DeltaL1 2−DeltaQuadratic (L2) DeltaL4−Delta

Abschneiden von Ausreißern (|z | > 2) H1

Page 21: Burrows' „Delta“ verstehenkallimachos.de/.../7/7d/PresentationFAU.pdf · Dickens: Oliver Twist. Parameter:Transformationderz-Werte 10 20 50 100 200 500 1000 2000 5000 10000 0

Parameter: Transformation der z-Werte10 20 50 10

0

200

500

1000

2000

5000

1000

0

020

4060

8010

0

German (ternarized z−scores)

# features

adju

sted

Ran

d in

dex

(%)

Cosine DeltaBurrows (L1) DeltaL1 2−DeltaQuadratic (L2) DeltaL4−Delta

Ternarisierung (je 33%) H2

Page 22: Burrows' „Delta“ verstehenkallimachos.de/.../7/7d/PresentationFAU.pdf · Dickens: Oliver Twist. Parameter:Transformationderz-Werte 10 20 50 100 200 500 1000 2000 5000 10000 0

Parameter: Transformation der z-Werte10 20 50 10

0

200

500

1000

2000

5000

1000

0

020

4060

8010

0

German (ternarized, skipping 200 MFW)

# features

adju

sted

Ran

d in

dex

(%)

Cosine DeltaBurrows (L1) DeltaL1 2−DeltaQuadratic (L2) DeltaL4−Delta

Ternarisierung (je 33%, ohne 200 MFW)

Page 23: Burrows' „Delta“ verstehenkallimachos.de/.../7/7d/PresentationFAU.pdf · Dickens: Oliver Twist. Parameter:Transformationderz-Werte 10 20 50 100 200 500 1000 2000 5000 10000 0

Fazit

I Empirische Befunde stützen „Schlüsselprofil“-Hypothese 2I Ternarisierte Vektoren sehr robust und ∆∠ ebenbürtigI Abschneiden von Ausreißern Ü nur leichte VerbesserungI Simulationsexperiment: Erzeugen von zufälligen Ausreißern als„noise“ verschlechtert die Ergebnisse kaum

Nächste SchritteI Einfluss unterschiedlicher ClusteringverfahrenI Experimente mit Textfragmenten (Textlänge, Konsistenz)I Wortartenfilter (z.B. Funktionswörter), Lemmatisierung, . . .I Relevanz einzelner Wörter (Beitrag zu Abstandsmaßen)I Anwendung auf interpretierbare stilometrische Merkmale?

Page 24: Burrows' „Delta“ verstehenkallimachos.de/.../7/7d/PresentationFAU.pdf · Dickens: Oliver Twist. Parameter:Transformationderz-Werte 10 20 50 100 200 500 1000 2000 5000 10000 0

Dank & Diskussion

Page 25: Burrows' „Delta“ verstehenkallimachos.de/.../7/7d/PresentationFAU.pdf · Dickens: Oliver Twist. Parameter:Transformationderz-Werte 10 20 50 100 200 500 1000 2000 5000 10000 0

Auswirkung der Transformationen auf Verteilung

z−scores (German)

dist

ribut

ion

of fe

atur

e va

lues

−2 0 2 4 6

0.0

0.5

1.0

1.5

normalized vectors

−2 0 2 4 6

0.0

0.5

1.0

1.5

z−scores w/o outliers

−2 0 2 4 6

0.0

0.5

1.0

1.5

quantile transformation

dist

ribut

ion

of fe

atur

e va

lues

−2 0 2 4 6

0.0

0.5

1.0

1.5

ternarized z−scores

−2 0 2 4 6

0.0

0.5

1.0

1.5

ternarized after 1000 MFW

−2 0 2 4 6

0.0

0.5

1.0

1.5

Page 26: Burrows' „Delta“ verstehenkallimachos.de/.../7/7d/PresentationFAU.pdf · Dickens: Oliver Twist. Parameter:Transformationderz-Werte 10 20 50 100 200 500 1000 2000 5000 10000 0

Vergleich von Clustering-Verfahren

10 20 50 100

200

500

1000

2000

5000

1000

0

020

4060

8010

0

German (Burrows Delta)

# features

adju

sted

Ran

d in

dex

(%)

k−medoids (PAM)single linkcompleteWardWard (hclust)

Page 27: Burrows' „Delta“ verstehenkallimachos.de/.../7/7d/PresentationFAU.pdf · Dickens: Oliver Twist. Parameter:Transformationderz-Werte 10 20 50 100 200 500 1000 2000 5000 10000 0

Clustering-Verfahren: PAM vs. Ward

10 20 50 100

200

500

1000

2000

5000

1000

0

020

4060

8010

0

German (z−scores, Ward clustering)

# features

adju

sted

Ran

d in

dex

(%)

Cosine DeltaL1 2−DeltaBurrows (L1) DeltaQuadratic (L2) DeltaL4−Delta

Page 28: Burrows' „Delta“ verstehenkallimachos.de/.../7/7d/PresentationFAU.pdf · Dickens: Oliver Twist. Parameter:Transformationderz-Werte 10 20 50 100 200 500 1000 2000 5000 10000 0

Learning curvesI Experimente wurden mit den ganzen Romanen durchgeführtI Funktioniert Delta auch bei kürzeren Texten?

+ zwei Fallstudien mit Cosine Delta ∆∠ und nw = 2000 MFW

Page 29: Burrows' „Delta“ verstehenkallimachos.de/.../7/7d/PresentationFAU.pdf · Dickens: Oliver Twist. Parameter:Transformationderz-Werte 10 20 50 100 200 500 1000 2000 5000 10000 0

Learning curves: Clustering

alle Texte auf die angegebene Zahl von Token gekürzt

Page 30: Burrows' „Delta“ verstehenkallimachos.de/.../7/7d/PresentationFAU.pdf · Dickens: Oliver Twist. Parameter:Transformationderz-Werte 10 20 50 100 200 500 1000 2000 5000 10000 0

Learning curves: Klassifikation

ein Text gekürzt, andere Romane ungekürzt als Trainingsdaten

Page 31: Burrows' „Delta“ verstehenkallimachos.de/.../7/7d/PresentationFAU.pdf · Dickens: Oliver Twist. Parameter:Transformationderz-Werte 10 20 50 100 200 500 1000 2000 5000 10000 0

References I

Argamon, Shlomo (2008). Interpreting Burrows’s Delta: Geometric and ProbabilisticFoundations. Literary and Linguistic Computing, 23(2), 131 –147.

Burrows, John (2002). ‘Delta’: a Measure of Stylistic Difference and a Guide to LikelyAuthorship. Literary and Linguistic Computing, 17(3), 267 –287.

Evert, Stefan; Proisl, Thomas; Jannidis, Fotis; Pielström, Steffen; Schöch, Christof;Vitt, Thorsten (2015). Towards a better understanding of Burrows’s Delta inliterary authorship attribution. In Proceedings of the Fourth Workshop onComputational Linguistics for Literature, Denver, CO.

Hoover, David L. (2004). Delta Prime? Literary and Linguistic Computing, 19(4), 477–495.

Hubert, Lawrence and Arabie, Phipps (1985). Comparing partitions. Journal ofClassification, 2, 193–218.

Jannidis, Fotis; Pielström, Steffen; Schöch, Christof; Vitt, Thorsten (2015). ImprovingBurrows’ Delta - An empirical evaluation of text distance measures. In DigitalHumanities Conference 2015, Sydney.

Juola, Patrick (2006). Authorship attribution. Foundations and Trends in InformationRetrieval, 1(3), 233–334.

Koppel, M.; Schler, J.; Argamon, S. (2008). Computational methods in authorshipattribution. Journal of the American Society for information Science andTechnology, 60(1), 9–26.

Page 32: Burrows' „Delta“ verstehenkallimachos.de/.../7/7d/PresentationFAU.pdf · Dickens: Oliver Twist. Parameter:Transformationderz-Werte 10 20 50 100 200 500 1000 2000 5000 10000 0

References II

Mosteller, Frederick and Wallace, David L. (1963). Inference in an authorship problem.Journal of the American Statistical Association, 58(302), 275–309.

Smith, Peter W. H. and Aldridge, W. (2011). Improving authorship attribution:Optimizing Burrows’ Delta method. Journal of Quantitative Linguistics, 18(1),63–88.

Stamatatos, Efstathios (2009). A survey of modern authorship attribution methods. J.Am. Soc. Inf. Sci. Technol., 60(3), 538–556.