seminar in methodology and statistics - over ons€¦ · door fusie van waterstof tot helium. de...

64
Seminar in methodology and statistics 13th May 2009 Ildikó Berzlánovich, Myrthe Faber University of Groningen Center for Language and Cognition Groningen Intercoder agreement in discourse analysis

Upload: others

Post on 30-Apr-2020

1 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Seminar in methodology and statistics - Over ons€¦ · door fusie van waterstof tot helium. De zon is nu ongeveer vijf miljard jaar oud en heeft nog brandstof voor nog eens vijf

Seminar in methodology and statistics13th May 2009

Ildikó Berzlánovich, Myrthe FaberUniversity of Groningen

Center for Language and Cognition Groningen

Intercoder agreement in discourse analysis

Page 2: Seminar in methodology and statistics - Over ons€¦ · door fusie van waterstof tot helium. De zon is nu ongeveer vijf miljard jaar oud en heeft nog brandstof voor nog eens vijf

2

PART 1: Intercoder agreement for the study of discourse structure (Ildikó)

PART 2: Intercoder agreement in conversation analysis (Myrthe)

Outline

Page 3: Seminar in methodology and statistics - Over ons€¦ · door fusie van waterstof tot helium. De zon is nu ongeveer vijf miljard jaar oud en heeft nog brandstof voor nog eens vijf

3

Outline – Discourse structure

• Own research• Annotation problems• Intercoder agreement measures (percentage agreement, Cohen’s kappa)• Practice so far• Decisions for own research

Page 4: Seminar in methodology and statistics - Over ons€¦ · door fusie van waterstof tot helium. De zon is nu ongeveer vijf miljard jaar oud en heeft nog brandstof voor nog eens vijf

4

General aim:

interaction between coherence and lexical cohesion across genres

Alignment hypothesis:

Lexical cohesion is more closely aligned with coherence in thematicallyorganized texts than in intentionally organized texts.

Specifically:› close alignment in expository texts› less or no alignment in persuasive texts

Own research Practice so farAnnotation problems Decisions for own researchMeasures

Page 5: Seminar in methodology and statistics - Over ons€¦ · door fusie van waterstof tot helium. De zon is nu ongeveer vijf miljard jaar oud en heeft nog brandstof voor nog eens vijf

5

GENRE 1 GENRE 2

COHERENCE COHERENCE

� �COHESION COHESION

text 1 text 1

COHERENCE COHERENCE

� �COHESION COHESION

text 2 text 2

Own research Practice so farAnnotation problems Decisions for own researchMeasures

Page 6: Seminar in methodology and statistics - Over ons€¦ · door fusie van waterstof tot helium. De zon is nu ongeveer vijf miljard jaar oud en heeft nog brandstof voor nog eens vijf

6

Genre• class of communicative events with common communicative purposes

shared in a discourse community (Swales 1990)• genre-specific move structure

Coherence• underlying relations between discourse units in text

Cohesion• semantic relations between surface elements in text

Own research Practice so farAnnotation problems Decisions for own researchMeasures

Page 7: Seminar in methodology and statistics - Over ons€¦ · door fusie van waterstof tot helium. De zon is nu ongeveer vijf miljard jaar oud en heeft nog brandstof voor nog eens vijf

7

Texts

• expository texts: encyclopedia entries (EE01, EE02)• persuasive texts: fundraising letters (FL01, FL02)

Own research Practice so farAnnotation problems Decisions for own researchMeasures

Page 8: Seminar in methodology and statistics - Over ons€¦ · door fusie van waterstof tot helium. De zon is nu ongeveer vijf miljard jaar oud en heeft nog brandstof voor nog eens vijf

8

Encyclopedia entries1. name the object2. define the object3. describe in general (e.g., size, age, category)4. describe details (e.g., surface, past/future development, discovery)

Fundraising letters - seven moves (Upton 2002)1. get attention2. introduce the cause and/or establish credentials of organization3. solicit response4. offer incentive5. reference insert6. express gratitude7. conclude with pleasantries

Own research Practice so farAnnotation problems Decisions for own researchMeasures

Page 9: Seminar in methodology and statistics - Over ons€¦ · door fusie van waterstof tot helium. De zon is nu ongeveer vijf miljard jaar oud en heeft nog brandstof voor nog eens vijf

9

Fragment from EE01 (De Zon)

Na vorming van de zon en het zonnestelsel is onze ster begonnen aan eenlang bestaan als zogenaamde dwergster. In de dwergfase van het leven van de zon wordt de energie die ze uitstraalt in het centrum geproduceerddoor fusie van waterstof tot helium. De zon is nu ongeveer vijf miljard jaaroud en heeft nog brandstof voor nog eens vijf miljard jaar.

After the forming of the sun and the solar system, our star began its long existence as a so-called dwarf star. In the dwarf phase of its life, theenergy that the sun gives off is generated in its core through the fusion of hydrogen into helium. The sun is about five billion years old now and it stillhas enough fuel for another five billion years.

Own research Practice so farAnnotation problems Decisions for own researchMeasures

Page 10: Seminar in methodology and statistics - Over ons€¦ · door fusie van waterstof tot helium. De zon is nu ongeveer vijf miljard jaar oud en heeft nog brandstof voor nog eens vijf

10

Rhetorical Structure Theory (Mann & Thompson 1988)

• functional relations between propositions• reconstruction of writer’s purposes• subject matter vs. presentational relations• mononuclear relations multinuclear relations

Na vorming van dezon en hetzonnestelsel is onzester begonnen aaneen lang bestaan alszogenaamdedwergster.

In de dwergfase vanhet leven van de zonwordt de energie dieze uitstraalt in hetcentrumgeproduceerd doorfusie van waterstof tothelium.

Elaboration

1-2 1-2

De zon is nuongeveer vijf miljardjaar oud

Conjunctionen heeft nogbrandstof voor nogeens vijf miljard jaar.

Own research Practice so farAnnotation problems Decisions for own researchMeasures

Page 11: Seminar in methodology and statistics - Over ons€¦ · door fusie van waterstof tot helium. De zon is nu ongeveer vijf miljard jaar oud en heeft nog brandstof voor nog eens vijf

11

hierarchy

1-4

1-2

Na vorming van de

zon en het

zonnestelsel is onze

ster begonnen aan

een lang bestaan als

zogenaamde

dwergster.

In de dwergfase van

het leven van de zon

wordt de energie die

ze uitstraalt in het

centrum

geproduceerd door

fusie van waterstof tot

helium.

Elaboration

3-4

Elaboration

De zon is nu

ongeveer vijf miljard

jaar oud

Conjunctionen heeft nog

brandstof voor nog

eens vijf miljard jaar.

Own research Practice so farAnnotation problems Decisions for own researchMeasures

Page 12: Seminar in methodology and statistics - Over ons€¦ · door fusie van waterstof tot helium. De zon is nu ongeveer vijf miljard jaar oud en heeft nog brandstof voor nog eens vijf

12

1-31

1

1 De Zon

2-31

Elaboration

2-4

2 De zon is op een

afstand van 150

miljoen kilometer de

dichtstbijzijnde ster.

3-4

Elaboration

3 Licht dat het

oppervlak van de

zon verlaat bereikt in

slechts acht minuten

de aarde.

4 Ter vergelijking, de

op de zon na meest

nabije ster, Proxima

Centauri, staat op een

afstand waar het licht

vier jaar en vier

maanden over doet.#

Bgr or contrast (mn)

5-16

Elaboration

9-16

Joint

10-169 Het is een beetje

pijnlijk om toe te

moeten geven,

Evaluation

10 maar onze zon is

maar een heel

gewoon sterretje.

11-16

Elaboration

11-12

List

11 Niet heel erg

helder,

Conjunction

12 maar ook weer

niet heel erg

lichtzwak;

Conjunction

13-14

List

13 niet erg zwaar,

Conjunction

14 maar ook niet erg

licht;

Conjunction

15-16

List

15 niet heel groot,

Conjunction

16 maar ook niet

heel klein.#

Conjunction

5-8

Joint

5-6

5 Na vorming van de

zon en het

zonnestelsel is onze

ster begonnen aan

een lang bestaan als

zogenaamde

dwergster.

6 In de dwergfase

van het leven van

de zon wordt de

energie die ze

uitstraalt in het

centrum

geproduceerd door

fusie van waterstof

tot helium.

Elaboration

7-8

Elaboration

7 De zon is nu

ongeveer vijf miljard

jaar oud

Conjunction

8 en heeft nog

brandstof voor nog

eens vijf miljard jaar.

Conjunction

17-31

Elaboration

20-31

20-21

21 er is allerlei

structuur op te zien.

20 Het oppervlak

blijkt verre van glad

en egaal te zijn;

Rest or elab or rest-mn (mn)

22-31

Nonvolitional-cause

22 Dat wordt

veroorzaakt door

trillingen van het

zonsoppervlak en

door het

magneetveld van de

zon.

23-31

Elaboration

26-3123-25

Nonvolitional-cause

25 wordt het

magneetveld dat in

het gas is ingevroren

opgewonden.

23-24

Nonvolitional-cause

23 Omdat de zon in

ongeveer 28 dagen

om zijn as draait,

Conj or circ (mono)

24 waarbij de

evenaar sneller

draait dan de polen

Conj or circ (mono)

26-28

27-2826 Als dat te strak

wordt

Condition

27 breekt het

magneetveld los van

het gas

Conj or seq

28 en krijgt een

nieuwe structuur.

Conj or seq

29-31

Nonvolitional-result

29-30

29 Daarbij kunnen

prachtige lussen en

uitsteeksels gevormd

worden

30 die we

protuberansen

noemen.

Elaboration

31 Op het plaatje is

er rechts boven één

te zien.

Elaboration

17-19

Circumstance

18-1917 De zon is zo dicht

bij de aarde

Nonvolitional-cause

18 dat we het

oppervlak in detail

kunnen bestuderen,

19 wat bij de meeste

andere sterren

onmogelijk is.

Interpretation

hierarchy

Own research Practice so farAnnotation problems Decisions for own researchMeasures

Page 13: Seminar in methodology and statistics - Over ons€¦ · door fusie van waterstof tot helium. De zon is nu ongeveer vijf miljard jaar oud en heeft nog brandstof voor nog eens vijf

13

• lexical cohesion• network of relations• lexical cohesive relations

- repetition- systematic semantic relations

hyponymy, hyperonymy, co-hyponymymeronymy, holonymy, co-meronymysynonymyantonymy

- collocation

Own research Practice so farAnnotation problems Decisions for own researchMeasures

Page 14: Seminar in methodology and statistics - Over ons€¦ · door fusie van waterstof tot helium. De zon is nu ongeveer vijf miljard jaar oud en heeft nog brandstof voor nog eens vijf

14

Repetition

1-2

Na vorming van de

������������ en hetzonnestelsel is onzester begonnen aaneen lang bestaan alszogenaamdedwergster.

In de dwergfase vanhet leven van de ������������wordt de energie dieze uitstraalt in hetcentrumgeproduceerd doorfusie van waterstof tothelium.

Elaboration3-4

Elaboration

De ������������ is nuongeveer vijf miljard���������������� oud

Conjunctionen heeft nogbrandstof voor nog

eens vijf miljard ����������������.

1-4

Own research Practice so farAnnotation problems Decisions for own researchMeasures

Page 15: Seminar in methodology and statistics - Over ons€¦ · door fusie van waterstof tot helium. De zon is nu ongeveer vijf miljard jaar oud en heeft nog brandstof voor nog eens vijf

15

Hyponymy

1-2

Na vorming van de zon en hetzonnestelsel is onze������������ begonnen aaneen lang bestaan alszogenaamde� ������ ������ ������ �����.

In de dwergfase vanhet leven van de ������������wordt de energie dieze uitstraalt in hetcentrumgeproduceerd doorfusie van waterstof tothelium.

Elaboration3-4

Elaboration

De ������������ is nuongeveer vijf miljardjaar oud

Conjunctionen heeft nogbrandstof voor nogeens vijf miljard jaar.

1-4

Own research Practice so farAnnotation problems Decisions for own researchMeasures

Page 16: Seminar in methodology and statistics - Over ons€¦ · door fusie van waterstof tot helium. De zon is nu ongeveer vijf miljard jaar oud en heeft nog brandstof voor nog eens vijf

16

Meronymy

1-2

Na ��� ��� ��� ��� ��� ��� ��� ��� van de zon en het������������������������������������is onzester begonnen aaneen lang bestaan alszogenaamdedwergster.

In de � ������ ������ ������ ����� vanhet � �� �� �� � van de ������������wordt de energie dieze uitstraalt in hetcentrumgeproduceerd doorfusie van waterstof tothelium.

Elaboration3-4

Elaboration

De ������������ is nuongeveer vijf miljardjaar oud

Conjunctionen heeft nogbrandstof voor nogeens vijf miljard jaar.

1-4

Own research Practice so farAnnotation problems Decisions for own researchMeasures

Page 17: Seminar in methodology and statistics - Over ons€¦ · door fusie van waterstof tot helium. De zon is nu ongeveer vijf miljard jaar oud en heeft nog brandstof voor nog eens vijf

17

Synonymy

1-2

Na vorming van de zon en hetzonnestelsel is onzester begonnen aaneen lang ������������������������ alszogenaamdedwergster.

In de dwergfase vanhet � �� �� �� � van de zonwordt de energie dieze uitstraalt in hetcentrumgeproduceerd doorfusie van waterstof tothelium.

Elaboration3-4

Elaboration

De zon is nuongeveer vijf miljardjaar oud

Conjunctionen heeft nogbrandstof voor nogeens vijf miljard jaar.

1-4

Own research Practice so farAnnotation problems Decisions for own researchMeasures

Page 18: Seminar in methodology and statistics - Over ons€¦ · door fusie van waterstof tot helium. De zon is nu ongeveer vijf miljard jaar oud en heeft nog brandstof voor nog eens vijf

18

Collocation

1-2

Na vorming van de zon en hetzonnestelsel is onzester begonnen aaneen lang bestaan alszogenaamde� ������ ������ ������ �����.

In de � ������ ������ ������ ����� vanhet leven van de zon

wordt de ���������������� dieze uitstraalt in hetcentrumgeproduceerd doorfusie van waterstof tothelium.

Elaboration3-4

Elaboration

De zon is nuongeveer vijf miljardjaar oud

Conjunctionen heeft nog��������������������������������voor nogeens vijf miljard jaar.

1-4

Own research Practice so farAnnotation problems Decisions for own researchMeasures

Page 19: Seminar in methodology and statistics - Over ons€¦ · door fusie van waterstof tot helium. De zon is nu ongeveer vijf miljard jaar oud en heeft nog brandstof voor nog eens vijf

19

1-2

Na vorming van de zon en hetzonnestelsel is onzester begonnen aaneen lang bestaan alszogenaamdedwergster.

In de dwergfase vanhet leven van de zonwordt de energie dieze uitstraalt in hetcentrumgeproduceerd doorfusie van waterstof tothelium.

Elaboration3-4

Elaboration

De zon is nuongeveer vijf miljardjaar oud

Conjunctionen heeft nogbrandstof voor nogeens vijf miljard jaar.

1-4

Own research Practice so farAnnotation problems Decisions for own researchMeasures

Page 20: Seminar in methodology and statistics - Over ons€¦ · door fusie van waterstof tot helium. De zon is nu ongeveer vijf miljard jaar oud en heeft nog brandstof voor nog eens vijf

20

Centrality of discourse units

in coherencestructure

in lexicalcohesion

EDUs Moves

smallest units top levelin RST tree of RST tree

lexical cohesive links average lexicalper EDU cohesion density

Own research Practice so farAnnotation problems Decisions for own researchMeasures

Page 21: Seminar in methodology and statistics - Over ons€¦ · door fusie van waterstof tot helium. De zon is nu ongeveer vijf miljard jaar oud en heeft nog brandstof voor nog eens vijf

21

EE01

1-31

1 2-31

Elaboration

2-4

2 3-4

Elaboration5-16

Elaboration Elaboration

17-31

NAME

DEFINE DESCRIBE IN GENERAL

DESCRIBE DETAILS

Own research Practice so farAnnotation problems Decisions for own researchMeasures

Page 22: Seminar in methodology and statistics - Over ons€¦ · door fusie van waterstof tot helium. De zon is nu ongeveer vijf miljard jaar oud en heeft nog brandstof voor nog eens vijf

22

FL01

1-24

3-24

20-23

20-23

3-19

Motivation

9-193-8

Preparation

12-19

16-19

9-11

Solutionhood

24

Motivation1-2

Preparation

GETATTENTION

GETATTENTION

INTRODUCE CAUSE

CREDENTIALS OF ORGANIZATION

SOLICITRESPONSE

EXPRESS GRATITUDE

Own research Practice so farAnnotation problems Decisions for own researchMeasures

Page 23: Seminar in methodology and statistics - Over ons€¦ · door fusie van waterstof tot helium. De zon is nu ongeveer vijf miljard jaar oud en heeft nog brandstof voor nog eens vijf

23

EE01

0

5

10

15

20

25

30

35

40

45

50

Num

ber o

f ext

erna

l and

inte

rnal

coh

esiv

e lin

ks

1 3 5 7 9 11 13 15 17 19 21 23 25 27 29 31

internal links

external links

1NAME

2-4DEFINE

5-16DESCRIBE IN GENERAL

17-31DESCRIBE DETAILS

Own research Practice so farAnnotation problems Decisions for own researchMeasures

Page 24: Seminar in methodology and statistics - Over ons€¦ · door fusie van waterstof tot helium. De zon is nu ongeveer vijf miljard jaar oud en heeft nog brandstof voor nog eens vijf

24

FL01

0

5

10

15

20

25

Num

ber

of e

xter

nal a

nd

inte

rnal

coh

esiv

e lin

ks

1 3 5 7 9 11 13 15 17 19 21 23

internal links

external links

1-8GET ATTENTION

9-11INTRO-DUCE

CAUSE

12-19ESTABLISH

CREDENTIALS OFORGANIZATION

20-23SOLICIT

RESPONSE

24EXPRESS

GRATITUDE

Own research Practice so farAnnotation problems Decisions for own researchMeasures

Page 25: Seminar in methodology and statistics - Over ons€¦ · door fusie van waterstof tot helium. De zon is nu ongeveer vijf miljard jaar oud en heeft nog brandstof voor nog eens vijf

25

• EE: Define is the central move both in coherence and in lexical cohesion

• FL: Solicit response is the central move in coherence, but no central move was found for lexical cohesion

� alignment much closer for EE than for FL

Own research Practice so farAnnotation problems Decisions for own researchMeasures

Page 26: Seminar in methodology and statistics - Over ons€¦ · door fusie van waterstof tot helium. De zon is nu ongeveer vijf miljard jaar oud en heeft nog brandstof voor nog eens vijf

26

• Move analysis • Segmentation• Cohesion analysis• Coherence analysis

Own research Practice so farAnnotation problems Decisions for own researchMeasures

Page 27: Seminar in methodology and statistics - Over ons€¦ · door fusie van waterstof tot helium. De zon is nu ongeveer vijf miljard jaar oud en heeft nog brandstof voor nog eens vijf

27

Structural segments + moves• [Met vriendelijke groet] [en alvast heel hartelijk dank,]

Overlapping moves• Dankzij uw donaties aan de Nierstichting kunnen wij ons inzetten voor een

betere kwaliteit van leven voor nierpatienten.

Two functions in one segment• De bijgevoegde kaarten zijn een bedankje voor het lezen van mijn brief over de

malaria-epidemie in Afrika.

Own research Practice so farAnnotation problems – move analysis Decisions for own researchMeasures

Page 28: Seminar in methodology and statistics - Over ons€¦ · door fusie van waterstof tot helium. De zon is nu ongeveer vijf miljard jaar oud en heeft nog brandstof voor nog eens vijf

28

EDU (elementary discourse unit) = clause

[Na vorming van de zon en het zonnestelsel is onze ster begonnen aan een lang bestaan alszogenaamde dwergster.] [In de dwergfase van hetleven van de zon wordt de energie die zeuitstraalt in het centrum geproduceerd door fusievan waterstof tot helium.] [De zon is nu ongeveervijf miljard jaar oud] [en heeft nog brandstof voornog eens vijf miljard jaar.]

Own research Practice so farAnnotation problems – segmentation Decisions for own researchMeasures

Page 29: Seminar in methodology and statistics - Over ons€¦ · door fusie van waterstof tot helium. De zon is nu ongeveer vijf miljard jaar oud en heeft nog brandstof voor nog eens vijf

29

EDU = clause

[Na vorming van de zon en het zonnestelsel is onze ster begonnen aan een lang bestaan alszogenaamde dwergster.] [In de dwergfase van hetleven van de zon wordt de energie die zeuitstraalt in het centrum geproduceerd door fusievan waterstof tot helium.] [De zon is nu ongeveervijf miljard jaar oud] [en heeft nog brandstof voornog eens vijf miljard jaar.]

Own research Practice so farAnnotation problems – segmentation Decisions for own researchMeasures

Page 30: Seminar in methodology and statistics - Over ons€¦ · door fusie van waterstof tot helium. De zon is nu ongeveer vijf miljard jaar oud en heeft nog brandstof voor nog eens vijf

30

EDU = clause

[Na vorming van de zon en het zonnestelsel is onze ster begonnen aan een lang bestaan alszogenaamde dwergster.] [In de dwergfase van hetleven van de zon wordt de energie die zeuitstraalt in het centrum geproduceerd door fusievan waterstof tot helium.] [De zon is nu ongeveervijf miljard jaar oud] [en heeft nog brandstof voornog eens vijf miljard jaar.]

Own research Practice so farAnnotation problems – segmentation Decisions for own researchMeasures

Page 31: Seminar in methodology and statistics - Over ons€¦ · door fusie van waterstof tot helium. De zon is nu ongeveer vijf miljard jaar oud en heeft nog brandstof voor nog eens vijf

31

EDU = clause

[Na vorming van de zon en het zonnestelsel is onze ster begonnen aan een lang bestaan alszogenaamde dwergster.] [In de dwergfase van hetleven van de zon wordt de energie die zeuitstraalt in het centrum geproduceerd door fusievan waterstof tot helium.] [De zon is nu ongeveervijf miljard jaar oud] [en heeft nog brandstof voornog eens vijf miljard jaar.]

Own research Practice so farAnnotation problems – segmentation Decisions for own researchMeasures

Page 32: Seminar in methodology and statistics - Over ons€¦ · door fusie van waterstof tot helium. De zon is nu ongeveer vijf miljard jaar oud en heeft nog brandstof voor nog eens vijf

32

[Na vorming van de zon en het zonnestelsel] [is onze ster begonnen aan een lang bestaan alszogenaamde dwergster.] [In de dwergfase van hetleven van de zon wordt de energie die zeuitstraalt in het centrum geproduceerd] [door fusievan waterstof tot helium.] [De zon is nu ongeveervijf miljard jaar oud] [en heeft nog brandstof voornog eens vijf miljard jaar.]

Own research Practice so farAnnotation problems – segmentation Decisions for own researchMeasures

Page 33: Seminar in methodology and statistics - Over ons€¦ · door fusie van waterstof tot helium. De zon is nu ongeveer vijf miljard jaar oud en heeft nog brandstof voor nog eens vijf

33

Comparisons• [De zon is zo dicht bij de aarde] [dat we het oppervlak in detail kunnen

bestuderen.] • [Een neutronenster is ongeveer anderhalf keer zo zwaar als de zon,]• [Echter, Saturnus produceert meer licht] [dan hij van de zon ontvangt.]• [De atmosferische druk is op het oppervlak zo'n 90 keer groter dan op Aarde.]

Embedded EDUs• 12 [In kraters nabij de polen van Mercurius, […13…] bestaat misschien zelfs ijs. /

13 [waar nooit zonlicht komt,]

Parentheticals• 14 De binnenste maan […15…] beweegt iets sneller dan de buitenste / 15 [(van

2002 tot 2005 is dat Epimetheus)]

Own research Practice so farAnnotation problems – segmentation Decisions for own researchMeasures

Page 34: Seminar in methodology and statistics - Over ons€¦ · door fusie van waterstof tot helium. De zon is nu ongeveer vijf miljard jaar oud en heeft nog brandstof voor nog eens vijf

34

[Na vorming van de zon en het zonnestelsel is onzester begonnen aan een lang bestaan alszogenaamde dwergster.] [In de dwergfase van hetleven van de zon wordt de energie die ze uitstraaltin het centrum geproduceerd door fusie van waterstof tot helium.] [De zon is nu ongeveer vijfmiljard jaar oud] [en heeft nog brandstof voor nogeens vijf miljard jaar.]

� link only with the closest preceding item

Own research Practice so farAnnotation problems – lexical cohesion Decisions for own researchMeasures

Page 35: Seminar in methodology and statistics - Over ons€¦ · door fusie van waterstof tot helium. De zon is nu ongeveer vijf miljard jaar oud en heeft nog brandstof voor nog eens vijf

35

[Na vorming van de zon en het zonnestelsel is onzester begonnen aan een lang bestaan alszogenaamde dwergster.] [In de dwergfase van hetleven van de zon wordt de energie die ze uitstraaltin het centrum geproduceerd door fusie van waterstof tot helium.] [De zon is nu ongeveer vijfmiljard jaar oud] [en heeft nog brandstof voor nogeens vijf miljard jaar.]

� all links identified (same item to more preceding items)

Own research Practice so farAnnotation problems – lexical cohesion Decisions for own researchMeasures

Page 36: Seminar in methodology and statistics - Over ons€¦ · door fusie van waterstof tot helium. De zon is nu ongeveer vijf miljard jaar oud en heeft nog brandstof voor nog eens vijf

36

[Na vorming van de zon en het zonnestelsel is onzester begonnen aan een lang bestaan alszogenaamde dwergster.] [In de dwergfase van hetleven van de zon wordt de energie die ze uitstraaltin het centrum geproduceerd door fusie van waterstof tot helium.] [De zon is nu ongeveer vijfmiljard jaar oud] [en heeft nog brandstof voor nogeens vijf miljard jaar.]

� all links identified (same preceding item to more succeeding items)

Own research Practice so farAnnotation problems – lexical cohesion Decisions for own researchMeasures

Page 37: Seminar in methodology and statistics - Over ons€¦ · door fusie van waterstof tot helium. De zon is nu ongeveer vijf miljard jaar oud en heeft nog brandstof voor nog eens vijf

37

Multiple relations• gasplaneet – Aarde: co-meronymy OR co-hyponymy

Context• Mercurius – as / polen / krater

Word forms

• Aards – Aarde: repetition

Abbreviations• € – euro: repetition; € – bedrag: collocation; H2 – waterstof: synonymy

Multi-word units• dwergster – dwergfase: collocation; Proxima Centauri;• [De meest spectaculaire structuur op het oppervlak van Jupiter is een grote rode

vlek iets ten zuiden van de evenaar.] [Deze structuur wordt de Grote Rode Vlekgenoemd.]

Own research Practice so farAnnotation problems – lexical cohesion Decisions for own researchMeasures

Page 38: Seminar in methodology and statistics - Over ons€¦ · door fusie van waterstof tot helium. De zon is nu ongeveer vijf miljard jaar oud en heeft nog brandstof voor nog eens vijf

38

• RST allows parallel analyses• hierarchical structure (decisions of the annotator at a given step

affects the decisions made at subsequent steps)

Own research Practice so farAnnotation problems – coherence Decisions for own researchMeasures

1-31

1

1 De Zon

2-31

Elaboration

2-4

2 De zon is op een afstand van 150 miljoen kilometer de dichtstbijzijnde ster.

3-4

Elaboration

3 Licht dat het oppervlak van de zon verlaat bereikt in slechts acht minuten de aarde.

4 Ter vergelijking, de op de zon na meest nabije ster, Proxima Centauri, staat op eenafstand waar het licht vier jaar en vier maanden over doet.#

Bgr or contrast (mn)

Elaboration Elaboration

Page 39: Seminar in methodology and statistics - Over ons€¦ · door fusie van waterstof tot helium. De zon is nu ongeveer vijf miljard jaar oud en heeft nog brandstof voor nog eens vijf

39

• for annotation purposes• reliability of data• validity of coding scheme• reproducibility of coding→ detailed reference manual• no tradition to report agreement• about 10% of the corpus• 2 coders / more than 2 coders• naive vs. trained coders

Own research Practice so farAnnotation problems Decisions for own researchMeasures

Page 40: Seminar in methodology and statistics - Over ons€¦ · door fusie van waterstof tot helium. De zon is nu ongeveer vijf miljard jaar oud en heeft nog brandstof voor nog eens vijf

40

= observed agreement

Ao = (20 + 50) / 100 = 0.7

- not correct for chance agreement (no comparability, biased)- not correct for distribution of items among categories

Own research Practice so farAnnotation problems Decisions for own researchMeasures – precentage agreement

Page 41: Seminar in methodology and statistics - Over ons€¦ · door fusie van waterstof tot helium. De zon is nu ongeveer vijf miljard jaar oud en heeft nog brandstof voor nog eens vijf

41

Ao = 18/20 = 90%

Ae = 1/20 X 1/20 + 19/20 X 19/20 =.0025 + .9025 =

.9050

Own research Practice so farAnnotation problems Decisions for own researchMeasures – precentage agreement

Page 42: Seminar in methodology and statistics - Over ons€¦ · door fusie van waterstof tot helium. De zon is nu ongeveer vijf miljard jaar oud en heeft nog brandstof voor nog eens vijf

42

Ao = (20+50) / 100 = 0.70Ae = (30/100) X (40/100) + (70/100) X (60/100) = 0.54� = (0.70 – 0.54) / (1 – 0.54) = 0.348

• category judgments• chance-corrected• individual coder distributions• -1 < K < 1

Own research Practice so farAnnotation problems Decisions for own researchMeasures – Cohen’s kappa

Page 43: Seminar in methodology and statistics - Over ons€¦ · door fusie van waterstof tot helium. De zon is nu ongeveer vijf miljard jaar oud en heeft nog brandstof voor nog eens vijf

43

Own research Practice so farAnnotation problems Decisions for own researchMeasures – Cohen’s kappa

Page 44: Seminar in methodology and statistics - Over ons€¦ · door fusie van waterstof tot helium. De zon is nu ongeveer vijf miljard jaar oud en heeft nog brandstof voor nog eens vijf

44

Own research Practice so farAnnotation problems Decisions for own researchMeasures – Cohen’s kappa

Page 45: Seminar in methodology and statistics - Over ons€¦ · door fusie van waterstof tot helium. De zon is nu ongeveer vijf miljard jaar oud en heeft nog brandstof voor nog eens vijf

45

Interpretation

Krippendorff (1980): .67 < K < .80 tentative; .80 <K definite conclusions

Rietveld & van Hout (1993):

Craggs & Wood (2005): no general thresholdArtstein & Poesio (2008): .80 (.70)Spooren & Degand (2009): .70 (for coherence relations)

Own research Practice so farAnnotation problems Decisions for own researchMeasures – Cohen’s kappa

Page 46: Seminar in methodology and statistics - Over ons€¦ · door fusie van waterstof tot helium. De zon is nu ongeveer vijf miljard jaar oud en heeft nog brandstof voor nog eens vijf

46

Category prevalence

Bias

Own research Practice so farAnnotation problems Decisions for own researchMeasures – Cohen’s kappa

Page 47: Seminar in methodology and statistics - Over ons€¦ · door fusie van waterstof tot helium. De zon is nu ongeveer vijf miljard jaar oud en heeft nog brandstof voor nog eens vijf

47

Other measures

• same distribution of coders � Scott’s �• more than two coders � multi-�, multi-K• types of disagreements differentiated � weighted coefficients:

weighted K, Krippendorff’s �

Own research Practice so farAnnotation problems Decisions for own researchMeasures

Page 48: Seminar in methodology and statistics - Over ons€¦ · door fusie van waterstof tot helium. De zon is nu ongeveer vijf miljard jaar oud en heeft nog brandstof voor nog eens vijf

48

• annotation of discourse structure

• complexity of annotation taskssegmentationmove analysislexical cohesion analysiscoherence analysis

Own research Practice so farAnnotation problems Decisions for own researchMeasures

Page 49: Seminar in methodology and statistics - Over ons€¦ · door fusie van waterstof tot helium. De zon is nu ongeveer vijf miljard jaar oud en heeft nog brandstof voor nog eens vijf

49

• proposition / sentence / clause / turn• CL: automatic segmentation• early studies: percentage agreement; later: K• agreement on ”bulk” of segments, but disagreement on exact boundaries• broad vs. finer segments

Own research Practice so far – segmentationAnnotation problems Decisions for own researchMeasures

Page 50: Seminar in methodology and statistics - Over ons€¦ · door fusie van waterstof tot helium. De zon is nu ongeveer vijf miljard jaar oud en heeft nog brandstof voor nog eens vijf

50

Marcu et al. (1999)• EDU boundaries for RST• K calculated in two ways:

Kw: boundary can be after any wordKu: boundary where at least one coder identified a boundary

Kw > Ku

Own research Practice so far – segmentationAnnotation problems Decisions for own researchMeasures

Page 51: Seminar in methodology and statistics - Over ons€¦ · door fusie van waterstof tot helium. De zon is nu ongeveer vijf miljard jaar oud en heeft nog brandstof voor nog eens vijf

51

• few studies: percentage agreement (”interrater reliability was calculated at 84%”; “the two raters had an agreement rate of 92% in identifying and categorizing the moves”)

• de Groot (2008)10% of corpus, 2 trained coders, Cohen’s kappa

Own research Practice so far – move analysisAnnotation problems Decisions for own researchMeasures

Page 52: Seminar in methodology and statistics - Over ons€¦ · door fusie van waterstof tot helium. De zon is nu ongeveer vijf miljard jaar oud en heeft nog brandstof voor nog eens vijf

52

• agreement not reported for lexical cohesion• percentage agreement for word pairs• word-sense tagging: rely on dictionaries, hierarchical tagsets (e.g., WordNet)• ? corpus annotated for lexical cohesion

Own research Practice so far – lexical cohesionAnnotation problems Decisions for own researchMeasures

Page 53: Seminar in methodology and statistics - Over ons€¦ · door fusie van waterstof tot helium. De zon is nu ongeveer vijf miljard jaar oud en heeft nog brandstof voor nog eens vijf

53

Spooren & Degand (2009) • category labels for coherence relations bw two fragments• two expert coders• change in coding manual, fewer variables, more fragments� K improved (.60)

RST: more complex (N vs. S; relation labels; hierarchical tree structure)

Own research Practice so far – coherenceAnnotation problems Decisions for own researchMeasures

Page 54: Seminar in methodology and statistics - Over ons€¦ · door fusie van waterstof tot helium. De zon is nu ongeveer vijf miljard jaar oud en heeft nog brandstof voor nog eens vijf

54

Marcu et al. (1999), Carlson et al. (2003)• for RST• 2-3 expert coders• long training phase• method: mapping hierarchical structures into sets of units that are labeled

with category judgments• label for each EDU which is identified

by at least one coder

coder 1: [0,1] [2,2] [3,3] [4,5] [6,6]

coder 2: [0,0] [1,1] [2,2] [3,3] [4,4] [5,6]

Own research Practice so far – coherenceAnnotation problems Decisions for own researchMeasures

Page 55: Seminar in methodology and statistics - Over ons€¦ · door fusie van waterstof tot helium. De zon is nu ongeveer vijf miljard jaar oud en heeft nog brandstof voor nog eens vijf

55

Own research Practice so far – coherenceAnnotation problems Decisions for own researchMeasures

• mapping for active and non-acitive EDUs � NONE label

• Kn for nuclearity• Kr for coherence relations• Krr for a reduced set of coherence relations

Page 56: Seminar in methodology and statistics - Over ons€¦ · door fusie van waterstof tot helium. De zon is nu ongeveer vijf miljard jaar oud en heeft nog brandstof voor nog eens vijf

56

Own research Practice so far – coherenceAnnotation problems Decisions for own researchMeasures

Problems:

• violation of independence assumption bw categorical judgments• NONE agreements make K artificially high• agreements of different importance• not for diagnosing disagreements

Q: how to calculate agreement on hierarchical annotation?

Page 57: Seminar in methodology and statistics - Over ons€¦ · door fusie van waterstof tot helium. De zon is nu ongeveer vijf miljard jaar oud en heeft nog brandstof voor nog eens vijf

57

• corpus: 150 texts (25 texts per genre)to annotate for lexical cohesion, RST

• two coders• expert coders• detailed coding manual• coding manual refined as corpus grows• 20% of the corpus (5 texts per genre)• training phase: orientation (principles, tools); independent codings

(compare → revise manual); final phase (reduce differences)• presegmented texts for RST analysis and cohesion analysis• agreement measured per genre as corpus grows• be explicit (process, scores)

Own research Practice so farAnnotation problems Decisions – generalMeasures

Page 58: Seminar in methodology and statistics - Over ons€¦ · door fusie van waterstof tot helium. De zon is nu ongeveer vijf miljard jaar oud en heeft nog brandstof voor nog eens vijf

58

• two coders: GR + IB• Cohen’s kappa: calculate (1) for EDU boundary, (2) for word boundary

(following Marcu et al. 1999)YES / NO categories for each possible locationexample: segmentation of nine encyclopedia entries (EEs)

- human errors- new rules added to coding manual

OR• percentage agreement (following Carletta et al. 1997)

Own research Practice so farAnnotation problems Decisions – segmentationMeasures

Page 59: Seminar in methodology and statistics - Over ons€¦ · door fusie van waterstof tot helium. De zon is nu ongeveer vijf miljard jaar oud en heeft nog brandstof voor nog eens vijf

59

• two coders: IB + MR• training the co-coder• six different move structures for six different genres � time-consuming• Cohen’s kappa (following de Groot 2008)

? two-step procedure:1: identifying move boundaries – percentage agreement OR K 2: labeling moves identified by both coders – K

Own research Practice so farAnnotation problems Decisions – move analysisMeasures

Page 60: Seminar in methodology and statistics - Over ons€¦ · door fusie van waterstof tot helium. De zon is nu ongeveer vijf miljard jaar oud en heeft nog brandstof voor nog eens vijf

60

• two coders: IB + MR• training the co-coder• texts presegmented, potential lexical items preselected• MMAX2 tool, CORNETTO• ? Cohen’s kappa

mutually exclusive categories? equally distinct categories (? weighted coefficient)lexical cohesive relations across EDU boundariesmultiple relations allowed (= multi-tagged lexical items)

EDU1[LI1 LI2 LI3] EDU2[LI4 LI5] EDU3[LI6 LI7 LI8 LI9 LI10]

LI = lexical item

Q: how to calculate agreement for graph structures?

Own research Practice so farAnnotation problems Decisions – cohesionMeasures

Page 61: Seminar in methodology and statistics - Over ons€¦ · door fusie van waterstof tot helium. De zon is nu ongeveer vijf miljard jaar oud en heeft nog brandstof voor nog eens vijf

61

• two coders: IB + GR• texts from early training phase not included in the corpus• ? following Marcu et al. (1999)

Own research Practice so farAnnotation problems Decisions – coherenceMeasures

Page 62: Seminar in methodology and statistics - Over ons€¦ · door fusie van waterstof tot helium. De zon is nu ongeveer vijf miljard jaar oud en heeft nog brandstof voor nog eens vijf

62

Reading

Artstein, R. & Poesio, M. (2008). Inter-coder agreement for computational linguistics. ComputationalLinguistics 34(4), 555-596.

Page 63: Seminar in methodology and statistics - Over ons€¦ · door fusie van waterstof tot helium. De zon is nu ongeveer vijf miljard jaar oud en heeft nog brandstof voor nog eens vijf

63

References (intercoder agreement)

Carletta, J. et al. (1997). The reliability of a dialogue structure coding scheme. Computational Linguistics23(1): 13-31.

Carlson, L., Marcu, D. & Okurowski, M.E. (2003). Building a discourse-tagged corpus in the framework of rhetorical structure theory. In J. Kuppevelt & R.W. Smith (Eds.). Current and new directions in discourse and dialogue. (pp. 85-112). Dordrecht: Kluwer.

Craggs, Richard & Wood, Mary McGee (2005). Evaluating discourse and dialogue coding schemes. Computational Linguistics 31(3): 289-295.

de Groot, E. (2008). English annual reports in Europe. Utrecht: LOT.

Krippendorff, K. (1980). Content analysis: an introduction to its methodology. Chapter 12. Beverly Hills, CA: Sage.

Marcu, D, Amorrortu, E. & Romera, M. (1999). Experiments in constructing a corpus of discourse trees. In Proceedings of the ACL Workshop on Standards and Tools for Discourse Tagging. (pp. 48-57). College Park, MD.

Rietveld, T. & van Hout, R. (1993). Statistical techniques for the study of language and language behaviour. Berlin: de Gruyter.

Spooren, W. & Degand, L. (2009). Coding coherence relations: reliability and validity. Unpublishedmanuscript.

Page 64: Seminar in methodology and statistics - Over ons€¦ · door fusie van waterstof tot helium. De zon is nu ongeveer vijf miljard jaar oud en heeft nog brandstof voor nog eens vijf

64

References (IB’s research)

Mann, W.C. & Thompson, S.A. (1988). Rhetorical structure theory: Toward a functional theory of text organization. Text 8(3), 243-281.

Swales, John (1990). Genre analysis. English in academic and research settings. Cambridge: Cambridge University Press.

Upton, Thomas A. (2002). Understanding direct mail letters as a genre. International Journal of Corpus Linguistics 7(1), 65-85.