språk, datorer och textbehandlingevapet/undervisning/sdt07/f2...5 språk, datorer och...

61
1 Språk, datorer och textbehandling Föreläsning 2,  15 oktober 2007 Eva Pettersson Språk, datorer och textbehandling Föreläsning 2: Korpusannotering, textkodning, textnormalisering Eva Pettersson [email protected]

Upload: others

Post on 17-Jun-2020

2 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Språk, datorer och textbehandlingevapet/Undervisning/SDT07/f2...5 Språk, datorer och textbehandling Föreläsning 2, 15 oktober 2007 Eva Pettersson COCOA Word COunt and COncordance

1 Språk, datorer och textbehandlingFöreläsning 2,  15 oktober 2007

Eva Pettersson

Språk, datorer och textbehandling

Föreläsning 2:Korpusannotering, textkodning,

textnormalisering

Eva [email protected]

Page 2: Språk, datorer och textbehandlingevapet/Undervisning/SDT07/f2...5 Språk, datorer och textbehandling Föreläsning 2, 15 oktober 2007 Eva Pettersson COCOA Word COunt and COncordance

2 Språk, datorer och textbehandlingFöreläsning 2,  15 oktober 2007

Eva Pettersson

Föreläsningsöversikt

● Textkodning

• Teckenkodning

• Textnormalisering

• Korpusannotering

Page 3: Språk, datorer och textbehandlingevapet/Undervisning/SDT07/f2...5 Språk, datorer och textbehandling Föreläsning 2, 15 oktober 2007 Eva Pettersson COCOA Word COunt and COncordance

3 Språk, datorer och textbehandlingFöreläsning 2,  15 oktober 2007

Eva Pettersson

Textkodning

Page 4: Språk, datorer och textbehandlingevapet/Undervisning/SDT07/f2...5 Språk, datorer och textbehandling Föreläsning 2, 15 oktober 2007 Eva Pettersson COCOA Word COunt and COncordance

4 Språk, datorer och textbehandlingFöreläsning 2,  15 oktober 2007

Eva Pettersson

Textkodning

● Att märka upp texten med information om t.ex.

författare, dokumenttyp, meningsgränser,

styckeindelning etc.

● Viktigt att veta vilka texttyper som ingår i

korpusen och hur texterna är uppbyggda

● Inte trivialt hur uppmärkningen ska se ut, om man

vill göra korpusen lättillgänglig för andra!

● Finns det någon standard för hur det ska se ut?

Page 5: Språk, datorer och textbehandlingevapet/Undervisning/SDT07/f2...5 Språk, datorer och textbehandling Föreläsning 2, 15 oktober 2007 Eva Pettersson COCOA Word COunt and COncordance

5 Språk, datorer och textbehandlingFöreläsning 2,  15 oktober 2007

Eva Pettersson

COCOA

● Word COunt and COncordance on Atlas

● Mycket tidig textkodningsstandard (1965)

● Används bl.a. i Longman-Lancaster Corpus och Helsinki Corpus

● Format: näbbparenteser innehållande dels en fördefinierad

variabel, dels värdet för variabeln

Exempel från Helsinki Corpus:<N LET TO HUSBAND>              N = titel<A BEAUMONT ELIZABETH>         A = författare<X FEMALE>                     X = kön<H HIGH>                       H = social status

Page 6: Språk, datorer och textbehandlingevapet/Undervisning/SDT07/f2...5 Språk, datorer och textbehandling Föreläsning 2, 15 oktober 2007 Eva Pettersson COCOA Word COunt and COncordance

6 Språk, datorer och textbehandlingFöreläsning 2,  15 oktober 2007

Eva Pettersson

TEI

● Text Encoding Initiative

● Modern textkodningsstandard

● Syfte: att ange en standard för uppmärkning av

texter, så att alla följer samma riktlinjer

● Har tillhandahållit SGML – Standard Generalised

Markup Language (underkategorier: XML, HTML)

Page 7: Språk, datorer och textbehandlingevapet/Undervisning/SDT07/f2...5 Språk, datorer och textbehandling Föreläsning 2, 15 oktober 2007 Eva Pettersson COCOA Word COunt and COncordance

7 Språk, datorer och textbehandlingFöreläsning 2,  15 oktober 2007

Eva Pettersson

TEI – format (1)

● Överst i dokumentet: header med information om

författare, titel, datum etc.

● Exempel ur SUC:

<titleStmt> <title level=a>Smygrustning av raketvapen</title> <title level=j>Dagens Nyheter</title> <author>Mats Lundegård</author></titleStmt>

Page 8: Språk, datorer och textbehandlingevapet/Undervisning/SDT07/f2...5 Språk, datorer och textbehandling Föreläsning 2, 15 oktober 2007 Eva Pettersson COCOA Word COunt and COncordance

8 Språk, datorer och textbehandlingFöreläsning 2,  15 oktober 2007

Eva Pettersson

TEI – format (2)● Varje element (ord, meningar, stycken etc.) omges av en

starttagg (< >) och en sluttagg (</ >). Exempel ur SUC:

<p><s id=aa01a­009><w n=91>Hur<ana><ps>HA<b>hur</w><w n=92>är<ana><ps>VB<m>PRS AKT<b>vara</w><w n=93>det<ana><ps>PN<m>NEU SIN DEF SUB/OBJ<b>det</w><w n=94>då<ana><ps>AB<b>då</w><w n=95>i<ana><ps>PP<b>i</w><name type=place><w n=96>Mellanöstern<ana><ps>PM<m>NOM<b>Mellanöstern</w></name><d n=97>?<ana><ps>MAD<b>?</d></s></p>

Page 9: Språk, datorer och textbehandlingevapet/Undervisning/SDT07/f2...5 Språk, datorer och textbehandling Föreläsning 2, 15 oktober 2007 Eva Pettersson COCOA Word COunt and COncordance

9 Språk, datorer och textbehandlingFöreläsning 2,  15 oktober 2007

Eva Pettersson

Teckenkodning

Page 10: Språk, datorer och textbehandlingevapet/Undervisning/SDT07/f2...5 Språk, datorer och textbehandling Föreläsning 2, 15 oktober 2007 Eva Pettersson COCOA Word COunt and COncordance

10 Språk, datorer och textbehandlingFöreläsning 2,  15 oktober 2007

Eva Pettersson

Teckenkodning● All text som lagras i en dator har en viss

teckenkodning

● Teckenkodning handlar om hur tecknen (bokstäver,

siffror, mellanslag, interpunktioner etc.)

representeras i datorn, dvs att översätta mänskliga

tecken till datorspråk

● Varje tecken får en unik kod, som motsvarar tecknet

(i en teckentabell)

● Olika språk kräver olika teckenuppsättningar,

beroende på vilket alfabet som används

Page 11: Språk, datorer och textbehandlingevapet/Undervisning/SDT07/f2...5 Språk, datorer och textbehandling Föreläsning 2, 15 oktober 2007 Eva Pettersson COCOA Word COunt and COncordance

11 Språk, datorer och textbehandlingFöreläsning 2,  15 oktober 2007

Eva Pettersson

Bits och bytes

• Vad är en byte?

– den minsta informationsbärande enheten i en dator

– en byte består av 8 bit

– varje bit kan ha värdet 0 eller 1, vilket ger

sammanlagt 256 olika kombinationsmöjligheter i

en byte

– varje tecken (bokstav, interpunktion etc) brukar

lagras i en byte

– 256 olika tecken räcker inte till för att lagra alla

tecken som finns i alla möjliga språk

Page 12: Språk, datorer och textbehandlingevapet/Undervisning/SDT07/f2...5 Språk, datorer och textbehandling Föreläsning 2, 15 oktober 2007 Eva Pettersson COCOA Word COunt and COncordance

12 Språk, datorer och textbehandlingFöreläsning 2,  15 oktober 2007

Eva Pettersson

Teckenkodning för olika språk

• olika språk har olika teckenkodningssystem

• om en dator är inställd på en viss teckenkodning, och

tar emot en text som är skriven med en annan

teckenkodning, så ser texten konstig ut

• vissa tecken är svårare än andra för datorn att visa upp

korrekt

• för svenska är å, ä och ö extra besvärliga

• hänger samman med att de bokstäver som är

gemensamma för många språk ofta lagras på samma

sätt i de olika teckenkodningarna

Page 13: Språk, datorer och textbehandlingevapet/Undervisning/SDT07/f2...5 Språk, datorer och textbehandling Föreläsning 2, 15 oktober 2007 Eva Pettersson COCOA Word COunt and COncordance

13 Språk, datorer och textbehandlingFöreläsning 2,  15 oktober 2007

Eva Pettersson

Teckenkodning för språkspecifika tecken● För att undvika problem med tecken som man vet kan vara

svårtolkade, kan man skriva just dessa tecken som entiteter

istället för som vanliga bokstäver

● I TEI-format skrivs entiteter inom & och ;

● båt skrivs som b&aring;t

● bär skrivs som b&auml;r

● snö skrivs som sn&ouml;

● Så gör man ofta i html-kod, när man skapar hemsidor

● Webbläsaren tolkar html-koden, så att &aring; i koden ser ut

som å när det visas på skärmen

Page 14: Språk, datorer och textbehandlingevapet/Undervisning/SDT07/f2...5 Språk, datorer och textbehandling Föreläsning 2, 15 oktober 2007 Eva Pettersson COCOA Word COunt and COncordance

14 Språk, datorer och textbehandlingFöreläsning 2,  15 oktober 2007

Eva Pettersson

Teckenkodning

● Viktigt att tänka på vilken teckenkodning man

använder, när man ska överföra texter mellan olika

datorer och olika språk

● Om man vill att ens korpus ska vara lättillgänglig för

andra, bör man följa en standard för

teckenkodningen

● Finns det någon standard? Ja, flera...

● IANA – Internet Assigned Numbers Authority

Page 15: Språk, datorer och textbehandlingevapet/Undervisning/SDT07/f2...5 Språk, datorer och textbehandling Föreläsning 2, 15 oktober 2007 Eva Pettersson COCOA Word COunt and COncordance

15 Språk, datorer och textbehandlingFöreläsning 2,  15 oktober 2007

Eva Pettersson

ASCII-kodning

● ASCII - American Standard Code for Information

Interchange

● Utvecklat 1968

● 1 byte per tecken

● 7 bit för teckenkodningen (128 möjliga tecken) + en

”paritetsbit” för att kontrollera teckenöverföringen

● Kontrolltecken för speciella funktioner (backspace, tab,

new line)

Page 16: Språk, datorer och textbehandlingevapet/Undervisning/SDT07/f2...5 Språk, datorer och textbehandling Föreläsning 2, 15 oktober 2007 Eva Pettersson COCOA Word COunt and COncordance

16 Språk, datorer och textbehandlingFöreläsning 2,  15 oktober 2007

Eva Pettersson

ASCII-kodning

Page 17: Språk, datorer och textbehandlingevapet/Undervisning/SDT07/f2...5 Språk, datorer och textbehandling Föreläsning 2, 15 oktober 2007 Eva Pettersson COCOA Word COunt and COncordance

17 Språk, datorer och textbehandlingFöreläsning 2,  15 oktober 2007

Eva Pettersson

Problem med ASCII-kodning?

● ASCII är utvecklat för engelska

● Hanterar inte språk med annat alfabet, t.ex. ryska,

kinesiska eller arabiska – dessa tecken saknas helt i

ASCII-tabellen!

● Hanterar inte språk med samma alfabet, men med

vissa avvikande tecken, t.ex. å, ä, ö, é, ü

Page 18: Språk, datorer och textbehandlingevapet/Undervisning/SDT07/f2...5 Språk, datorer och textbehandling Föreläsning 2, 15 oktober 2007 Eva Pettersson COCOA Word COunt and COncordance

18 Språk, datorer och textbehandlingFöreläsning 2,  15 oktober 2007

Eva Pettersson

Hur gör man med andra språk än engelska?

1)Använd ASCII ändå och ge avvikande tecken

specialkoder (entitetsbeteckningar): &auml; istf ä

2) Utöka den ursprungliga ASCII-tabellen med fler

tecken = språkberoende teckenkodningstabeller

Page 19: Språk, datorer och textbehandlingevapet/Undervisning/SDT07/f2...5 Språk, datorer och textbehandling Föreläsning 2, 15 oktober 2007 Eva Pettersson COCOA Word COunt and COncordance

19 Språk, datorer och textbehandlingFöreläsning 2,  15 oktober 2007

Eva Pettersson

Språkberoende teckenkodning

Utvecklat av Internationella StandardiseringsOrganisationen (ISO)

ISO 8859­1 (Latin 1) Västeuropeiska språkISO 8859­2 (Latin 2) Östeuropeiska språk med det latinska alfabetetISO 8859­3 (Latin 3) Sydeuropeiska språkISO 8859­4 (Latin 4) Nordeuropeiska språkISO 8859­5 Östeuropeiska språk med det kyrilliska alfabetetISO 8859­6 ArabiskaISO 8859­7 Modern grekiskaISO 8859­8 HebreiskaISO 8859­9  (Latin 5) TurkiskaISO 8859­10 (Latin 6) Nordeuropeiska språk, inkl. grönländska

och samiska

Page 20: Språk, datorer och textbehandlingevapet/Undervisning/SDT07/f2...5 Språk, datorer och textbehandling Föreläsning 2, 15 oktober 2007 Eva Pettersson COCOA Word COunt and COncordance

20 Språk, datorer och textbehandlingFöreläsning 2,  15 oktober 2007

Eva Pettersson

Olika språk i samma korpus

• Parallellkorpusar innehåller texter på två

eller flera olika språk

• Om korpusen innehåller språk med olika

alfabet, t.ex. svenska och turkiska, kan man

inte använda ASCII-kodning, eftersom det

inte finns någon ASCII-kodning som

hanterar både svenska och turkiska tecken

Page 21: Språk, datorer och textbehandlingevapet/Undervisning/SDT07/f2...5 Språk, datorer och textbehandling Föreläsning 2, 15 oktober 2007 Eva Pettersson COCOA Word COunt and COncordance

21 Språk, datorer och textbehandlingFöreläsning 2,  15 oktober 2007

Eva Pettersson

Teckenkodning: Unicode

● En enda teckenkodning för alla (levande och döda) språk

● Plats för mer än en miljon tecken i samma tabell

● Kräver mer än 1 byte i lagringsutrymme:

UTF-8 1 byte/tecken för ASCII,

2-4 bytes för övriga tecken

UTF-16 2 bytes/tecken för vanligaste tecknen,

4 bytes för övriga tecken

UTF-32 4 bytes/tecken

UTF = Unicode Transformation Format

Page 22: Språk, datorer och textbehandlingevapet/Undervisning/SDT07/f2...5 Språk, datorer och textbehandling Föreläsning 2, 15 oktober 2007 Eva Pettersson COCOA Word COunt and COncordance

22 Språk, datorer och textbehandlingFöreläsning 2,  15 oktober 2007

Eva Pettersson

Textnormalisering

Page 23: Språk, datorer och textbehandlingevapet/Undervisning/SDT07/f2...5 Språk, datorer och textbehandling Föreläsning 2, 15 oktober 2007 Eva Pettersson COCOA Word COunt and COncordance

23 Språk, datorer och textbehandlingFöreläsning 2,  15 oktober 2007

Eva Pettersson

Textnormalisering● Att ge texten ett enhetligt format, t.ex. inför annotering

(uppmärkning av ordklass etc):

● Program som automatiskt annoterar en text, kräver att

formatet på texten ser ut på ett visst sätt, t.ex. att varje

mening eller varje ord står på en egen rad

– Meningssegmentering

• att dela upp en text i de ingående meningarna, t.ex. en

mening per rad

– Tokenisering

• att dela upp en text i de ingående orden, t.ex. ett ord per rad

Page 24: Språk, datorer och textbehandlingevapet/Undervisning/SDT07/f2...5 Språk, datorer och textbehandling Föreläsning 2, 15 oktober 2007 Eva Pettersson COCOA Word COunt and COncordance

24 Språk, datorer och textbehandlingFöreläsning 2,  15 oktober 2007

Eva Pettersson

Meningssegmentering

• Att dela upp en text i de ingående meningarna, en

mening per rad

• Man vill helst inte manuellt behöva göra detta

• Det finns datorprogram som automatiskt gör detta

• Oftast ganska lätt att få datorn att lära sig var en

mening slutar och nästa börjar

• Ledtrådar som datorn utnyttjar:

– skiljetecken

– inledande versal

Page 25: Språk, datorer och textbehandlingevapet/Undervisning/SDT07/f2...5 Språk, datorer och textbehandling Föreläsning 2, 15 oktober 2007 Eva Pettersson COCOA Word COunt and COncordance

25 Språk, datorer och textbehandlingFöreläsning 2,  15 oktober 2007

Eva Pettersson

Det var en gång en liten flicka; flickan kallades Rödluvan. Rödluvan var mycket söt; sötare än en karamell.

En dag träffade Rödluvan en varg. Vad söt du är! sa vargen. Rödluvan gick genom skogen och såg många vackra växter, t. ex. smörblommor och midsommarblomster.

Hon mötte också många snälla kamrater, t. ex. Hans och Greta.

Meningssegmentering

Page 26: Språk, datorer och textbehandlingevapet/Undervisning/SDT07/f2...5 Språk, datorer och textbehandling Föreläsning 2, 15 oktober 2007 Eva Pettersson COCOA Word COunt and COncordance

26 Språk, datorer och textbehandlingFöreläsning 2,  15 oktober 2007

Eva Pettersson

Problem vid automatisk meningssegmentering

• Vissa tecken fungerar ibland meningsavskiljande och

ibland inte, t.ex:

– kolon

Orsaken till trafikkaoset var uppenbar: Det snöade hela

natten.

De inblandade personerna var: Pelle, Lisa och Eva.

– punkter

Syftet är att minska samhällets utgifter för färdtjänst.

Syftet är att minska samhällets utgifter för t. ex. färdtjänst.

Page 27: Språk, datorer och textbehandlingevapet/Undervisning/SDT07/f2...5 Språk, datorer och textbehandling Föreläsning 2, 15 oktober 2007 Eva Pettersson COCOA Word COunt and COncordance

27 Språk, datorer och textbehandlingFöreläsning 2,  15 oktober 2007

Eva Pettersson

Tokenisering

• Att dela upp en text i ingående tokens, dvs ord, ett

ord per rad

• Det finns datorprogram som automatiskt gör detta

• Hur definierar man ett ord så att datorn förstår?

Page 28: Språk, datorer och textbehandlingevapet/Undervisning/SDT07/f2...5 Språk, datorer och textbehandling Föreläsning 2, 15 oktober 2007 Eva Pettersson COCOA Word COunt and COncordance

28 Språk, datorer och textbehandlingFöreläsning 2,  15 oktober 2007

Eva Pettersson

Tokenisering

● Vad räknas som ett ord?

• Enkel strategi: mellanslag utgör ordavgränsare

• Kučera & Francis (1967) definition av ett ord:

”a string of contiguous alphanumeric characters

with space on either side; may include hyphens and

apostrophes, but no other punctutation marks”

• Även skiljetecken, sifferuttryck o dyl räknas som

egna ord i tokeniseringen

Page 29: Språk, datorer och textbehandlingevapet/Undervisning/SDT07/f2...5 Språk, datorer och textbehandling Föreläsning 2, 15 oktober 2007 Eva Pettersson COCOA Word COunt and COncordance

29 Språk, datorer och textbehandlingFöreläsning 2,  15 oktober 2007

Eva Pettersson

EU:s huvudkontor ligger i Belgien. Plats: Bryssel.

Där diskuteras många viktiga frågor, t. ex. om man ska få sälja snus i Sverige.

I New York kan man inte köpa snus. Det kan man dock i Malmö, Ystad, Borås etc. 

Tokenisering

Page 30: Språk, datorer och textbehandlingevapet/Undervisning/SDT07/f2...5 Språk, datorer och textbehandling Föreläsning 2, 15 oktober 2007 Eva Pettersson COCOA Word COunt and COncordance

30 Språk, datorer och textbehandlingFöreläsning 2,  15 oktober 2007

Eva Pettersson

Problem vid tokenisering

• Skiljetecken föregås inte av mellanslag, men ska

ändå tokeniseras som egna ord

• Vissa skiljetecken utgör ibland egna ord men är

ibland del av ett ord, t.ex kolon

EU:s lagar och regler

Pris: 1 600 kronor

Page 31: Språk, datorer och textbehandlingevapet/Undervisning/SDT07/f2...5 Språk, datorer och textbehandling Föreläsning 2, 15 oktober 2007 Eva Pettersson COCOA Word COunt and COncordance

31 Språk, datorer och textbehandlingFöreläsning 2,  15 oktober 2007

Eva Pettersson

Problem vid tokenisering: Punkter

● Punkter fungerar oftast som meningsavslut:

Syftet är att minska samhällets utgifter för färdtjänst.

● Utgör ibland del av en förkortning och ska då inte

utgöra egna ord: t. ex.

● Kan utgöra både förkortningspunkt och

meningsavslutningspunkt på samma gång:

Syftet är att minska samhällets utgifter för färdtjänst,

sjukresor etc.

Page 32: Språk, datorer och textbehandlingevapet/Undervisning/SDT07/f2...5 Språk, datorer och textbehandling Föreläsning 2, 15 oktober 2007 Eva Pettersson COCOA Word COunt and COncordance

32 Språk, datorer och textbehandlingFöreläsning 2,  15 oktober 2007

Eva Pettersson

Problem vid tokenisering: Apostrofer

● Kan fungera som citationstecken eller som del av

ordet:

’the boys’

the boys’ toys

● Är isn’t att betrakta som ett eller två ord?

Page 33: Språk, datorer och textbehandlingevapet/Undervisning/SDT07/f2...5 Språk, datorer och textbehandling Föreläsning 2, 15 oktober 2007 Eva Pettersson COCOA Word COunt and COncordance

33 Språk, datorer och textbehandlingFöreläsning 2,  15 oktober 2007

Eva Pettersson

Problem vid tokenisering: mellanslag

• Mellanslag utgör inte alltid ordavgränsare:

särskrivna sammansättningar insurance company

egennamn New York

fraser i dag

sifferuttryck 10 000

Page 34: Språk, datorer och textbehandlingevapet/Undervisning/SDT07/f2...5 Språk, datorer och textbehandling Föreläsning 2, 15 oktober 2007 Eva Pettersson COCOA Word COunt and COncordance

34 Språk, datorer och textbehandlingFöreläsning 2,  15 oktober 2007

Eva Pettersson

Annotering

Page 35: Språk, datorer och textbehandlingevapet/Undervisning/SDT07/f2...5 Språk, datorer och textbehandling Föreläsning 2, 15 oktober 2007 Eva Pettersson COCOA Word COunt and COncordance

35 Språk, datorer och textbehandlingFöreläsning 2,  15 oktober 2007

Eva Pettersson

Korpusannotering/taggning● Att märka upp korpusen med lingvistisk information, t.ex:

– Ordklass (part-of-speech)

– Böjningsinformation (morfo-syntaktisk information)

– Lemma (grundform, d.v.s. uppslagsord i lexikon)

– Syntax

– Fonetik (uttal) - transkription

– Semantik

● Annoteringen kan göras för hand eller automatiskt

● Ett annat ord för annotering är taggning

● Den uppmärkning ett ord har tilldelats kallas för en tagg

Page 36: Språk, datorer och textbehandlingevapet/Undervisning/SDT07/f2...5 Språk, datorer och textbehandling Föreläsning 2, 15 oktober 2007 Eva Pettersson COCOA Word COunt and COncordance

36 Språk, datorer och textbehandlingFöreläsning 2,  15 oktober 2007

Eva Pettersson

Ordklasstaggning

● Vad menas med ordklasstaggning?

– ”ren” ordklasstaggning: substantiv, adjektiv, verb etc.

– morfosyntaktisk information: genus, numerus, person etc.

● Vad avgör graden av specificitet i taggarna?

– Syftet med taggningen

– Språkets uppbyggnad

(rik morfologi = rik tagguppsättning)

Page 37: Språk, datorer och textbehandlingevapet/Undervisning/SDT07/f2...5 Språk, datorer och textbehandling Föreläsning 2, 15 oktober 2007 Eva Pettersson COCOA Word COunt and COncordance

37 Språk, datorer och textbehandlingFöreläsning 2,  15 oktober 2007

Eva Pettersson

Tagguppsättningar

– Tagguppsättningarnas storlek varierar mellan 40 och

200 olika taggar

– Syftet med taggningen avgör tagguppsättning

– Exempel på tagguppsättningar för engelska:

• Brown-korpusens tagguppsättning (87 st)

• Penn Treebanks tagguppsättning (45 st)

– Vanligaste tagguppsättningen för svenska:

• Parole (153 st)

Page 38: Språk, datorer och textbehandlingevapet/Undervisning/SDT07/f2...5 Språk, datorer och textbehandling Föreläsning 2, 15 oktober 2007 Eva Pettersson COCOA Word COunt and COncordance

38 Språk, datorer och textbehandlingFöreläsning 2,  15 oktober 2007

Eva Pettersson

Mer om tagguppsättningar

Ju rikare morfologi ett språk har, desto större tagguppsättning krävs normalt. Jmf svenskans Parole­taggar och engelskans Penn Treebank­taggar:

en DI@US@S determinerare: utr, sing, indeflätt AQPUSNIS adjektiv: pos, utr, sing, nom, indefuppgift NCUSN@IS   substantiv: utr, sing, nom, indef

an DT determinerareeasy JJ adjektivtask NN substantiv: sing

Page 39: Språk, datorer och textbehandlingevapet/Undervisning/SDT07/f2...5 Språk, datorer och textbehandling Föreläsning 2, 15 oktober 2007 Eva Pettersson COCOA Word COunt and COncordance

39 Språk, datorer och textbehandlingFöreläsning 2,  15 oktober 2007

Eva Pettersson

Taggningens delsteg

Tokenisering

Morfologisk analys

Morfologisk disambiguering

  Läraren  var  i alla fall  snäll

  Läraren  var  i alla fall  snäll     subst   subst/verb/adv/pron adv   adj      

   Läraren   var      i alla fall      snäll           subst      verb            adv adj  

Page 40: Språk, datorer och textbehandlingevapet/Undervisning/SDT07/f2...5 Språk, datorer och textbehandling Föreläsning 2, 15 oktober 2007 Eva Pettersson COCOA Word COunt and COncordance

40 Språk, datorer och textbehandlingFöreläsning 2,  15 oktober 2007

Eva Pettersson

Hur fungerar automatisk taggning?

• Man utgår från en manuellt taggad text, t.ex. SUC

• Man låter ett datorprogram titta på taggarna, och

bygga ett lexikon med sannolikheter, t.ex:

– får 80% av gångerna verb

20% av gångerna substantiv

• Datorprogrammet tittar också på kontexten, t.ex:

– får alltid substantiv om det föregås av en artikel

oftast verb om det föregås av ett substantiv

• När datorprogrammet ser nya texter, så utgår det ifrån

vad det har lärt sig i sitt lexikon

Page 41: Språk, datorer och textbehandlingevapet/Undervisning/SDT07/f2...5 Språk, datorer och textbehandling Föreläsning 2, 15 oktober 2007 Eva Pettersson COCOA Word COunt and COncordance

41 Språk, datorer och textbehandlingFöreläsning 2,  15 oktober 2007

Eva Pettersson

Vad gör taggaren med ord som saknas i lexikonet?

Okända ord - möjliga strategier:– Versalinledda ord är egennamn, övriga okända ord är

substantiv– Ordet tillhör någon av de öppna ordklasserna, med den

sannolikhet som gäller för korpusen i övrigt– Taggdistributionen för ord som bara förekommer en

enda gång i korpusen– Böjnings- och avledningsändelser

Flertydighet– Kontexten avgör vilken tagg som ska väljas

Page 42: Språk, datorer och textbehandlingevapet/Undervisning/SDT07/f2...5 Språk, datorer och textbehandling Föreläsning 2, 15 oktober 2007 Eva Pettersson COCOA Word COunt and COncordance

42 Språk, datorer och textbehandlingFöreläsning 2,  15 oktober 2007

Eva Pettersson

Vanliga fel som en taggare gör

• Adjektiv taggas som adverb eller tvärtom

Pelle fick snabbtadverb/adjektiv

svar från Lisa

• Preposition taggas som partikel eller tvärtom

Pelle slog påpreposition/partikel

TV:n

• Verb i perfekt taggas som perfekt particip eller

tvärtom

Pelle har lagatverb i perfekt

huset

Pelle har ett lagatperfekt particip

hus

Page 43: Språk, datorer och textbehandlingevapet/Undervisning/SDT07/f2...5 Språk, datorer och textbehandling Föreläsning 2, 15 oktober 2007 Eva Pettersson COCOA Word COunt and COncordance

43 Språk, datorer och textbehandlingFöreläsning 2,  15 oktober 2007

Eva Pettersson

Välkända taggare

• Brill-taggaren (Brill, 1995)

– Vill ha en mening per rad

– Vill ha mellanslag även mellan skiljetecken och

ord

• TnT-taggaren (Brants, 2000)

– Vill ha ett ord per rad

– Tom rad markerar meningsgräns

– Fungerar bäst i test för svenska (Megyesi, 2001):

93, 55% korrekta taggar

Page 44: Språk, datorer och textbehandlingevapet/Undervisning/SDT07/f2...5 Språk, datorer och textbehandling Föreläsning 2, 15 oktober 2007 Eva Pettersson COCOA Word COunt and COncordance

44 Språk, datorer och textbehandlingFöreläsning 2,  15 oktober 2007

Eva Pettersson

Annoteringsprinciper (Leech 1993)

• En annoterad korpus ska kunna återställas till sin oannoterade form

• Annoteringen ska gå att extrahera från texten för att sparas separat

• Annotationsschemat ska vara dokumenterat tillgängligt för slutanvändaren

• Det ska klargöras hur och av vem annotationen gjordes

• Slutanvändaren ska informeras om att annoteringen inte är ”God's truth”

utan endast ett användbart verktyg

• Annoteringsscheman ska baseras på accepterade och teori-neutrala principer

• Inget annoteringsschema är en standard på förhand. Standarder växer fram.

Page 45: Språk, datorer och textbehandlingevapet/Undervisning/SDT07/f2...5 Språk, datorer och textbehandling Föreläsning 2, 15 oktober 2007 Eva Pettersson COCOA Word COunt and COncordance

45 Språk, datorer och textbehandlingFöreläsning 2,  15 oktober 2007

Eva Pettersson

SUC

● SUC = Stockholm Umeå Corpus

● Ca 1 miljon löpord

● Manuellt taggad

● Hög grad av specificitet:

– 23 ordklasser

– 11 morfosyntaktiska särdrag

– 9 typer av ”named entities” (person, djur, myt, ställe,

institution, produkt, arbete, händelse, annat)

Page 46: Språk, datorer och textbehandlingevapet/Undervisning/SDT07/f2...5 Språk, datorer och textbehandling Föreläsning 2, 15 oktober 2007 Eva Pettersson COCOA Word COunt and COncordance

46 Språk, datorer och textbehandlingFöreläsning 2,  15 oktober 2007

Eva Pettersson

Morfosyntaktiska särdrag i SUC

● Genus (utrum, neutrum, maskulinum)● Numerus● Bestämdhet● Kasus (nominativ, genitiv)● Tempus● Diates (aktiv, s-form)● Modus (konjunktiv)● Participform● Komparationsgrad● Pronomenkasus (subjekt, objekt)

Page 47: Språk, datorer och textbehandlingevapet/Undervisning/SDT07/f2...5 Språk, datorer och textbehandling Föreläsning 2, 15 oktober 2007 Eva Pettersson COCOA Word COunt and COncordance

47 Språk, datorer och textbehandlingFöreläsning 2,  15 oktober 2007

Eva Pettersson

<name type=person><w n=146>Don<ana><ps>PM<m>NOM<b>Don</w><w n=147>Kerr<ana><ps>PM<m>NOM<b>Kerr</w></name><w n=148>är<ana><ps>VB<m>PRS AKT<b>vara</w><w n=149>Mellanösternspecialist<ana><ps>NN<m>UTR SIN IND NOM<b>mellanösternspecialist</w><w n=150>på<ana><ps>PP<b>på</w><name type=inst><w n=151>The<ana><ps>PM<m>NOM<b>The</w><w n=152>International<ana><ps>PM<m>NOM<b>International</w><w n=153>Institute<ana><ps>PM<m>NOM<b>Institute</w><w n=154>for<ana><ps>PM<m>NOM<b>for</w><w n=155>Strategic<ana><ps>PM<m>NOM<b>Strategic</w><w n=156>Studies<ana><ps>PM<m>NOM<b>Studies</w></name><w n=157>i<ana><ps>PP<b>i</w><name type=place><w n=158>London<ana><ps>PM<m>NOM<b>London</w></name>

Page 48: Språk, datorer och textbehandlingevapet/Undervisning/SDT07/f2...5 Språk, datorer och textbehandling Föreläsning 2, 15 oktober 2007 Eva Pettersson COCOA Word COunt and COncordance

48 Språk, datorer och textbehandlingFöreläsning 2,  15 oktober 2007

Eva Pettersson

BNC

● BNC = British National Corpus● Ca 100 miljoner löpord talad och skriven brittisk

engelska● Automatiskt taggad utan mänsklig kontroll● 61 olika taggar● Ca 4,7% flervalstaggar● 2 miljoner ord stor delmängd rikare taggad och

manuellt efterredigerad – 139 olika taggar

Page 49: Språk, datorer och textbehandlingevapet/Undervisning/SDT07/f2...5 Språk, datorer och textbehandling Föreläsning 2, 15 oktober 2007 Eva Pettersson COCOA Word COunt and COncordance

49 Språk, datorer och textbehandlingFöreläsning 2,  15 oktober 2007

Eva Pettersson

BNC<w DT0>Each<w NN1>dance<w VVD­VVN>followed<w AJ0>particular<w NN2>rules<w VVD­VVN>laid<w AVP>down<w PRP>by<w AT0>the<w AJ0­NN1>dancing<w NN2>masters

Page 50: Språk, datorer och textbehandlingevapet/Undervisning/SDT07/f2...5 Språk, datorer och textbehandling Föreläsning 2, 15 oktober 2007 Eva Pettersson COCOA Word COunt and COncordance

50 Språk, datorer och textbehandlingFöreläsning 2,  15 oktober 2007

Eva Pettersson

EAGLE

● Expert Advisory Groups on Language Engineering

Standards ● Grupp inom EU som bland annat arbetar med att ta

fram en gemensam EU-standard för

korpusuppmärkning

Page 51: Språk, datorer och textbehandlingevapet/Undervisning/SDT07/f2...5 Språk, datorer och textbehandling Föreläsning 2, 15 oktober 2007 Eva Pettersson COCOA Word COunt and COncordance

51 Språk, datorer och textbehandlingFöreläsning 2,  15 oktober 2007

Eva Pettersson

EAGLE:s annoteringsrekommendationer

● Obligatoriska särdrag – de ”stora” ordklasserna:substantiv, verb, adjektiv, pronomen/determinerare, artikel, adverb,

adposition, konjunktion, numeral, interjektion, unik, rest, interpunktion

● Rekommenderade särdrag, t.ex. för substantiv:– Numerus (singular/plural)

– Genus (maskulinum/femininum/neutrum)

– Kasus (nominativ/genitiv/dativ/ackusativ/vokativ)

– Typ (egennamn eller ej)

● Valfria särdrag– Språkoberoende, t.ex. räknebarhet för substantiv

– Språkberoende, t.ex. definithet för substantiv

Page 52: Språk, datorer och textbehandlingevapet/Undervisning/SDT07/f2...5 Språk, datorer och textbehandling Föreläsning 2, 15 oktober 2007 Eva Pettersson COCOA Word COunt and COncordance

52 Språk, datorer och textbehandlingFöreläsning 2,  15 oktober 2007

Eva Pettersson

Lemmatisering

● Att byta ut alla ordformer i korpusen mot grundform

● Exempel på lemmatiserade korpusar:

– Susanne (engelska)

• Surface and Underlying Structural Analysis of Natural

English

• Delmängd av Brown-korpusen

• 130 000 löpord skriven amerikansk engelska

– SUC (svenska)

Page 53: Språk, datorer och textbehandlingevapet/Undervisning/SDT07/f2...5 Språk, datorer och textbehandling Föreläsning 2, 15 oktober 2007 Eva Pettersson COCOA Word COunt and COncordance

53 Språk, datorer och textbehandlingFöreläsning 2,  15 oktober 2007

Eva Pettersson

Lemmatisering i SusanneN01:1660m ­ PPHS2 They they [O[S[Fn:o[Nap:s.Nap:s]N01:1660n ­ VBDR were be [Vwb.Vwb]N01:1660p ­ AT1a a [Ns:e.N01:1660q ­ NN1c pairpair .N01:1660r ­ IO of of [Po.N01:1660s ­ VVNv lost lose [Np[Tn[Vn[VVNv&.N01:1660t ­ YC +, ­ .N01:1670a ­ VVNv whipped whip [VVNv­.VVNv­]VVNv&]Vn]Tn]N01:1670b ­ NN2 kids kid .Np]Po]Ns:e]Fn:o]N01:1670c ­ YC +, ­ .N01:1670d ­ NP1s Morgan Morgan [Nns:s.Nns:s]N01:1670e ­ VVDv thought think [Vd.Vd]N01:1670f ­ CSA as as [Fa:t.N01:1670g ­ PPHS1m he he [Nas:s.Nas:s]N01:1670h ­ VVDi went go [Vd.Vd]N01:1670i ­ IIt to to [P:q.N01:1670j ­ NN1c bed bed .P:q]Fa:t]S]N01:1670k ­ YF +. ­ .O]

Page 54: Språk, datorer och textbehandlingevapet/Undervisning/SDT07/f2...5 Språk, datorer och textbehandling Föreläsning 2, 15 oktober 2007 Eva Pettersson COCOA Word COunt and COncordance

54 Språk, datorer och textbehandlingFöreläsning 2,  15 oktober 2007

Eva Pettersson

Lemmatisering i SUC<s id=aa01a­013><w n=166>Han<ana><ps>PN<m>UTR SIN DEF SUB<b>han</w><w n=167>skrattar<ana><ps>VB<m>PRS AKT<b>skratta</w><w n=168>lite<ana><ps>AB<m>POS<b>lite</w><w n=169>åt<ana><ps>PP<b>åt</w><w n=170>den<ana><ps>DT<m>UTR SIN DEF<b>den</w><w n=171>avfärdande<ana><ps>PC<m>PRS UTR/NEU SIN/PLU IND/DEF NOM<b>avfärdande</w><w n=172>formuleringen<ana><ps>NN<m>UTR SIN DEF NOM<b>formulering</w><w n=173>och<ana><ps>KN<b>och</w><w n=174>fördjupar<ana><ps>VB<m>PRS AKT<b>fördjupa</w><w n=175>resonemanget<ana><ps>NN<m>NEU SIN DEF NOM<b>resonemang</w><d n=176>.<ana><ps>MAD<b>.</d></s>

Page 55: Språk, datorer och textbehandlingevapet/Undervisning/SDT07/f2...5 Språk, datorer och textbehandling Föreläsning 2, 15 oktober 2007 Eva Pettersson COCOA Word COunt and COncordance

55 Språk, datorer och textbehandlingFöreläsning 2,  15 oktober 2007

Eva Pettersson

Syntaktisk annotering

● Syntaktisk (grammatisk) analys av korpusen

● Automatisk syntaktisk uppmärkning ger mycket

sämre resultat än t.ex. automatisk ordklasstaggning –

ofta mänsklig inblandning i parsningen

● Trädbanker = syntaktiskt uppmärkta korpusar

● Två huvudsakliga typer av syntaktisk uppmärkning:

– Frasstrukturer (nominalfraser, verbfraser etc.)

– Dependenser (subjekt, objekt etc.)

Page 56: Språk, datorer och textbehandlingevapet/Undervisning/SDT07/f2...5 Språk, datorer och textbehandling Föreläsning 2, 15 oktober 2007 Eva Pettersson COCOA Word COunt and COncordance

56 Språk, datorer och textbehandlingFöreläsning 2,  15 oktober 2007

Eva Pettersson

Frasstrukturuppmärkning i Spoken English Corpus

[S[N Nemo_NP1 ,_, [N the_AT killer_NN1 whale_NN1 N] ,_,[Fr[N who_PNQS N][V 'd_VHD grown_VVN [J too_RG big_JJ [P for_IF [N his_APP$ pool_NN1 [P on_II [N Clacton_NP1 Pier_NNL1 N]P]N]P]J]V]Fr]N] ,_, [V has_VHZarrived_VVN safely_RR [P at_II [N his_APP$ new_JJ home_NN1[P in_II [N Windsor_NP1 [ safari_NN1 park_NNL1 ]N]P]N]P]V]._. S]

S    sentenceN    nominalfrasFR  relativsatsV    verbfrasJ    adjektivfrasP    prepositionsfras

Page 57: Språk, datorer och textbehandlingevapet/Undervisning/SDT07/f2...5 Språk, datorer och textbehandling Föreläsning 2, 15 oktober 2007 Eva Pettersson COCOA Word COunt and COncordance

57 Språk, datorer och textbehandlingFöreläsning 2,  15 oktober 2007

Eva Pettersson

Dependensuppmärkning i Talbanken

<sentence id="24" user="" date="">  <word id="1" form="Dessutom" postag="ab" head="2" deprel="ADV"/>  <word id="2" form="höjs" postag="vb.prs.sfo" head="0" deprel="ROOT"/>  <word id="3" form="åldergränsen" postag="nn.utr.sin.def.nom"  head="2" deprel="SUB"/>  <word id="4" form="till" postag="pp" head="2" deprel="ADV"/>  <word id="5" form="18" postag="rg.nom" head="6" deprel="DET"/>  <word id="6" form="år" postag="nn.neu.plu.ind.nom" head="4" deprel="PR"/>  <word id="7" form="." postag="mad" head="2" deprel="IP"/></sentence>

ADV   adverbiell modifierare PR    komplement till prepositionSUB   subjekt IP    interpunktionDET   determinerare

Page 58: Språk, datorer och textbehandlingevapet/Undervisning/SDT07/f2...5 Språk, datorer och textbehandling Föreläsning 2, 15 oktober 2007 Eva Pettersson COCOA Word COunt and COncordance

58 Språk, datorer och textbehandlingFöreläsning 2,  15 oktober 2007

Eva Pettersson

Semantisk annotering

● Uppmärkning av semantiska relationer, såsom agent,

patient etc.

FrameNet: http://framenet.icsi.berkeley.edu/

● Uppmärkning av ordbetydelse, t.ex. hyponymi

– WordNet: http://wordnet.princeton.edu/

– Svenskt OrdNät: http://www.lingfil.uu.se/ling/swn.html

Page 59: Språk, datorer och textbehandlingevapet/Undervisning/SDT07/f2...5 Språk, datorer och textbehandling Föreläsning 2, 15 oktober 2007 Eva Pettersson COCOA Word COunt and COncordance

59 Språk, datorer och textbehandlingFöreläsning 2,  15 oktober 2007

Eva Pettersson

Textlingvistisk annotering

● Diskurstaggar

London-Lund Corpus of Spoken English

– Ursäkter, sorry

– Hälsningar, hello

– Artighetsfraser, please

● Anaforisk annotering (pronomenreferens)

Page 60: Språk, datorer och textbehandlingevapet/Undervisning/SDT07/f2...5 Språk, datorer och textbehandling Föreläsning 2, 15 oktober 2007 Eva Pettersson COCOA Word COunt and COncordance

60 Språk, datorer och textbehandlingFöreläsning 2,  15 oktober 2007

Eva Pettersson

Fonetisk annotering

● Transkribering

MARSEC – The Machine Readable Spoken English

Corpus

● Prosodi

London-Lund Corpus of Spoken English

● Ska man märka upp hostningar, skratt, tvekanden

etc?

Page 61: Språk, datorer och textbehandlingevapet/Undervisning/SDT07/f2...5 Språk, datorer och textbehandling Föreläsning 2, 15 oktober 2007 Eva Pettersson COCOA Word COunt and COncordance

61 Språk, datorer och textbehandlingFöreläsning 2,  15 oktober 2007

Eva Pettersson

Nästa gång

• Sökmotorer och korpussökning på Internet

• Nätresurser