morfosyntaktisk opmærkede korpora for dansk: korpus90 og korpus2000 arboretum

Post on 27-Jan-2016

63 Views

Category:

Documents

0 Downloads

Preview:

Click to see full reader

DESCRIPTION

Eckhard Bick. Morfosyntaktisk opmærkede korpora for dansk: Korpus90 og Korpus2000 Arboretum. Eckhard Bick, 2000. Korpus90 og Korpus2000. blandet tekst, ca. 28 mill. ord hver sætningsrandomiseret citatkorpus kompileret af DSL (www.dsl.dk) morfosyntaktisk opmærket af VISL (visl.sdu.dk). - PowerPoint PPT Presentation

TRANSCRIPT

Morfosyntaktisk opmærkede Morfosyntaktisk opmærkede korpora for dansk:korpora for dansk:

Korpus90 og Korpus2000Korpus90 og Korpus2000ArboretumArboretum

Eckhard Bick, 2000

Eckhard BickEckhard Bick

Korpus90 og Korpus2000Korpus90 og Korpus2000

• blandet tekst, ca. 28 mill. ord hverblandet tekst, ca. 28 mill. ord hver

• sætningsrandomiseret citatkorpussætningsrandomiseret citatkorpus

• kompileret af DSL (www.dsl.dk)kompileret af DSL (www.dsl.dk)

• morfosyntaktisk opmærket af VISL morfosyntaktisk opmærket af VISL (visl.sdu.dk)(visl.sdu.dk)

Korpus90/2000 på Korpus90/2000 på www.dsl.dkwww.dsl.dk

Korpus90/2000 på Korpus90/2000 på corp.hum.sdu.dkcorp.hum.sdu.dk

Korpus90/2000 som træbankKorpus90/2000 som træbankpå på corp.hum.sdu.dk/arboretum.htmlcorp.hum.sdu.dk/arboretum.html

Søgningsresultater Søgningsresultater somsomsyntaktisketræstruktusyntaktisketræstrukturerrer

Korpusopmærkning: Korpusopmærkning: DanParsDanPars

• Præprocessering: Separation, polyleksikaPræprocessering: Separation, polyleksika

• Morfologisk analysemaskine og leksikonMorfologisk analysemaskine og leksikon

• Postprocessering: Valens- og semantisk Postprocessering: Valens- og semantisk potentialepotentiale

• Morfologisk disambiguering (CG)Morfologisk disambiguering (CG)

• Syntaktisk mapping og disambiguering (CG)Syntaktisk mapping og disambiguering (CG)

• Propriums-CG, Case role-CGPropriums-CG, Case role-CG

• PSG-overbygning: ArboretumPSG-overbygning: Arboretum

De mest almindelige syntaktiske De mest almindelige syntaktiske funktionerfunktioner

@SUBJ subjekt @ADVL frit adverbial

@ACC direkte (akkusativ-) objekt @PRED frit prædikativ

@DAT indirekte (dativ-) objekt @APP apposition

@PIV præositionsobjekt @>N prænominal-dependent

@SC subjektsprædikativ @N< postnominal-dependent

@OC objektsprædikativ @>A adverbiel præ-dependent

@SA subjektsrelateret argumentadverbial @A< adverbiel post-dependent

@OA objektsrelateret argumentadverbial @P< præpositions-argument

@MV hovedverbum @INFM infinitivmarkør

@AUX hjælpeverbum @VOK vokativ

Syntaktiske funktioner i Korpus2000: Syntaktiske funktioner i Korpus2000: sætningsniveausætningsniveau

0

500

1000

1500

2000

2500

3000

SUBJ F/S-SUBJ ACC DAT PIV SC/SA OC/OA ADVL PRED

<

>

FS

ICL

Syntaktiske funktioner i Korpus2000: Syntaktiske funktioner i Korpus2000: gruppeniveaugruppeniveau

0

500

1000

1500

2000

2500

3000

3500

4000

4500

5000

>N, N< >A, <A P<, >P

<

>

FS

ICL

Syntaktiske funktioner i Korpus2000:Syntaktiske funktioner i Korpus2000:specielle funktionerspecielle funktioner

0 200 400 600 800 1000 1200 1400

>>P

APP

N<PRED

N<FUSE

KOMP<

NPHR

ADVL

CO

SUB

S<

AUX<

MV<

INFM

VOK

Leksikokgrafisk arbejdeLeksikokgrafisk arbejde

fx leksemer der indgår i bestemte syntaktiske sekvenser:@SUBJ> (subjekt) @MV (main verb) @<ACC (objekt)”hest” ”æde” ”hø”

opmærkning med semantiske prototyper:opmærkning med semantiske prototyper:21 aflyse <occ> (arrangementer)19 aflyse <act-c> (tallelige handlinger og aktiviteter)4 aflyse <ac> (tallelige abstrakta)4 aflyse <act> (handlinger og aktiviteter)4 aflyse <sem-l> (musikalske værker m.m.)3 aflyse <event> (hændelser)3 aflyse <sit> (situationer)

Selektionsrestriktioner for Selektionsrestriktioner for objekterobjekter

forflytte <Hprof>_2 (human professional)forfægte <pp>_3 (tankeprodukt)forfølge <ac>_8 <Hprof>_6 <H>_4 .... (aktiviteter og mennesker)forføre <H>_3 (people)forgylde <H>_4 <Hprof>_3 (mennesker)forhale <act-c>_3 <act>_3 (handlinger og aktiviteter)forhandle <ac>_17 <sem-r>_9 <conv>_8 .... (tællelige abstrakta, "readables", aftaler)forhaste <pp>_3 <sem>_3 (tankeprodukter)forhindre <act>_35 <Hprof>_23 <ac>_18 <act>_18 <H>_17 <HH>_14 <event-c>_9forhøje <ac>_13 <mon>_7 <mon-c>_5 ... (abstrakta og pengebeløb)forkaste <pp>_5 <Hprof>_4 <ac>_3 <conv>_3 .. (tankeprodukter, profess., aftaler)forklare <ac>_39 <act-c>_7 <act>_6 ... (abstrakta og handlinger)forkorte <per>_4 (perioder)

Selektionsrestriktioner for Selektionsrestriktioner for subjektersubjekter

advare <Hprof>_44 <HH>_10 <ac>_6 <inst>_6 ... (professionelle, grupper, institutioner)

afblæse <HH>_3 <Hprof>_2 ... (grupper og professionelle)afbryde <Hprof>_28 <HH>_10 <H>_8 <ac>_6 <Hfam>_4 ... (professionelle og

almindelige mennesker)afdække <act-c>_7 <sem>_6 <Hprof>_5 <ac>_4 (handlinger, intellektuele

frembringlelser, professionelle)affyre <H>_8 <Vair>_7 <inst>_7 <HH>_5 ... (mennesker, fly og grupper)affærdige <Hprof>_3afføde <ac>_12 <act-c>_10 <act>_8 ... (abstrakta, handlinger og aktiviteter)afgive <Hprof>_34 <HH>_24 <inst>_17 ... (professionelle, grupper og institutioner)afgøre <ac>_25 <HH>_14 <act-c>_11 <H>_6 ... (abstracta, grupper, handlinger)

Berømte navne omkring Y2K

<hum> <top> <civ>

<org> <inst> <party> <media>

<occ> <brand>

1. Gud Danmark Venstre VM Windows 2. Poul Nyrup

Rasmussen København Folketinget Anden Verdenskrig Linux

3. Clinton USA Politiken DM Dannebrog 4. Ligulf EU Jyllands-Posten Tour de France Explorer 5. Nyrup Europa NATO OL Deep Blue 6. Jesus Århus Socialdemokratiet EM Wap 7. Sara Tyskland SF Wimbledon Pentium 8. Bush Frankrig FN French Open HF 9. Bill Clinton Sverige Dansk Folkeparti Roskilde Festival Java 10. Ritt Bjerregaard Rusland Tele Danmark Den Kolde Krig Ny_Løn 11. Marianne Jelved Kina DR Første Verdenskrig Roundup 12. Peter Norge AGF Golfkrigen Colgate 13. Milosevic England DSB Grand Prix Bordeaux 14. Washington Odense TV 2 World Cup Danablu 15. Tue Italien Enhedslisten Giro d' Italia Word 16. Svend Auken Israel CD Australian Open WordPerfect 17. Bo Johansson London Microsoft US Open PlayStation 18. Mogens Lykketoft Paris LO Melodi Grand Prix Outlook 19. Jeltsin Brøndby Københavns

Universitet Post Danmark Rundt HTX

20. Teodor Spanien Den Danske Bank Europa Cup Cipramil

?

Teksttypologi: Passivkonstruktioner

• Passivfrekvens som stilmærke for Passivfrekvens som stilmærke for kancellistil, abstraktionsniveau m.m.?kancellistil, abstraktionsniveau m.m.?

• 3,1% alle passiver, 2,3% finitte former 3,1% alle passiver, 2,3% finitte former inkl. aktiv participium, 5,9 infinitiverinkl. aktiv participium, 5,9 infinitiver

• s-passiv eller blive-passivs-passiv eller blive-passiv

• leksemspecifikke passivnormaler?leksemspecifikke passivnormaler?

• (a) Børnene flokkedes omkring ismaskinen. *Børnene blev flokket.Leksikaliseret S-passiv ("slås", "synes")

• (b) Løgene svitses. Løgene bliver svitset. Høj Spas/akt, høj Spas/Bpas

• (c) Aktieudbytte beskattes med 25%. Aktieudbytte bliver beskattet med 25%.

Høj Spas/akt, neutral Spas/Bpas

• (d) Minimælk fås kun fra Arla. *Minimælk bliver fået. Lav Spas/akt, høj Spas/Bpas

• (e) Der arbejdes på en løsning. Der bliver arbejdet. *Den bliver arbejdet. Blive-passiv kun med formelt subjekt.

• (f1) Bøgerne er solgt d. 10. oktober (=er blevet). *Bøgerne er solgte d. 10. oktober.(f2) Tallene er vist (=vises) med rød skrift. *Tallene er viste med rød skrift.

Være-passiv enten som s- eller som blive-passiv

Teksttypologi: Passivkonstruktioner

Foranstillede adverbier i Foranstillede adverbier i præpositionsstyrede infinitiverpræpositionsstyrede infinitiver

Rød = fokusadverbierblå = tidsadverbier

grøn = bøjede adverbier

Vp-indskudte adverbierVp-indskudte adverbierog deres positionspecificitetog deres positionspecificitet

Rød = attitude-adverbierblå = konjunktionelle adverbier

Direkte objekterDirekte objekter

form type fronted (ACC>) right of main verb (<ACC)

finite clause (FS) 5.2 % (quotes!) 12.8 % non-finite clause (ICL) 0.0 % (1 case) 5.3 %

nouns (N) 0.3 % (checked) 53.8 % proper nouns (PROP) 0.0 % (12 cases) 3.4%

relative pronouns 1.9 % - interrogative pronouns 0.5 % - (4 adverbs)

personal pronouns 1.0 % 12.0 % others 0.4 % 4.4 %

all 9.3 % 91.7 %

7,1 % i 1,1 millioner ord fra Korpus20007,1 % i 1,1 millioner ord fra Korpus2000

Foranstillede nominale objekter

Subtype n frequency definition interrogative 79 29.0 % at se, hvilken interesse kineserne skulle have topic 74 27.2 % Denne interesse overførte han på virksomheden

De problemer har jeg slet ikke. focus 55 20.2 % Blot 6-7 kr. vil sparekassen se som betaling

Sin spillefilmsdebut fik han i 1962 med ... fronted in verb chain

43 15.8 % ... få tyvekosterne bragt hjem ... får man billeder at se gratis ... at lære de nødvendige redskaber at kende

raised 12 4.4 % Den slags er vi jo nogle stykker der kan lide fixed 7 2.6 % Hvad udvalget af værker angår, har ... vp-internal 2 0.7% ... at min søn ingen huller havde

... hun har ingen kage bagt

Pronominal-ellipse i Pronominal-ellipse i relativsætningerrelativsætninger

der som zero all: 938 n % n % n % n %

SUBJ 421 44,9 175 18,7 (15) (1,6) 611 65,1 raised - - 3 0,3 - - 3 0,3 det-focus 33 3,5 10 1,1 - - 43 4,6 ACC - - 34 3,6 37 3,9 71 7,6 raised - - 7 0,7 2 0,2 9 1,0 det-focus - - - - 6 0,6 6 0,6 >>P 4 0,4 16 1,7 12 1,3 32 3,4 raised - - 7 0,7 1 0,1 8 0,9 det-focus - - - - 5 0,5 5 0,5 DAT, CS, OC - - 5 0,5 - - 5 0,5 458 48,8 257 27,4 78 8,3 793 84,5

hvor når, da zero ADVL-adv 111 11,8 10 1,1 10 1,1 131 14,0 hvorPRP PRP+hvilken 88 9,4 924 98,5 P< (ADVL) 7 0,7 1 0,1 8 0,9 hvis at hvilket >N, SUB, S< 1 0,1 4 0,1 1 0,1 6 0,6 938 100,0

Genus-fluktuation i danskGenus-fluktuation i dansk

(a1) Øllet var stærkt og mørkt.(a2) De drak en øl hver.(b) Det var noget godt mad, du lavede.(c) Vejen får ekstra meget trafik om morgenen.

• Hypotese: Noget/meget + utrum substantiv:Hypotese: Noget/meget + utrum substantiv:-> Projektion af +mass-> Projektion af +mass

• meget/megen er mindre markeret (50/50)meget/megen er mindre markeret (50/50)

• noget/nogen er mere markeret (1 : 6 fordeling)noget/nogen er mere markeret (1 : 6 fordeling)

Hypotese: konkret-abstrakt-Hypotese: konkret-abstrakt-gradientgradient

for for megetmeget og og positivpositiv nogetnoget

(a1) Jeg har ikke noget glas. (--> … at drikke af)(a2) Jeg har ikke noget krus. (--> … at drikke af)(b1) ?Jeg har noget glas. (--> materialet)(b2) *Jeg har noget krus. (--> Jeg har et krus)(c1) Jeg har lavet noget (nogen?) aftensmad. --> konkret(c2) Han har vist nogen (noget?) interesse for forslaget. --> abstr.(c3) *Han har nogen bil.

left context noget/nogen @>N (frequency > 3 and > 10)

NEU-% left context meget/megen @>N (frequency > 4 and > 6)

NEU-%

aftensmad, ballade, creme, energi, fodbold, frugt, honning, ild, juice, kaffe, kriminalitet, morgenmad, musik, olie, selvtillid, vin

100 benzin, fodbold, føde, kaffe, sex, væske 100

fejl*, medicin 91-92 pris*, strøm, alkohol, frihed, mad, gang*,

motion, larm, luft, søvn 81-90

fart, olie, forstand, suverænitet, mælk, underholdning

71-80

opmærksomhed 50 lyst, vægt, sport, støj, spilletid, humor 60-75 plads (benplads) 30 plads, trafik, sol, tid, skade, magt, energi 51-60 tid 21 prestige, umage, musik, støtte 41-50 erfaring, viden, lovgivning 16-17 forskning, glæde, respekt,

opmærksomhed,uro, regn, debat, indflydelse, kontakt, spalteplads, træning, kritik

31-40

usikkerhed, udvikling, debat 10-11 erfaring, fritid, tale, hjælp, diskussion, fantasi, nytte, kærlighed, mening, ros,

21-30

fremtid, succes, trussel 4 sympati, smerte, tvivl, (alvor, omsorg, vilje, forståelse, opbakning, smag), viden, virak, omhu

11-20

forskel, mulighed 1-2 medieomtale,inspiration, snak, omtale 1-10 aftale, anelse, art, chance, effekt, fare, forbindelse, garanti, grad, grund, hemmelighed, hindring, hjælp, ide, interesse, katastrofe, konflikt, løsning, måde, nyhed ...

0 (blæst, interesse, lidelse), læsning, (modgang, munterhed), møje, (omtanke, opmuntring), polemik, skepsis

Korpus90/2000:Korpus90/2000:http://www.dsl.dkhttp://www.dsl.dk

http://corp.hum.sdu.dk http://corp.hum.sdu.dk Arboretum:Arboretum:

~/arboretum.html~/arboretum.html**************

Morfosyntaktisk opmærkede CG-korpora tillader bl.a.:

• Leksikografiske undersøgelser mht. argumenttypologi, feltdistribution, bøjningsfluktuation m.m.

• Grammatisk teksttypologi

• Kvantitative undersøgelser af syntaktiske fænomener

top related