de struktuer en de ynhâld fan 'e taaidatabank fan it frysk · de struktuer en de ynhâld fan 'e...

29
De struktuer en de ynhâld fan 'e Taaidatabank fan it Frysk Anne Dykstra en Jogchum Reitsraa Swnmary With the present report we want to inform the reader about the state of' affairs of the linguistic database of Frisian. First we will deal with the internal structure of the database. Thanwe willdiscuss theproblems of' representativeness andnecessary siz,e ofa text corpus. Finally we will compare the contents of the linguistic database with the macro structure of the Wurdboek fan de Fryske Taal (dictionary of the Frisian language) and with that of the Frysk Wurdboek, diel I (i.e. the Frisian/Dutch dictionary of 1984). Na zestig jaren op de jacht van Friesche woorden gegaan te hebben bemerk ik ein- delyk dat er geen einde aan dat wild is. J. H. Halbertsma, Maart 1866.' 7. Ynlieding Mei dit stik wolle wy de ynteressearre lezer en de potinsjele brûker ynformearje oer de stân fan saken by de Taaidatabank fan it Frysk (TDB), dy't optheden by de Fryske Akademy (FA) opboud wurdt. Us wichtichst doel derby is om ynsjoch te jaan yn 'e problemen dy't mei it opbouwen en it fêstlizzen fan in grutte samling kompjûter - lêsber tekstmateriaal anneks binne en hoe't wy dy problemen oanpakt hawwe. Op dy manier ûntstiet der foar de ynteressearre lezer en foar de brûker in byld fan wat de Fryske TDB ynhâldt. De brûker sil, nei't wy hoopje, op grûn fan dat byld foar him-/harselsneigeankinne hoe't de TDB by syn/harûndersykynskeakele wurde kin. Dêr't soks relevant is geane wy yn op 'e literatuer oer (it opsetten fan) taaidataban- ken. Om ús doel te berikken, sille wy it yn grutte halen hawwe oer twa dingen. Yn it foarste plak sille wy it hawwe oer hoe't it tekstmateriaal yn 'e kompjûter opslein is, of mei oare wurden hoe't de ynterne struktuer fan it TDB-projekt der útsjocht. Wy sille dêr oanjaan wêrom't wy krekt foar dy struktuer keazen hawwe en wat de gefol- gen fan dy kar binne foar de tagonklikens fan it materiaal en dêrmei foar de mooglik- heden foar de brûker. Yn it twadde plak sille wy gear oer de ynhâld fan 'e TDB, ofte- wol it tekstmateriaal dat opslein is. Wy komme dan op 'e tekst oer it probleem fan 'e represintaliviteit fan tckstkorpora, oer kritearia om teksten te selektearjen en oer de fereaske grutte fan in korpus. Der wurde op dit stuit trije korpora oanlein by de FA: in Midfrysk korpus, in 19de-ieusk korpus en in 20ste-ieusk korpus. Yn dit ferslach beheine wy ús ta it 20ste-ieuske korpus, om't dat it grutste is en dêrtroch it meast gaadlike útgongspunt om ús ferhaal te yllustrearjen. Om in idee te jaan hoe't it 20ste-ieuske korpus him ferhâldt ta eardere samlingen by de FA, sille wy fierder in beheinde ferliking meitsje mei de kartoteken fan it Wurdboek fan de Fryske taal (WFT) en mei it hânwurdboek Frysk/Nederlânsk (FN). Yn 'e léste paragraaf' geane wy alle besprutsen punten nochris koart bydel. 55 Ir Beciken, jïergong 55 (1993) Nr. 2. 55-82 wumkes.nl

Upload: others

Post on 01-Feb-2021

3 views

Category:

Documents


0 download

TRANSCRIPT

  • De struktuer en de ynhâld fan 'e Taaidatabank fan it Frysk

    Anne Dykstra en Jogchum Reitsraa

    Swnmary

    With the present report we want to inform the reader about the state of' affairs of the linguistic database of Frisian. First we will deal with the internal structure of the database. Thanwe willdiscuss theproblems of' representativeness andnecessary siz,e ofa text corpus. Finally we will compare the contents of the linguistic database with the macro structure of the Wurdboek fan de Fryske Taal (dictionary of the Frisian language) and with that of the Frysk Wurdboek, diel I (i.e. the Frisian/Dutch dictionary of 1984).

    Na zestig jaren op de jacht van Friesche woorden gegaan te hebben bemerk ik ein-

    delyk dat er geen einde aan dat wild is. J. H. Halbertsma, Maart 1866.'

    7. Ynlieding

    Mei dit stik wolle wy de ynteressearre lezer en de potinsjele brûker ynformearje oer de stân fan saken by de Taaidatabank fan it Frysk (TDB), dy't optheden by de Fryske Akademy (FA) opboud wurdt. Us wichtichst doel derby is om ynsjoch te jaan yn 'e problemen dy't mei it opbouwen en it fêstlizzen fan in grutte samling kompjûter -lêsber tekstmateriaal anneks binne en hoe't wy dy problemen oanpakt hawwe. Op dy manier ûntstiet der foar de ynteressearre lezer en foar de brûker in byld fan wat de Fryske TDB ynhâldt. De brûker sil, nei't wy hoopje, op grûn fan dat byld foar him-/harselsneigeankinne hoe't de TDB by syn/harûndersykynskeakele wurde kin. Dêr't soks relevant is geane wy yn op 'e literatuer oer (it opsetten fan) taaidataban-ken. Om ús doel te berikken, sille wy it yn grutte halen hawwe oer twa dingen. Yn it foarste plak sille wy it hawwe oer hoe't it tekstmateriaal yn 'e kompjûter opslein is, of mei oare wurden hoe't de ynterne struktuer fan it TDB-projekt der útsjocht. Wy sille dêr oanjaan wêrom't wy krekt foar dy struktuer keazen hawwe en wat de gefol-gen fan dy kar binne foar de tagonklikens fan it materiaal en dêrmei foar de mooglik-heden foar de brûker. Yn it twadde plak sille wy gear oer de ynhâld fan 'e TDB, ofte-wol it tekstmateriaal dat opslein is. Wy komme dan op 'e tekst oer it probleem fan 'e represintaliviteit fan tckstkorpora, oer kritearia om teksten te selektearjen en oer de fereaske grutte fan in korpus. Der wurde op dit stuit trije korpora oanlein by de FA: in Midfrysk korpus, in 19de-ieusk korpus en in 20ste-ieusk korpus. Yn dit ferslach beheine wy ús ta it 20ste-ieuske korpus, om't dat it grutste is en dêrtroch it meast gaadlike útgongspunt om ús ferhaal te yllustrearjen. Om in idee te jaan hoe't it 20ste-ieuske korpus him ferhâldt ta eardere samlingen by de FA, sille wy fierder in beheinde ferliking meitsje mei de kartoteken fan it Wurdboek fan de Fryske taal (WFT) en mei it hânwurdboek Frysk/Nederlânsk (FN). Yn 'e léste paragraaf' geane wy alle besprutsen punten nochris koart bydel.

    55

    Ir Beciken, jïergong 55 (1993) Nr. 2. 55-82 wumkes.nl

  • Anne Dykslra en Jogchwn Reitsma

    2. De struktuer fan 'e Taaidatabank

    2.1 De ynterne struktuer

    Bydeopsetfan 'eTDB fanitFryskyn 1985 krigedyas definysjemei: inpennaninte ynventaris fan it Fryskyn masine-lêsbere foarm. Yn dy definysje falle de wurden permaninte en it Frysk op. Permanint wol sizze, dal it net om in ad hoc databank gong, mar om in bliuwend ynstrumint; oan de oantsjutting it Fiysk sûnder neiere oantsjutting is te sjen dat oan it op te nimmen materiaal net op foarhân beheiningen steld wurde soene.2 Foar de ynrjochting fan 'e TDB hâlde dat yn, dat dy oan twa kri-tearia foldwaan moatte soe:

    - hy moast fleksibel fan aard wêze; yn oare wurden, hy moast talitte dat nije en oarssoartige ynformaasje yn lettere stadia taheakke wurde koe;

    - hy moast in goede tagonklikens garandearje; dat wol sizze, der moast foar soarge wurde dat net troch in bepaalde opset guon fragen op foarhân ûnmooglik wêze soene.

    Yn 'e TDB soe tekstmateriaal út boeken, kranten en tydskriftartikels (saneamde rinnende boarneteksten) op wurdnivo' opnaam wurde. Yn it ferlingde fan 'e eask dat nije ynformaasje taheakke wurde moatte kin, leit fansels de win.sk om by it opnim-men fan in tekst sa min mooglik ynformaasje fuort te smiten. De op te nimmen tek-sten moasten dusfolslein, en safolle mooglik konfoarm de útjefte opnaam wurde. Der is men der net mei. De folgjende fraach is, hoe slaan wy dy ynformaasje op. It ändert op dy fraach hat net allinne gefolgen foar it gemak dêr't yn in letter stadium nije ynformaasje mei taheakke wurde kin, mar ek foar hoe tagonklik oft al dy kennis is. Konkreet hâldt dat yn dat de teksten net allinne as rinnende tekst opnaam wurde, mar dat de gegevens oer de wurden yn dy tekst op in strukturearre manier opslein wurde. In programma dat soarget foar it opslaan, it byhâlden en tagonklik meitsjen fan strukturearre gegevens wurdt yn it kompjûterj argon in databasesysteem neamd. Der binne gans fan datsoarte programma's te keap, mei in ryk ferskaat oan eigenskippen. It liket ús hjir net it plak ta om in skôging te jaan fan alles dat de merk op dit mêd te bieden hat, en hoe't wy ús kar dêrút makke hawwe; op grûn fan 'e boppeneamde twa kritearia, en noch in tal praktyske oerwagings, hawwe wy keazen foar in saneamde relasjonele database? Yn sa'n opset wurde gegevens yn ienfâldige tabellen opslein. tige ferlykber mei in tabel op papier: in tal kolommen en in tal rigen. It tal kolommen wurdt foarôf, d.w.s. foardat der wat yn in tabel opslein wurdt. fêstlein, en elke kolom krijt in namme. It tal rigen is yn prinsipe ûnbeheind en hoecht dus net foarôf bepaald te wurden. Elke rige fertsjintwurdiget ien entiteit. In foech foarbyld is faaks it beste om dúdlik te meitsjen hoe't soks yn syn wurk giet. Wy nimme dêrfoar it boek De reis fan Labot, fan ús achte kollega Piter Boersma. Yn it foarste plak wolle wy dan gegevens oer it boek opslaan: titel, stavering. skriuwerjier fan útkommen, de namme fan it kompjûterbestân dêr't de folsleine rinnende tekst yn opslein is, ensfh. Dêrfoar brûke wy de tabel "Boek" (fig. 1).

    Dizze tabel hat 16 kolommen, dêr't om 'e romte hjir mar 8 fan ôfprinte binne; der binne trije rigen werjûn. en wy geane oan de hân fan 'e middelste rige de 8 kolommen even bydel:

    56

    wumkes.nl

    win.sk

  • De strukhter en Je ynháld fan 'e Taaidatabank fan il Fry.sk

    - yn 'e earste kolom stiet it nûmer fan it boek: elke tekst yn 'e TDB krijt in unyk folchnûmer; dit boek hat nûmer 48 mcikrigen;

    - yn 'e twadde kolom stiet de folsleine titel, hjir wer fanwege de romte ferkoarte werjûn;

    - yn 'e tredde kolom stiet de stavering: âld stiet foar de stavering fan foar 1980 (wurden út teksten yn 'e âlde stavering wurde automatysk omstavere nei de notiidske stavering);

    - de fjirde kolom jout de UDC-koade; UDC stiet foar [/niversele Decimale Classificatie; dêrmei kin men de aard fan in tekst oanjaan; 820 betsjut romantekst;

    - de fyfde en seisde kolom befetsje resp. it tal types (it tal ferskillende wurden) en it tal tokcns (it totaal tal wurden) út 'e tekst. (Foar in neiere omskriuwing fan de begripen type en token ferwize wy hjir nei it besprek fan de tabellen "Types" en "Tokens" hjirnei).

    - de léste twa kolommen easkje wat mear útlis, mei't hjir de wiere aard fan in relasjonele database nei foaren komt. Yn 'e kop fan kolom 7 stiet skr. foar skriuwer, mar as ynhâld stiet der allinne it nûmer 8. Dat nûmer is in folchnûmer, dat ferwiist nei in oare tabel, dêr't gegevens oer skriuwers yn ûnderbrocht binne. Allyksa giet it yn kolom 8, dêr't de útjouwer yn fêstlein is: der is wer in aparte tabel fan útjouwers, dy't elk in folchnûmer ha, dêr't yn kolom 8 nei ferwiisd wurdt. Hjir giet it dus om útjouwer nûmer 4, dat, sa' t hjirûnder blike sil, de Kooperative Utjouwerij is.

    Fig. 1. Foarbyldfan label "Boek"

    boeknû. titel stav. UDC types tokens skr. útj.

    47 48 De reis fan.. âld 820 3674 36338 8 4 49

    De twa niisneamde tabellen, dy't wy "Skriuwer" en "Utjouwer" doopt ha, kinne no de kop en in tal rigen fan ôfprinte wurde (fig. 2 en 3).

    Fig. 2. Foarbyld fan tabel "Skriuwer"

    skr. namme foamamme berteplak m/f

    7 8 Boersma Pitei 9

    Yn 'e trije tabellen "Boek", "Skriuwer" en "Utjouwer", binne dus de gegevens oer de teksten as gehiel opnaam. Yn twa oare tabellen stiet de ynformaasje oer de wurden yn dy teksten: wat binne dy wurden, hoe faak komme se foar en wêr kinne wy se fine. De tabellen dêr't it om giet binne de tabellen "Types" en "Tokens" (fig. 4 en 5). It is faaks net ferkeard om dy terminology op dit plak neier te ferdúdlikjen: In token is elk wurd dat yn in tekst foarkomt. In token kin ien kear yn in tekst stean, mar ek wol

    Warten m

    57

    wumkes.nl

    Fry.sk

  • Anne Dykstra en Jogchiim Reit.sma

    Fig. 3. Foarbyldfan tabel "Utjouwer"

    nú. namme adres postkoade

    4 Koöp. Utj. Nijmerk7 8700 AB 5

    faker. Elke groep fan gelikense tokens wurdt om sa mar te sizzen ien úthelle dy't de hiele groep fertsjintwurdiget. Dy fertsjintwurdiger wurdt type neamd. Fan alle kearen dat itselde token yn in tekst foarkomt, jildt it mar ien kear as type. Yn 'e sin De lytse man hat in grutte htm an de grutte man hat in lyts häntsje steane dus 15 tokens en 10 types.

    De opset en ynhâld fan beide tabellen wolle wy ferdútse oan 'e hân fan it begjin fan it boek dat wy besjoen ha, De reis fan Labot. Boersma iepenet sa: "Dit moat in boek wurde oer de reis dy't ik op 'e fyts meitsje. Jo sjogge dat ik it opreden ha, want Jo ha it boek no yn hannen". Mei dy sinnen yn 'e efterholle jouwe wy earst in part út 'e twa tabellen, folge fan in taljochting.

    Fig. 4. Foarbyldfan tabel "Types"

    ypenûmer

    1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24

    wurdfoarm

    dit moat

    in boek

    wurde oer de

    reis dy't ik op 'e

    fyts meitsje

    jo sjogge

    dat it

    opreden ha

    want no yn

    hannen

    frekw.

    15054 15902

    175868 2603

    20703 32820

    382418 1187

    42789 90156 96687 79335 1217 3935 19310 1455

    129191 276273

    83 14510 10864 28787 160121 3464

    58

    plak oprj.

    Boalsert 1970

    wumkes.nl

  • De slruktuer en de ynhâld fan 'e Taaidatabank fan it Frysk

    Fig. 5. Foarb

    filenûmer

    48 48 48 48 48 48 48 48 48 48 48 48 48 48 48 48 48 48 48 48 48 48 48 48 48 48 48 48 48

    xld fan tabel

    typenûmer

    1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 10 18 19 20 21 15 20 18 4 22 23 24

    "Tokens"

    side

    5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5

    rigel

    2 2 2 2 2 2 2 2 2 2 2 3 3 3 3 3

    posysje

    7 11 16 19 24 30 34 37 42 47 50 53 56 63 72 75 82 86 89 92 101 105 111 114 119 122 127 131 134

    Yn 'e tabel "Types" binne de (bûgde en net-bûgde) wmdfoarmen opnaam. Elke wurdfoarm krijt wer in unike koade mei, de twadde kolom befettet de wurdfoarm sels en yn 'e tredde kolom stiet de frekwinsje fan it wurd yn 'e TDB (dus net foar dit boek allinne!). It boek dat wy yn dit foarbyld by de ein ha, is it earste dat yn 'e TDB opnaam is, dat de nûmerkodearring begjint kreas by ien. Foar de wissichheid: elk wurd komt dus yn dizze tabel mar ien kear foar: it wurdt yn "e tabel set op it stuit dat wy it foar it earst yn in tekst tsjinkomme; komme wy it dêrnei nochris tsjin, dan wurdt allinne de frekwinsje mei ien ferhege.

    De tabel "Tokens" befettet de wurdfoarkommens; hjir kinne wy foar elk wurd út 'e TDB neigean wêr't it foarkomt. Yn dizze tabel komme wer de ferwizende (relasjone-le) eigenskippen fan it databasesysteem nei foaren. Yn 'e earste kolom stiet it filenûmer, dat ferwiist nei it nûmer fan de tekst dy't yn 'e tabel "Boek" te finen is. Yn 'e twadde kolom stiet it typenûmer, dat ferwiist nei de wurdfoarm mei dat nûmer yn 'e types-tabel. De tredde en fjirde kolom jouwe respektivelik de side en de rigel fan 'e tekst dêr't it wurd yn stiet. De fyfde kolom befettet de posysje yn it kompjûter-bestân fan 'e rinnende tekst. Dy wearde brûke wy by it gearstallen fan 'e saneamde

    59

    wumkes.nl

  • Anne Dykstra en Jogchum Reitsma

    'keyword in context', dêr't wy it fierderop yn dit artikel wiidweidiger oer hawwe sille.

    Ta beslút fan dizze útlis fan 'e ynterne struktuerfan 'e TDB sille wy sjen litte hoe't it begjin fan De reis fan Labot yn 'e TDB telâne kaam is.

    It earste wurd, Dit, wurdt oppakt út it kompjûterbestân mei de rinnende tekst (haadletter of lytse letter makket neat út, dy wurde op deselde wize oppakt). Wy geane nei oft it al yn 'e types-tabel foarkomt: dat is net sa, dat wy sette it yn dy tabel, mei it folchnûmer 1 om't it it earste wurd yn 'e tabel is, en de frekwinsje 1. Dan wurdt yn 'e tokens-tabel set dat it wurd mei typenûmer 1 fûn is yn 'e tekst mei folch-nûmer 48, op side 5, rigel 1; de posysje yn 'e file is 7. Dat proses wurdt sa noch in kearmannich werhelle, oant en mei it santjinde wurd. It achttjinde wurd, ik, binne wy alris earder tsjinkaam en it stiet dus al yn 'e types-tabel (mei folchnûmer 10). Yn dy tabel wurdt de frekwinsje mei ien ophege (en is op dat stuit dus 2), en as typenûmer yn 'e tabel tokens nimme wy dat nûmer 10. No kinne jo faaks foar josels wol neigean hoe't de rest fan 'e iepening fan it boek yn 'e tabellen ferarbeide is.

    Ien fan 'e foardielen fan it ferwizingssysteem fan in relasjonele database is it lytse romtebeslach: bygelyks yn 'e tokens-tabel hoege wy net altyd de wurdfoarm sels op te nimmen (mei in trochsneed wurdlingte fan sa'n 5 posysjes), mar allinne in getal (dat yn 'e komjûter 2 posysjes ynnimt). As jo witte dat de tokens-tabel op dit stuit mear as 8.000.000 rigen hat, kinne jo de winst al stelle op (5-2)x8.000.000 is 24 miljoen posysjes. In neidiel is lykwols, dat it keppeljen fan (as foarbyld) it typenûmer yn 'e tokens-tabel oan datselde typenûmer út 'e types-tabel bart op it stuit fan opfreegjen fan 'e ynformaasje út 'e TDB, dus net op it stuit fan gearstallen dêrfan. Al it rekkenwurk fan it keppeljen moat dus ek op it stuit fan opfreegjen dien wurde, en dêrmei is it relasjonele databasesysteem dus net ien fan 'e fluchste as it op it befreegjen oankomt. Lykwols sakje de prizen fan kompjûterark de léste jierren hurd, en kin men foar it te besteegjen budzjet dus hieltyd flüggere 'hardware' keapje. Oant no ta is de respons fan it gehiel dan ek rom foldwaande.

    Dizze hiele opset fan 'e TDB makket it, lykas as sein, mooglik om fan elk wurd-foarkommen nei te gean op hokker side en rigel út hokker tekst oft it wurd fûn is. Fierder kin, as men útgiet fan 'e tabel "Boek", fan elk part út 'e tekstsamling de wurdfoarrie besjoen wurde. Sa kinne wurd- enfrekwinsjelisten makke wurde fan byg. alle romans (dy ha yn 'e boektabel UDC-koade 820), wurken fan in bepaalde skriuwer of in bepaald tiidrek, of kombinaasjes dêrfan. Faaks it wichtichst is de mooglikheid om de omtekst fan elk wurdfoarkommen beneikomme te kinnen. Dêr-foar brûke wy de fyfde kolom yn 'e tokensstabel,pos. Sa't hjirboppe ferdútst is, jout de posysje yn it boarnebestân oan wêr't it wurd fûn is dêr't wy de omtekst fan ha wolle. Sa'n oersjoch fan in bepaald wurd mei de omtekst wurdt wol in KWIC-list neamd (KWIC stiet foar Key Word /n Context). In stikje fan sa'n KWIC-list jouwe wy hjirûnder (sjoch foar in langer oersjoch taheakke A.). It is de KWIC-list fan it wurd hân, dêr't wy hjir in lyts stikje fan sjen litte:

    en, hy wie weak, hiel oars as de rûge hân fan heit. Doe 't ik eunster te bannen. Heit hie ús oan 'e hân fan Deuteronomium ibkje!' Hy gie oerein. 'Ik ha in goede hân fan ôfdroegjen, de Brouwers?' 'Wy ha in bulte wille hân. Fan frou Brouwer

    iif'teile. As hie er in wan op 'e hûd hân fan 'e man, it hie wichtichste útkomsten opnommen. Oan de hân fan dy gearfetting

    60

    wumkes.nl

  • De struktuer en de ynhâld fan 'e Taaidatabank fan it Frysk

    te gebieten en plakken mjitten oan 'e hân fan de taal dy 't . Wy hawwe dy sprieding neigien oan de hân fan de opliedingsh

    rysk selskip sille wy hjirûnder oan de hân fan in oare fraach erom geane. Wy kinne der letter oan de hân fan resultaten wat

    en of it Frysk krekt te mijen. Oan de hân fan twa oare frage ûnâfhinklike fariabelen hifkje oan de hân fan de by de troch

    wicht as dy mei in lege lading. Oan de hân fan dy faktorskoar .H. jelsma Yn dit haadstik sil oan de hân fan ús ûndersyksút fan in frysktalich dei- blêd. Oan de hân fan de útslach op

    tydskriften neier besjoen wurde oan de hân fan de anderten n de kommende tabellen sille wy oan de hân fan inkelde foarby e? Dy ôf vaging kinne wy meitsje oan de hân fan de eleminten

    tse boeren, sels patroons wiene op 'e hân fan de stakers; brykje, dêr't de patroan alheul op 'e hâ fan de stakers wie

    De list is alfabetisearre op it wurd dat nei it kearnwurd komt. Foar de wurdboekskriu-wer is dat û.o. in help by it opspoaren fan fêste ferbinings. Yn dit foarbyld fait dalik de fêste ferbining oan 'e hân fan op. Yn prinsipe binne lykwols ek oare oarderingen mooglik, bygelyks op it wurd dat foar it kearnwurd stiet. De grutte fan 'e omtekst (hoefolle wurden foar en hoefolle nei it keanwurd) is hjir moai lyts, om it no goed ôfprintsje te kinnen, mar kin yn prinsipe nei ferlet oanpast wurde. Njonken de mooglikheden dy't no bean wurde kinne, kin de TDB yn dizze opset ek maklik útwreide wurde mei oarssoartige ynformaasje. Twa foarbylden:

    - Op dit stuit wurdt de posysje fan in wurd yn 'e tekst werjûn troch de side en de rigel fan 'e tekst dêr't it wurd yn fûn is op te nimmen. Mar men soe jin hiel goed yntinke kinne dat it fynplak ek werjûn wurdt yn termen fan safolste wurd yn 'e sin en safolste sin yn 'e tekst. Wat de struktuer fan 'e TDB oanbelanget, hâldt dat allinne yn dat de tabel tokens mei de kolommen wurdnûmer en sinnûmer útwreide wurdt. Dat sil ynkoarten ek dien wurde yn it ramt fan it hjirnei te neamen lemmatisear-ringsprojekt;

    - der stiet in lemmatisearringsprojekt op priemmen, dat as doel hat alle wurdfoarmen by harren lemma ûnder te bringen. Ek dy nije ynformaasje kin yn it gehiel opnaam wurde, troch in nije tabel mei lemmafoarmen op te nimmen en dêr fan 'e types-tabel út nei te ferwizen. (Mei lemma wurdt hjir bedoeld de yn 'e regel net bûgde wurden sa't se yn in wurdboek beskreaun wurde (kinne)).

    Fia de rubriken út 'e ûnderskate tabellen kin it tekstmateriaal út 'e TDB op allerhanne manieren befrege wurde. Der kinne bygelyks listen makke wurde fan 'e types oardere neffens frekwinsje, of de types kinne yn in retrograde alfabet jûn wurde, d.w.s. alfabetisearre op de léste letter fan it wurd (sjoch taheakke C). It is ek mooglik om dielkorpora te befreegjen, bygelyks alles fan ien skriuwer, of alles út in beskaat tiidrek, of fan alle froulike skriuwers, ensfh.

    2.2 It foljenfan 'e tabellen

    De earste stap yn it foljen fan 'e types- en tokens-tabellen, is it yn 'e kompjûter opslaan fan 'e teksten dy't (sjoch hjirûnder) útsocht binne om yn 'e TDB opnaam te

    wumkes.nl

  • Anne Dykstra en Jogchum Reitsma

    wurden. Dat bart mei de help fan in saneamde lêsmasine: in soarte fan fotokopiearap-paraat, dat om sa mar te sizzen in kopy fan in bledside makket, net op papier, mar yn 'e kompjûter. De teksten wurde dêrnei sa opslein dat de kompjûter-lêsbere tekst folslein identyk is oan it printe orizjineel. Wy hâlde deselde blêdspegel oan en wy litte sels eventuele setflaters stean. Oars as by de measte projekten komt yn 'e teksten sels dus gjin ynformaasje oer wurdposysje, wurdsoarte en oare oantsjuttings (yn it jargon 'tagging' neamd) foar. Datsoarte fan markearrings wurde yn ús systeem allinne yn 'e tabellen fan 'e database opnaam (sjoch foarige paragraaf). Dy kar is dien om yn in lyts romtebeslach in folslein skjinne tekst te hawwen, dy't dochs fleksibel te befreegjen is.

    Lykas sein beslacht ús tekstsamling it 20ste-ieuske Frysk. De staveringswizigingen fan 1947 en fan 1980 binne derby in komplisearjende faktor, mei't it net mooglik is om teksten yn ferskillende staveringen yn ien grut korpus op te slaan. Yn dat gefal soene alle tellingen ûnbetrouber wêze. Skaed en skaad, om in foarbyld te neamen, soene yn ien totaal korpus as twa ferskillende foarmen beskôge wurde en ek as sada-nich ferwurke yn 'e type-frekwinsjelisten (taheakke B. jout in foarbyld fan sa'n fre-kwinsjelist). Dêrom hawwe wy in omstaverprogramma ûntwikkele dat automatysk teksten fan ' e âlde staveringen omset yn ' e steatestavering, sadat wy hieltyd gegevens oer it hiele tiidrek ta ús foldwaan hawwe. Utsoarte bliuwe de omstavere teksten as gehiel yn har oarspronklike foarm beskikber; in KWIC-befreging jout dus de oar-spronklike stavering.

    3. De ynhâld fan 'e Taaidatabank

    3.1. Ophou fan it korpus

    3.1.1 Represintativiteit

    Stellingsma (1986:64) joech de neifolgjende definysje fan it begryp (korpus )repre-sintativiteit: "korpusrepresintativiteit [...] wurdt hjir definiearre as de relaasje dy't bestiet tusken de absolute wurdskat fan it Frysk en it part dêrfan dat oan 'e hân fan in tal fan te foaren fêst te stellen seleksjekritearia opnommen wurdt yn de TDB". Dy definysje smyt twa fragen op: hokker seleksjekritearia wurde keazen en wat wurdt krekt ferstien ûnder "de absolute wurdskat fan it Frysk"? De seleksjekritearia komme fierderop op it aljemint. Earst wolle wy neier yngean op it begryp (Fryske) wurdskat.

    It seit himsels dat, om in represintatyf korpus op te bouwen, men witte moat wêr't dat korpus dan wol represintatyf foar wêze moat. Dat betsjut dan wer dat men yndie witte moat wat de absolute wurdskat fan it Frysk ynhâldt. It is lykwols prinsipjeel ûnmooglik om de folsleine wurdskat fan in libbene taal fêst te stellen, mei't de wurdskat fan in libbene taal ûneinich is."" Meijs (1991:316) seit it sa:6

    Het 'geheel van taaluitingen' is alleen voorstelbaar in theoretische zin. In de praktijk zal het nooit mogelijk zijn te zeggen van welke verzameling taaluitingen dan ook dat deze volledig is. De verzameling van alle taaluitingen is 'open-ended'; eindeloos uitbreidbaar. Elke dag komen er miljoenen gesproken en geschreven taaluitingen bij. Dal is ook met de modernste hulpmiddelen met geen mogelijkheid bij te houden.

    62

    wumkes.nl

  • De strukluer en de ynhâld fan 'e Taaidatabank fan it Frysk

    Dat ynsjoch hat fansels slimme ymplikaasjes foar it gearstallen fan in represintatyf korpus tekstmateriaal, mei't bliken docht dat der gjin referinsjeramt is foar it beskieden fan 'e graad fan represintativiteit fan dat korpus. Dat hâldt dan wer yn dat it, dêr't it om tekstkorpora giet, statistysk "onmogelijk is de representativiteit van een steekproef te bewijzen" (Martin e.a. (1986a:9)). Stellingsma syn definysje sitte dus eleminten yn dêr' t net mei wurke wurde kin. It begryp (korpus)represintativiteit brûke wy dêrom net mear. Hjirûnder jouwe wy oan wat wy dêr foar yn it plak set hawwe.

    Hoewol't ús korpus yn prinsipe allerhanne ûndersyk mei dien wurde kin, sil it ynearsten benammen brûkt wurde by it skriuwen fan it Frysk/Frysk en it Frysk/In-gelsk wurdboek. Us útgongspunt by it gearstallen fan it korpus wie dêrom dat it yn alle gefallen brûkber wêze moast foar de wurdboekskriuwer. Sa'n korpus moat yn al-le gefallen in sa grut mooglike dekking fan 'e Fryske wurdskat jaan. Derby moat sa grut mooglik sjoen wurde yn absolute en net yn relative sin. Ienfâldich sein hawwe wy besocht in korpus op te bouwen, dat in sa grut mooglik ferskaat oan wurden (lemmata) jout út in sa grut mooglik ferskaat oan boarnen. Om praktyske reden beheine wy ús ynearsten ta skreaune, net-dialektyske boarnen (sjoch Stellingsma (1986:65 en 66)").

    Om ta in sa grut mooglike dekking fan 'e wurdskat te kommen is it fan belang jins materiaal goed te sprieden yn 'e tiid en om teksten te selektearjen oer in sa grut mooglik ferskaat oan ûnderwerpen.s Doe't wy úteinsetten mei de TDB wie it noch net oer te sjen wat ús technyske en finansjele mooglikheden wêze soene. Dêrom hawwe wy as earste doel steld in korpus op te bouwen fan in beheind tiidrek fan tsien jier, nammentlik 1976-1985. Dy jiertallen binne keazen om't a) it korpus brûkt wurde moast foar it gearstallen fan 'e moderne wurdboeken Frysk/Frysk en Frysk/Ingelsk en b) om't it Wurdboek fan de Fryske Taal materiaal jout oan 1975 ta. Troch de jierren hinne is de finansjele en technyske sitewaasje sa ferbettere dat wy de swetten útlizze kind hawwe. It materiaal dat hjirûnder beskreaun wurdt komt út it tiidrek 1950-1991. It tiidrek 1976-1985 hat lykwols in sintraal plak yn ús korpus, mei't, sa't wy hjirûnder sjen litte sille, benammen fia it materiaal út dat tiidrek besocht wurdt om ta in sa grut mooglike dekking fan 'e Fryske wurdskat te kommen.

    Ut it tiidrek 1976-1985 hawwe wy alle by de Provinsjale Biblioteek fan Fryslân oanwêzige Fryske titels ynventarisearre en it totaal dêrfan beskôge as in soarte fan mikrokosmos fan 'e skreaune taal dy't syn delslach hawwe moat yn ús korpus.' Tydskriften út it tiidrek 1976-1985 binne neigong op stikken dy't fanwegen tekst-ynhâldlike skaaimerken nijsgjirrich liken om op te nimmen. Sa ûntstie in list fan in goede 1100 koartere en langere Frysktalige publikaasjes. Om de teksten foar it korpus safolle mooglik op tekstynhâldlike kritearia selektearje te kinnen, binne se yndield neffens it systeem fan 'e Universele Decimale Classificatie (UDC), in systeem dat yn bibleteken brûkt wurdt. Wy binne nammers wol tige oan 'e oerflakte fan it UDC-systeem bleaun. Alle teksten hawwe in trijesiferige koade meikrigen. It resultaat stiet yn it oersjoch yn fig. 6.

    Al mei al is der dochs noch in moai grut ferskaat. Oan 'e gatten dy't der yn 'e rige UDC-kodearrings sitte fernimt men lykwols dalik dat der noch gans ûnderwerpen binne dêr't yn it Frysk neat oer skreaun is. Fierder fait op dat yn alve UDC-skiften trije of minder teksten fûn binne. Mar dat is ynherint oan in taal as it Frysk, dy't op skrift no ien kear minder yntinsyf en op minder meden brûkt wurdt as bygelyks it Nederlânsk.

    63

    wumkes.nl

  • Anne Dykstra en Jogchum Reitsma

    Fig. 6. Oersjoch fan it korpus teksten út it tiidrek 1976-1985, yndield neffens de Universele Decimale Classificatie (UDC).

    nû.

    001 070 220 230 310 320 330 340 350 360 370 372 390 510 570 610 626 630

    640 691 700 710 740 780 790 800 820 821 822 823 830 910 920 930

    UDC-skift

    wittenskip en kennis fan it algemien parsewêzen bibel, bibelske ferhalen, bibellieten ensfh. kristlike godstsjinst taalsosjology, -befoardering, -polityk, Fryske beweging, ensfh. steatkunde, polityk ekonomy rjocht, wetjouwing iepenbier bestjoer, offisjeel ferkear maatskiplike soarch, wolwêzen, fersekeringswêzen opfieding en ûnderwiis skoalfakken, lesmateriaal folkskunde, folkloare wiskunde biology genêskunde wetterboukunde agraryske techniken, lân-, tún-, boskbou, feefokkerij, beropsfiskerij, -jacht húshâldkunde (iten, wenningynrjochting, húshâlden) boumaterialen kultuer romtlike oardering, lânskip byldzjende keunst muzyk ûntspanning, sport, spul, toerisme, rekreaasje taalkunde, nammekunde letterkunde proaza letterkunde gedichten letterkunde toaniel letterkunde bern/jongerein letterkunde sekunder ierdrykskunde heraldyk, genealogy, biografy skiednis

    tal

    2 9

    44 11 34 14

    1 1

    17 3

    43 46 13

    1 23

    2 2

    10

    1 1 8

    11 5 2

    23 30

    140 133 116 222 43

    3 37 82

    (2) (5) (77) (4) (4) (5) (1) (1) (5) (2) (8) (1) (2) (1)

    (10) (--) ( 0 (4)

    (--) (--) (4) (3) (--) (--)

    (10) (6) (44) (--) (-) (7) (4) (--) (5) (11)

    Opmerking: De ien nei léste kolom getallen tsjut it oantal teksten oan dat yn in beskaat UDC-skift fûn is; tusken ( ) stiet it tal teksten dat op dit stuit yn 'e TDB opnaam is. Skift 220 kin op 77 teksten komme trochdat de ûnderskate bibelboeken allegear apart, krekt sa't se troch it Nederlands Bijbel Genootschap op kompjûtertape oanlevere waarden, opnaam binne.)

    Dit oersjoch hâldt net yn dat alle sub-ûnderwerpen dy't yn in UDC-skift neamd wurde, ek wier oer skreaun is. Heraldyk út skift 920, bygelyks, is net ien publikaasje oer fûn.

    In probleem by de yndieling yn UDC-skiften is dat yn ien publikaasje ien of mear skiften oan 'e oarder komme kinne. Sa kin men eleminten út skift 340 Rjocht, wetjouwing ek tsjinkomme yn skift 350 lepenbier bestjoer, offisjeel ferkear of yn

    64

    wumkes.nl

  • De struktuer en de ynhäld fan 'e Taaidatabank fan it Frysk

    skift 710 Romtlike oardering, lânskip. Benammen skift 930 Skiednis is op dat stik fan saken lestich. Dêr tilt it op fan titels lykas 25 jier Stichting Earnewâldster skûtsje en 75 jier Boubedriuw Fa. S.H. de Jong, dêr't men faaks ek terminology út respektyflik de skiften 790 ontspanning, sport ensfh. en 691 Boumaterialen yn oantreffe kin. It sil dúdlik wêze dat in yndieling neffens tekstynhâldlike kritearia net sûnder lekken en brekken is, boppedat is der mar in bytsje bekend oer de relaasje tusken tekst-ûnderwerp en wurdskat.10 Dochs liket it op dit stuit de iennichste manier om alteast wàt ynsjoch te krijen yn 'e opbou fan safolle mooglik dielwurdskatten en dêrmei úteinlik fan 'e 'folsleine' wurdskat fan it Frysk. Yn 'e paragraaf 3.3 komme wy op 'e UDC-kodearring werom.

    3.1.2 Seleksjekritearia

    At dan de yndieling neffens tekstynhâld klear is, komt it folgjende probleem, it probleem fan 'e seleksje. Jo kinne noch sa'n moaie yndieling hawwe, úteinlik moat dêr in kar út dien wurde. Yn grutte halen binne der twa manieren om teksten út te sykjen. Ien manier is om blynwei elke safolste publikaasje te pakken, mar dan is der káns dat krekt de wichtichste publikaasje op in beskaat mêd stean bliuwt. Wy hawwe dêrom keazen foar in beriddenearre, mar fansels lykwols subjektive manier fan selektearjen. Der is, no't wy mei it oanlizzen fan it korpus begûn binne, nammers ien tige triviaal, mar wol beskiedend seleksjekritearium nei foaren kaam. Dat is de kwaliteit fan it printwurk. Is dy tige min dan kin de lêsmasine it net oan en dan giet de seleksje fan 'e boarne dêr't it om giet faak net troch. Ynsidinteel kinne tige wichtige publikaasjes mei de hân ynbrocht wurde.

    Wy nimme út elk UDC-skift op syn minst ien tekst.11 Skiften dêr't mar ien tekst yn sit, smite dan fansels gjin problemen op. At der mear teksten yn in skift sitte, sil der keazen wurde moatte. Soms leit de kar foar de hân, at der bygelyks yn in skift in dúdlik standertwurk sit, dan wurdt dat útsoarte keazen. En by in skift as 820 Letterkunde proaza wurdt der om tocht dat der wurk fan populêre skriuwers as Van der Velde en Speerstra keazen wurdt, dat wurk fan in yntellektueel as Wadman der yn komt en dat moderne Q-skriuwers en mear tradisjonele KFFB-auteurs yn it korpus fertsjintwurdige binne. Mar der binne ek gans gefallen dêr't it net sa maklik is om fêst te stellen wat in beskate tekst no gaadliker makket om selektearre te wurden as in oaren. Yn sokke gefallen slûpt der in subjektyf elemint yn 'e seleksje.

    At men útgean soe fan 'e mooglikheid om in represintatyf'korpus gear te stallen, soe by de seleksje ek rekkene wurde moatte mei de kwantitative ferhâldings binnen in skift en tusken de skiften ûnder inoar. Dat is lykwols makliker sein as dien. Wy kinne fansels maklik it tal publikaasjes teile, mar it wurdt al dreger at wy de lingte fan 'e publikaasjes beskiede wolle. It iennichste útgongspunt is de titel en it tal siden fan 'e publikaasjes. No hat bliken dien dat achter in prachtige Fryske titel gauris in publikaasje ferskûle is dy't mar foar in part, of soms hielendal net, yn it Frysk skreaun is. Mei't it formaat fan 'e siden, de brûkte letter en de ynterliny nochal útmekoar rinne, is ek de ynhâld oan tokens (wurdfoarmen) oan 'e hân fan it tal siden yn 't foar slim te rûzen. It tal publikaasjes yn in beskaat skift en de lingte yn siden jout dus mar oant in hichte in yndikaasje oangeande it relative gewicht dat sa'n skift yn it korpus hawwe moat. Mei't wy as útgongspunt hawwe in korpus mei in sa grut mooglike dekking fan 'e Fryske wurdskat, of oars sein: in korpus dat in sa grut

    65

    wumkes.nl

  • Anne Dxkslra en Jogchiim Reitsma

    mooglik ferskaat oan Fryske wurden jout, spilet it probleem fan 'e kwantitative ferhâldings by ús minder, ßy in represintatyf korpus, at soks al mooglik wêze soe, soe bygelyks neffens de kwantitative ferhâldings mar in part fan 'e twa teksten út skift 626 Wetterboukunde opnaam wurde kinne, wy kinne se sûnder beswier allebeide yntegraal opnimme.

    Ut it boppesteande sil dúdlik wêze dat in seleksje út in tekstbestân, hoe soarch-fâldich at dy ek ta stân kaam is, altyd in tafallich karakter hawwe sil. Dat jildt foar ús seleksje, mar ek foar elke oare seleksje út itselde of in oar tekstbestân. De brûker fan it (of in) korpus moat him dat altyd bewust wêze.

    3.2 De grutte fan it korpus

    Dêr't wy it yn dizze paragraaf oer hawwe wolle is de grutte fan it korpus yn tokens en de relaasje dy't der is tusken de grutte fan it korpus en de dekking fan 'e wurdskat. Dêrnjonken sille wy neigean wat de grutte fan it korpus ynhâldt foar de omfang fan in wurdboek dat op grûn dêrfan skreaun wurde moat.

    It docht bliken dat it 20ste-ieuske korpus 8.242.922 tokens grut is.12 Automatysk wurdt fan elke ynlêzen tekst byholden hoefolle types en tokens at der yn sitte, boppedat wurde de totaal oantallen types en tokens byholden. Wy hawwe ek de mooglikheid ynboud om hieltyd sjen te kinnen hoefolle nije types in tekst oan it totaal tafoeget. Om soks sjen te litten soe it yn 'e reden lizze om bygelyks de earste fiif teksten te ferlykjen mei bygelyks de léste fiif. Yn ús gefal jout dat lykwols in wat fertekene byld, mei't alle bibelboeken apart yn 'e TDB opnaam binne. De Bibel is as léste y n ' e TDB opnaam, dat de léste fiif teksten binne bibelboeken. Mei' t dat de léste fiif teksten binne fan in grutter gehiel mei likernôch ien miljoen tokens, sille dy net safolle nije types mear opsmite, boppedat binne de léste teksten tige koart. Wy ferlykje dêrom de earste fiif ynlêzen teksten, dat binne trije romans, in stik oer in religieus Onderwerp en in stik oer de Frysk Nasjonale Partij, mei de earste twa bibelboeken en de trije teksten dêrfoar. Dy lésten binne allegearre teksten fan nijsútstjoerings fan Omrop Fryslân (sj. fig. 7):

    Fig. 7. Ferliking fan 'e earste fiif yn 'e TDB ynlêzen teksten mei fiif teksten om ende by de grins fan 7 miljoen tokens.

    tekst 1 tekst 2 tekst 3 tekst 4 tekst 5 tekst... tekst 442 tekst 443 tekst 444 tekst 445 tekst 446

    Totaal tokens

    36338 50132 116205 166884 175573

    7048960 7093591 7135398 7142156 7146439

    Totaal types

    3674 5202 10341 13660 14620

    196060 197237 198224 198507 198596

    Nije types

    3674 1528 5139 3319 960

    1259 1177 987 283 89

    Types de tekst

    3674 2427 7223 6048 1962

    7297 6872 6359 1513 1003

    % fan types

    100 63 71,1 54,9 48,9

    17,3 17,1 15 18,7 8.9

    66

    wumkes.nl

  • De strukîuer en de xnhâld fan 'e Tacddalabank fan it Frysk

    By de beide léste kolommen giet it om 'e types fan 'e yndividuele teksten. It seit himsels dat 100% fan 'e types fan 'e earste tekst tagelyk ek nije types binne. 63% fan 'e types fan tekst twa sieten netyn tekst ien en 71,1% fan 'e types fan tekst trije sieten net yn 'e teksten ien en twa, en sa fierder. Dat persintaazje sakket útsoarte nei't der mear teksten opnaam binne en it korpus dus grutter wurdt. Tekst 446 leveret yn absolute sin "mar" 89 nije types, mar dat is altyd noch 8,9% fan 'e types dy't yn 'e tekst sels steane. Mei oare wurden, by in korpusgrutte fan sa'n 7,1 miljoen tokens, sieten hast 9% fan 'e types út dy tekst net yn alle foargeande teksten!

    At der in nij type oan it korpus taheakke wurdt, hoecht soks lykwols net altyd te betsjutten dat de dekking fan 'e wurdskat mei ien omheech giet. Stel dat yn tekst ien it type finger fûn is, dan feroaret in nij type fingers út tekst twa neat oan 'e dekking fan 'e wurdskat. Beide kearen giet it om it grûnwurd, of yn wurdboektermen, lemma, finger. Om better sieht te krijen op de dekking fan 'e wurdskat hawwe wy dus ferlet fan in metoade om te beskieden hoefolle lemmata in beskaat tal types opsmite sil. Yn 'e literatuer fine wy dêr twa metoaden foar. Wy jouwe hjir earst de formule fan Van Sterkenburg (1989:33): nim it tal types mei de frekwinsje ien en tel dêr de rest (dus alle types mei in frekwinsje heger as ien) dield troch fjouwer by op.13 Van Sterkenburg hat syn formule tapast op it Nederlânske korpus fan it Instituut voor Nederlandse Lexicologie te Leien. Dat korpus wie op dat stuit 40 miljoen tokens grut en dêr sieten 580.000 types yn. Neffens de formule bliuwe dêr 362.500 lemmata fan oer.14 At wy dy formule tapasse op ús korpus fan 8.242.922 tokens dan komme wy út op 111.098+ (98915 : 4) = 135.827 lemmata. Martin e.a. (1986c: 16-18) komme ek op it probleem fan 'e grutte fan it korpus. Sy jouwe sifers fan fjouwer Dútske korpora15 (sj. fig. 8.):

    Fig. 8. Fjouwer Dútske korpora en harren 'rendemint'.

    Tal tokens Tal types Bruto Netto rendemint rendemint

    80.000 10.000 12,5 8,3 1.000.000 70.000 7,5 5 3.500.000 130.000 3,7 2,5 7.222.000 132.000 1.8 1,2

    It bruto rendemint is de ferhâlding tusken it tal tokens en it tal types. It netto rendemint is de ferhâlding tusken it tal tokens en it tal lemmata. Allinne fan it grutste korpus wie it netto rendemint bekend, 132.800 types en 90.400 lemmata, mar Martin e.a. geane der fan út dat it foar it ferskil tusken it bruto en it netto rendemint neat útmakket hoe grut oft in korpus is. Se nimme oan dat it netto rendemint altyd in tredde minder is as it bruto rendemint.

    Wy hawwe nei elke tekst dy'tyn ús korpus opnaam is in tuskentelling makke fan 'e types en 'e tokens. Sadwaande kinne wy op 'e mjitpunten dy't likernôch oerien-komme mei de Dútske korpora in ferliking meitsje. Dêr moat wol by betocht wurde dat ús korpus noch yn opbou is, net alle tekstsoarten sitte der noch yn, en de folch-oarder fan opnimmen is ek folslein tafallich. It earste miljoen tokens bestiet bygelyks hast hielendal út romantekst en it léste miljoen komt út 'e Bibel. Yn 'e ûndersteande ferliking behelje wy ek Meijs (1991:320) dy't 'e sifers jout fan twa Ingelske korpora.

    67

    wumkes.nl

  • Anne Dvkslra en Jogchuni Reitsma

    De ferliking mei de Dútske (oanjûn mei D), en mei de Ingelske korpora (oanjûn mei /) wurdt werjûn yn fig. 9 (in F tsjut in telling fan it TDB-korpus oan).

    Fig. 9. Ferliking fan it 'rendemint 'fan inkelde Dútske en Ingelske korpora mei dat fan 'e TDB op ûnderskate mjitpunten.

    D 80.000 F 116.205

    D 1.000.000 F 1.004.389 I 1.000.000

    D 3.500.000 F 3.520.112

    D 7.222.000 F 7.242.154 I 7.300.000

    F 8.242.922

    10.000 10.341

    70.000 51.305 50.000

    130.000 121.021

    132.800 200.016 132.000

    210.013

    rendemint

    12,5 8.9

    7.5 5,1 5

    3.7 3,4

    1,8 2.8 1,8

    2,5

    rendemint

    8,3 5,9

    5 3,4 3,3

    2,5 2,3

    1,2 1.9 1,2

    1,7

    D F

    D F I

    D F

    D F I

    F

    Wy sjogge dat it bruto rendemint nochal wat ferspringt, mar dat soe lizze kinne oan ' e hjirboppe neamde oarsaken. Yn it begjin jout ús korpus neffens it Dútske in leger bruto rendemint, wylst it op 1 miljoen tokens lykop rint mei it Ingelske. Op 3,5 miljoen is it wer suver gelyk mei it Dútske en op 7,2 miljoen is it bruto rendemint fan ús korpus \c/c heger as it Dútske en it Ingelske beide. It léste miljoen, de Bibel dus, jout mar in bruto rendemintsferlies fan 0,3%.

    At we der, mei Martin e.a., fan útgeane dat it netto rendemint in tredde leger is as it bruto rendemint, dan hat ús korpus 140.129 lemmata. Dat wie neffens de formule fan Van Sterkenburg 135.827, dat skilt dus mar 4302 lemmata. By Martin e.a. is it netto rendemint fan ús korpus 1.7% en by Van Sterkenburg is dat 1,6%. Op it earste each liket it oantal fan sa'n 140.000 lemmata rom genôch as basis foar it Frysk/ Ingelsk wurdboek (35 à 40.000 lemmata) en it Frysk/Frysk wurdboek (70.000 lem-mata)!' dy't op it stuit by de FA gearstald wurde. Yn 'e praktyk sil lykwols bliken dwaan dat by dy 140.000 lemmata in hiel soad sitte sille dy't net yn in wurdboek komme sille, tink oan eigennammen, tige tafallige of troehsichtige gearstallingen, net-Fryske wurden, flaters fan 'e lêsmasine en al te moaie nijfoarmingen. Dat betsjut dat it korpus optheden noch de krappe kant neist is. Mei hoefolle tokens oft it korpus útwreide wurde moat om it tal lemmata gans út te wreidzjen is slim te sizzen. Hjir-boppe hawwe wy sjoen dat it rendemint fan it útwreidzjen hieltyd minder wurdt, mar ek dat it slim is om it rendemintsferlies te foarsizzen, al is wol dúdlik dat it korpus navenant hyltyd mear útwreide wurde moat om noch nije types te krijen.r Skema-

    68

    wumkes.nl

  • De sînikmcr en de \nhâld fan 'e Tacddalabank fan il Fnsk

    tysk sil de ferhâlding korpusgrutte-tal types der likernôch sa út sjen1" (sj. tig. 10):

    Fig. 10. Grafyske werjefte fan de ferhâlding korpusgrutte en tal types yn it algemien.

    tal types

    korpusgrutte

    Der sil besocht wurde moatte om, eventueel nei tuskentiidske analyze fan it korpus, it rendemintsferlies sa beheind mooglik te halden troch it doelbewust selektearjen fan teksten oer ûnderwerpen dêr't 'e wurdskat fan yn it korpus oan 'e krapperein komt,1'' oant wy op in punt komme dat it útwreidzjen fan it korpus net mear op- waacht tsjin it tal nije types dat soks opsmyt. Derby moat goed yn 'e rekken holden wurde dat in al te grutte fiksaasje op nije types ek wer net goed is. Wy moatte net ferjitte dat ús korpus, yn alle gefallen yn it earstoan, benammen brûkt wurde sil troch de wurdboekskriuwer en dy hat, njonken in sa grut mooglike dekking fan 'e wurd- skat. fansels ek alle belang by in korpus dat safolle mooglik betsjuttingsferskaat jout. It seit himsels dat wat grutter in korpus is, wat grutter de káns ek is dat betsjuttingsfarianten dutsen wêze sille.20 De ferhâlding tusken omfang fan in korpus en semantyske ynformaasje leit dus krekt oarsom as de ferhâlding korpusgrutte/tal types (sjoch Reichman (1990:1596)). Bergenholtz & Mugdan (1990:1622) komme op grûn fan ûn-dcrfinings mei korpora ta de konklúzje "daß schon für eine adäquate Beschreibung der 2000 häufigsten deutschen Lexeme ein Korpus von 5 Mio. Textwörtern erforderlich wäre [...]. Für ein allgemeines Wörterbuch mit 50-100 000 Lemmata kommt man vielleicht mit 50-100 Mio. Textwörtern einigermaßen aus". Wy nimme oan dat wy wat it Frysk oanbelanget, dat, yn alle gefallen op skrift, minder yntinsyf en op minder meden brûkt wurdt as it Dútsk, wat beskiedener wêze kinne. Foar it 20ste-ieuske Frysk stribje wy dêrom ynearsten nei in korpus fan likernôch 20 miljoen tokens,- wy sille op geregelde tiden de opbou fan it korpus neigean en eventueel bystjoere."

    3.3 Ynhâldlike hifking neffens UDC-kodearring

    De seleksje út 'e UDC-skiften is ûnderwilens klear en der is in begjin makke mei it ynlêzen fan selektearre teksten mei de lêsmasine. De UDC-koade is ien fan "e ge-gevens dy't oan 'e teksten dy"t yn it korpus telâne komme, taheakke wurde. Dat makket it û.o. mooglik om alle teksten mei in selde UDC-koade apart te befreegjen.

    69

    wumkes.nl

  • Ami e Dykstra en J o ge hum Reitsma

    Om in yndruk te krijen fan wat seleksje op tekstynhâldlike kritearia opsmyt, is der in programma skreaun dat it mooglik makket om nei te gean hokker wurden oft yn hok-ker skift fûn wurde. It giet hjir om in foarriedige yndruk, om't it korpus relatyf lyts is en omdat it giet om in korpus yn opbou.

    It docht bliken dat alle UDC-skiften wurden leverje dy't net yn in oar UDC-skift sitte. It grutste part fan 'e wurden wurdtlevere troch it skift 820 Letterkundeproaz.a, mar dêr is ek de measte tekst fan opnaam. De measte wurden út ús ynventarisaasje binne net karakteristyk f o ar it skift dêr t se yn fûn binne, mar guon binne dat al. Om't it yn it ramt fan dit artikel tefolle tiid kostje soe om UDC-skiften yn har hiele hear en fear út te slachtsjen op karakteristike wurden, hawwe wy de kompjûter út elk UDC-skift dy wurden sykje litten dy't allinne mar yn dat UDC-skift te finen wiene. De káns dat dêr wurden by sieten dy't in dúdlike relaasje hawwe mei it ûnderwerp dat mei in beskaat UDC-skift oanjûn wurdt, moast moai grut achte wurde. Dat kaam ek wol út, wy jouwe hjir in moai grut oersjoch fan ;e skiften 001, 070, 230, 310 en 800 (fig. 11).

    Fig. 11. Oersjoch fan wurden út de UDC-skiften 001, 070, 230, 310 en 800, dy 7 per skift net yn alle oare skiften foarkomme.

    001 Wittenskip en kennis algemien; eksperirnintearrûmte, eksplisitearje. fakblêden. fakspesjalismen,

    fakulteitsbibleîeek. initiearjende. monografyen. natuerwiitenskiplik. plagiaat, stúdzjedoelen. wittenskipsterrein.

    ûndersyksdoel. ûndersyksfoarstel, ûndersyksmodel. úndersykspraktyk. ûndersyksrapport, ûndersyksstappen.

    ûndersyksynslelling.

    070 Parsewêzen: deiblêdparse, diskusjeprogramma. cterromte, eterreklame, fers ykp laten, gesinsblêd.

    haadredakteur. harkerspublyk, harkerstichtheid. hûs-oan-hûs-kranten. kabelkrante, kabelnet, kameraminsken,

    krantebedriuw. krante-idioom. krantekolom, kranleside. nijskolommen. omropbelied. omropbydrage. omropibar-

    sjennings, opinybléden, parseburo, parsekombinaasje, popprogramma, praatprogramma, presentator, programmalieder,

    programmearring. redaksjoneel. redaksjegearkomste. reklamejilden. reklame-ynkomsten. stjoerfrekwinsje.

    stjoermaebtiging. stjoertiid. tclcks. telcvyzjcprogramma, tclevyzje-útstjoering, útstjoering.

    230 Kristlike Godstsjînst'. agnostisisme, baptistyske. beroppingsbrief, beroppingsrjocht, beroppingswurk.

    bidprintsjes. broederlike. bûtentsjerkliken. dogmatisearje. dogmatysk-kalvinisme, dogmatysk-rjochtsinnigen,

    doopsgezinden, doperdom. earmbestjoer. emmausgongers. empiristen, ferkondiging, ferkondigjen. ferlossingsreligy.

    fermaners. ierrizenisferhaal, folkstsjerke. fraachlearders, frijsînnigens, fundamintalistyske, gemeentetucht, gesinîe.

    gesîntheden. godsleauwe. godsopfetting, godsûnderfining. klassissen. kieasteroarders, kleresy. kollaasjerjocht.

    kollatoaren, konfessjoneel-otterdoksen. konventikel. labadisme. labadist. learstellich, leauwensbelidenis.

    manljusHdmaten. monolitysk, oerpreesters. ôfskiedingsbeweging. ôfskiedingsgemeente, papisten, passyferhaal.

    pastoares, peaskeleauwe, piëtistysk. presbyteriaansk. religiografysk, remonstranten, remonstrantsk, rjochtsinnigens.

    sindingsiver. skûlgemeente. spiritualistysk. spirituele, synoadeboeken. tsjerkebestjoer, tsjerkeformaasje.

    tsjerkegenoatskippen. tsjerkereizgjen, ûnieauwicb. ûntsjerklikens, ynsegene. ûntsjerkskens, útierkarden.

    310 taal SOS jologx'. allochtoanepersintaazje. analizemooglikheden. antonia, antwurdpatroan, antwurdkategory.

    arsearring. assimilaasjepolityk. autochtoanens. autochtoniteît. basisfeiten, basîsfraach, behearskingssifers.

    benaderingsferslach. beropsgroep. beropskategory. betrouberensnivo. betrouberensynterfal, brutostekproef.

    brutostekproeffraksje. bûtenstruktuerlik. databestân. definiearje, defbrmaasjc. destruktureairing. detailstúdzjes.

    dielkategoryen. ditïerinsearje. doelbeskriuwing, domeinbegry p. eftergrûnfariabele, eftergrûnfeiten, eftergrûngegevens.

    enkétesifers. enkête-ûndersyk. etnysk-idintifisearjende. evahiative. faktoranalize, faktorlading, faktorskoare.

    ferdielingspatroanen. ferfolcheffekt. ferfolcbfraach. ferklearringsmodel. ferwachlingspatroan. fjiidvvurkfaze,

    fraachlisten. fraachpeiearsitewaasje. frageiistûndersyk. frekwinsjenivo, frekwinsjetabel, gedrachskomponint,

    gegevensbestân. graduele, groepsidintifikaasje, groepsidintiteit, grûnfraach. haadfari abele, haadlabel. haadtendinzen.

    hâldingsfaktoaren, hâldingspatroan. idintiteitsferlies, idintiteitsgefoel, karpatroan, kearndomeinen. koadesîfers.

    kommunikaasje-aspekten, konfiguraasje. konsistinsjekontrôles. kontaktsituaasje. kontrôîefraach. korrelaasjekoëiïisjint,

    korrelearje. krektheidspersintaazje. krústabellen. kumulatyf. metoade-effekt. metodologysk, nettostekproef.

    70

    wumkes.nl

  • De struktiier en de ynhâld fan 'e Taaidatabank fan it Frysk

    nonresponse. nulfraach. operasjonaliscaren, persintsnivo, prognoaze, rcferinsjepersoanen, relaasjenetwurk, signifikante,

    sosjoünguïsten. sosjolinguïstysk. standertdeviaasje, stckproefôfwiking, stekproeftechnyske. survey-ûndersyk,

    taaigebrûkspatroan. taalgedraehsfariabelen. taalhâldingsfaktor, taaiminderheid, taalplenning, taaltroubrek,

    Irochpraatpetearen, werhcllingsûndersyk. yntcraksjepatroan, ynterpretearbere. ûnderferdieling, ûndersyksfjild,

    ûndersyksútkomsten.

    800 Taalkunde', affiksen.agenssuffiks,âldgermaanske,a-lûding,apeilatyf. argaïstysk,bepaalwurd, betsjutüngsoe-

    rienkomsten, betsjuttingsútwreiding, brekkingsferskynsel, bûgingsproses, bûgingsregels, deklinaasje-útgong.

    derivaasje, derivala, deskriptive, diagroanyske. diakrityske, dialektologysk, dianoarmatyf. diatopysk, digraaf,

    diminutyf. ferlytsingsútgong. foarkarstavering, folchkonsonant, funksjewurden, fuortassimilearre, gearkeppeling.

    gearstallende. genityfiitgong, grafyen. grammatikaliteit, grûnfoarmen. haadfokaal. haadtelwurden, haadtiidwurd,

    healtaheaksels, homografen. ienstammige, ienwurdliddige, ynterfereensjes, ynterfokalyske. kompositum.

    kreolisearringsproses, lemtnatisearje. monosyllabyske, morfeem, neutrum, noarmalisearre, oerflakteferskynseJs.

    ôflicdings(útgongen). paradigma, prefiks, preskriptyf. suffigearring. suffiksen, twalippige, útgongselemint,

    útgongsfokaal, wurdfjilden, wurdsoarte.

    Al mei al liket it der op grûn fan ús ynventarisaasje op dat de yndieling yn UDC-skiften in gaadlik middel is om ûndersyk te dwaan nei dielwurdskatten en nei faktalen.

    3.4. Ferliking mei it WFT en it F/N wurdboek

    Yn dizze paragraaf wolle wy in foarriedige ferliking jaan fan it TDB-korpus mei it WFT en it F/N wurdboek (1984). Sa'n ferliking is nuodliker as dat it faaks op it earste each liket, mei't der mei gans, faak min te beskieden, fariabelen, lykas korpusgrutte en tiidrekken, rekkene wurde moat. Yn it ramt fan ús stik giet sa'n yngeande ferliking te fier, wy wolle hjir mei ús ferliking de lezer in globaal idee jaan fan 'e oerienkom-sten en de ferskillen tusken it korpus en de wurdboeken.

    Utgongspunt foar de ferliking binne de lemmalisten fmfoantfluensk út 'e letter ƒ en alle lemmata fan 'e letter h út it WFT en sokke selde listen út it F/N hânwurdboek. In komplikaasje derby is fansels dat it TDB-bestân net lemmatisearre is, dat moast dus noch mei de hân dien wurde. Ear't wy prate sille oer de ferliking, wolle wy earst it neifolgjende sitaat oer in ferliking fan it Nederlânske korpus fan it INL mei twa Nederlânske hânwurdboeken oanhelje:

    [D]e verzameling 'woorden' die gewoonlijk in woordenboeken zijn opgenomen, (ziet) er

    heel anders uit dan de verzameling woorden die in de dagelijkse praktijk worden gebruikt.

    Zo bracht een vergelijking van twee bestaande handwoordenboeken (Van Haeringen

    (1954), Van Sterkenburg en Pijnenburg (1984)) met een lijst van woorden die werden

    aangetroffen in het hedendaagse tekstcorpus van het Instituut voor Nederlandse

    Lexicologie (ter grootte van circa 45 miljoen woorden) aan het licht dat vrijwel de helft

    van alle verschillende woorden die met een zekere regelmaat in teksten opduiken, niet in

    deze woordenboeken stonden vermeld. Verder bleek dat meer dan 30% van de ingangen

    in de onderzochte woordenboeken niet voorkwamen in dit toch zeer aanzienlijke corpus.

    (Willems/Kerkman (1989: 331))

    It wurdboek fan Van Sterkenburg en Pijnenburg is it Woordenboek van het Heden-daags Nederlands (N/N), dat likernôch 95.000 lemmata hat, net iens sa hiel folie minder as dat it WFT nei alle gedachten úteinlik hawwe sil." Wat it oantal lemmata

    71

    wumkes.nl

  • Anne Dykstra en Jogchum Reitsma

    oangiet binne N/N en WFT dus likernôch ferlykber. It tiidrek dat yn beide wurdboe-ken beskreaun wurdt ferskilt nochal. Van Sterkenburg en Pijnenburg jouwe yn har wurdboek, lykas de titel al seit, it hjoeddeiske Nederlânsk, wylst yn it WFT it Frysk út it tiidrek 1800-1975 beskreaun wurdt. It F/N wurdboek is basearre op it selde materiaal as dat fan it WFT. Sawol it Nederlânske as it Fryske korpus jouwe in oersjoch fan it nijere taalgebrûk. Willems en Kerkman hawwe it dus oer in ferliking fan twa Nederlânske wurdboeken mei in Nederlânsk korpus út likernôch it selde tiid-rek. By ús ferliking giet it om twa Fryske wurdboeken dy't beide basearre binne op materiaal út it tiidrek 1800-1975, mei in Frysk korpus út ± 1950-1991, al is der yn F/N nei stribbe om it alderâldste en net mear gongbere net op te nimmen. Op foarhân soe men dus ferwachtsje dat de útkomsten fan in ferliking fan it TDB-korpus mei yn alle gefallen it WFT, noch dramatysker binne as by de Hollânske wurdboeken, ek al om't ús korpus safolle lytser is as it Nederlânske. De útkomsten fan 'e ferliking tusken it TDB-korpus en de beide Fryske wurdboeken binne sa (fig. 12)

    Fig. 12. Ferliking fan it tal lemmata fan 'e TDB mei dat fan it WFT en it F/N wurdboek (trajekt f - fluensk en de letter h).

    Tal lemmata yn 'e TDB 9945 Tal lemmata yn it F/N wb. 6177 Tal lemmata yn it WFT 12751

    Lemmata al yn 'e TDB, mar net yn it F/N wb. 6493 Lemmata al yn 'e TDB, mar net yn it WFT 4917

    Lemmata al yn it F/N wb., mar net yn 'e TDB 2725 Lemmata al yn it WFT, mar net yn 'e TDB 7723

    Lemmata dy't en yn it F/N wb. en yn 'e TDB steane 3452 Lemmata dy't en yn it WFT en yn 'e TDB steane 5028

    Oars op in rychje set komt de ferliking fan it TDB-korpus mei de wurdboeken hjir op út (fig. 13)

    Fig. 13. Relative ferliking fan it tal lemmata fan 'e TDB mei dat fan it WFT en it F/N wurdboek (trajekt f - fluensk en de letter h).

    F/N-lemmataeJcynTDB: 3452 = 55,9% F/N-lemmata net yn TDB: 2725 = 44,1%

    WFT-lemmata ek yn TDB: 5028 = 39,4% WFT-lemmata net yn TDB 7723 = 60,6%

    TDB-lemmata ek yn F/N: 3452 = 34,7% TDB-lemmata net yn F/N: 6493 = 65,3%

    TDB-lemmata ek yn WFT: 5028 = 50,5% TDB-lemmata net yn WFT4917 = 49,5%

    72

    wumkes.nl

  • De struktuer en de ynhâld fan 'e Taaidatabank fan it Frysk

    It tal wurdboeklemmata dat net yn it korpus sit beslacht foar it WFT dus 60,6% en foar F/N 44, 1 %. Foar de Nederlânske wurdboeken is dat neffens Willems/Kerkman (1989:331) ± 30%. It nochal grutte ferskil tusken de Nederlânske ferliking en de Fryske, kin nei alle gedachten ferklearre wurde út it feit dat it Fryske korpus relatyf lyts is, mar ± 19% fan it Nederlânske korpus. Boppedat docht út in stekproef bliken dat in moai grut part fan 'e WFT-lemmata dy't net yn it korpus sitte, in koade by har hawwe dy't oantsjut dat it beskreaune wurd ferâldere, seldsum of tige literêr is. Fierder binne der nochal wat lemmata by dêr't allinne mar 19de-ieuske sitaten by jûn wurde. Neigeraden it korpus grutter wurdt, sil it oantal wurdboeklemmata dat net yn it korpus sit, ôfnimme.

    It oantal TDB-lemmata dat net yn it WFT sit beslacht 49,5%, foar F/N is dat 65,3%.:4 Neffens Willems/Kerkman (1989:331) is dat sifer foar it Nederlânsk ± 50%. Dat is likernôch gelyk oan it persintaazje foar it WFT. Dochs is it resultaat fan 'e ferliking foar it Frysk dramatysker as foar it Nederlânsk, mei' t it Fryske korpus safolle lytser is.

    4. Ta beslút

    Mei dit ferslach hawwe wy ynsjoch jaan wold yn 'e stân fan saken by de Taaidata-bank fan it Frysk. Wy hawwe besocht soks te dwaan troch globaal oan te jaan hokker problemen at wy tsjinkamen by it opsetten dêrfan en hoe't wy dy oanpakt hawwe.

    Yn it foarste plak hawwe wy it hân oer de ynterne struktuer, oftewol de kompjû-terkant, fan 'e TDB. Om de fleksibiliteit en de tagonklikens fan it systeem sa grut mooglik te meitsjen hawwe wy keazen foar in relasjoneel databasesysteem. Yn sa'n relasjonele database wurde de gegevens opslein yn oan mekoar keppele (relatearre) tabellen. Fia de tabellen kin it materiaal maklik befrege wurde. Wy hawwe sjoen dat de UDC-kodearringen (terminologysk) ûndersyk nei dielwurdskatten en faktalen mooglik meitsje. Fierder kinne fia de tabelstruktuer allerhanne dielkorpora befrege wurde. It is bygelyks mooglik om alle wurk fan ien skriuwer te selektearjen, of alle wurk fan 'c froulike skriuwers, of alle romans fan foar of út in beskaat jier. As léste neame wy hjir noch de ûndersyksmooglikheden dy't de ûnderskate wizen fan oarder-jen fan it wurdmateriaal jouwe. At it wurdmateriaal oardere wurdt yn KWIC-listen kin der û.o. ûndersyk dien wurde nei fêste wurdferbinings, ek wol kollokaasjes neamd. Frekwinsje-ûndersyk is mooglik at it materiaal beskikber komt yn listen dy't oardere binne neffens frekwinsje1, (sjoch taheakke B.). Foar morfologysk ûndersyk kinne de wurdfoarmen oardere wurde op harren útgongen, yn dat gefal wurdt der al-fabetisearre fan efteren nei foaren ta, lykas yn it Omkearwurdboekfan de Fryske Taal (sjoch taheakke C). Troch de keazen struktuer is it altyd mooglik om nije tabellen, foar eventuele nije ûndersyksfragen, ta te foegjen. Yn oerlis kin fan gefal ta gefal be-sjoen wurde oft de TDB foar in beskaat ûndersyk in gaadlik helpmiddel is of wêze kin.

    Dêrnei kaam de opbou fan it korpus oan 'e oarder. Wy hawwe oanjûn dat it prinsi-pjeel ûnmooglik is om in represintatyf korpus, oan te lizzen. Us doel is no om in korpus oan te lizzen dat in sa grut mooglike dekking fan 'e Fryske wurdskat jout. Sa grut mooglik moat hjir sjoen wurde yn absolute, en net yn relative sin. In sa grut mooglike dekking besykje wy benammen te krijen fia it tiidrek 1976-1985. Alle by de Provinsjale Bibleteek fan Fryslân bekende Frysktalige titels út dat tiidrek hawwe

    73

    wumkes.nl

  • Anne Dykstra en Jogchum Reitsma

    wy kodearre neffens tekstynhâld. As tredde ûnderwerp kaam de relaasje tusken de grutte fan it korpus en de dekking

    fan 'e wurdskat op it aljemint. Op grün fan sifers en berekkeningen fan Martin e.a. en fan Van Sterkenburg nimme wy oan dat fan ús korpus fan goed 8,2 miljoen tokens sa'n 140.000 lemmata oerbliuwe. Op it earste each liket dat genôch as basis foar it skriuwen fan wurdboeken. Yn 'e prakty k sille lykwols hiel wat fan dy lemmata, by ge-lyks eigennammen, wurden út oare talen en tige tafallige gearstallingen, net yn 'e be-neaming komme om yn in wurdboek opnaam te wurden. It is slim yn it foar te sizzen mei hoefolle tokens oft in korpus útwreide wurde moat om it tal types en it tal lem-mata út te wreidzjen. Dúdlik is al dat in korpus navenant hyltyd mear útwreide wurde moat om noch nije types te krijen. It tal nije types dat útwreidzjen fan in korpus noch opsmyt is nammers net in beskiedend kritearium foar de grutte fan in korpus. It seit himsels dat in wurdboekskriuwer ek alle belang hat by in korpus dat gans betsjut-tingsferskaat jout. It is dúdlik dat wat grutter in korpus is, wat grutter de káns ek is dat betsjuttingsfarianten dutsen wêze sille. Ynearsten stribje wy nei in korpus 20ste-ieusk Frysk fan likernôch 20 miljoen tokens. It is mooglik dat dat sifer troch tuskentiidske hifking bysteld wurde sil.

    Yn 'e ien nei léste paragraaf docht bliken dat de yndieling yn UDC-skiften neffens tekstynhâld in gaadlik middel liket om ûndersyk te dwaan nei dielwurdskatten en fak-talen. Fierder docht út in (beheinde) ferliking fan 'e lemmata út it F/N wurdboek en út it WFT mei de lemmata út it TDB-korpus bliken dat wy hjir te krijen hawwe mei hiel ferskillende wurdsamlingen. Sa stiet likernôch 60% fan 'e WFT-lemmata net yn it korpus, wylst sawat 50% fan 'e korpus-lemmata net yn it WFT stiet.

    Noaten

    1. Ut Lexicon Frisicum A, side 11. 2. Dat sokke beheiningen yn 'e praktyk àl foarkomme, wurdt yn dit artikel wol dúdlik. 3. Ut pragmatyske oerwagings: it wurd soe nei alle gedachten, sjoen ek de grutte

    leksikografyske stêf op 'e Akademy, de meast befrege ienheid wêze, en it is in foar de kompjûter maklik te ferwurkjen entiteit.

    4. Yn 'e teory oer databasestruktueren stiet dy foar de hiërargyske en de rcefwurÄxlatabase oer; njonken dy âldere struktueren is tsjintwurdich ek de objekt oriïntearre database yn 'e moade. Dit is lykwols net it plak om de eigenskippen en brûkberens dêrfan te ferlykjen.

    5. Ferlykje Kruyskamp yn it foaropwurd fan it Van Dale Groot Woordenboek van de Nederlandse Taal, (1976), p. IX: "Absolute volledigheid in die zin dat zij zou inhouden het vermelden van alle woorden die ooit wel eens in het Nederlands gebruikt zijn - ook al beperkt men zich tot de laatste eeuw - is niet te verwezenlijken. Niemand weet hoeveel woorden dat zijn, maar men mag het aantal veilig schatten op twee tot vijf miljoen (...) Het zou echter ook zinloos zijn daarvan de volledige inventaris te maken, omdat het dan woorden betreft die slechts in een zeer beperkte kring bekend, of slechts eenmaal of enkele malen in een bepaalde context gebezigd zijn". Kruyskamp giet der dus blykber fan út dat de wurdskat einich en telber is, datselde idee komt ek nei foaren yn Van Dale Groot Woordenboek van hedendaags Nederlands (Van Sterkenburg en Pijnenburg (1984:16)): "Het Nederlands kent 6 à 7 miljoen woorden".

    74

    wumkes.nl

  • De struktuer en de ynhâld fan 'e Taaidatabank fan it Frysk

    6. Trommelen (1986:47) toant oan 'e hân fan it foarmjen fan gearsettings foar it Nederlânsk ek oan dat de wurdskat fan in libbene taal ûneinich is.: "Als ooit de produktiviteit van morfologische processen, en in wezen de onbeperkte uitbreidbaarheid van de Nederlandse woordenschat geïllustreerd moet worden, dan is de samenstellings-vorming hiervoor een van de meest geschikte kandidaten".

    7. Ferlykje ek: Martin e.a. (1986b: 16): "We moeten tot het besluit komen dat noch aselecte noch niet-aselecte steekproeven kunnen worden gebruikt om een representatief corpus van het Hedendaags Nederlands samen te stellen. Elk corpus kan hoogstens exemplarisch zijn. Er is geen statistische of mathematische garantie op (zelfs maar relatieve) representati-viteit". Bergenholtz en Mugdan (1990:1622): "Es sei lediglich noch einmal vor der Vorstellung gewarnt, ein Korpus könne repräsentativ sein. Im statistischen Sinne ist das prinzipiell nicht möglich. Erreichbar und anzustreben ist jedoch ein Korpus, das als exemplarisch gelten kann, d.h. das eine plausible Auswahl dessen erfaßt, was man "die Gegenwarts-sprache" nennen könnte".

    8. Ut Van Hout & Vermeer (1992:127) docht bliken dat seleksje út in sa grut mooglik ferskaat oan Onderwerpen (boarnen) ek fan belang is foar frekwinsje-ûndersyk: "Een [frequentie]lijst is representatiever voor het algemene taalgebruik naarmate de woorden uit meer verschillende contexten gekomen zijn. [...] Naarmate een woord beter is gespreid (in meer contexten voorkomt) is het minder afhankelijk van situatie en context, en wint de frequentie aan stabiliteit. Vanzelfsprekend is er een samenhang tussen spreiding en frequentie: woorden die in meer contexten voorkomen, zullen frequenter gebruikt worden".

    9. De Provinsjale Bibleteek stribbet dernei om in sa folslein mooglike samling Fryske teksten oan te lizzen.

    10. Ferlykje Renouf (1987a: 11): "It will be clear that topic choice in itself brings no guarantee either of the lexis or of the type of discourse which will be found in a text. Choice of lexis will vary according to socio-linguistic factors such as the assumed knowledge of the reader, even if the topic is apparently held constant. There is no reason to believe that the language used to describe How to Service a Bicycle will be closely related to that used to describe My Best Race".

    11. De gearstallers fan it COBUILD korpus (sj. noat 19) hawwe dat net dien. Dy nirnme gjin gedichten op om't neffens har "poetry was essentially unrepresentative of mainstream linguistic behaviour". Toaniel nimme se net op fanwegen de "artificial dialogue" dy't it befetsje soe (Renouf (1984:6)). Yn it Nijmeechske korpus foar it bestudearjen fan lingwistyske fariaasje wurde toanielteksten en gedichten ek net opnaam (Oostdijk (1988:6)). Martin e.a. (1986c:23) miene dat fanwegen it idiosynkra-tyske karakter fan it taalgebrûk fan poëzij it net folie doel hat om in korpus poëzij oan te lizzen. Nijsgjirrich is hjir de hâlding fan it Friesch Woordenboek foar dichtwurk oer. Dêr stiet it "dichter-Friesch" yn, "voorzooverre dit afwijkt van 't algemeen levende. Maar eerst in de tweede plaats. Niet omdat het minder is, integendeel, maar, omdat wat zelfs veel dichters zeggen, toch nog geen levende taal is in den mond van het volk. En in een Woordenboek geeft men 't algemeene eerst, het bijzondere daarna". (Diel I, side IV)

    12. Meimekoar sieten der op it stuit dat dit stik skreaun waard, yn ús korpus 545 teksten. Dat liket mear as it is en dat komt om't yn it skift krantetekst in apart bestân de dei makke is, meimekoar binne dat likernôch 230 tekstbestantsjes. Ut 'e neffens tekst-ynhâld kodearre (UDC) list út it tiidrek 1976-1985, binne 227 teksten selektearre. Dat part beslacht 5.362.024 tokens en 148.650 types. Ut it tiidrek 1950-1975 binne 76 teksten opnaam mei 2.152.120 tokens en 88.854 types. Fan nei 1985 sitte der 242 teksten yn (meast kranteteksten), dy't 728.778 tokens en 46.735 types befetsje. De sifers binne nammers net 100% betrouber. Mei't wy op dit stuit in hege prioriteit

    75

    wumkes.nl

  • Anne Dykstra en Jogchum Reitsma

    jouwe oan it opbouwen fan in sa grut mooglike bulk oan teksten, akseptearje wy op dit stuit it feit dat der út en troch lêsmasineflaters en flaters fan it omstaverprogramma sitten bliuwe, dy't yn in letter stadium útsoarte ferbettere wurde sille. We kinne der ek net foar dat der hjir en dêr net-Fryske wurden yn it korpus sitte, bygelyks út sitaten yn in oare taal.

    13. It is net hielendal dúdlik wêr't Van Sterkenburg de formule op basearret. Wy nimme oan dat de formule ûntstien is op grûn fan ûnderfinings mei it Nederlânske korpus te Leien. Van Sterkenburg (1991) jout nammers in oare formule, dêr wurdt it tal types gewoan troch fjouwer dield. Van Sterkenburg hat ús lykwols yn in brief meidield dat it hjir om in fersin giet.

    14. Van Sterkenburg is der hjir fan útgong dat it tal hapax legomena, foarmen dy't dus mar ien kear yn it korpus foarkomme, 50% fan it INL-korpus útmeitsje.

    15. Wy hawwe de sifers oernaam sa't se der stiene, ynklusyf de flater dy't blykber by it korpus fan 1 miljoen tokens makke is. It bruto rendemint soe dêr 7% wêze moatte.

    16. Hjir moat opmurken wurde dat it Frysk/Ingelsk wurdboek net gewoanwei 4/7 part fan 'e lemmata fan it Frysk/Frysk wurdboek opnimme sil, mei't in twatalich wurdboek gearstallingen opnimme moat dy't by it oersetten swierrichheden opsmite kinne, mar dy't foar it Frysk/Frysk wurdboek as trochsichtich beskôge wurde kinne (sjoch Dykstra (1989:143)).

    17. Ferlykje Martin e.a. (1986a:13): "Het schijnt een vaststaand feit te zijn [...] dat in grote corpora de hapax legomena. de lexemen die slechts eenmaal in een corpus voorkomen, ongeveer 40% van de verschillende woorden (types) vormen, terwijl ze slechts 7% van de tokens uitmaken. Dat heeft voor gevolg dat bij elke beslissing tot uitbreiding van het aantal types dat men wil beschrijven het corpus zeer sterk moet worden uitgebreid". Meijs (1991:320) ferliket twa Ingelske korpora mei elkoar. It iene hat 1 miljoen tokens en likernôch 50.000 types, wylst it oare 7,3 miljoen tokens hat en 132.000 types. It twadde korpus hat dus goed sân kear sa folie tokens as it earste, mar noch net iens trije kear safolle types.

    18. Sjoch Reichmann (1990:1596), dy't by dizze grafyk opmerkt: "Absolute oder genaue relative Werte zu dieser Kurve anzugeben, ist völlig ausgeschlossen; weder läßt sich die Hohe der Kurve berechnen, noch läßt sich für irgendeinen ihrer Ausschnitte ein Gewinnfaktor angeben, noch läßt sich ihre Abflachung mathematisch fassen. Klar ist lediglich, daß der Aufwand, um von 90% auf 95% des geschätzten Wortschatzes einer Varietät oder Sprache zu kommen, um ein hohes Vielfaches größer ist als der Aufwand, der benötigt wird, um van 70% auf 80% zu kommen, und daß bereits dieser Aufwand denjenigen um ein Vielfaches übersteigt, der den Lexikographen von 20% auf 30% führt".

    19. Dat soks wol wat opsmite kin, sjogge wy bygelyks oan 'e bestannen mei de teksten fan 'e blokjes nijsútstjoerings fan Omrop Fryslân, dy't wy yn 'e TDB opnaam hawwe. By in korpusgrutte fan goed sân miljoen tokens (fuort foar dat de Bibel ynlêzen waard), joegen de léste trije bestannen fan trochinoar 44.000 tokens, resp. 1259, 1177 en 987 nije types!

    20. Yn Birmingham is foar it Collins English Language Dictionary (COBUILD) wurdboek-projekt yn earste ynstânsje in korpus oanlein fan 7 miljoen tokens en letter noch ien fan 13 miljoen tokens. Yn Renouf (1987b) wurdt neigong wat dy útwreiding oan nijsgjirrige ekstra ynformaasje foar de wurdboekskriuwer opsmyt. Se komt ta de konklúzje dat "To the smaller data resource, the larger one variously brings evidence where there was none, or sharpens the focus where a vague picture has begun to emerge, or corrects an imbalance, or sometimes highlights an oddity where there appeared to be none. One must assume that a still larger corpus would continue this process of differentiation, of heigthening the resolution for the word forms under scrutiny". (Renouf (1987b:130))

    76

    wumkes.nl

  • De struktuer en de ynhâld fan 'e Taaidatabank fan it Frysk

    21. Tweintich miljoen tokens is nammers ek de grutte fan it korpus dêr't it kwalitatyf heechsteande COBUILD op basearre is.

    22. Wy geane hjir út fan 'e ideale sitewaasje. It is lykwols hiel goed raooglik dat wy troch jildkrapte twongen wurde ús wat it 20ste-ieuske korpus oanbelanget te beheinen, sadat der rûmte jûn wurde kin oan it 19de-ieuske korpus.

    23. De twadde printinge fan it Omkearwurdboek fan de Fryske Taal (1992) is basearre op it publisearre WFT-trajekt a - izerje en op it part fan it WFT dat al yn manuskript klear lei, meimekoar likernôch 75% fan it hiele materiaal. Wat miste is safolle mooglik oernaain út 'e rubriken derivata en komposita dy't by de WFT-lemmata dy't dêr foar yn 'e beneaming komme opnaam binne. Op dy manier kamen wy op likernôch 106.000 lemmata. Ut in berekkening dy't Hindrik Sijens foar ús makke hat docht büken dat de earste njoggen dielen fan it WFT (a - izerje) likernôch 43.000 lemmata jouwe. Yn it F/N wurdboek beslacht dat trajekt likernôch 36% fan it totaal oantal lemmata. Ekstrapolearjend komme wy dan op in 120.000 lemmata foar it WFT.

    24. Dat soe der op wize kinne dat it F/N wurdboek foar in hânwurdboek in moai ferâldere wurdskat jout.

    25. It korpus is nei alle gedachten optheden noch de krappe kant neist foar frekwinsje-ûndersyk. Ferlykje Landau (1991:94), dy't nei oanlieding fan 'e frekwinsje fan û.o it wurd fearful yn in pear Ingelske korpora konkludearret dat "even a corpus of 7.3 mil-lion words isn't nearly large enough to reflect the frequency of any word". Hielendal sûnder wearde binne de frekwinsjegegevens fan ús korpus lykwols ek wer net. Van Hout en Vermeer (1992:126 ) dogge ferslach fan berekkeningen dêr't út bliken dwaan soe "dat slechts die woorden voldoende betrouwbaar geacht mogen worden die mini-maal 40 keer voorkomen in een corpus". Yn it korpus sa't dat der no hinne leit komme meiïnoar 10461 wurdfoarmen foar mei in frekwinsje fan 40 of heger.

    O anheile en rieplachte literatuer

    Bergenholtz, Henning en Joachim Mugdan (1990) "Formen und Probleme der Datenerhebung II: Gegenwartsbezogene synchronische Wörterbücher". Yn: Franz Josef Hausmann et al eds. Wörterbücher/Dictionaries/Diction-naires. Ein internationales Handbuch zur Lexikographie/An International Encyclopedia of Lexicography/Encyclopédie internationale de lexicographie. Berlin, New York, pp. 1611-1625.

    Dykstra, Anne (1984) Ferslach fan it Cmdersyk nei de opset en it f e riet fan in taaidatabank foar it Frysk. Fryske Akademy, Ljouwert.

    Dykstra, Anne (1989) "Nei in Frysk/Ingelsk wurdboek". Yn: It Beaken, LI, 3, pp. 135-156.

    Dykstra. Anne. Jogchum Reitsma en Willem Visser (1992) Omkearwurdboek fan de Fryske Taal (2de printinge). Ljouwert.

    Friesch Woordenboek (Lexicon Frisicum) Eerste Deel (1900) Leeuwarden.

    Frysk Wurdboek diel I, Frysk-Nederlânsk (1984) Ljouwert.

    Halbertsma, J.H. (a. 1869) Lexicon Frisicum A (Hânskrift).

    Hout. van Roeland & Anne Vermeer (1992) "Frequenties van Woorden en het Geometrisch Gemiddelde". Yn: Gramma/TTT, tijdschrift voor taalkunde, I, 2, pp. 125-132.

    Kruyskamp, C. (1976) Van Dale Groot Woordenboek der Nederlandse Taal. 's Gravenhage.

    77

    wumkes.nl

  • Anne Dykstra en Jogchum Reilsma

    Landau, Sydney I. (1991) "Approaches to Meaning and Their Uses in Lexicography". Yn: Dictionaries. Journal of the Dictionary Society of North America, pp. 91-115.

    Martin, W., F. Platteau en R. Heymans (1986a) Corpora en Lexicografie. Universitaire Instelling Antwerpen. Departement Germaanse Filologie. Sectie Computerlinguïstiek.

    Martin, W., F. Platteau en R. Heymans (1986b) Hedendaags Nederlands als statistische populatie. Universitaire Instelling Antwerpen. Departement Germaanse Filologie. Sectie Computerlinguïstiek.

    Martin, W., F. Platteau en R. Heymans (1986c) Naar een corpus voor een woordenboek hedendaags Nederlands. Universitaire Instelling Antwerpen. Departement Germaanse Filologie. Sectie Computerlinguïstiek.

    Meijs, Willem (1991) "De empirische dimensie". Yn: Spektator. Tijdschrift voor neerlandistiek, 20/3-4, pp. 313-336.

    Oostdijk, Nelleke (1988) "A corpus for studying linguistic Variation", Yn: 1CAME Journal, 12, pp. 3-15.

    Reichmann, Oskar (1990) "Formen und Probleme der Datenerhebung I: Synchronische und diachronische historische Wörterbücher". Yn: Franz Josef Hausmann et al eds. Wörterbücher/Dictionaries/Diction-naires. Ein internationales Handbuch zur Lexikographie/An International Encyclopedia of Lexicography/Encyclopédie internationale de lexicographie. Berlin, New York, pp. 1589-1611.

    Renouf, Antoinette (1984) "Corpus Development at Birmingham University" Yn: Jan Aarts en Willem Meys eds. Corpus Linguistics. Amsterdam, pp. 3-41.

    Renouf, Antoinette (1987 a) "Corpus Development" Yn: J. Sinclair, ed. Looking Up. An account of the COBUILD Project in lexical Computing. London and Glasgow, pp. 1-41.

    Renouf, Antoinette (1987b) "Lexical resolution". Yn: W. Meijs, red. Corpus Linguistics and Bevond. Amsterdam, pp. 121-131.

    Sinclair, J. ed. (1987) Collins Cobuild English Language Dictionary. London and Glasgow.

    Stellingsma, H. (1986) "In taaidatabank fan it Frysk". Yn: It Beaken, XLVIII, nr. 2, pp. 61-84.

    Sterkenburg, P.G.J. van (1989) Taal van het Journaal. Een momentopname van hedendaags Nederlands. 's-Gravenhage.

    Sterkenburg, P.G.J. van (1991) "Iets over de woordenschat van het NOS-journaal" Yn: Ludo Beheydt, red. Taal en Omroep (Nederlandse Taalunie, Voorzetten 33). ' s-Gravenhage, pp. 64-73.

    Sterkenburg, P.G.J. van en W.J.J. Pijnenburg (1984) Van Dale Groot woordenboek van hedendaags Nederlands. Utrecht/Antwerpen.

    Trommelen, Mieke (1986) "Morfologie van elke dag". Yn: Jaarboek van de Stichting Instituut voor Nederlandse Lexicologie, pp. 47-57.

    Willems, Eric en Hans Kerkman (1989) "Een aangepast interface voor het gebruik van lexicale databases bij (o.a.) spraaktechnolo-gische toepassingen (serie Taal- en Spraaktechnologie)". Yn: Informatie, 31, nr 5, pp. 328-340.

    Wurdboek fan de Fryske Taal (1984-...) Lj ou wert.

    78

    wumkes.nl

  • 5 S

    .M-2 ^ 3 ^

    sc .

    î l l

    E E O 6b E

    E S

    OJ

    II 2 ^ :=.

    u c .Si, o o

    Q

    c c , C 3 , C 3

    II fï S .0 C

    ^ *, E C3 ï .

    « •= N - ^ S > > ^

    TJ

    i'i & Ö ^ l l g a Ft -£= 2 ç E B a

    TJ

    6n

    o

    T3

    g

    w

    as l

    ie

    _̂ cu

    X

    heef

    t

    ._ T l C >> CU

    r i

    i-

    h

    -bei

    dj

    D.

    c/c C

    wit

    te

    o c

    c c Ö X TC

    S ë 9.s S - S û t3 ~ 2 ^

    §1 6 0 ^

    c ^ m

    S 3

    1-ë

    sô-S a 60 y

    . ^ ë l f l'ï 'ê g-s s

    3 42 ° ^ CJ r- S % O > •

    - 3 . 5 K £ T J T J

    a-a o c

    • j s B , cu C i C3 CU

    I 7« 73 : j £ c i ^ 3 C3 ) CU CU i T J T J

    it ^ - h ^ CU

    s p i Q

    CU _ •

    1 1 ^ ' * c' 5

    11111* ï ï j x ,cS ,ccj .ca ,ccj ,c3 ,crj rf ,c3 ,rcj ,ccj rt ,c3 ,ccj ,cs

    - CU 5 CU C >

    T J C _

    c 2 5 •- = § s o » o

    • s i s 2 3 - 5 % £ g .1= T J . t i

    e e c ,c3 ,cs ,rcj

    « 3 < ö '

    1 1 1

    ^J

    soart

    e, d

    an k

    in s.

    tûn,

    de

    sid

    e

    1

    'S.

    y w

    ie w

    eak.

    x

    c

    ter

    te b

    anne

    c 3

    'g^

    !' H

    y gi

    c oc

    ro

    uw

    crs?

    ' '

    cu 23

    1? CJ

    teil

    e. A

    s hi

    e

    ;=

    t

    hste

    útk

    omst

    en ^t

    biet

    en e

    n pi

    ,

    CU

    SO

    B% BO C

    '53 ? &

    ' C j ï i J

    • ^ rè s p •

    11 & X

    CU LXH ^ ç

    1) X T3 CU U • X « >^

    B Ó - S T J T , ? - , «

    . _ J Ä TTJ ' 3 ca y.

    — T J

    o rt

    60 S CU X

    l | | S

    1

    X

    Ü o .

    • "

    en

    ^

    . H

    at h

    ja

    bren

    ^ i

    ^

    urke

    .

    $ •

    in

    c C3

    O

    3 u i

    ifte

    n is

    c

    esk

    v?

    yn s

    o

    c

    ~

    3 C3

    O C I J

    mei

    hel

    p ar

    re

    X c

    gen

    ki

    c

    5

    c ccî

    C;

    e be

    hein

    e t

    ta t

    3

    it h

    im

    -"

    3 ccî Ü

    a j T l

    earr

    e w

    u

    I

    údli

    ks

    T3

    .-a

    3 C3

    O CU

    -n

    etle

    n w

    u ôf

    'm

    CU

    riuw

    kin

    TJ

    ^ T J Eo O

    N [ ^ r^ (N [ ^ r , n ( T i ' s f s O O O O ^ i ^ O ^ — ^ C t ^ M M ^ - ^ X — — r^, T f M m — — m

    < l 3 = r~i m r - r e r o — ^ t OC 0> C^ CO c~, O — (N -^t u~i O O O ^ - */"; «n sC i > S - ^ - f c (N — — (N (N M (N (N —

    -4«, r> r ; W - J W - I - ' J — -4-1 -^J * J 4— 4 - . ^ ^ - - i _ . _ J - i - J * - J W W + - . W W * - . - U J J - - . ^ - - J

    S ^ U - t = r 3 ? " S a 3 C C C 3 C C = 3 C 3 3 3 — — — O C J C U C U O

    3^'g. rï — '>>?>?>?>?>>>?>>>?>>^>?>? >^cS £ cS .> .£ .> > C ^ ^ . CS * J W —. U W — ^ 4 - « * J * J * J - J • - • - • - • - . _ . _ . _ . _

    « - S 5 - 3 3 3 3 3

    "S ^ S

    79

    wumkes.nl

    li.il

  • 'áaâssBlIccôc P P S - - , ( g re^craoaaa re re re re lllll.^t

    ^ « 3 P ^ N^ g ^

    x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x

    hJ K> M — —

    O N ^ S C O O N O O N ^ O N N i ' J l

    ' j j r o ON - J

    4L* ON

    GC

    s

    NO

    4L.

    N->

    ^ J ON

    OC

    ^ 4

    I J

    U J

    ' j j

    vC

    ' J j

    K ) O

    4L- ~ J

    l O

    ' J l

    l O

    '̂ ^ 1

    ~-J ' j j - 4 O-

    ON r o

    L A

    ON

    s =

    s £

    3 O"

    3 & i -3! 2T

    II

    ^fl'i fr9hï

    5 - ^ ^3" a.

    3 - 3 f o " < CT V; 3 c; --^ CT 3 î =.• P re 3

    • re - • a . p Q

    3.- 3 ^ 2 3 R p o i

    3 n. re ^ ^ re_ re ̂ -! re

    ' o o o 'Ti' B'. & c C L O «> re CT re o £

    Uil mi

    - < c

    SS 03 P - L a . p C L 3 CT _

    o d

    ' 3 ? v S ^ 3>-g • a-S- % £. re-

    3- 3 5' - : 3 , 7 d = re 3

    ? r » = S - 5 á oa

    ; o

    re> £ re"

    o ? re c

    = = i

    I ?

    S « m

    g-o ^ 3 O

    re

    p 1 oa

    " "-, °--£_ ~ re^ o " rë' ^ N < re

    "O 3,- 3 t < = g ^ re 3

    -5 3 qs & ^ ~ : 3 3 3 " y^ Oa re

    S ^ 2. f" 5 : O -'• N

    II c ? - 2 If Üre

    uu

    re

    , % 0 | r e

    ' 5-. £"' o . 3 3 re

    • '1 §' L?

    * . 2 S g

    C ^ Q . '

    - re ? 5'

    3 c L r ê

    ? 3'f CL £

    re. £> re

    ~5. I f

    | | | | f | | | | | | | | | | mn P> p> p> 55> p>

    « 2

    T;

    N< re

    I

    LL. 3 ^ o "O re 3 re 3 re --

    p ' p p p ' p ' p ' p p ' p ' p p p p

    a i & t a ^ 3 - rt ~- = • = 9 - o - £ . g - H - t - » — ^ o ^ ^ - - ,

    £ x e s c f f f & i

    ^

    'rë' p

    "-, I. re'

    i' * 3 s

    CL 3

    2 3 3 ' 3 ' £ 3 3 » o re « S ' S ' D .

    TT re

    p -_ E. E ; o

    o 3 * 3 ^ C E . P TT 3 C- x CT

    3 5 ^ o a •J-- Q

    UI

    77"

    2

    Earn

    o ?

    Ante

    Gep

    •s. 5

    E -5

    depu

    re p

    trijc

    cr> J

    de st

    p

    &

    oanh

    re_

    dele

    C -re re

    korp B

    aef

    7? O 9 3

    3' o--2 1

    I 3 % % % 1 • 3 sr ™ c £

    re =1 « ^ P

    c- 5 c

    « -2-a ^ î 2 5"g c|'

    ^&e--§ F L - re^ll'

    o

    =-• - ? r - 2 =s

    p _. —^ /0 —

    re ff 3 p

    = i-Q re T3

    D3 ^ ^ re ; Oa

    I o-

    80

    wumkes.nl

  • Taheakke B. Type-frekwinsjelist. Hjir jouwe vvy de 175 heechstfrekwinte types, mei dêr achter it tal kearen dat se yn it korpus foarkomme. Yn noat 12 seine wy al dat wy der netfoar kinne dat der út en troch net-Fryske wurden yn it korpus sitte. Yn ûndersteande list stiet it Nederlânske van sels op it 136ste plak. Dat komt om 't van, lykas it Fryske fan hiel frekwint is. At der Nederlânske stikjes yn in Fryske tekst sitte, sil it wurdsje van dêr dusfaak tusken sitte. Van komt ekfaakfoaryn achternammen. Sa komt allinnich al yn ús artikel it Nederlânske van 55 kearfoar.

    DE IT EN FAN IN YN DAT NET OP IK MEI IS 'E DER TE MAR AS FOAR ER OAN DY WIE EK SE WAT OM BY SYN HAR HY HIM DY'T WOL NEI SA DAN HAT ÚT NOCH HIE OER AL WY MY HJA NO DêR BINNE WER TA TROCH MEAR WURDE GJIN

    382418 276273 229633 195234 175868 160121 129191 98020 96687 90156 86348 84777 79335 77714 77486 73667 69098 63336 57200 56345 56106 55793 53793 49340 47372 47113 46685 46624 46250 45830 43642 42789 42746 42218 37450 37364 35168 34769 34650 34486 32820 31876 29238 29108 28973 28787 26873 23457 23130 22834 22375 21344 20703 19778

    KIN ]0 SOE OF SIL SEI HAWWE ÚS 'T IEN MYN MOAT WURDT DIT DOE HA TSJIN WêZE OARE KOE WAARD HJIR DêR'T KAAM GOED MAN ALLE DOE'T WANT KINNE MEN DIZZE KOMT MOATTE OARS KOMME NEAT DOCHS SELS HEIT MINSKEN WEST JIER MOAST ÛNDER JIMME ÔF BERN WEI WIENE WURDEN SA'N HINNE TUD

    19357 19310 19121 19019 18561 18437 18120 17328 16727 16659 15971 15902 15246 15054 14656 14510 14221 13972 13958 13487 13339 13069 12745 12388 12333 11576 11566 11421 10864 10849 10831 10433 10106 10007 9892 9827 9734 9612 9453 9434 9302 9302 9236 9231 8978 8841 8812 8777 8712 8650 8401 8233 8165 8165

    HâN MEM GRUTTE SJEN JA HAW TWA FRYSK ALLES HEARE HûS SEIT TUSKEN KREKT GOD RIS GIET DWAAN HARREN WOE SILLE HAST HOE SEACH EIGEN GEAN ALTYD VAN ALLtNNE HIELE HIENE FROU MAKKE FRYSKE FRYSLâN BIN SIZZE EARSTE FOLLE WURK DYN EARST FOLK LIBBEN LETTER PLAK NIJE TIGE STIE FANSELS LANG JIM WEROM KOMMEN

    8065 7963 7942 7895 7879 7876 7869 7768 7665 7557 7539 7519 7417 7330 7254 7175 7162 7100 7048 7017 6832 6789 6617 6607 6574 6560 6552 6489 6445 6416 6371 6339 6338 6319 6291 6259 6157 6152 5993 5819 5733 5654 5640 5621 5600 5583 5573 5552 5531 5519 5499 5480 5474 5469

    DO STIET KEAR SÜNDER DIEN NEFFENS LIT DUS EAGEN BEIDE LâN OANT KRIGE DIE PEAR JONGE WIT LêSTE TOCHT STEAN LYKWOLS FUORT HIEL JûN

    5454 5445 5350 5309 5297 5226 5201 5144 5142 5132 5090 5089 5075 5045 5039 5012 4900 4885 4842 4839 4822 4784 4776 4748

    81

    wumkes.nl

  • Taheakke C. Retrograde list.

    roggenbrea klienbrea

    spek-en-brea supenbrea

    bier-en-brea weitenbrea

    jûnbrea knipbrea

    hynderbrea flierbrea

    sûkerbrea soerbrea

    switserbrea midswinterbrea

    hjouwerbrea fuorbrea

    earstelingsbrea middeisbrea

    ljochtmisbrea nachtmielsbrea

    libbensbrea kastleinsbrea

    moarnsbrea jûnsbrea

    raelkjûnsbrea switsersbrea

    needdriftsbrea swietbrea

    wytbrea kantbrea bloedrea dagerea

    jûnrea moarntiidsrea

    jûntiidsrea moarnsrea

    jûnsrea sea

    stea wea

    kwea sydkwea

    minskekwea bernekwea

    tekwea kattekwea túchkwea

    drankkwea perkkwea

    meager-en-kwea ûnkwea

    meagerkwea efterkwea

    buormanskwea oerwea

    benvingswea fa

    kneppelfa sofa saga

    kollega omega

    asega ûnderwiisliga

    noga toga fuga

    ha aha

    haha poeha poha

    dia kleuredia

    fia raf†ïa

    wetterlobelia weigelia manjolia jeremia

    metonymia sturmia

    begoania blêdbegoania stâlbegoania bolbegoania

    knolbegoania sinia

    hernia petunia

    sepia aria

    malaria gloaria

    paria kafetaria

    akasia foksia

    parnassia monbretia

    montbretia montia knautia

    klivia razzia

    ja radja

    hja guerilja

    wolja

    ranja daterja

    tsja halleluja

    ka âldka

    fûleka logika

    hydraulika formika

    meganika harmoanika

    mûleharmoanika mûlharmoanika mûnharmoanika

    blaasharmoanika montharmoanika

    Amearika Noard-Amearika

    Súd-Amearika Afrika

    Súd-Afrika fysika

    rnetafysika atoomfysika kearnfysika

    kletsika matematika grammatika

    estetika ekliptika

    mokka tsjerkka

    polka alpenka kasarka

    toerka sirka

    la eala gala hala

    skala la-la

    li berde la hela sela

    fla heila hui la hyla alla

    Serradella limosella

    filla

    82

    wumkes.nl

  • De weirekke tsiende Kêst

    Oer in ûnbekende ferzy fan de 17 Kêsten

    Johanneke Krolis-Sytsema

    Zusammenfassung

    Der bekannte altfriesische Rechtstext 'die 17 Küren' ist in verschiedenen Fassungen überliefert. Diese Fassungen sind zwar unterschiedlich, aber nicht völlig verschieden. In den Ommelander Rechtshandschriften stoften wir auf eine niedersächsische Uebersetzung einer bisher unbekannten Fassung der 10. Küre. Diese alternative 10. Küre bietet einen ursprünglichen Text und gibt mit einen Hinweis hinsichtlich der Entstehung der 17 Küren. In diesem Aufsatz wird die alternative 10. Küre in Zusammenhang mit den bekannten niedersächsischen und altfriesischen Fassungen betrachtet.

    1. Ynlieding

    Ien fan de klassike âldfryske rjochtsteksten is de tekst fan de 17 Kêsten, 17 artikels dêr't alderhande privileezjes fan de Friezen yn fêstlein binne. Yn de earste Kêst en ek yn folgjende Kêsten wurdt mei safolle wurden sein dat de Friezen de Kêsten fan Kening Karel (de Grutte) krigen hawwe.

    Thit is thio erste kest and thio keninges kerlis ieft alra fresena (Dit is de earste kêst, injeftefan kening Karel oan alle Friezen).

    It berop op kening Karel foarmet in goeie legitimaasje fan de privileezjes dy't de 17 Kêsten jouwe, mar bewust net dat de Kêsten al yn de tiid fan Karel de Grutte ûntstien binne. De tekst f