georg rehm, hans uszkoreit auth., georg rehm, hans uszkoreit eds. the norwegian language in the...

Upload: aniko-guttmann-papp

Post on 03-Jun-2018

261 views

Category:

Documents


0 download

TRANSCRIPT

  • 8/12/2019 Georg Rehm, Hans Uszkoreit Auth., Georg Rehm, Hans Uszkoreit Eds. the Norwegian Language in the Digital Age Nynorskversjon 2012

    1/84

  • 8/12/2019 Georg Rehm, Hans Uszkoreit Auth., Georg Rehm, Hans Uszkoreit Eds. the Norwegian Language in the Digital Age Nynorskversjon 2012

    2/84

    White Paper Series

    THENORWEGIAN

    LANGUAGE INTHE DIGITAL

    AGE

    Kvitbokserie

    NORSKI DENDIGITALETIDSALDEREN

    NYNORSKVERSJON

    Koenraad De Smedt UIBGunn Inger Lyse UIBAnje Mller Gjesdal UIBGyri S. Losnegaard UIB

    Georg Rehm, Hans Uszkoreit(Redaktrar, editors)

  • 8/12/2019 Georg Rehm, Hans Uszkoreit Auth., Georg Rehm, Hans Uszkoreit Eds. the Norwegian Language in the Digital Age Nynorskversjon 2012

    3/84

    Editors

    Georg RehmDFKIAlt-Moabit 91cBerlin 10559Germanye-mail: [email protected]

    Hans UszkoreitDFKIAlt-Moabit 91cBerlin 10559Germanye-mail: [email protected]

    ISSN 2194-1416 ISSN 2194-1424 (electronic)ISBN 978-3-642-31432-2 ISBN 978-3-642-31433-9 (eBook)DOI 10.1007/978-3-642-31433-9Springer Heidelberg New York Dordrecht London

    Library of Congress Control Number: 2012941133

    Springer-Verlag Berlin Heidelberg 2012This work is subject to copyright. All rights are reserved by the Publisher, whether the whole or part of the material isconcerned, specically the rights of translation, reprinting, reuse of illustrations, recitation, broadcasting,reproduction on microlms or in any other physical way, and transmission or information storage and retrieval,electronic adaptation, computer software, or by similar or dissimilar methodology now known or hereafterdeveloped. Exempted from this legal reservation are brief excerpts in connection with reviews or scholarly analysisor material supplied specically for the purpose of being entered and executed on a computer system, for exclusiveuse by the purchaser of the work. Duplication of this publication or parts thereof is permitted only under theprovisions of the Copyright Law of the Publishers location, in its current version, and permission for use mustalways be obtained from Springer. Permissions for use may be obtained through RightsLink at the CopyrightClearance Center. Violations are liable to prosecution under the respective Copyright Law.The use of general descriptive names, registered names, trademarks, service marks, etc. in this publication does notimply, even in the absence of a specic statement, that such names are exempt from the relevant protective laws andregulations and therefore free for general use.While the advice and information in this book are believed to be true and accurate at the date of publication, neitherthe authors nor the editors nor the publisher can accept any legal responsibility for any errors or omissions that maybe made. The publisher makes no warranty, express or implied, with respect to the material contained herein.

    Printed on acid-free paper

    Springer is part of Springer Science+Business Media (www.springer.com)

  • 8/12/2019 Georg Rehm, Hans Uszkoreit Auth., Georg Rehm, Hans Uszkoreit Eds. the Norwegian Language in the Digital Age Nynorskversjon 2012

    4/84

    FORORD PREFACE

    Dette dokumentet er del av ein serie som skal fremje is white paper is part of a series that kunnskap om sprkteknologiens status og potensiale. knowledge about language technology aMlgruppa er journalistar, politikarar, sprkbrukarar, tial. It addresses journalists, politicians, lalrarar og andre interesserte. Tilgangen til, og nytta av, munities, educatorsand others. eavailabilsprkteknologi i Europa varierer frsprk til sprk.Di- of language technology in Europe varies forvilg naudsynte tiltak for sttte forskingog utvik- guages. Consequently, the actions that areling av sprkteknologi vere ulike for kvart sprk. Kva further support research and developmenfor tiltak som er naudsynte, avheng av eire faktorar, technologies also differs. e required actitil dmes kompleksiteten i eit gjeve sprk og mengda on many factors, such as the complexity sprkbrukarar. guage and the size of its community.ForskingsnettverketMETA-NET,eit Network of Excel- META-NET, a Network of Excellence funded by thlence nansiert av Europakommisjonen, presenterer European Commission, has conducted an i denne serien (jf. s. 81) analysen sin av eksisterande current language resources and technologiesprkressursar og teknologiar for dei 23 offisielle EU- white paper series (p. 81). e analysis focused on thesprka og andre nasjonale og regionale sprk i Europa 23 official European languages as well a mellom deinorsk. Resultata av denne analysen tyder tantnationaland regional languages inEur p at det er betydelege hol i forsking og utvikling for sults of this analysis suggest that there aralle sprka. Denne detaljerte ekspertanalysen av den decits in technology support and signinoverande situasjonen i denne serien vil vonleg bidra gaps for each language. e given detailedtil maksimere effekten av ny forsking. ysis and assessment of the current situationPer november 2011 bestr META-NET av 54 fors- maximise the impact of additional researchkingsinstitusjonar i 33 land (jf. s. 77) som samarbeider As of November 2011, META-NET consists omed kommersielle aktrar (IT-fretak, utviklarar og research centres from 33 European count 77).brukarar), offentlege etatar, ikkje-statlege organisasjo- META-NET is working with stakeholdenar, representantar for sprksamfunn og universitet. I omy (So ware companies, technology prsamarbeid med desse samfunnsrepresentantane er m- users), government agencies, research olet skape ein felles teknologivisjon og utvikle ein non-governmental organisations, langustrategisk forskingsagenda for eit eirsprkleg Europa nities and European universities. Togethinnan r 2020. communities, META-NETis creating a common te

    nology vision and strategic research agenda for mulingual Europe 2020.

    III

  • 8/12/2019 Georg Rehm, Hans Uszkoreit Auth., Georg Rehm, Hans Uszkoreit Eds. the Norwegian Language in the Digital Age Nynorskversjon 2012

    5/84

    META-NET [email protected] http://www.meta-net.eu

    Forfattaraneavdennerapportentakkarforfattaraneavrappor-ten for tysksprk for lyve til gjenbrukeutvalt sprkuavhen-gig material fr dokumentet deira [1]. Forfattarane takkar g Gisle Andersen, Torbjrg Breivik, Helge Dyvik, Kristin Ha-gen, Torbjrn Nordgrd, Torbjrn Svendsen og Trond Tros-terud for verdifulle bidrag og kommentarar.

    Arbeidet med denne utgreiinga er nansiert av det sjuande

    rammeprogrammet og Den europeiske kommisjonens ICTPolicy Support program, gjennom kontraktane T4ME (til-delingsavtale 249119), CESAR (tildelingsavtale 271022),METANET4U (tildelingsavtale 270 893) og META-NORD(tildelingsavtale 270 899).

    e authors of this document are grateful to the authors the White Paper on German for permission to re-uselected language-independent materials from their docum[1]. ey also wish to thank Gisle Andersen, Torbjrg BreivHelge Dyvik, Kristin Hagen, Torbjrn Nordgrd, TorbjSvendsen and Trond Trosterud for valuable contributionscomments.

    e development of this White Paper has been funded by tSeventh Framework Programme and the ICT Policy SupProgramme of the European Commission under the contrT4ME (Grant Agreement 249119), CESAR (Grant Agment 271022), METANET4U (Grant Agreement 270 89and META-NORD (Grant Agreement 270 899).

    IV

  • 8/12/2019 Georg Rehm, Hans Uszkoreit Auth., Georg Rehm, Hans Uszkoreit Eds. the Norwegian Language in the Digital Age Nynorskversjon 2012

    6/84

    INNHALD CONTENTS

    NORSK I DEN DIGITALE TIDSALDEREN

    1 Samandrag 1

    2 Sprka vre str i fare 42.1 Sprkgrenser hindrar utviklinga av eit europeisk informasjonssamfunn . . . . . . . . . . . . . . . . 52.2 Sprka vre str i fare . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52.3 Sprkteknologi kan leggje til rette for sprkbruk . . . . . . . . . . . . . . . . . . . . . . . . . . . 52.4 Sprkteknologi gjev moglegheiter . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62.5 Utfordringar for sprkteknologi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72.6 Sprktileigning hos menneske og maskiner . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7

    3 Norsk i det europeiske informasjonssamfunnet 93.1 Generelle fakta . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93.2 Srtrekk ved norsk sprk . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93.3 Nyare utviklingstrekk . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103.4 Sprkpolitikk i Noreg . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113.5 Sprk og utdanning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123.6 Inkluderingsaspekt . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 133.7 Internasjonale aspekt . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 143.8 Norsk p Internett . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14

    4 Sprkteknologisk sttte for norsk sprk 164.1 Applikasjonsarkitekturar . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 164.2 Dei viktigaste bruksomrda . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17

    4.3 Andre bruksomrde . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 264.4 Utdanningsprogram . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 274.5 Nasjonale prosjekt og initiativ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 284.6 Situasjonen for sprkteknologisk sttte for norsk sprk . . . . . . . . . . . . . . . . . . . . . . . . 294.7 Samanlikning p tvers av sprk . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 304.8 Oppsummering . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31

    5 Om META-NET 35

  • 8/12/2019 Georg Rehm, Hans Uszkoreit Auth., Georg Rehm, Hans Uszkoreit Eds. the Norwegian Language in the Digital Age Nynorskversjon 2012

    7/84

    THE NORWEGIAN LANGUAGE IN THE DIGITAL AGE

    1 Executive Summary 37

    2 Languages at Risk: a Challenge for Language Technology 402.1 Language Borders Hold back the European Information Society . . . . . . . . . . . . . . . . . . 412.2 Our Languages at Risk . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 412.3 Language Technology is a Key Enabling Technology . . . . . . . . . . . . . . . . . . . . . . . . 412.4 Opportunities for Language Technology . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 422.5 Challenges Facing Language Technology . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 432.6 Language Acquisition in Humans and Machines . . . . . . . . . . . . . . . . . . . . . . . . . . . 43

    3 The Norwegian Language in the European Information Society 453.1 General Facts . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 453.2 Particularities of the Norwegian Language . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 453.3 Recent Developments . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 473.4 Official Language Protection in Norway . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 473.5 Language in Education . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 483.6 Inclusion Aspects . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 493.7 International Aspects . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 503.8 Norwegian on the Internet . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51

    4 Language Technology Support for Norwegian 524.1 Application Architectures . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 524.2 Core Application Areas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 534.3 Other Application Areas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 624.4 Educational Programmes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 634.5 National Projects and Initiatives . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 634.6 Availability of Tools and Resources . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 654.7 Cross-language comparison . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 654.8 Conclusions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67

    5 About META-NET 71

    A Litteraturliste --- References 73

    B Medlem i META-NET --- META-NET Members 77

    C META-NET kvitbokserien --- The META-NET White Paper Series 81

  • 8/12/2019 Georg Rehm, Hans Uszkoreit Auth., Georg Rehm, Hans Uszkoreit Eds. the Norwegian Language in the Digital Age Nynorskversjon 2012

    8/84

    1

    SAMANDRAG

    Informasjonsteknologi pverkar kvardagen vr. Vi bru-kar datamaskiner nr vi skriv, redigerer, reknar ut, s-kjer etter informasjon, og i aukande grad ogs nr viles, hyrer p musikk, kikkar p bilete og ser p lm.Vi har med oss sm datamaskiner i lomma og brukardesse til ringe, skrive e-post, innhente informasjon og

    til underhalde oss sjlve kvar vi enn er. Men p kvamte verkar denne utstrakte digitaliseringa av informa-sjon,kunnskapogdaglegkommunikasjoninnpsprket vrt? Vil sprketvrtendreseg eller tilog med forsvinne?Kva er sjansane for at norsk sprk vil best?

    Mange av dei 6000 sprka som nst i verda i dag vilikkje overleve i det globaliserte digitale informasjons-samfunnet. Ein reknarmedatminst 2000 sprkkjemtilforsvinnedeikommandetira.Andrevilframleisspele

    ei rolle i privatsfrenog lokalsamfunnet, men ikkje i detbreiare offentlege liv som nringsliv og akademia. Sta-tusen til eit sprk avheng ikkje berre av taletpbrukarareller kor mange bker, lmar og TV-stasjonar som nyt-tar sprket, men ogs av i kor stor grad sprket gjer seg gjeldandei den digitaleverkelegheitaogblir brukti pro-gramvareapplikasjonar.

    I denne samanhengen slit norsk framleis med vekse-smerter. I byrjinga av det tjuefrste hundreret eksis-terte norsk sprkteknologi berre i svrt liten skala. Detfanst eit relativt godt system for omsetjing fr bokmlog nynorsk, der var stavekontroll, og det fanst ogs eitlite dialogsystem som svarer p sprsml, medan folk est lo av den drlege kvaliteten til dei frste talegjen-kjenningsprogramma. Eit ambisist industrielt initiativ til utvikling av sprkteknologi p Voss mislykkast. In-

    nan hgare utdanning fanst det program for sprkteknologi og datalingvistikk, og det eksisterte forskingdesse felta, mendetmangla sprkressursar og sprkvety.Biletet endra seg d Forskingsrdet tok initiativ til esprkteknologiprogram i 2002, med sikte p utvik

    ny kunnskap og ndvendige verkty. Programmet rsulterte i eire prosjekt som skapte ny kompetanse oeit betre grunnlag for norsk sprkteknologi. Dei strs prosjekta i dette sprkteknologiprogrammet leverte etekst-til-tale-system og ein demonstrator for omsetjiav hg kvalitet fr norsk til engelsk.Etter Stortingsmeldinga fr 2008 [2], og vedtaket av denne meldinga i Stortinget, vart ei fritt tilgjengelsamling av norske sprkteknologiske ressursar, Sprk-

    banken, etablert i 2010. Sprkbanken er no i gong medbyggjeoppogdistribuerenorskesprkdata,eioppgsom lenge har vore etterspurd innan forsking og utviling. Dersom dette arbeidet blir halde ved like, vil dutgjereeiuvurderleginvesteringiframtidatildetnorsksprket.Trass ei betydeleg utvikling innan norsk sprkteknolodet siste tiret viser denne rapporten at det enno berrer for basisverkty og -ressursar at situasjonen er nolunde tilfredsstillande. Nr det gjeld meir avanserte a plikasjonar, nst det framleis svrt f verkty og ressar for norsk, og vi har framleis langt igjen fr norsprk er sikra ei framtid som fullverdig aktr i det mderne og framtidige europeiske sprksamfunnet.Informasjons- og kommunikasjonsteknologien frebseg no til neste teknologirevolusjon. I kjlvatnet av p

    1

  • 8/12/2019 Georg Rehm, Hans Uszkoreit Auth., Georg Rehm, Hans Uszkoreit Eds. the Norwegian Language in the Digital Age Nynorskversjon 2012

    9/84

    sonlegedatamaskiner,nettverk, stadigmindreog lettarekomponentar, multimedia, mobile einingar og databe-handling i digitale skyer, vilden neste generasjonen tek-nologibestavprogramvaresomikkjeberreforstrtalteog skrivne bokstavarog lydar, men ogs heileord og set-ningar, og som stttar brukaren betre enn dagens tek-nologi, fordi han snakkar, kjenner og forstr sprketdeira.ForlpararidenneutviklingaerIBMsisuperdata-maskin Watson, som sigra over USA-meisteren i kunn-skapsspelet Jeopardy, og Apple sin mobilassistent Sirifor iPhone, som responderer p sprkkommandoar og kansvarepsprsmlpengelsk,tysk,franskogjapansk.Eit norsk taleattkjenningssystem for iPhone er tilgjen-geleg, men det er framleis mykje mindre pliteleg enndet tilsvarande engelske systemet.

    Sprkbrukarar kommuniserer allereie ved hjelp av tek-nologien som er utvikla for deira sprk. Etter kvart vilteknologiske innretningar, som respons p enkle tale-kommandoar, vere i stand til hente dei viktigaste ny-henda og informasjonen fr den globale digitale kunn-skapsbasen. Sprkbasert teknologi vil kunne omsetjeautomatisk eller fungere som sttte for tolkar, lage sa-mandrag av samtaler og dokument og vere eit hjelpe-middelilringssituasjonar.Sprkteknologiviltildmeskunne hjelpe innvandrararmed lrenorsk,og dermedogs med integrering i det norske samfunnet.

    Informasjons- og kommunikasjonsteknologi vil gjereindustrielle robotar og tenesterobotar (som i dag er un-der utvikling i forskingslaboratoria) i stand til forstkva brukaren nskjer at dei skal gjere og til rappor-tere om oppgvene dei har utfrt. Eit slikt prestasjons-nivstrekkjerseglangtutoverenklebokstavlisteroglek-sika, stavekontrollarog uttalereglar. Skal sprkteknologikunne tolke sprsml og levere utfyllande og relevantesvar, m han bevege seg fr basale tilnrmingar til eitmeir altomfattande perspektiv, der sprkmodelleringatek omsyn til syntaks s vel som semantikk.

    Ikkje alle europeiske sprk er like godt frebudde ei slik framtid. Denne rapporten presenterer ei evaluring av graden av sprkteknologisttte for 30 europiske sprk, basert p re kjerneomrde: maskinoms jing, taleprosessering, tekstanalyseog, til sist,basisressar som er naudsynte for kunne byggje sprkteknogiske applikasjonar. Sprka vart delte inn i fem klynetter niv, og ikkje overraskande hamna norsk i botklynga, og i enkelte tilfelle i klynga over, for alle ty verkty og ressursar. Norsk ligg langt etter strre spsom til dmes tysk og fransk. Men ikkje ein gong desprka klarer n opp til kvaliteten og dekningsgrden til samanliknbare ressursar og verkty for engelsom er det klart leiande sprket p nesten alle felt innasprkteknologi.

    I St.meld. nr. 48 [3] konstaterer ein at sprkteknologi-feltet kan verte ein avdeifremste arenaene der kampeomnorsk sprk og kulturvil utspela seg i tida framove(kap. 12.9, s. 196). Kva m vi s gjere for sikre nosprk ei framtid i informasjonssamfunnet? I 2002 aslo ei ekspertgruppe skipa av myndigheitene at det krevje ei investering p 20 millionar kroner kvart r dei

    frste fem ra [4]. Sjlv om Sprkbanken no er etablertog verksam, er det eit faktum at dei rlege investerigane s langt har utgjort berre ein brkdel av estimebehov. Det skulle difor ikkje komme som noka overasking at norsk sprkteknologi framleis heng att i tilegbarndom.Kommersielterfemmillionarsprkbrukarar for f til aleine forsvare ei kostbar utvikling av n produkt.NorskIT-industri,og spesielt storeog mellomstore bedri er, kan ikkje sjlve ta kostnadene ved by

    gje opp store sprkressursar og verkty for norsk. Fraleis offentleg sttte er ndvendig for sikre at eksisrande verkty og opparbeidd kunnskap og erfaring hforskarar og bedri er skal bli utnytta til fulle.

    Norsk sprk er ikkje umiddelbart trua av den engelsdominansen innan sprkteknologi. Dette kan likeveendre seg drastisk nr den nye generasjonen teknol

    2

  • 8/12/2019 Georg Rehm, Hans Uszkoreit Auth., Georg Rehm, Hans Uszkoreit Eds. the Norwegian Language in the Digital Age Nynorskversjon 2012

    10/84

    giar tek til meistre menneskeleg sprk mykje betre, og meir effektivt, enn det dagens teknologi klarer. Gjen-nomutviklinginnan maskinomsetjing vilsprkteknolo-gienpsiktmedverketilbrytenedsprkbarrierar,mendette vil berre gjelde dei sprka som er med p overgan-gentileitdigitalisertsamfunn.Tilstrekkelegoggodnok sprketeknologikansikreatsprkmedrelativtsmbru-kargrupper overlever. Som ein konsekvens er ei investe-ring i sprkteknologi ein essensiell del av sprkpolitik-ken ogs i framtida.META-NET sin visjon er leggje til rette for sprk-teknologi av hg kvalitet for alle sprk. Teknologien

    vil sleis sttte politisk og konomisk fellesskap gjnom kulturelt mangfald. Den vil vidare bryte ned esisterande barrierar og byggje bruer mellom europeisprk. Dette inneber at alle interessentar i politikkforsking,nringslivogsamfunnmforeinekre erfoframtida.Denne sprkrapporten utgjer ein viktig del av METANET sin strategiske handlingsplan. Oppdatert informasjon, som til dmes den siste versjonen av METANET sitt visjonsskriv [5] eller plan for forskingsstrategi(Strategic Research Agenda, SRA), er begge nneMETA-NET si nettside: http://www.meta-net.eu.

    3

  • 8/12/2019 Georg Rehm, Hans Uszkoreit Auth., Georg Rehm, Hans Uszkoreit Eds. the Norwegian Language in the Digital Age Nynorskversjon 2012

    11/84

    2

    SPRKA VRE STR I FARE: EI UTFORDSPRKTEKNOLOGIEN

    Vi er vitne til ein digital revolusjon som pverkar kom-munikasjonen og samfunnet dramatisk. Den seinasteutviklinga i digital informasjons- og kommunikasjons-teknologi blir nokre gonger samanlikna med Guten-

    bergs oppnning av trykkpressa. Kva kan denne analo-gien fortelje oss om framtida for det europeiske infor-masjonssamfunnet generelt og for stillinga til sprkaspesielt?

    Vi er vitne til ein digital revolusjon som kansamanliknast med Gutenbergs oppnning av

    trykkpressa.

    I kjlvatnet av Gutenbergs oppnning skjedde eirestore gjennombrot i kommunikasjon og kunnskapsut- veksling, som til dmes Luthersomsetjing av Bibelen tileigemorsml.SidanGutenbergstidhareinutviklaeireteknikkar for betre handsaming av sprkbehandling og kunnskapsutveksling:

    standardisering av rettskriving og grammatikk for

    dei vanlegaste sprka har gjeve ei hurtigare spreiing av nye vitskaplege og intellektuelle idear;

    utviklinga av offisielle sprk har gjort det lettare forinnbyggjarane kommunisere innanfor visse (somo ast politiske) grenser;

    undervising og omsetjing mellom sprk har bidregetil utveksling p tvers av sprk;

    etablering av redaksjonelle og bibliograske reningsliner har sikra kvaliteten og tilgangen p trymateriale;

    etablering av ulike medium som aviser, radio, ern

    syn,bkerog andre medium har dekt ei rekkje kommunikasjonsbehov.

    Deisiste tjue raharinformasjonsteknologi bidrege tilautomatisere og forenkle mange av desse prosessane

    publiserings- og teksthandsamingsprogram har estatta skrivemaskin og dokumentproduksjon;

    Microso PowerPointhar erstatta overheadtranspa-

    rentar; e-post gjer det mogleg sende og ta mot dokume

    raskare enn med ei faksmaskin; Skype tilbyr billege telefonsamtaler via Internett

    legg til rette for videokonferansar; ulikeformatforlagringavlydarogvideogjerdeten

    kelt utveksle multimedie-innhald; skemotorar gjer det enkelt skje i nettsider; nettbaserte tenester som Google Translate produse

    rer raske, omtrentlege omsetjingar; sosiale medium som Facebook, Twitter og Google

    forenklar hurtig kommunikasjon, samarbeid og informasjonsdeling.

    Sjlvomslikeverktyogprogramernyttige,erdeienikkje i stand til fullt ut fylle rolla som ein berebjel

    4

  • 8/12/2019 Georg Rehm, Hans Uszkoreit Auth., Georg Rehm, Hans Uszkoreit Eds. the Norwegian Language in the Digital Age Nynorskversjon 2012

    12/84

  • 8/12/2019 Georg Rehm, Hans Uszkoreit Auth., Georg Rehm, Hans Uszkoreit Eds. the Norwegian Language in the Digital Age Nynorskversjon 2012

    13/84

    iske marknaden for omsetjing, tolking, programvarelo-kaliseringognettstadsglobaliseringutgjorde8,4milliar-dar euro i 2008, og dette talet blir forventa vekse med10% rleg [9]. Men denne investeringa dekkjer berreein liten del av det noverande og framtidige behovetfor kommunikasjon mellom sprk. Eit viktig tiltak for sikre breidda og mangfaldet av sprkbruk i morgon-dagens Europa er bruke riktig teknologi, akkurat som vi bruker teknologi til lyse utfordringar innan trans- port, energi og universell utforming.Digital sprkteknologi (retta mot alle former for tekstog munnleg tale) kan hjelpe menneske til samarbeide,drive handel, dele kunnskap og delta i sosiale og poli-tiskedebattarptversavsprkbarrierarogdatakunnska- par.Sprkteknologi ero e innebygd i kompleksesystemsom hjelper oss med :

    nne informasjon med ein Internett-skemotor; sjekke staving og grammatikk i eit teksthandsa-

    mingsprogram; vise produkttilrdingane i nettbutikkar; hyre taleinstruksjonar fr eit bilnavigasjonssystem;

    omsetje nettsider via nettbaserte tenester.Sprkteknologi bestr av ei rekkje kjerneapplikasjonarsom legg til rette for ulike prosessar innanfor eit strreapplikasjonsrammeverk. Fremlet med META-NETssprkrapportar er underskje i kva grad og kor godtdesse kjerneteknologiane er utvikla for dei europeiskesprka.

    Vi treng robust og rimeleg sprkteknologi for alledei europeiske sprka.

    For oppretthalde ein leiande posisjon i global innova-sjontrengEuropaeinsprkteknologisomertilpassaalleeuropeiske sprk og som er robust, rimeleg og tett inte-grert i relevant programvare. Utan sprkteknologi vil vi

    ikkje kunne skape ei effektiv, interaktiv, multimedial eirsprkleg brukaroppleving i den nre framtida.

    2.4 SPRKTEKNOLOGI GJEVMOGLEGHEITERIeiverdbasertptrykkjeteknologivardetviktigeteknlogiskegjennombrotet rask kopiering avei tekstside vhjelp av ei trykkpresse. Det omstendelege arbeidet m sl opp, lese, omsetje og oppsummere kunnskap mframleis utfrast av menneske. Ikkje fr Edison kunein lagre tale, og d berre som analoge kopiar.Digital sprkteknologi kan no automatisere sjlve omsetjingsprosessen, innhaldsproduksjon og kunnskaphandsaming for alle europeiske sprk. Sprkteknolokan g bidra til intuitive talestyrte grensesnitt for huhaldningsmaskiner, bilar, datamaskiner og robotar. Ver enno p eit tidleg stadium av utviklinga av brukommersielle og industrielle applikasjonar, men Fohar skapt mange nye hve. Til dmes er maskinoms jing alt vorten rimeleg nyaktig innanfor visse omrog eksperimentelle applikasjonar mogleggjer eirspleg informasjons- og kunnskapsstyring og dessutan ihaldsproduksjon for mange europeiske sprk.Som med dei este teknologiane vart den frste brken innan bl.a. talebaserte brukargrensesnitt og dialosystem utvikla for svrt spesialiserte domene, og hadde o e ei noks avgrensa yting. Men det ligg stomarknadspotensial innanforutdanningssektoren og underhaldningsindustrien ved integrere sprkteknoloi spel, kulturminnestader, skule og anna opplring, bbliotek, osb. Mobile informasjonstenester, datasttsprklring, eLringsmilj, eigenvurderingsverkty plagiatkontrollprogram er berre nokre av bruksomrder sprkteknologi kan spele ei viktig rolle. Populateten til sosiale medium som Twitter og Facebook ilustrerer behovet for avanserte sprkteknologiar sokan overvake innlegg, oppsummere diskusjonar, ana

    6

  • 8/12/2019 Georg Rehm, Hans Uszkoreit Auth., Georg Rehm, Hans Uszkoreit Eds. the Norwegian Language in the Digital Age Nynorskversjon 2012

    14/84

    sere meiningstrendar, oppdage kjenslereaksjonar, iden-tisere brot p lover og reglar eller spore misbruk.

    Sprkteknologi kan bidra til brytened sprkbarrierane som detsprklege mangfaldet skaper.

    Sprkteknologi representerer eit enormt potensial forEU. Han kan bidra til handsame eirsprklegheit iEuropa det faktumet at ulike sprk lever i naturleg sameksistensieuropeiskefretak,organisasjonarogsku-lar. Men innbyggjarane treng kommunisere p tversav desse sprkgrensene og p kryss og tvers av den fel-les europeiske marknaden. Sprkteknologi kan bidratil overvinne denne siste barrieren samstundes somhan stttar fri og open bruk av det einskilde sprket.Ser ein lenger framover, vil ein nyskapande og eir-sprkleg europeisk sprkteknologi gje einmlestokkfordei globale partnarane vre nr dei utviklar sine eigneeirsprklege samfunn. Sprkteknologi er ei form forhjelpemiddel-teknologi som hjelper oss bryte nedsprklege barrierar og gjere sprksamfunn meir tilgjen-

    gelege forkvarandre. Eitanna viktigog aktivt forskings-felt er nytta av sprkteknologi i redningsoperasjonar ikatastrofeomrde, der teknologiyting kan bli eit sprs-ml om liv og dd: Framtida sine intelligente robotarmed tverrsprklege funksjonar kan redde liv.

    2.5 UTFORDRINGAR FORSPRKTEKNOLOGISjlv om sprkteknologien har gjort betydelege fram-steg dei siste ra, skjer den noverande teknologiskeutviklinga og produktinnovasjonen for sakte. Vanlege verktysom stave-og grammatikkontroll i tekstbehand-ling er vanlegvis einsprklege og berre tilgjengelege forei handfull sprk. Nettbaserte maskinomsetjingstenes-terernyttigeforfeitraskoversynoverinnhaldetido-

    kumentet, men gjev store problem nr svrt nyaktiog fullstendige omsetjingar trengst. P grunn av kom pleksiteten i menneskeleg sprk er det modellere nturlegsprkbrukiprogramvareforderettertestedetui den verkelege verdaein tidkrevjande og kostbaropesjonsomkreveistabilnansiering.Deieuropeiskelanmdiforvereaktiveimtemeddeiteknologiskeutfordringane eit eirsprkleg samfunn str overfor gjennoaktivt utvikle nye metodar for skunde p utviklingDette kan vere bde utrekningsorienterte framsteg oteknikkar som crowdsourcing.

    Den teknologiske utviklinga gr for langsamt.

    2.6 SPRKTILEIGNING HOSMENNESKE OG MASKINERFor illustrere korleis datamaskiner handsamar natuleg sprk, og kvifor det er vanskeleg programmeretilprosessereulikesprk,skalvikortsjpkorleismeneske tileignar seg frste- og andresprk, og deretterkorleis sprkteknologiske system fungerer.MennesketileignarsegsprkkunnskapptoulikemtaBabyarlrereitsprkvedlyttetilsamspelmellomfoeldre,syskenogandrefamiliemedlemmer.Frtorsaldren produsererborndeifrsteordasineog korte setningar. Dette er berre mogleg fordi menneske har ein geetisk disposisjon til imitere og rasjonalisere p grunlag av det dei hyrer. lre eit andresprk p eit seinare stadium krev meinnsats, hovudsakleg fordi barnet ikkje er omgjeveein sprkfellesskap, slik det er tilfelle for morsmlet.skulentileignareinsegvanlegvisframandsprkgjenno innarbeide grammatiske strukturar, ordtilfang og st ving. Dette skjer ved hjelp av puggevingar som skildsprklege kunnskapargjennom abstrakte reglar, tabelog dme.

    7

  • 8/12/2019 Georg Rehm, Hans Uszkoreit Auth., Georg Rehm, Hans Uszkoreit Eds. the Norwegian Language in the Digital Age Nynorskversjon 2012

    15/84

    Menneske tileignar seg sprkkunnskap p to ulikemtar: Lring fr dme og lring fr

    underliggjande sprkreglar.

    Dei to hovudtypane av sprkteknologiske system til-eignar seg sprklege kunnskapar p ein liknande mte.Statistiske (eller datadrivne) tilnrmingar innhentarsprkkunnskap fr store samlingar av konkrete eksem- peltekster. For trene stavekontrollsystem er det til-strekkelegbruketekstfreitenkeltsprk,menskaleintrene opp eit maskinomsetjingssystem, treng ein eit settav parallelle tekster for to (eller eire) sprk. P dennemten kan maskina lre mnster for korleis ord, korte

    setningar og fullstendige setningar blir omsette.Ei statistisk tilnrming kan krevje millionar av setnin-gar, og kvaliteten aukar jo meir tekst som blir analysert.Dette er ein av grunnane til at skemotorleverandrar vil samle inn s mykje tekst som mogleg. Tekstbehand-lingsprogramma sine stavekontrollar, s vel som tenes-ter som Google Search og Google Translate, er alle ba-sertep statistiskemetodar. Denstorefordelen med sta-tistiske metodar er at maskina lrer raskt gjennom ein

    kontinuerleg serie av treningsrundar, men kvaliteten er varierande.Den andre tilnrminga til sprkteknologi, og srleg tilmaskinomsetjing, erbyggjeregelbaserte system.Sprk-forskarar, datalingvistar og dataekspertar m frst kodegrammatiske analysar (omsetjingsreglar) og setje samanordlister (leksikon). Dette er svrt tid- og arbeidskrev-

    jande. Nokre av dei viktigaste regelbaserte maskinosetjingssystema har vore under kontinuerleg utviklinmeir enn tjue r. Den store fordelen med regelbasersystem er at ekspertane har ein betre kontroll over mskina si sprkhandsaming. Dimed kan ein systematirette opp feil i programvara og gje brukaren detaljertilbakemeldingar. Dette er spesielt nyttig nr systemskal brukast til sprklring. Men p grunn av dei hkostnadeneharregelbasertsprkteknologislangtberr vorte utvikla for store sprk.

    Dei to hovudtypane av sprkteknologiske systemtileignar seg sprk p ein liknande mte.

    Sidanstyrkaneog veikskapanevedstatistiskeog regelserte system o e utfyller kvarandre, fokuserer forskinno p hybridtilnrmingsmtar som kombinerer dei. langt har likevel nytta av desse metodane vore mind vellukka i industrielleapplikasjonarenn i forskingslabratoria.Idettekapitletharvisettatmangevanlegedataprogram

    er avhengige av sprkteknologi. Dette g jeld srlegEuropa, i kra av vere eit felles konomi- og informsjonsomrde. Sjlv om kvaliteten p sprkteknologi h vorte mykje betre dei siste ra, er det enno eit stort fobetringspotensial. Under vil vi skildre rolla norsk sprhar i det europeiske informasjonssamfunnet og vurdetilstanden for norsk sprkteknologi.

    8

  • 8/12/2019 Georg Rehm, Hans Uszkoreit Auth., Georg Rehm, Hans Uszkoreit Eds. the Norwegian Language in the Digital Age Nynorskversjon 2012

    16/84

    3

    NORSK I DET EUROPEISKEINFORMASJONSSAMFUNNET

    3.1 GENERELLE FAKTANorsk er felles tale- og skri sprk i Noreg, og er mors-mlet til det store eirtalet av den norske folkesetna-den (meir enn 90 %, om lag 4.320.000 sprkbrukarar).Norskblirbruktipolitikkogoffentlegforvalting,palleniv i utdanningssystemet og i dagleg kommunikasjon.

    Norsk er morsmlet til meir enn 90%av den norske folkesetnaden.

    Minoritetssprka (slik dei blir denerte i Den europe-iske pakta om regionale sprk eller mindretalssprk) iNoregersamisk,kvensk,romanesognorskromani.Kvarav desse gruppene omfattar fr nokre hundre til eiretusen sprkbrukarar [2]. Norsk teiknsprk blir bruktav om lag 15.000 sprkbrukarar [10]. I tillegg nst detulikeinnvandrarsprk.InnvandrararogpersonarfddeiNoregmed innvandrarforeldre utgjer 600.900 personareller 12,2% av folkesetnaden i Noreg. Dei este av inn- vandrarane er fr Polen, Sverige, Tyskland og Irak, i fl-gje Statistisk sentralbyr.Norsker eitnordgermansksprksomernrt nrskyldtmed dansk og svensk, og desse tre sprka er gjensidig forstelege. Norsk har eit stort mangfald av dialektar.Sjlv om skalla standard austnorsk fungerer som einde facto standard for normalisert tale, er ei slik standar-disering i langt mindre grad verksam i Noreg enn i deiesteandreeuropeiskelanda.Norskhartooffisielleml-former, bokml og nynorsk. Formelt har dei lik status,

    menipraksiserbokmldendesidertmestbrukte,ogblibrukt av om lag 87% av innbyggjarane [2]. For sikrestillinga til nynorsk regulerer Mllo a skri leg sprk-bruk i offentleg sektor, og alle elevar lrer bde bokog nynorsk p skulen, sjlv omder nstpolitiske rrslsom vil avskaffe dette kravet.

    3.2 SRTREKK VED NORSKSPRKNorsk har ei rekkje srtrekk som bidreg til sprkleg rdom,mensomsamstundesskaperutfordringarforautomatisk prosessering av naturleg sprk.

    3.2.1 Utfordringar i norsk talesprkMunnleg norsk omfattar eit breitt utval av dialektar, som tradisjonelt har ei mykje meir framtredandrolle enn i dei este andre europeiske landa [2]. Sidanei munnleg standardnorm vanlegvis ikkje blir bruknorsk, bruker sprkbrukarane stort sett dialekten sinmunnleg kommunikasjon, ogs i media, om enn nokgonger i moderert form. Dialektvariasjon er ei utforring for datamaskiner nr ein freistar konvertere tatil tekst eller tekst til tale.

    Noreg sitt dialektmangfald er ei utfordringnr ei datamaskin skal konvertere tale

    til tekst eller tekst til tale.

    9

  • 8/12/2019 Georg Rehm, Hans Uszkoreit Auth., Georg Rehm, Hans Uszkoreit Eds. the Norwegian Language in the Digital Age Nynorskversjon 2012

    17/84

    Som i andre germanske sprk kan ein p norsk dannenye ord ganske fritt ved setje saman eksisterande ord.Til dmes kan orda oske, krise og pakke setjast saman tiloskekrisepakke.Nokreslikesamansetteuttrykkblirberrebrukte av og til, medan andre utgjer terminologi i spe-sialiserte domene, og atter andre blir leksikaliserte (dvs.blir ein del av det vanlege ordtilfanget vrt) og inngr iordbker.Dessutan nyttardei este norske dialektar tonefall kon-trastivtgjennom todistinkteordintonasjonar, o ekallatonem 1 og 2. Desse tonema, kombinert med eit mang-lande in-til-in-tilhve mellom lydar og bokstavar inorsk, er srleg utfordrande for taleteknologi. Mellomanna har norsk eit breitt spekter av homograske for-mer (som blir likt skrivne) som blir realiserte med uliketonem, til dmes sulten (tonem 1, eng. hunger) versus sulten (tonem 2, eng. hungry). Det er d avgjerande ateit talesyntesesystem kan oppgje rett tone til ein fre-komst aveit leksem, i dette tilfellet ved oppgje korrektordklasse, skalla syntaktisk disambiguering.Ved konvertering fr tekst til tale er syntaktisk disam-biguering naudsynt for skiljemellomhomografar som

    er ulike bde nr det g jeld tone og ordklasse, slik som para landa [lanA] (tonem 1, eng. the countries) ver-sus landa [lanA] (tonem 2, eng. landed). Faktisk hardei este inkjekjnnssubstantiv korresponderande ho-mograske verb.

    3.2.2 Utfordringar i skriftleg norsk

    Nr det gjeld skri leg norsk, er der stor variasjon mel-lom dei to offisielle norske mlformene bde med om-syn til rettskriving og ordformasjon, og g i nokre delarav ordtilfanget og grammatikken.I praksis er kravet om tosprklegheit i forvaltninga og utdanningssektoren nokre gonger vanskeleg mte, si-danskilnadenekanopplevastsomvanskelegelre.Detblir gjort ein stor innsats for oppretthalde denne to-sprklegheita, og behovet for korrekturlesing og nyak-

    tig omsetjing mellom dei toformene erdiforklart.Sjinnanfor den enkelte mlforma er stor variasjon tillati form og bying av ord. Ordet slukke kan til dmes g skrivast som slokke p bokml ( slkke eller slkkje p ny-norsk), medan fortidsformene p bokmlkanvere sluk-ket , slukka, slokket eller slokka.

    Endringar i rettskriving, ordtilfang ogordformasjon gjer at eksisterande sprkressursar

    kan trenge ei oppdatering.

    Sjlv omikkje alle moglege kombinasjonaravord ogdingar blir brukte i praksis, er kombinasjonsalternatilikevel formidable, og frer nokre gonger til tusenvismoglege mtar skrive same setning.Forkompliseresakaendmeirhardetnorskeskri systemet ikkje vore stabilt, fordi ei rekkje rettskrivingsformer har vorte vedtekne opp gjennom ra, noko sotyder at eksisterande sprkressursar kan ha bruk for oppdatering.Somnemnt i avsnittet om srtrekkved norsk talesprker samansette ord p norsk ei utfordring for all sprteknologi fordi det krev gode analyseverkty for sluttrykk. Ei av eire utfordringar i omsetjing er bruk norske reeksiv som i desse dma: Per visste ikkje at Kari hadde eista reparere bilen sin.Ei korrekt omsetjing freset ein djup grammatisk anlyse av denne setninga.

    3.3 NYARE UTVIKLINGSTREKI lpet av det siste tiret har Sprkrdet fatta ei rekk vedtak som skal forenkle rettskriving i dei to mlfomene og gjere dei meir sameinte med den faktiske bken. Ein har gtt bort fr det tidlegare politiske mlom sl dei to mlformene saman, og variasjonen hastadenvorte redusert,sjlv omdetenno erein betydelegrad av fridom.

    10

  • 8/12/2019 Georg Rehm, Hans Uszkoreit Auth., Georg Rehm, Hans Uszkoreit Eds. the Norwegian Language in the Digital Age Nynorskversjon 2012

    18/84

  • 8/12/2019 Georg Rehm, Hans Uszkoreit Auth., Georg Rehm, Hans Uszkoreit Eds. the Norwegian Language in the Digital Age Nynorskversjon 2012

    19/84

    Sprkrdet bidrog ogs til overtyde politikarane omat Sprkteknologisk ressurssamling for norsk Sprk-banken burde etablerast som eit sprkpolitisk verke-middel, og dette synet vart fremja i eire rappor-tar som nst p http://www.sprakradet.no/nb-NO/Tema/IKT--sprak/Norsk-sprakbank/. Sprkbanken ermeint som ei teneste til den delen av nringslivet somarbeider med utvikling av sprkbasert IKT, til forskararinnan sprkvitskap og sprkteknologi, og til offentlege verksemder som utviklar elektroniske lysingar for of-fentlege tenester. Meir konkret skal Sprkbanken vereein infrastruktur for bevaring og deling av sprkressur-sar og utviklingsverkty for bde forsking og industri.I etterkant av stortingsmeldinga Ml og meining [2]fekk Nasjonalbiblioteket i oppdrag etablere Sprkban-ken og starte innsamling og utvikling av sprkressursarsom skulle innlemast. Sidan juni 2011 er eire sprk-ressursar lagt ut, og er no fritt tilgjengeleg for nedlas-ting, gjennom Sprkbanken, og nye ressursar er underutvikling. Oppdatert informasjon nst p http://www.nb.no/spraakbanken/.Stortingsmeldinga Ml og meining understreka g atterminologiske ressursar i Noreg har betydelege mang-larmedomsyntildekningsgradogatderdiforereitbe-hov for oppdatering. Eksisterande terminologiressursar varierer sterkt med omsyn til format, innhald, strukturog metadata. Sidan bevaring av norsk terminologi er eit viktig sprkpolitisk sprsml, gav Sprkrdet i Noreg,med konomisksttte fr Kulturdepartementet, selska- pet Standard Noreg i oppdrag utvikle ein fritt tilgjen-geleg termbase med terminologi p eire sprk [13].Denne termbasen vart gjord offentleg tilgjengeleg fornettski 2011,mener slangtikkjevortengjordtilgjen-geleg for nedlasting og bruk i vidare FoU.

    3.5 SPRK OG UTDANNINGNyare forsking tyder p at ein ikkje br undervurderekorviktigsprker iutdanningssamanheng.Freitsprk-

    teknologisk synspunkt er behovet for gode skri leghjelpemiddel difor klart.Den frste PISA-underskinga (2000) viste at norskelevarskramarginaltoverOECD-gjennomsnittetmeomsyn til leseferdigheiter. Debatten i etterkant auka deoffentlege medvitet om sprklring, og eire nasjontiltak vart difor sette i verk for stimulere norske elevsine leseferdigheiter.I den siste PISA-testen i 2009 [14] gjorde norske elevardetbetydelegbetremedomsyn til leseferdigheiter (sjom gjennomsnittet i OECD g har falle sidan 2000noko som svekkjer verknaden av den tilsynelatande fbetringa hos norske elevar). Som i dei tidlegare PIStestane var resultatet i 2009 srleg lgt for elevar mmigrasjonsbakgrunn.

    Der er eit klart behov for gode sprkteknologiskeskrivesttteverkty innan utdanningssektoren.

    Nr det gjeld leseferdigheiter hos vaksne, viser resufr underskinga Adult Literacy and Life Skill (ALat leseferdigheita hos 300.000 vaksne nordmenn, elein av ti, er s lg at dei fr problem i det moderne safunnet [15]. I underskinga blir individa sine leseevnerangerte p ein skala fr 1 til 5 for ulike omrde. IfgjeOECDsdenisjonvillesararpniv1og2innanfominst eitt av omrda f problem i eit moderne informsjonssamfunn. I Noreg gjeld detteomlag1 million lesrar.Behovet for lre bde bokml og nynorsk er eit kotroversielt tema i Noreg. I skulen avgjer kommunen ho vudmlet i grunnskulane fr og med frste klassa, mdan sidemlsundervisinga vanlegvis blir introdusersjuandeklassa.Idagharomlag87%avallenorskeelevnynorsk som sideml [16]. I hovudsak har dei med ny-norsk som hovudml f problem med lre meistbokml sidan dei er eksponerte for bokml gjennomediaoglitteraturfrbarnsbeinav.Fleirtaletavelevan

    12

    http://www.sprakradet.no/nb-NO/Tema/IKT--sprak/Norsk-sprakbank/http://www.sprakradet.no/nb-NO/Tema/IKT--sprak/Norsk-sprakbank/http://www.nb.no/spraakbanken/http://www.nb.no/spraakbanken/http://www.nb.no/spraakbanken/http://www.nb.no/spraakbanken/http://www.sprakradet.no/nb-NO/Tema/IKT--sprak/Norsk-sprakbank/http://www.sprakradet.no/nb-NO/Tema/IKT--sprak/Norsk-sprakbank/
  • 8/12/2019 Georg Rehm, Hans Uszkoreit Auth., Georg Rehm, Hans Uszkoreit Eds. the Norwegian Language in the Digital Age Nynorskversjon 2012

    20/84

    som alts har bokml som hovudml, opplever derimoto e problem med meistre nynorsk sidan dei har fttmindre opplring og vore mindre eksponerte for det.Statusen til norsk som skulefag i grunnskulen gjenspeg-lar til ei viss grad behovet for prioritere leseferdighei-ter. Eiundersking publisert av Utdanningsdirektorateti 2009 viser at norskfaget utgjer om lag 26% av under- visningstida for elevar mellom 6-12 r. P dette omr-det ligg det norske skulesystemet nr Frankrike, HellasogNederland,dernesteneintredjedelavundervisnings-tida for 9-til-11-ringar er i morsmlsopplring.Eit anna aspekt ved rolla til sprket i opplringa er atnorskopplring har vorte ein del av utlendingspolitik-ken i Noreg. I 2003 vart den skalla Introduksjonslo a vedteken. I flgje denne lova har innvandrarar rett og plikt til 300 timar undervising i norsk sprk, historie,kultur og lovgjeving. I flgje Utlendingslo a av 2008 eroppfylling av denne plikta ein av fresetnadene for kunne f permanent opphald i Noreg.Eit aktuelt tiltak for gje elevar naudsynte sprkferdig-heiter for aktiv deltaking i samfunnet er auke mengdaav norskundervising i skulen. Sprkteknologi kan vereeit viktig bidrag gjennom skalla dataassistert sprkl-ring (computer-assisted language learning ; CALL), sys-tem som lt elevane opplevesprkp ein attraktiv mte,til dmesved knyte vokabular i elektroniske tekster tillett forstelege denisjonareller til lydar-eller videolersom kan gje tilleggsinformasjon om til dmes uttale.

    3.6 INKLUDERINGSASPEKTDet er eit uttalt politisk ml i Noreg sikre alle innbyg-gjarar like vilkr for deltaking. Fleire lover gjeld sprs-mlet om inkludering, til dmes i Diskriminerings- og tilgjengelegheitslo aog Lov om opplring , som spesise-reratutdanning skal tilpassastbehovet tildeneinskilde.Srligviktiger Diskriminerings-og tilgjengelegheitslo a,somspesisereratnyeIKT-lysingarrettamotlmenta,til dmes sosiale nettverk eller offentlege nettsider, skal

    tilfredsstillelovkravaomtilgjengeinnan1.juli2011.Inan 2025 skal alle IT-lysingar tilfredsstille lovkrava

    Innan 2025 skal alle IKT-lysingar retta motlmenta, til dmes sosiale nettverk eller offentlegnettsider, tilfredsstille lovkrava om tilgjenge.

    Tekstbaserte kommunikasjonsmedium (SMS, e-posFacebook, blogging, Twitter) har i lpet av svrt kotid endra mten vi kommuniserer p. Mykje fagleg personleg kommunikasjon, og til og med viktige offelege debattar, fregr p Internett. Slike digitale net verk krev at tekster av hg kvalitet blir produserte raskFor deiesteer nett-og tekstbasertkommunikasjon eirikdom, men ikkje alle er komfortabel med denne kommunikasjonsmten. For det frste har anslagsvis 5%innbyggjarane alvorleg dysleksi, medan s mange s20% av dei mellom 16 og 20 r har generelle lese-skrivevanskar, iflgje Dysleksiforbundet. For det aner mange sprkbrukarar med norsk som andresprframleis i ein lringsprosess. Omtrent to av tre inn vandrarar har svake leseevner [17]. For det tredje skriv grupper av rrslehemma, svaksynte eller blinde brukrar o e feil fordi dei mistolkar talerespons eller er ikkregistrerer feil somakkurater gjort.Alle dessegruppekan oppleve strre problem med tekstbruk under tid press. Personar med motoriske vanskar kan g opple problem med tekstbruk og treng o e spesielt tilpasslysingar.Med andre ord er det ein reell fare for at desse gru pene vil bli hindra fr dra full nytte av slike tekstbserte kommunikasjonsmedium, med mindre dei fr tgjenge til brukarvennlege verkty som kan sttte komunikasjonsprosessen. Til sjuande og sist er denne ufordringa potensielt eit demokratisk problem. Bruka vennlege sprkteknologiskeverkty er her eit av dei vtigastegrepaforoppfyllelovaomuniversellutforminog syte for at alle blir inkluderte.

    13

  • 8/12/2019 Georg Rehm, Hans Uszkoreit Auth., Georg Rehm, Hans Uszkoreit Eds. the Norwegian Language in the Digital Age Nynorskversjon 2012

    21/84

    3.7 INTERNASJONALE ASPEKTEngelsk er utan tvil det dominerande sprket i norske vitskaplege publikasjonar. Ein studie fr 2004 viste atom lag tte av ti vitskaplege artiklar skrivne av norskeforskarar vart utgjevne p engelsk; meir enn ein tredje-del av desse vart publiserte utanfor Noreg [18].Vi ser den same engelske dominansen i nringslivet[16, 19]. Ein stadig meir internasjonal arbeidsstokk skaper eirsprklege arbeidsplassar der engelsk blir ar-beidssprket. Noreg har ein eksportbasert konomi, og er tungt involvert i internasjonal humanitr, diploma-tisk og militr aktivitet; sistnemnde i regi av SN ellerNATO. Gode kunnskapar i engelsk og andre framand-sprkerdiforviktigfornordmennpmangeomrde,frnringslivoghgareutdanningtildetmilitre,politikk og diplomati. Engelsk er det mest brukte framandspr-ket,ogsjlvomnordmennharordpsegforvereduge-legeiengelsk,manglarlikevelmangesprkbrukarardug-leiken som trengst for avansert bruk i jobbsamanheng.Ei rekkje av dei spurde i departementa meiner at bruk avengelskgrutoverNoregs innverknad til dmes i for-handlingarpeuropeiskniv,medanbrukenavengelskinringslivethar frt tilveikte forretningsmogelegheiterog til og med tap av kontraktar.

    Fungerande system for maskinomsetjing vil vereavgjerande for gje nordmenn fridomen til

    bruke morsmlet sitt i framtida.

    Sprkteknologikanmtedenneutfordringafreitanna perspektiv ved tilby tenester som maskinomsetjing el-lertverrsprkleginformasjonsinnhenting,ogdermedbi-dra til redusere dei personlege og konomiske ulem- pene som dei som ikkje har engelsk som morsml o emter. Faktisk vil maskinomsetjing vere avgjerande for gje nordmenn fridomentil halde fram bruke mors-mlet sitt i framtida. I situasjonar der nordmenn treng kommunisere p engelsk, str ein som regel overfor

    valet mellom skrive dokument in gong p engeleller dobbelt opp p engelsk og norsk. Med eit fungerande norsk-til-engelsk maskinomsetjingssystem knorsk oppretthaldast som arbeidssprk i Noreg.

    3.8 NORSK P INTERNETTI 2010 hadde om lag 93% av norske innbyggjarar intnettilgangiflgeMedieNorge.Omtrent68%varpnetet kvar dag; blant unge er talet end hgare. Ein studfr 2010 viste at meir enn 2,5 millionar nordmenn, olaghalvparten avinnbyggjarane,hareinFacebookpronoko som plasserer nordmenn blant dei mest dedikerbrukarane av dette sosiale mediet. Estimat viser at dnst om lag 34 millionar nettsider p norsk.

    Den aukande bruken av Internett speler ei viktigrolle for sprkteknologi.

    Denenormemengdadigitale sprkdata ereinviktigresurs for analysere nytta av naturleg sprk, spesielt innsamling av statistisk informasjon om sprkmnstInternettomfattargeitbreittutvalavbruksomrdefosprkteknologi.I Noreg er ein i ferd med utvikle to forskingsdrivtekstkorpus basert p tekst fr Internett. Det strste tilgjengelege norske korpuset per i dag er Norsk avisk pus, eit monitorkorpus av norske avistekster publise p nett. Korpuseter utvikla i samarbeid mellom NHHBergen ogUniResearch,Bergen.Korpuseternopov900 millionar ord og blir utvida i gjennomsnitt med millionar ord i veka, dvs. ei mengd ord tilsvarande olag 10 romanar. Det andre internettkorpuset, NoWaCerutviklavedTekstlaboratorietvedUniversitetetiOsloog inneheld om lag 700 millionar ord lasta ned fr h vuddomenet .no.Nr det gjeld parallell eller omsett tekst p Interneter tilgjenget avgrensa for norsk samanlikna med andeuropeiske sprk. Omsette tekster til og fr norsk e

    14

  • 8/12/2019 Georg Rehm, Hans Uszkoreit Auth., Georg Rehm, Hans Uszkoreit Eds. the Norwegian Language in the Digital Age Nynorskversjon 2012

    22/84

    vanskelege nne (med unntak av tekster med rele- vans for ES er EU-tekster generelt ikkje omsette tilnorsk), og slikeressursar ernaudsynte formaskinomset- jing og programvare for omsetjingsminne. Sett i ljos av det forventa behovetharforholdsvis lite sprkteknologi vorte utvikla og nytta for omsetjing av nettstader. Denmest brukte nettapplikasjonen er nettsk, som inneberautomatisk prosessering av sprk p eire niv (dette vilbli gtt gjennom i meir detalj seinare). Nettsk freset

    avansert sprkteknologi som er ulikt for kvart sprk. grunn av dei to mlformene i norsk, og dessutan betdelege variasjonar innanfor dei, m ein o e g gjennoei omfattande mengd variantar av skeord eller setnigar som skal passe saman. Det nestekapitlet gjev ei infring i sprkteknologi og dei viktigaste bruksomrsaman med ei evaluering av dagens sprkteknologi norsk.

    15

  • 8/12/2019 Georg Rehm, Hans Uszkoreit Auth., Georg Rehm, Hans Uszkoreit Eds. the Norwegian Language in the Digital Age Nynorskversjon 2012

    23/84

    4

    SPRKTEKNOLOGISK STTTE FOR NORSPRK

    Sprkteknologiske verkty og ressursar er programvareutvikla for handsame menneskeleg sprk, og blir di-for o e kalla menneskeleg sprkteknologi. Menneske-legsprknstimunnlegogskri legform.Medantaleer

    den eldste og evolusjonsmessig mest opphavlege formafor sprkleg kommunikasjon, blir kompleks informa-sjon og det meste av menneskeleg kunnskap lagra og overfrt i skri lege tekster. Teknologi for tale og tekst prosesserereller produserer sprk i hvesvis munnleg og skri leg form, men begge typar teknologi brukar ord-bker og grammatiske og semantiske reglar. Dette ty-der at sprkteknologi knyter sprk til ulike former forkunnskap, uavhengig av mediet (tale eller tekst) kunn-

    skapen er uttrykt i. Figur 1 illustrerer det sprkteknolo-giske landskapet.Nr vi kommuniserer, kombinerer vi sprk med andrekommunikasjonsmtar og informasjonsmedium tildmes kan det snakke omfatte bde gestar og andlets-uttrykk.Digitaletekster kan knyteseg opp mot bde bi-leteoglydar.Filmarkaninnehaldesprkibdemunnleg og skri leg form. Med andre ord er tale- og teksttekno-logioverlappande, og deisamhandlar med andre tekno-

    logiske verkty som bidreg til handsaming av multimo-dal kommunikasjon og multimediedokument.I det flgjande vil vi diskutere dei viktigaste bruksom-rda for sprkteknologi, dvs. korrekturlesing, nettsk,taleteknologi og maskinomsetjing.Detteomfattarprogramog grunnleggjande teknologiarsom:

    korrekturlesing skrivesttte dataassistert sprklring informasjonsinnhenting informasjonsekstrahering tekstsamandrag svar p sprsml/dialogsystem taleattkjenning talesyntese

    Sprkteknologi er eit etablert forskingsfelt, og det neit omfattande utval av introduksjonslitteratur.For vidare lesing tilrrvi lrebkene [20,21], oversikts- verka[22]ognettsidaLTWorld(http://www.lt-world.org ).Fr vigrvidare til ein diskusjon av dessebruksomrdskal vi kort skildre oppbygginga av eit typisk sprktnologisk system.

    4.1 APPLIKASJONS-ARKITEKTURARDataprogram for sprkhandsaming bestr typisk aeire komponentar som gjenspeglar ulike aspekt vsprket. Slike applikasjonar er som o ast svrt kom plekse, og gur 2 viser ein svrt forenkla arkitektur foreitvanlegteksthandsamingsprogram.Dei tre frste mdulane handsamar strukturen og tydinga til den analserte teksten:

    16

    http://www.lt-world.org/http://www.lt-world.org/http://www.lt-world.org/http://www.lt-world.org/
  • 8/12/2019 Georg Rehm, Hans Uszkoreit Auth., Georg Rehm, Hans Uszkoreit Eds. the Norwegian Language in the Digital Age Nynorskversjon 2012

    24/84

    Multimedia ogmultimodale

    teknologiar Sprkteknologi

    Taleteknologi

    Tekstteknologi

    Kunnskapsteknologi

    1: Sprkteknologi

    1. Preprosessering:Reinsardata,analyserereller ernarformatering, identiserer inndatasprk, osb.

    2. Grammatisk analyse: Finn verbet, identiserer ob- jektatilverbet,modikatorarog andre setningskom- ponentar, identiserer setningsstruktur.

    3. Semantisk analyse: Utfrerdisambiguering(dvs. be-reknar tydinga av eit ord i ein gjeven kontekst); ly-seroppanaforar(dvs.nnkvaforpronomensomre-fererertilkvaforsubstantivisetninga);representerersetningstydinga p ein maskinleseleg mte.

    Etter tekstanalysenkanmodular innretta motspesikkeoppgver takast i bruk, tildmes automatisksamandrag og databasesk.I resten av denne kapitlet skal vi frst gje ei skildring av dei viktigaste bruksomrda for sprkteknologi. Der-etter flgjer eit kort oversyn over situasjonen for sprk-teknologisk forsking og utdanning i dag, saman med eiskildring av tidlegare og noverande forskingsprogram.Til slutt skal vi presentere eit ekspertestimat for dei viktigaste sprkteknologiske verktya og ressursane fornorsk, vurdert etter ulike kriterium som tilgjenge, mo-genskapogkvalitet.Dengenerellesituasjonenforsprk-teknologi for norsk sprk er oppsummert i ein eigen ta-bell (gur8), som gjev eit oppdatertoversyn oversprk-teknologi for norsk. Den sprkteknologiske sttta fornorsk sprk erg samanlikna meddeiandre sprka somer analyserte i denne kvitbokserien.

    4.2 DEI VIKTIGASTEBRUKSOMRDAI dette avsnittet fokuserer vi p dei viktigaste sprktenologiske verktya og ressursane, og gjev eit overover sprkteknologisk verksemd i Noreg.

    4.2.1 KorrekturlesingAlle som har brukt eit teksthandsamingsprogram soMicroso Wordveit atdethareinstavekontroll somut-hevar stavefeil og freslr rettingar. Dei frste stavek

    trollane samanlikna ei liste av utvalde ord mot ei orbok med korrekteord. I dag er slike program langt mesostikerte. Ved bruke sprkspesikke algoritmar fgrammatisk analyse kan dei oppdage morfologiske feil(t.d. eirtalsformer) og dessutan syntaktiske feil, til dmes manglande verb eller gal verbbying (t.d ho *skriveeit brev). Men dei este stavekontrollar vil ikkje nnnokon feil i denne engelske teksten, fordi alle orda korrekt stava, sjlv om enkelte av ordvala er feil [23]:

    I have a spelling checker,It came with my PC.It plane lee marks four my revueMiss steaks aye can knot sea.

    For avdekke slike feil trengst ei analyse av kontekstil dmes for avgjereomeit norsk ord skal stavastme

    17

  • 8/12/2019 Georg Rehm, Hans Uszkoreit Auth., Georg Rehm, Hans Uszkoreit Eds. the Norwegian Language in the Digital Age Nynorskversjon 2012

    25/84

    Tekstinput

    Preprosessering Grammatisk analyse Semantisk analyse Oppgavespesifikkemodular

    Output

    2: Ein typisk applikasjonsarkitektur for tekstprosessering

    enkel eller dobbel konsonant i norsk, som i vil vs. vill .Denne typen analyse m anten baserast p sprkspesi-kke grammatikkar som ekspertar gjennom mykje ar-

    beidharkodaiprogramvara,ellerpeinstatistisksprk-modell. I ein statistisk modell reknar ein ut sannsynetfor at eit bestemt ord nst i ein viss posisjon i teksten.Til dmes er eg vil ha ein mykje meir sannsynleg ordse-kvens ennegvillha.Einstatistisksprkmodellkangene-rerast automatisk ved hjelp av ei stor mengd av (riktige)sprkdata, eittekstkorpus .

    Desse to tilnrmingane har i hovudsak vorte utviklamed utgangspunkt i materiale fr engelsk. Likevel kaningen av dei enkelt overfrast til norsk, sidan norsk harannleis ordstilling, samansette ord og eit meir omfat-tande byingsmnster for visse ordklasser enn engelsk.Studiar med utgangspunkt i norskerdifor naudsynt.Si-dan norsk har to offisielle mlformer, der den eine ermindre brukt, er behovet for gode korrekturverkty forkvar av mlformene stort.

    Korrekturlesingsverkty er ikkje avgrensa til teksthand-samingsprogram, det er g brukt i skrivestttesystem,dvs. programvaresystemsomblir brukte for skrive ma-nualar og andre typar teknisk dokumentasjon som moppfylle spesielle standardar til dmes innan IT- og helsesektoren og innan ingenirverksemd. I frykt forkundeklager og skadekrav som flgje av uklare instruk-sjonar, fokuserer nringslivet i aukande grad p teknisk dokumentasjonskvalitet, samstundes som dei rettar seg

    motein internasjonal marknad (via omsetjings-eller lkaliseringstenester). Framsteg innan prosessering av turleg sprk har frt til utvikling av programvare f

    skrivesttte. Slik programvare hjelper forfattarar av tnisk dokumentasjon til bruke ordtilfang og setningstrukturar som er i samsvar med industrireglar og (bdri sinterne) terminologiske restriksjonar.

    Korrekturlesingsverkty blir ikkje berre brukt titeksthandsaming, det blir ogs brukt i

    skrivestttesystem.

    Gode korrekturlesingsverkty kan vere ein viktig rskap for personar med skrivevanskar, anten det er dylektikarar eller andresprkselevar, sidan ein konteksensitiv analyse gjer det mogleg fresl frre og mrelevantestavemtar; detmotsette,mangeval,krevneopp eit hgt niv av leseferdigheit og sprkleg medvNokre f norske selskap og sprktenesteleverandraru viklarproduktpdetteomrdet. I forskingssektoren bldet utvikla grunnleggjande sprkteknologiske ressursom kan vere av nytte for grammatikk- og stavekontr(leksikon, ordlister, tekstkorpus, analyseverkty for mansette ord); desse er i hovudsak utvikla ved Univsitetet i Oslo, Universitetet i Bergen og Uni ResearchBergen.Det mest brukte korrekturverktyet for norsk nst Microso Office-pakka, og er laga av det nske rma

    18

  • 8/12/2019 Georg Rehm, Hans Uszkoreit Auth., Georg Rehm, Hans Uszkoreit Eds. the Norwegian Language in the Digital Age Nynorskversjon 2012

    26/84

    Tekstinput Stavekontroll Grammatikkontroll Korreksjonsframlegg

    Statistisk sprkmodell

    3: Korrekturlesing (over: statistisk; under: regelbasert)

    Lingso , medan delar av grammatikkontrollen for bok-ml vart utvikla av forskarar ved Universitetet i Oslo.Stavekontroll for bokml og nynorsk med open kjelde-teknologi, som Hunspell , er ogs tilgjengeleg.Ein annan norsk kommersiell aktr er Tansa, som spe-sialiserer seg p korrekturverkty tilpassa dei spesikkebehova og ordtilfanget strre fretak har. Dei dekkjereire sprk i tillegg til norsk bokml og nynorsk (til d-mes engelsk, tysk, spansk og fransk), og kundane spen-ner fr NRKtil FinancialTimes.Nynodata AStilbyreitomsetjingsverkty frbokml tilnynorsk somsamstun-des hjelper brukaren flgje ein konsekvent formbruk.Tre selskap rettar seg spesikt mot skri lege hjelpe-middel for dyslektikarar. To av dei, Lingit og In-clude, inneheld ein stavekontrollmodul i tillegg tilandre lese- og skriveverkty (ordprediksjon, tekst-til-tale-komponentar), medan MikroVerkstedet tilbyr full-fring av ord og ordprediksjon.Ved frste augnekastsynestdermed situasjonen forkor-rekturverkty p norsk vere god. Men samstundes ereire av initiativa noks srbare. Til dmes er norsk korrekturlesing basert p open kjeldekode ( aspell, Hun- spell )drivenavtreeinskildpersonarsomgjerdettepfri-tida. Med andre ord er ein av dei viktigaste norske kon-kurrentane til Microso s programvare avhengig av eit personleg initiativ fr ei handfull idealistiske einskild- personar, snarare enn ein systematisk innsats for ut- vikle modular med open kjeldekode. Vidare er det ei viktig utfordring for dei este norske korrekturlesings- verktya forbetre eksisterande ressursar ved utvikle

    meir avanserte sprkteknologiske verkty. Det manlar g sprkspesikke verkty for automatisk omsetjog omsetjingssttte.Verktymed omsetjingsminnesoTrados nst, men dei har inga sprkspesikk tilpassitil norsk utover ein grunnleggjande stavekontroll.

    Utover korrekturlesnad og skrivesttte er korrektur verkty g viktig innanfor dataassistert sprklrinKorrekturverkty kan g automatisk korrigere nettssomiGooglesine Meinteduforslagtilkorrektenett-sk.

    4.2.2 NettskDigitale sk er sannsynlegvis den mest brukte sprktnologiske applikasjonen, men han er g i stor grad uderutvikla. Skemotoren Google, som vart oppretta1998,utfrernoomlag80%avallenettsk[24].Goog-les skegrensesnitt og resultatvising har ikkje endra vesentleg sidan den frste versjonen. Men i den novrande versjonen tilbyr Google stavekorrigering for fstava ord, og har innarbeidt grunnleggjande semantisskemoglegheitersomkanbetrenyaktigheitagjennoanalysar av tydinga til ordet i ein gjeven skekonte[25]. Google sin suksess viser at med ei stor mengd tgjengelege data kan ein statistisk orientert metode gtilfredsstillande resultat.For meir sostikerte informasjonssk er det likevel agjerande integrere djupare lingvistiske analysar teksttolking. Eksperiment med leksikalske ressursar,som maskinleselege tesaurusar eller ontologiske sprressursar (til dmes WordNet forengelsk, eitnorsk ord

    19

  • 8/12/2019 Georg Rehm, Hans Uszkoreit Auth., Georg Rehm, Hans Uszkoreit Eds. the Norwegian Language in the Digital Age Nynorskversjon 2012

    27/84

  • 8/12/2019 Georg Rehm, Hans Uszkoreit Auth., Georg Rehm, Hans Uszkoreit Eds. the Norwegian Language in the Digital Age Nynorskversjon 2012

    28/84

    I Noreg utvikla Opera So ware den frste norske nett-lesaren og Internettprogramvaren. Opera byrja i 1994som eit forskingsprosjekt i Telenor. Etter eit r vart detskiltutsomeituavhengigutviklingsselskap,OperaSo - ware ASA. Nokre norske selskap utviklar eller applise-rer skelysingar (CognIT, Comperio, TextUrgy, Ab-trox og Infonder). FAST utvikla ein skemotor som vart kjpt opp av Microso , og som no blir forhandlaav Comperio.Utviklingsfokuset til desse selskapa erho- vudsakleg retta mot tilby tilleggsprogram og avanserteskemotorar som utnyttar domenerelevant informa-sjon. IT-industrien i Noreg har alts allereie eit ganskegodtgrunnlagnrdetgjeldnettskoginformasjonsinn-henting; det strste behovet som fretaka rapportererom, gjeld kvalitetssikra sprkteknologiske komponen-tar.

    4.2.3 Taleteknologi

    Dei grunnleggjande taleteknologiane er taleattkjenning og talesyntese, som kan brukast til utvikle til dmestaleinteraksjonsteknologi og dialogsystem. Taletekno-

    logi blir brukt for lage grensesnitt som lt brukaranesamhandle gjennom talesprk framfor bruke ein gra-sk skjerm, tastatur og mus. I dag blir talegrensesnittbrukt til heilt og delvis automatiserte telefontenestersom selskap tilbyr kundane sine, tilsette eller partnarar.Talegrensesnitt blir brukt i stor grad til mellom annabanktenester, distribusjonskjeder, kollektivtransport og i telesektoren.Taleteknologi blir g brukt tilgrensesnittfornavigasjonssystemibilarogtilbrukavtalesprksom

    eit alternativ til graske grensesnitt eller trykkflsameskjermar i smarttelefonar.Taleteknologi omfattar re typar verkty:

    1. Automatisk taleattkjenning (tale-til-tekst) avgjerorda som faktisk blir sagde i ein gjeven lydsekvens ytra av ein sprkbrukar.

    2. Naturleg sprkforsting analyserer den syntaktisstrukturen i ytringa og tolkar ytringa ut fr systemsom blir brukt.

    3. Dialogstyring avgjer kva for handling som skal utf

    rast, gjeve ein bestemt brukarinput og ein viss sytemfunksjonalitet.4. Talesyntese (tekst-til-tale)omskapersvaretfrsyste-

    met til lydar som er forstelege for brukaren.

    Eiviktigutfordring forautomatiske taleattkjenningssytemer kjenneattordasomblirytra.Utvaletavmogleg ytringarmdentenavgrensast til eit knippenkkeloreller at ein manuelt lagar sprkmodellar som dekkj

    eit stort omfang av naturlege sprkytringar. Ved hjeav maskinlringsteknikkar kan ein g automatisk genrere sprkmodellar fr talekorpus, dvs. store samlingarav tale i lydler og teksttranskripsjonar. avgrense ringane inneber vanlegvis at brukarane blir plagdbruke grensesnittet p einavgrensamte,noko somkasvekkjeakseptentilbrukarenavverktyet;pdenandrsidavildet aukekostnadenemonalegskape,ninnstiogvedlikehalderikesprkmodellar.Talegrensesnittso

    brukersprkmodellarogltbrukarenuttrykkjesegmeeksibelt i byrjinga ved hjelp av ein frespurnad so Kva kan eg gjere for deg? er generelt automatisert og gjev o e ei betre oppleving for brukarane.

    Taleteknologi blir brukt til lage grensesnitt somlt brukarane samhandle gjennom talesprk hellerenn bruke ein grask skjerm, tastatur og mus.

    Fretak bruker o e frehandsinnspelt tale, innspelt a profesjonelle for generere materialet som skal bruki talegrensesnitt. For statiske ytringar, der formulerigane ikkje avheng av ein viss situasjon eller personlbrukardata, kan dette gje ei god brukaroppleving. Mmeir dynamisk ytringsinnhald kan pregast av unaturlintonasjonsmnsterfordideirettogslettblirproduserte

    21

  • 8/12/2019 Georg Rehm, Hans Uszkoreit Auth., Georg Rehm, Hans Uszkoreit Eds. the Norwegian Language in the Digital Age Nynorskversjon 2012

    29/84

    Taleinput Signalprosessering

    Taleoutput Talesyntese Fonetisk sk ogintonasjonsplanleggingNaturlig sprkfor-sting og dialog

    Attkjenning

    5: Talebasert dialogsystem

    ved lime ulike lydler saman. Dagens talesyntese har vortestadigbetre tilproduseredynamiskeytringarsomhyrestnaturlegeut,sjlvomdeiframleishareitforbet-ringspotensial.Det siste tiret har det skjedd ei betydeleg standardise-ring av talegrensesnitt nr det gjeld dei ulike teknolo-giskekomponentane.Dethargvoreeisterkmarknads-konsolidering innan taleteknologi. I G20-landa (dei 19landa i verda med best konomi og dessutan EU) harberre fem globale aktrar dominert marknaden, medNuance (USA) og Loquendo (Italia) som dei vikti-gasteiEuropa.I2011kunngjordeNuanceoppkjpetav Loquendo, og dette innebar eit nytt steg i retning av eisterkare konsolidering av marknaden.For norsk talesyntese nst tretten norske stemmer; deiesteharvorteutviklaavaktraneviharnemntovanfor.Tre stemmer har vorte utvikla av det norske fretaketLingit, som rettar seg mot brukarar med lese- og skrive- vanskar. Ei anna stemme vart utvikla ved Norsk lyd- og blindeskri bibliotek i samarbeid med ssterbiblioteketi Sverige. Der er g ei aktiv forskargruppe ved NTNU iTrondheim.

    Sprkressursar for talesyntese nst p engelsk,men berre i liten grad for norsk.

    Kvaliteten p talesyntese er sterkt avhengig av tilgjen-gelege ressursar (spesielt tekstkorpus tagga med infor-

    masjon om ordklasse, tokenisatorar og uttaleleksika)sprkspesikk forsking p til dmes prosodiske trekdet aktuelle sprket. Det nst mange slike ressursar engelsk, men berre i liten grad for norsk. Likevel er hovet ekstrastort for norsk pgrunnavdetstore mangfaldet i moglege stavemtar og dialektar, i tillegg til fordringar knytte til tonelag og ein manglande in-tin-relasjon mellom lydar og bokstavar.

    Nr det gjeld teknologi og kunnskap for dialogstyriner den norske marknaden dominert av mindre, norskfretak. MediaLT harutvikla ein generell taleattkjennasom blir til brukt til dialogstyring for blinde og sva

    synte. Innan tale-til-tekst har Max Manus integrert otilrettelagt Phillips SpeechMagic for norske sjukehSystemet er relativt vellukka, men har eit relativt agrensabruksomrdemedeitlukkavokabular.NylegvDragon Dictation, ein stemmeattkjenningsapplikasjoformobiltelefonar, lansert fornorsk.Denne applikasjonen er det frste generelle dikteringssystemet for norsk,men den norske versjonen av Dragon Dictation tolkbetydelegmeir feilenndenengelske versjonen. For ta

    interaksjon nst det enno ikkje ein fungerande marknad for lingvistiske kjerneteknologiar for syntaktisk semantisk analyse.

    Nr ein ser framover, kan ein vente ei stor utvikling grunn av strre bruk av smarttelefonar som ei ny plaformforhandsamekunderelasjonar,itilleggtileksisrande kommunikasjonsmedia som fasttelefonar, Inte

    22

  • 8/12/2019 Georg Rehm, Hans Uszkoreit Auth., Georg Rehm, Hans Uszkoreit Eds. the Norwegian Language in the Digital Age Nynorskversjon 2012

    30/84

    nett og e-post. Dette vil sannsynlegvis g pverke nyttaav taleteknologi og dialogsystem. P sikt vil der sann-synlegvisblifrretelefonbasertetalegrensesnitt,ogtale-sprksapplikasjonar vil spele ei langt meir sentral rollesom ein brukarvennleg interaksjonsmte med smartte-lefonar. Denne utviklinga vilsannsynlegvis primrt dri- vast fram gjennom stegvise forbetringar av taleattkjen-ningssystemsomikkjeerfokusertepeingjevenbrukar, via dikteringssystem som alt blir tilbodne som sentrali-serte tenester for smarttelefonbrukarar.

    4.2.4 Maskinomsetjing

    Tanken om bruke datamaskiner til omsetje naturleg

    sprkvartintroduserti1946,ogutlysteeinomfattandeforskingsinnsats p 50-talet, som s vart gjenoppliva p80-talet. Likevel har maskinomsetjing (MO) framleisikkje levd opp til dei tidlege forhpningane om kunnetilby generell, automatisert omsetjing.Denmestgrunnleggjandetilnrmingatilmaskinomset- jing er automatisk erstatte ord i eit sprk med ord i eitanna sprk. Dette kan fungere bra for domene der ord-tilfanget eravgrensaog standardisert,somtildmesvr-

    meldingar.Menforlagegodeomsetjingaravteksterfrmeir generelle domene m ein omsetje strre tekstbitar(ordgrupper,setningar, eller tilog med heile avsnitt),og kvartekstbitmvereisamsvarmedtilsvarandedelikjel-deteksta. Maskinomsetjing er frst og fremst vanskeleg fordi menneskeleg sprk er eirtydig.

    Maskinomsetjing er frst og fremst vanskeleg

    fordi menneskeleg sprk er eirtydig.

    Fleirtydig sprk gjev utfordringar p eire niv, mel-lom anna kan ein ha bruk for lyse det eirty-dige bde p ordniv og p setningsniv. I ei enkelord-for-ord-omsetjing til engelsk kan setninga Plutse-leg raukslangendifor gje resultatetSuddenly smoked the

    snake. Verbforma rauk (preteritum av ryke) er eirty-dig mellom det vi p engelsk ville omsetje som hv vis snap og smoke. Orda slange er p si side eirtydig mellom vasslange (engelsk hose) og reptilslange (en-gelsk snake). Legg g merke til at ei enkel ord-for-ord-omsetjing ikkje ville gjeve rett rekkjeflgje av ordaengelsk.I tillegg til leksikalskeirtydigheitog skilnaderi ordsling kjem utfordringar med syntaktiske eirtydigheitP norsk kan ein til dmes topikalisere objektet i ei sning, medan opninga for gjere dette p engelsk er mkjemeir avgrensa. Dennorske setninga Epla t mannenhartouliketolkingar:antenblireplaanalysertsomsub-

    jektet til setninga (mannen vart eten av epla), eller soeit topikalisert objekt (epla vart etne av mannen). Sidadenne eirtydigheita ikkje nst p engelsk, m eit mskinomsetjingssystem frst nne den korrekte syntatiske tolkinga for kome fram til ei korrekt omsetjingEi anna utfordring for maskinomsetjing for norsk er smansette ord. Eit effektivt omsetjingssystem m kunidentiseresamansetteordsomikkjestriordboka,anlysere dei,ogomnaudsynt lage nyesamansetteord im

    sprket.For omsetjingar mellom sprk som er nrt i slekt kaei enkel ord-for-ord-omsetjing la seggjere.Men maskomsetjingssystem kan g byggjast ved bruke lingtiske reglar. Regelbaserte (eller kunnskapsdrivne) stem analyserer kjeldeteksten, og lagar ein mellomsande symbolsk representasjon. P grunnlag av den sybolskerepresentasjonenkaneinsgenerereteksttilmsprket. Kvaliteten p slike metodar avheng i stor grav tilgangen til omfattande ordbker med morfologissyntaktisk og semantisk informasjon, i tillegg til stosett med grammatiske reglar utvikla av sprkforskarDette er ein veldig omfattande, og difor dyr, prosess.P slutten av 80-talet, d datamaskinkapasiteten aukauka g interessa for statistiske modellar for maskiomsetjing. Statistiske modellar for maskinomsetjing

    23

  • 8/12/2019 Georg Rehm, Hans Uszkoreit Auth., Georg Rehm, Hans Uszkoreit Eds. the Norwegian Language in the Digital Age Nynorskversjon 2012

    31/84

    Statistiskmaskinomset-

    jing

    Kjeldetekst

    Mltekst

    Tekstanalyse (formattering,morfologi, syntaks, osv.)

    Tekstgenerering

    Omsetjingssreglar

    6: Maskinomsetjing (venstre: statistisk; hgre: regelbasert)

    basert p analysar av tosprklege tekstkorpus, som pa-rallellkorpuset Europarl, som bestr av mtereferat frEuropaparlamentet p 11 europeiske sprk (norsk er

    ikkje inkludert). Viss ein har tilgang til tilstrekkelegemengder data, kan statistisk maskinomsetjing fungeregodt nok til nne den omtrentlege tydinga til ei tekst p eit anna sprk, gjennom prosessere parallelle ver-sjonar av tekst og dermed nne sannsynlege ordmns-ter. Datadriven maskinomsetjing har sinefordelar, fordiho krev mindre menneskeleg innsats, og kan fange oppsrmerkte trekk ved sprket (til dmes idiomatiske ut-trykk) som kan oversjast av kunnskapsdrivne system.

    Men i motsetnad til kunnskapsdrivne system gjev sta-tistisk (eller datadrive) maskinomsetjing o e ugramma-tiske resultat.O e er det alts slik at fordelane og ulempene vedkunnskapsdriven og datadriven maskinomsetjing utfyl-lerkvarandre. Difor fokuserernyare forskingo ep hy-bridtilnrmingar som kombinerer begge metodane. Eislik tilnrming bruker bde kunnskapsdrivne og data-drivnesystemsamanmedeinselekteringsmodulsomav-

    gjer det beste resultatet for kvar setning. For setningarlengre enn omlagtolvord blir likevel resultata som regelmindre gode. Her kan ei betre lysing vere kombineredei beste delane fr kvar setning fr eire ulike kjelder.Dette kan vere ei ganske kompleks oppgve, sidan detikkjealltiderklartkvafordelarsompassarsaman.Dessem identiserast og parallellstillast.

    Sjlv om det er eit klart behov for maskinomsetjing for norsk, er utviklinga av slikprogramvare for norsk enno ikkje omfattande.

    Nr det gjeld omsetjing mellom dei to norske mlfomene, er behovet for effektive omsetjingsverkty stoTo selskap har utvikla system for dette, Nynodata oApertium. Nynodata er eit lite fretak som tilbyr verty for omsetjing, korrektur og tekstsk for bokmog nynorsk. Apertium er eit open-kjelde-initiativ sog tilbyr automatisert omsetjing mellom dei to mlfomene, implementert av ein student ved UniversitetetBergen.Nrdetgjeldomsetjingmellomnorskogulikeframandsprk, harGoogleTranslate einnorsk modul foromse jing mellom engelsk og norsk; via engelsk er det mo omsetje mellom norsk og kvart eit sprkpar som innheld engelsk. GramTrans er ei maskinomsetjingsplaformsom erutviklaavdetdanskeGrammarSo ApS ogdetnorskefretaketKalderaSprkteknologiAS.Dennomsetjingsmotorentilbyreitenesteforgratis,nettbaseromsetjingfordeiskandinaviskesprkaogmellomnorog engelsk. Programmet er basert p ein robust grammatikkanalyse, ein transferkomponent som handsamovergangen fr eitt sprk til eit anna med omsyn til lesikon og grammatikk, og til slutt ein komponent somgenererer omsett tekst p mlsprket. Selskapet CluNorge spesialisererseg p elektroniske ordbker forn

    24

  • 8/12/2019 Georg Rehm, Hans Uszkoreit Auth., Georg Rehm, Hans Uszkoreit Eds. the Norwegian Language in the Digital Age Nynorskversjon 2012

    32/84

    ringslivet, og utvikla forom lag ti r sidan systemet Tex-tran formaskinomsetjing frengelsk tilnorsk.Systemeteksisterer enno, men har ikkje vorte vidareutvikla fordi jamtplitelege maskinomsetjingar avhg kvalitetersrs vanskeleg oppn, medan brukargruppene ikkje ynskte betale for eit system som gjorde feil.Sjlv om det fregr ein betydeleg forskingsinnsats pdette omrdet, bde nasjonalt og internasjonalt, hardatadrivne og hybride system s langt vore mindre vel-lukka i applikasjonar for nringslivet enn i forskingsla-boratoriet. I Noreg nst den viktigaste forskingseksper-tisen ved Universitetet i Oslo og Universitetet i Bergen.

    Sprktenesteindustrien i Noreg har tilsynelatandeeit underforbruk av sprkteknologiske ressursar.

    bruke maskinomsetjing kan auke produktiviteten be-tydeleg, s lenge systemeter tilpassabrukarspesikk ter-minologi og er godt integrert i arbeidsyten p ein ar-beidsplass. Generelt verkar det likevel som at sprkte-nesteindustrien i Noreg har eit underforbruk av sprk-teknologiskeressursar. Sektoren kandelast i to grupper: p den eine sida har ein frilansomsetjararog omsetjings-byr som rettar seg mot einskildpersonar, nringslivetog offentleg sektor;pden andre sidahar ein omsetjararsom er knytte til Oversetterforeningen og Norsk faglit-terr forfatter- og oversetterforening.I den siste gruppa verker det som sprkteknologi berreer i avgrensa bruk.Den frstnemnde gruppa brukero eTrados, som er det klart mest brukte omsetjingsverk-tyet for profesjonelle omsetjarar. Trados har likevel in-gen eigen modul for norsk, men stttar seg i staden p Hunspell, ei open-kjelde-lysing med stavekontrollog eit morfologisk analyseverkty som opphavleg vartutvikla for ungarsk. Sjlv om det er ei funksjonell og open lysing, treng ho ytterlegare utvikling for fun-gere som ein optimal ressurs for sprktenestesektoren iNoreg.Srlegstorterbehovetforforbetreanalysenav

    samansette ord p norsk. I tillegg bruker profesjoneomsetjarar termbasar (DU, IATE), og til ein viss graer der eit samarbeid med universitetssektoren i utvilinga av termbasar. Det tilsynelatande underforbrukav sprkteknologiske ressursar i sprktenesteindustrheng delvis saman med mangelen p gode ressursar norsk,mengmanglandekontaktmellomsprktenesteleverandrar og forskarmilja. Difor kan kunnskap odet fulle potensialet for sprkteknologi bli for avgrenogdetkanverevanskelegforkommersielleaktrarvudere kvaliteten p eksisterande ressursar.

    Kvaliteten p maskinomsetjingssystem har framleis stort forbetringspotensial. Blant utfordringane er ti

    passe sprkressursar til eit g jeve emne eller brukarorde, og integrere teknologien i ein arbeidsyt soallereie inneheld termbasar og omsetjingsminne. I tleggerdeiestesystemasomeribrukrettamotengelsog stttar berre sjeldan omsetjing til og fr norsk. Degjev forstyrringar i prosessen med f tekst omsett, tvingarmaskinomsetjingsbrukarartil lresegulikekdingsverkty for ulike system.

    Gjennom evalueringskampanjar samanliknar forskarkvaliteten p ulike maskinomsetjingssystem og tilnmingar og ikkje minst kva som er status for systemfor ulike sprkpar. Prosjektet EuroMatrix+ gjennomfrde ein studie av kvaliteten p maskinomsetjingsstemfor22offisielleEU-sprk.Norskvarikkjeinkludei detteprosjektet.Figur7(s.26),somvartlagagjennom prosjektet EuroMatrix+, viser ei parvis samanlikniav resultata for 22 av dei 23 EU-sprka (irsk var ikkmed i samanlikninga). Resultata er rangert med bruav BLEU-poenggjeving, som gjev hgare poeng fortre omsetjingar [27]. Ein menneskeleg omsetjar ville vanlegvis oppn rundt 80 poeng. Dei resultata (i grog bltt) fann ein med sprk som nyt godt av omfatande forskingsinnsats innanfor koordinerte forsking program og somharmange parallellkorpus (t.d.engelsfransk, nederlandsk, spansk og tysk). Sprka med lav

    25

  • 8/12/2019 Georg Rehm, Hans Uszkoreit Auth., Georg Rehm, Hans Uszkoreit Eds. the Norwegian Language in the Digital Age Nynorskversjon 2012

    33/84

    Mlsprk Target languageEN BG DE CS DA EL ES ET FI FR HU IT LT LV MT NL PL PT RO SK SL

    EN 40.5 46.8 52.6 50.0 41.0 55.2 34.8 38.6 50.1 37.2 50.4 39.6 43.4 39.8 52.3 49.2 55.0 49.0 44.7 50.7 52.0BG 61.3 38.7 39.4 39.6 34.5 46.9 25.5 26.7 42.4 22.0 43.5 29.3 29.1 25.9 44.9 35.1 45.9 36.8 34.1 34.1 39.9DE 53.6 26.3 35.4 43.1 32.8 47.1 26.7 29.5 39.4 27.6 42.7 27.6 30.3 19.8 50.2 30.2 44.1 30.7 29.4 31.4 41.2CS 58.4 32.0 42.6 43.6 34.6 48.9 30.7 30.5 41.6 27.4 44.3 34.5 35.8 26.3 46.5 39.2 45.7 36.5 43.6 41.3 42.9

    DA 57.6 28.7 44.1 35.7 34.3 47.5 27.8 31.6 41.3 24.2 43.8 29.7 32.9 21.1 48.5 34.3 45.4 33.9 33.0 36.2 47.2EL 59.5 32.4 43.1 37.7 44.5 54.0 26.5 29.0 48.3 23.7 49.6 29.0 32.6 23.8 48.9 34.2 52.5 37.2 33.1 36.3 43.3ES 60.0 31.1 42.7 37.5 44.4 39.4 25.4 28.5 51.3 24.0 51.7 26.8 30.5 24.6 48.8 33.9 57.3 38.1 31.7 33.9 43.7ET 52.0 24.6 37.3 35.2 37.8 28.2 40.4 37.7 33.4 30.9 37.0 35.0 36.9 20.5 41.3 32.0 37.8 28.0 30.6 32.9 37.3FI 49.3 23.2 36.0 32.0 37.9 27.2 39.7 34.9 29.5 27.2 36.6 30.5 32.5 19.4 40.6 28.8 37.5 26.5 27.3 28.2 37.6FR 64.0 34.5 45.1 39.5 47.4 42.8 60.9 26.7 30.0 25.5 56.1 28.3 31.9 25.3 51.6 35.7 61.0 43.8 33.1 35.6 45.8HU 48.0 24.7 34.3 30.0 33.0 25.5 34.1 29.6 29.4 30.7 33.5 29.6 31.9 18.1 36.1 29.8 34.2 25.7 25.6 28.2 30.5IT 61.0 32.1 44.3 38.9 45.8 40.6 26.9 25.0 29.7 52.7 24.2 29.4 32.6 24.6 50.5 35.2 56.5 39.3 32.5 34.7 44.3LT 51.8 27.6 33.9 37.0 36.8 26.5 21.1 34.2 32.0 34.4 28.5 36.8 40.1 22.2 38.1 31.6 31.6 29.3 31.8 35.3 35.3LV 54.0 29.1 35.0 37.8 38.5 29.7 8.0 34.2 32.4 35.6 29.3 38.9 38.4 23.3 41.5 34.4 39.6 31.0 33.3 37.1 38.0MT 72.1 32.2 37.2 37.9 38.9 33.7 48.7 26.9 25.8 42.4 22.4 43.7 30.2 33.2 44.0 37.1 45.9 38.9 35.8 40.0 41.6NL 56.9 29.3 46.9 37.0 45.4 35.3 49.7 27.5 29.8 43.4 25.3 44.5 28.6 31.7 22.0 32.0 47.7 33.0 30.1 34.6 43.6PL 60.8 31.5 40.2 44.2 42.1 34.2 46.2 29.2 29.0 40.0 24.5 43.2 33.2 35.6 27.9 44.8 44.1 38.2 38.2 39.8 42.1PT 60.7 31.4 42.9 38.4 42.8 40.2 60.7 26.4 29.2 53.2 23.8 52.8 28.0 31.5 24.8 49.3 34.5 39.4 32.1 34.4 43.9RO 60.8 33.1 38.5 37.8 40.3 35.6 50.4 24.6 26.2 46.5 25.0 44.8 28.4 29.9 28.7 43.0 35.8 48.5 31.5 35.1 39.4SK 60.8 32.6 39.4 48.1 41.0 33.3 46.2 29.8 28.4 39.4 27.4 41.8 33.8 36.7 28.5 44.4 39.0 43.3 35.3 42.6 41.8SL 61.0 33.1 37.9 43.5 42.6 34.0 47.0 31.1 28.8 38.2 25.7 42.3 34.6 37.3 30.0 45.9 38.2 44.1 35.8 38.9 42.7SV 58.5 26.9 41.0 35.6 46.6 33.3 46.6 27.4 30.9 38.9 22.7 42.0 28.2 31.0 23.7 45.6 32.2 44.2 32.7 31.3 33.5

    7: Maskinomsetjing mellom 22 EU-sprk Machine translation between 22 EU-languages [26]

    poengsum er viste i raudt. Desse sprka manglar antenheilt ein velutvikla forskingsinnsats eller s skil dei seg

    strukturelt veldig fr andre sprk (t.d. ungarsk, maltisk,nsk).

    4.3 ANDRE BRUKSOMRDEOppbygginga av sprkteknologiske verkty omfattar eirekkjeunderoppgversomikkjealltidersynlegepover-ata, der kommunikasjonen med brukaren skjer. Slikeunderliggjande program har likevel viktige funksjonar isystemet.Kvaravoppgvene utgjer viktige forskingsfelt,som har utvikla seg til enkeltdisiplinar innanfor data-lingvistikk.Skalla dialogsystem som svarer p sprsml (engelsk QuestionAnswering )ertildmeseitaktivtforskingsom-rde,dereinharutviklakorpuskodamedsetningsstruk-tur, og dervitskaplege evalueringskonkurransarharvore

    initierte. Feltet omfattar meir enn berre sk p nkkeord (der skemotoren svarar med ei samling potens

    elt relevante dokument); det ltbrukarar stillekonkretsprsml som systemet s gjev eitt einaste svar p. dmes:

    Sprsml: Kor gammal var Neil Armstrong d han gjekk p mnen?

    Svar: 38.

    Medan slike dialogsystem openbert er relaterte til nesk, blir det i dag nytta som eit overordna omgrep fforskingssprsmlsomkva fortypar sprsml somnkorleis ein skal handsame dei, korleis ein kan analysog samanlikne sett av dokument som potensielt innheld svaret (gjev dokumenta til dmes motstridandsvar?), og korleis relevant informasjon kan ekstraherfr eit dokument med minimal gradavfeil, og utan sjbort fr kontekst. Dette er i sin tur knytt til informasjonsekstrahering (engelsk Information Extraction), eit

    26

  • 8/12/2019 Georg Rehm, Hans Uszkoreit Auth., Georg Rehm, Hans Uszkoreit Eds. the Norwegian Language in the Digital Age Nynorskversjon 2012

    34/84

    omrde som vart svrt populrt og innytelsesrikt ddatalingvistikken vart meir statistisk orientert tidleg p90-talet. Informasjonsekstrahering har som ml nnebestemte bitar av informasjon i visse sett av dokument,til dmes identisere dei viktigaste aktrane i avisar-tiklar som handlar om ta over fretak. Eit anna sce-nario som kan studerast, er terrorhandlingar. Problem-stillinga er d sortere informasjon i teksten i samsvarmed ein frehandsdenert mal som spesiserer krite-riumsomgjerningsmann,ml,tid,stadogutfallavhen-dinga. Informasjonsekstrahering bestr grunnleggjandesett i fylle ut ein mal med domenespesikk og rele- vant informasjon, noko som gjer informasjonsekstrahe-ring til nok eit dme p ein underliggjande teknologisompdeneinesidautgjereitsjlvstendigforskingsfelt,og som p den andre sida skal kunne integrerast i strrebrukarapplikasjonar for praktisk nytte.

    Forsking p dei este typar tekstteknologi er langtmindre utvikla for norsk enn for engelsk.

    Samandrag og tekstgenerering er tilgrensande omrdesom kan brukast som sjlvstendige applikasjonar el-ler som underliggjande sttteteknologi. Samandrag harsom ml gje att dei viktigaste punkta i ei lengre tekst,og nst mellom anna i Microso Word. O ast blir detbrukt ei statistisk tilnrming for identisere dei vik-tige orda i ei tekst (dvs. ord som opptrer hyppig i denaktuelle teksta, men meir