es valodu tehnoloģiju pētniecības projekti latvijā

25
ES valodu tehnoloģiju pētniecības projekti Latvijā Andrejs Vasiļjevs, Tilde CLARIN seminārs Rīga, 26.02.2010

Upload: gustav

Post on 24-Feb-2016

64 views

Category:

Documents


0 download

DESCRIPTION

ES valodu tehnoloģiju pētniecības projekti Latvijā. Andrejs Vasiļjevs, Tilde CLARIN seminārs Rīga, 26.02.2010. Valodas tehnoloģiju attīstības izaicinājumi Latvijā. Kā pārvarēt tehnoloģisko plaisu, kas šķir latviešu valodu no “lielajām” valodām? - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: ES valodu tehnoloģiju pētniecības projekti Latvijā

ES valodu tehnoloģiju pētniecības projekti Latvijā

Andrejs Vasiļjevs, TildeCLARIN seminārsRīga, 26.02.2010

Page 2: ES valodu tehnoloģiju pētniecības projekti Latvijā

Kā pārvarēt tehnoloģisko plaisu, kas šķir latviešu valodu no “lielajām” valodām?

Kā nodrošināt pētniecībai nepieciešamos valodas resursus? Kā sagatavot un piesaistīt datorlingvistikas speciālistus? Kā nodrošināt pētniecībai un attīstībai nepieciešamo

finansējumu? Kā attīstīt sadarbību starp akadēmisko un uzņēmējdarbības

vidi? Kā pētījumu rezultātus pārvērst plaši lietotās tehnoloģijās

un risinājumos? Kā apgūt labāko pasaules pieredzi?

Valodas tehnoloģiju attīstības izaicinājumi Latvijā

Page 3: ES valodu tehnoloģiju pētniecības projekti Latvijā

ES programmu iespējas latviešu valodas attīstībai

Latviešu valodas tehnoloģiskā attīstība

EK līdzfinansējums

Starptautisku speciālistu piesaiste

Sadarbība ar vadošajiem

Eiropas pētniecības

centriem

Page 4: ES valodu tehnoloģiju pētniecības projekti Latvijā

Valodas tehnoloģiju attīstībai pieejamās ES programmas

Page 5: ES valodu tehnoloģiju pētniecības projekti Latvijā

Mašīntulkošana

Valodas resursi

Terminoloģija

s risinājumi

ES valodas tehnoloģiju projekti

Page 6: ES valodu tehnoloģiju pētniecības projekti Latvijā

Eiropas sadarbība valodas tehnoloģiju attīstībā

Page 7: ES valodu tehnoloģiju pētniecības projekti Latvijā

Automātiska lingvistiskās informācijas izguve no liela apjoma paralēlo tekstu korpusiem ir efektīvs risinājums, kas aizstāj ilgstošu ekspertu darbu

Taču pašreizējo datos balstītu metožu lietojumu ierobežo pieejamais paralēlo tekstu apjoms

Valodām un nozarēm, kurām nav pieejami apjomīgi paralēlie korpusi, datos balstītu mašīntulkošanas sistēmu tulkošanas kvalitāte ir neapmierinoši zema

Datos balstītas mašīntulkošanas attīstība

Page 8: ES valodu tehnoloģiju pētniecības projekti Latvijā

Izveidot inovatīvu sadarbības platformu

datu koplietošanai un mašīntulku ģenerēšanai,

apkopojot publiskos un lietotāju piedāvātos mašīntulkošanas apmācības datus

un no šiem datiem ģenerējot dažādas mašīntulkošanas sistēmas.

LetsMT! projekta mērķis

Page 9: ES valodu tehnoloģiju pētniecības projekti Latvijā

Tilde (Project Coordinator) Latvija

Edinburgas universitāte Lielbritānija

Zagrebas universitāte Horvātija

Kopenhāgenas universitāte Dānija

Upsalas universitāte Zviedrija

Moravia Čehija

SemLab Nīderlande

LetsMT! partneri

Page 10: ES valodu tehnoloģiju pētniecības projekti Latvijā

CLARA Common Language Resources

and their Applications

Page 11: ES valodu tehnoloģiju pētniecības projekti Latvijā

Jauno valodas tehnoloģiju speciālistu sagatavošana,

attīstot pārrobežu sadarbību,

lai veidotu un uzturētu vienotu valodas resursu infrastruktūru,

kas ļaus radīt jaunas paaudzes teorētiskos un praktiskos lingvistiskos modeļus

CLARA projekta mērķi

Page 12: ES valodu tehnoloģiju pētniecības projekti Latvijā

Bergenas universitāte Tilde Kārļa universitāte Tūbingenas universitāte Kopenhāgenas universitāte Helsinku universitāte Pompeu Fabra universitāte Norvēģijas Ekonomikas un biznesa administrācijas

augstskola Maksa Planka institūts

CLARA partneri

Page 13: ES valodu tehnoloģiju pētniecības projekti Latvijā

Izpētīt un novērtēt jaunas metodes,

kā salīdzināmais korpuss var kompensēt

lingvistisko resursu trūkumu,

lai būtiski uzlabotu mašīntulkošanas kvalitāti

mazāku valodu un specializētu jomu tulkojumiem.

ACCURAT projekta mērķi

Page 14: ES valodu tehnoloģiju pētniecības projekti Latvijā

Teksta resursi divās vai vairāk valodās, kas nav tieši tulkojumi, taču ir ar līdzīgu saturu

Dokumentu kopa, kas savākta pēc noteiktiem kritērijiem (piem., līdzīga žanra vienas jomas teksti, kas radīti noteiktā laikposmā), divās vai vairāk valodās, kuru saturs lielākā vai mazākā mērā pārklājas

Piemēri: ziņas dažādās valodās, daudzvalodu tīmekļa lappuses, Wikipedia raksti u.c.

Salīdzināmie korpusi

Page 15: ES valodu tehnoloģiju pētniecības projekti Latvijā

Fokuss uz mazāk nodrošinātām valodām, tādām kā latviešu, lietuviešu, igauņu, grieķu, horvātu, rumāņu, slovēņu

Tulkošana no/uz lielajām valodām, piemēram, angļu-latviešu, angļu-horvātu, vācu-rumāņu

Mazāk pētīti mašīntulkošanas virzieni, piemēram, latviešu-lietuviešu, lietuviešu-rumāņu, rumāņu-grieķu

ACCURAT projekta valodas

Page 16: ES valodu tehnoloģiju pētniecības projekti Latvijā

Tilde (projekta koordinators) - Latvija Šefīldas universitāte - Lielbritānija Līdsas universitāte - Lielbritānija Atēnu Informācijas, komunikāciju un zināšanu

tehnoloģiju pētniecības un inovāciju centrs - Grieķija Zagrebas universitāte - Horvātija DFKI - Vācija Rumānijas ZA Mākslīgā intelekta institūts - Rumānija Linguatec - Vācija Zemanta - Slovēnija

ACCURAT projekta partneri

Page 17: ES valodu tehnoloģiju pētniecības projekti Latvijā

Latvijas Patentu birojs Latvijas universitāte Lokalizācijas industrijas standartu asociācija Pēterburgas Hercena Valsts pedagoģiskā universitāte Eiropas Komisijas Apvienotais pētniecības centrs CLARIN konsorcijs

ACCURAT konsultatīvā padome

Page 18: ES valodu tehnoloģiju pētniecības projekti Latvijā

Salīdzināmības metrika un atbilstošie rīki

Salīdzināmais korpuss un tā vākšanas un apstrādes rīki

Metodes un rīki salīdzināmā korpusa sastatīšanai dažādos līmeņos

Metodes salīdzināmā korpusa lietojumam statistiskajā un likumbāzētajā mašīntulkošanā

Lietojuma scenāriji un praktiskā noderīguma novērtējums

Sagaidāmie rezultāti

Mašīntulkošanas kvalitātes uzlabošana latviešu un citām mazākām valodām un specializētām jomām

Page 19: ES valodu tehnoloģiju pētniecības projekti Latvijā

TTCTerminology extraction, translation

tools and comparable corpora

Page 20: ES valodu tehnoloģiju pētniecības projekti Latvijā

Attīstīt mašīntulkošanas un datorizētās tulkošanas līdzekļus,

automātiski izgūstot divvalodu terminoloģiju

no tīmekļa salīdzināmo korpusu datiem

Eiropas valodās, ieskaitot mazākas valodas.

TTC projekta mērķis

Page 21: ES valodu tehnoloģiju pētniecības projekti Latvijā

Nantes universitāte Francija

Tilde Latvija

Štutgartes universitāte Vācija

Līdsas universitāte Lielbritānija

Sogitec industries Francija

Syllabs SARL Francija

Eurinnov Francija

TTC Partneri

Page 22: ES valodu tehnoloģiju pētniecības projekti Latvijā

EASTIN-CLCrosslingual and multimodal Search in a Portal for Support of Assisted Living

Page 23: ES valodu tehnoloģiju pētniecības projekti Latvijā

Sociālās līdzdalības iespēju sniegšana

vecākiem cilvēkiem un cilvēkiem ar īpašām vajadzībām,

izveidojot viņu vajadzībām piemērotu daudzvalodu portālu,

kas apkopo un tulko informāciju no dažādiem nacionālajiem avotiem.

EASTIN-CL Goals

Page 24: ES valodu tehnoloģiju pētniecības projekti Latvijā

Linguatec Vācija

Tilde Latvija

Morphologic Ungārija

Institut der deutchen Wirtschaft Vācija

Fondazione don Carlo Gnocchi Itālija

EASTIN-CL projekta partneri

Page 25: ES valodu tehnoloģiju pētniecības projekti Latvijā

Sadarbība Latvijas līmenī◦ CLARIN Latvija◦ Latviešu valodas nacionālā korpusa iniciatīva

Sadarbība Baltijas līmenī◦ Baltijas HLT konference 2010

Sadarbība Eiropas līmenī◦ FP7, CIP ICT-PSP, Marie Curie programmas

“Horizontālā” sadarbība starp pētniecības iestādēm, atmiņas institūcijām un uzņēmumiem◦ Valodu krasts

Kā virzīt valodas tehnoloģiju attīstību Latvijā