the meta-net strategic research agenda for multilingual europe

29
Co-funded by the 7th Framework Programme and the ICT Policy Support Programme of the European Commission through the contracts T4ME, CESAR, METANET4U, META-NORD (grant agreements no. 249119, 271022, 270893, 270899). The META-NET Strategic Research Agenda for Multilingual Europe 2020 Georg Rehm Network Manager META-NET German Research Center for Artificial Intelligence (DFKI), Berlin, Germany III International Symposium on Multilingualism in Cyberspace (SIMC) – Paris, France November 21, 2012

Upload: georg-rehm

Post on 18-Dec-2014

143 views

Category:

Technology


3 download

DESCRIPTION

Georg Rehm. The META-NET Strategic Research Agenda for Multilingual Europe. International Symposium on Multilingualism in Cyberspace (SIMC), Paris, France, November 2012. November 21, 2012. Invited talk.

TRANSCRIPT

Page 1: The META-NET Strategic Research Agenda for Multilingual Europe

Co-funded by the 7th Framework Programme and the ICT Policy Support Programme of the European Commission through the contracts T4ME, CESAR, METANET4U, META-NORD (grant agreements no. 249119, 271022, 270893, 270899).

The META-NET Strategic Research Agenda for Multilingual Europe 2020

Georg Rehm

Network Manager META-NET German Research Center for Artificial Intelligence (DFKI), Berlin, Germany

III International Symposium on Multilingualism in Cyberspace (SIMC) – Paris, France

November 21, 2012

Page 2: The META-NET Strategic Research Agenda for Multilingual Europe

Outline

q  Introduction

q  Language White Paper Series

q  Strategic Research Agenda

q  Conclusions

http://www.meta-net.eu 2

Page 3: The META-NET Strategic Research Agenda for Multilingual Europe

Multilingual Europe

3 http://www.meta-net.eu

q  Challenge: Providing each language community with the most advanced technologies for communication and information so that maintaining their mother tongue does not turn into a disadvantage.

q  While research has made considerable progress in recent years, the pace of progress is not fast enough to meet the challenge within the next 10-20 years.

q  All stakeholders – researchers, LT user and provider industries, language communities, funding programmes, policy makers – should team up for a major dedicated push.

Page 4: The META-NET Strategic Research Agenda for Multilingual Europe

Objectives

META-NET is a network of excellence dedicated to fostering the tech-nological foundations of the European multilingual information society.

http://www.meta-net.eu 4

Page 5: The META-NET Strategic Research Agenda for Multilingual Europe

Four EU-Funded Projects

q  Initial project: T4ME (FP7; 13 partners, 10 countries)

q  Three ICT-PSP consortia since Feb. 2011: CESAR, METANET4U, META-NORD

q  All EU member states and several non-member states covered.

q  META-NET in Nov. 2012: 60 members in 34 countries.

http://www.meta-net.eu 5

http://www.meta-net.eu/members

Page 6: The META-NET Strategic Research Agenda for Multilingual Europe

Language White Paper Series META-VISION

http://www.meta-net.eu 6

Page 7: The META-NET Strategic Research Agenda for Multilingual Europe

Language White Paper Series

http://www.meta-net.eu 7

q  Reports on the state of our languages in the digital age and the level of support through language technology.

q  Series covers 30 languages. q  Key communication instruments to

address decision makers and journalists. q  Inform about societal and technological

problems and challenges as well as economic opportunities.

q  >2 years in the making. q  >200 national experts as contributors. q  >8.000 copies printed and distributed to

politicians and journalists.

Page 8: The META-NET Strategic Research Agenda for Multilingual Europe

30 Languages Covered

q  Basque q  Bulgarian* q  Catalan q  Czech* q  Danish* q  Dutch* q  English* q  Estonian* q  Finnish* q  French*

q  Galician q  German* q  Greek* q  Hungarian* q  Icelandic q  Irish* q  Italian* q  Latvian* q  Lithuanian* q  Maltese*

q  Norwegian q  Polish* q  Portuguese* q  Romanian* q  Serbian q  Slovak* q  Slovene* q  Spanish* q  Swedish* q  Croatian

http://www.meta-net.eu 8

* = Official EU language

Page 9: The META-NET Strategic Research Agenda for Multilingual Europe

Cross-Lingual Ranking

q  In four application areas, each language is assigned to one of five clusters, ranging from excellent LT support to weak/no support:

1.  Machine Translation 2.  Speech Processing

3.  Text Analysis

4.  Resources q  Results finalised at a meeting

in Berlin with representatives of all 30 languages (October 21/22, 2011).

http://www.meta-net.eu 9

Page 10: The META-NET Strategic Research Agenda for Multilingual Europe

MT

http://www.meta-net.eu 10

English

good

French, Spanish

moderate fragmentary

Catalan, Dutch, German, Hungarian, Italian, Polish, Romanian

weak or no support

Basque, Bulgarian, Croatian, Czech, Da-nish, Estonian, Finnish, Galician, Greek,

Icelandic, Irish, Latvian, Lithuanian, Maltese, Norwegian, Portuguese, Serbian, Slovak, Slovene, Swedish

excellent

Czech, Dutch, Finnish, French, German,

Italian, Portuguese, Spanish

moderate fragmentary

Basque, Bulgarian, Catalan, Danish, Estonian, Galician, Greek,

Hungarian, Irish, Norwegian, Polish, Serbian, Slovak, Slovene, Swedish

weak or no support

Croatian, Icelandic, Latvian, Lithuanian, Maltese, Romanian

excellent

English

good

Spee

ch

English

good

Dutch, French, German, Italian,

Spanish

moderate fragmentary

Basque, Bulgarian, Catalan, Czech, Danish, Finnish, Galician, Greek, Hungarian, Norwegian, Polish, Portuguese, Romanian, Slovak,

Slovene, Swedish

weak or no support

Croatian, Estonian, Icelandic, Irish, Latvian, Lithuanian, Maltese, Serbian

excellent

English

good

Czech, Dutch, French, German, Hungarian,

Italian, Polish, Spanish, Swedish

moderate fragmentary

Basque, Bulgarian, Catalan, Croatian, Danish, Estonian, Finnish, Galician,

Greek, Norwegian, Portuguese, Romanian, Serbian, Slovak, Slovene

Icelandic, Irish, Latvian, Lithuanian, Maltese

weak/no support excellent

Res

ourc

es

Text

Ana

lysi

s

Page 11: The META-NET Strategic Research Agenda for Multilingual Europe

Europe’s Languages and LT

http://www.meta-net.eu 11

Dutch French German Italian

Spanish

Catalan Czech

Finnish Hungarian

Polish Portuguese

Swedish

Basque Bulgarian

Danish Galician

Greek Norwegian Romanian

Slovak Slovene

Croatian Estonian Icelandic

Irish Latvian

Lithuanian Maltese Serbian

English

good support through Language Technology

weak or no support

Page 12: The META-NET Strategic Research Agenda for Multilingual Europe

Not enough R&I on European languages

  LT research on European languages, except for English, is too weak and too slow

  Many languages are badly covered

0

50

100

150

200

250

300

350

400

450

English

Ch

inese

Germ

an, Stand

ard

Fren

ch

Spanish

Japane

se

Arabic

Dutch

Portugue

se

Czech

Danish

Swed

ish

Hind

i Ko

rean

Turkish

Ita

lian

Russian

Finn

ish

Hebrew

Hu

ngarian

Sloven

e Urdu

Romanian

Zulu

Bulgarian

Catalan-­‐Va

lencian-­‐Ba

lear

Greek

Thai

Welsh

Estonian

Basque

Ge

rman, Swiss

InukStut

Indo

nesia

n Ineseñ

o LaSn

Marathi

Malay

Pushto

Serbian

Syria

c Tamil

UgariS

c Ukrainian

Uspanteko

Vietnamese

Languages treated in the 2010 editions of Journal of Computational Linguistics and Conferences of ACL, EMNLP and COLING. Many European languages without any reference: Slovak, Maltese, Lithuanian, Irish, Albanian, Croatian, Galician etc.

Page 13: The META-NET Strategic Research Agenda for Multilingual Europe

Key Observations

http://www.meta-net.eu 13

q  When it comes to Language Technology support, there are massive differences between Europe’s languages and technology areas.

q  LT support for English is ahead of any other language.

q  Even support for English is far from being perfect.

q  The gap between English and the other languages keeps widening!

q  Several languages – Icelandic, Latvian, Lithuanian, Maltese – receive this weakest score in all four areas!

q  At least 21 European languages in danger of digital extinction!(Languages put into the “weak or no support” category at least once.)

Page 14: The META-NET Strategic Research Agenda for Multilingual Europe

White Paper Press Campaign

q  Headline of press release:

At Least 21 European Languages in Danger of Digital Extinction. Good News and Bad News on the European Day of Languages.

q  Sent out to journalists, politicians and other stakeholder groups before the European Day of Languages (September 26).

q  Overwhelmed by the huge interest in the topic and our key findings!

q  520+ mentions in the online and traditional press.

q  40+ interviews with META-NET representatives (television, radio).

q  News came in from 41 countries in 35 different languages.

http://www.meta-net.eu 14

Page 15: The META-NET Strategic Research Agenda for Multilingual Europe

Coverage by Country

http://www.meta-net.eu 15

Spain, 15.90%

Bulgaria, 10.80%

International, 7.90%

Latvia, 5.30%

Netherlands, 4.80%

Greece, 4.60% Romania, 4.40%

Serbia, 4.40%

Italy, 4.20%

Germany, 3.50%

Russia, 3.50%

Estonia, 2.90%

France, 2.60%

Slovenia, 2.40%

Iceland, 2.20% Malta, 2% USA, 1.50%

Denmark, 1.30%

Latin America, 1.30%

Lithuania, 1.30%

Ireland, 1.30% UK, 1.10%

Belgium, 0.90%

Finland, 0.70% Sweden, 0.70%

Poland, 0.70%

Norway, 0.40%

Mexico, 0.40%

Brazil, 0.40%

Slovakia, 0.40%

Basque Country, 0.40% Portugal, 0.40% Austria, 0.20%

New Zealand, 0.20%

Hungary, 0.20%

Bosnia and Herzegovina, 0.20%

Costa Rica, 0.20%

Cyprus, 0.20%

Canada, 0.20%

Australia, 0.20%

Spain Bulgaria International Latvia Netherlands Greece Romania Serbia Italy Germany Russia Estonia France Slovenia Iceland Malta USA Denmark Latin America Lithuania Ireland UK Belgium Finland Sweden Poland Norway Mexico Brazil Slovakia Basque Country Portugal Austria New Zealand Hungary Bosnia and Herzegovina Costa Rica Cyprus Canada Australia

Page 16: The META-NET Strategic Research Agenda for Multilingual Europe

Response: Examples

q  Austria: Der Standard. q  Denmark: Politiken, Berlingske Tidende. q  Finland: Tiede. q  Germany: Heise Newsticker, Süddeutsche Zeitung. q  Greece: in.gr, Πρώτο Θέµα, Prosilipsis. q  Iceland: Fréttablaðið, Morgunblaðið. q  Italy: Wired. q  Lithuania: Delfi, Elektronika, KaunoDiena. q  Norway: Computerworld. q  Slovenia: Delo, Dnevnik, Demokracija. q  Serbia: Politika. q  Spain: El Mundo. q  UK: Huffington Post. q  USA: Mashable, NBC News, Reddit.

http://www.meta-net.eu 16

Page 17: The META-NET Strategic Research Agenda for Multilingual Europe

Date 30 September 2012 Page 16

Copyright material. This may only be copied under the terms of a Newspaper Licensing Agency agreement (www.nla.co.uk) or with written publisher permission. For external republishing rights see www.nla-republishing.com

Press Campaign: Examples

http://www.meta-net.eu 17

38

Στην ψηφιακή εποχή δεν… µιλούν ελληνικά, όπως και αρκετές άλλες ευρωπαϊκές

γλώσσες, σύµφωνα µε πανευρωπαϊ-κή έκθεση µε την υπογραφή 200 και πλέον ειδικών. Η συγκεκριµένη µελέ-τη δηµοσιεύτηκε από το επιστηµονικό δίκτυο ΜΕΤΑ-ΝΕΤ µε αφορµή τη χτε-σινή Ευρωπαϊκή Ηµέρα Γλωσσών.

Για τις ανάγκες της έρευνάς τους, γλωσσολόγοι από 34 χώρες της Γη-ραιάς Ηπείρου βαθµολόγησαν τις διαθέσιµες γλωσσικές υπηρεσίες και δηµιούργησαν ένα «Λευκό Βι-βλίο» για κάθε ευρωπαϊκή γλώσσα. Στη µελέτη τους, οι ειδικοί αναζήτη-σαν µεταξύ άλλων τέσσερα βασικά ηλεκτρονικά εργαλεία, δηλαδή την ύπαρξη αυτόµατης µετάφρασης, τη δυνατότητα φωνητικής αλληλε-πίδρασης και ψηφιακής ανάλυσης κειµένου, ενώ ταυτόχρονα διερευνή-θηκε και η διαθεσιµότητα γλωσσικών πόρων ή πηγών.

Σε πρώτη φάση εξέτασαν τις ιστο-σελίδες που επιτρέπουν στους χρή-στες να κάνουν µεταφράσεις online, όπως, για παράδειγµα, η υπηρεσία του κολοσσού πληροφορικής Google Translate. Την ίδια ώρα, εξετάστηκε και η «επικοινωνία» των ελληνόφω-νων χρηστών µε τις…συσκευές τους, όπως για παράδειγµα η δυνατότητα

να «µιλήσει» κάποιος στο GPS στη µητρική του γλώσσα. Οι ερευνητές κατέληξαν στο συµπέρασµα ότι υπάρχουν τέτοιες συσκευές, αλλά δεν είναι τόσο διαδεδοµένες όσο οι αγγλόφωνες. Το «χρυσό» µετάλλιο κατακτά,

όπως είναι άλλωστε και λογικό, η αγγλική γλώσσα. Οι αγγλόφωνοι χρή-στες έχουν την καλύτερη δυνατή τε-χνολογική υποστήριξη, κάτι το οποίο ευνοεί την περαιτέρω εξάπλωση της γλώσσας. Από «τεχνολογικό απο-κλεισµό» κινδυνεύουν περισσότερο η ισλανδική, η λετονική, η λιθουανική και η µαλτέζικη γλώσσα, ενώ σε λίγο καλύτερη µοίρα βρίσκονται η ελλη-νική, η βουλγαρική, η ουγγρική και η πολωνική, που όπως αναφέρει η έρευνα έχουν «αποσπασµατική» τε-χνολογική υποστήριξη.

«Μέτρια» χαρακτηρίζεται η υπο-στήριξη χρηστών σε ολλανδική, γαλ-λική, γερµανική, ιταλική και ισπανική γλώσσα. Οι επικεφαλής της επιστη-µονικής οµάδας, Χανς Ουζκοράιτ και Γκεόργκ Ρεµ, αναφέρουν χαρακτηρι-στικά: «Υπάρχουν δραµατικές διαφο-ρές στην υποστήριξη της γλωσσικής

τεχνολογίας ανάµεσα στις διάφορες ευρωπαϊκές γλώσσες. Το χάσµα µετα-ξύ “µικρών” και “µεγάλων” γλωσσών ολοένα και διευρύνεται. Πρέπει να εξασφαλίσουµε τον εφοδιασµό των µικρότερων και λιγότερο πλούσιων σε ψηφιακούς πόρους γλωσσών µε τις απαραίτητες βασικές τεχνολογί-ες. ∆ιαφορετικά, οι γλώσσες αυτές είναι καταδικασµένες σε ψηφιακή εξαφάνιση».

Μάλιστα, οι ειδικοί τονίζουν ότι χω-ρίς αποφασιστική δράση οι γλώσσες αυτές δύσκολα θα… επιβιώσουν στον ψηφιακό κόσµου του 21ου αιώνα. Η κ. Μαρία Γαβριηλίδου, µέλος της επι-στηµονικής οµάδας από το Ινστιτούτο

Επεξεργασίας του Λόγου Ερευνητικό Κέντρο Αθηνά, λέει στον «Ε.Τ.»: «Η έρευνα αυτή δεν λέει ότι δεν θα ζήσει η ελληνική γλώσσα ή ότι κινδυνεύει µε εξαφάνιση». Η ειδικός εξηγεί ότι όσο υπάρχουν άνθρωποι που µιλά-νε, γράφουν και επικοινωνούν µε µια γλώσσα, τότε αυτή θα συνεχίσει να υπάρχει. Είναι σηµαντικό, όµως, να έχουν όλοι οι χρήστες τη δυνατότητα να «µιλήσουν» στις µηχανές, όπως τα GPS τους, στα ελληνικά και να έχουν στη διάθεσή τους γλωσσικά εργαλεία ηλεκτρονικών υπολογιστών.

Μεταξύ αυτών των «εργαλείων» είναι οι διορθωτές ορθογραφικών και συντακτικών λαθών, που χρησιµοποι-ούνται καθηµερινά από εκατοντάδες Ελληνες χρήστες και βασίζονται στη γλωσσική τεχνολογία. Παρ’ όλα αυτά, τονίζει ότι η ψη-

φιακή εξάπλωση µιας γλώσσας είναι σηµαντική «∆εν είναι στα χέρια του µέσου χρήστη. Οι εκάστοτε κυβερ-νήσεις, η Ευρωπαϊκή Ενωση και ο ιδιωτικός τοµέας πρέπει να χρηµα-τοδοτήσουν την ανάπτυξη αυτής της τεχνολογίας για όλες τις γλώσσες», αναφέρει και συνεχίζει: «Οι χρήστες, όµως, πρέπει να απαιτούν να υπάρ-χουν και στη γλώσσα τους τα µέσα αυτά και να µην ικανοποιούνται µε τα αγγλικά».

Πέµπτη 27 Σεπτεµβρίου 2012 ΕΛΕΥΘΕΡΟΣ ΤΥΠΟΣ

LifeΠΟΛΛΕΣ ΕΥΡΩΠΑΪΚΕΣ ΓΛΩΣΣΕΣ ΘΕΩΡΟΥΝΤΑΙ ΤΕΧΝΟΛΟΓΙΚΑ… ΞΕΠΕΡΑΣΜΕΝΕΣ

Με ψηφιακή εξαφάνιση κινδυνεύουν τα ελληνικά

ΕΛΕΝΗ ΒΕΡΓΟΥ[email protected]

Η γλώσσα της αποξένωσης…

XX GREEKLISH

Οι αγγλόφωνοι χρήστες έχουν την καλύτερη δυνατή τεχνολογική υποστήριξη, γεγονός που ευνοεί την περαιτέρω εξάπλωση της γλώσσας

ΜΕ GREEKLISH επικοινω-νούν πλέον µέσω µηνυµά-των ή email οι περισσότεροι νέοι της χώρας µας. Παρά το γεγονός ότι τα τελευ-ταία χρόνια υπάρχουν τα γλωσσικά εργαλεία, τα οποία επιτρέπουν τη χρήση της ελληνικής γραµµατο-σειράς, έφηβοι και νέοι ενήλικες φαίνεται ότι δεν έχουν «αγκαλιάσει» αυτές τις τεχνολογίες. Ο καθη-γητής Γλωσσολογίας, κ. Γιώργος Μπαµπινιώτης, λέει στον «Ε.Τ.»: «Τα greeklish είναι πρόβληµα για την ελληνική γλώσσα, ιδίως για ανθρώπους νέας ηλικίας για έναν καθαρά γλωσσικό λόγο. Με τη χρήση των greeklish αποξενώνονται από τη µορφή της λέξης ή όπως λέµε το ετυµολογικό ίνδαλµα που δηλώνεται µε την ορθογραφία της λέξης και συνδέεται και µε τη ση-µασία της λέξης και µε την προέλευσή της». Ο κίνδυνος, µε τον οποίο έρχονται αντι-µέτωποι οι νέοι άνθρωποι, είναι η αποξένωση από τη γραπτή µορφή της γλώσ-σας. Αυτή η «οικειότητα», όµως, βοηθάει και στην κατανόηση της σηµασίας αλλά και την προέλευση της λέξης. «Αυτή η αποξένωση δεν είναι άνευ σηµασίας», αναφέρει ο ειδικός, ο οποίος εξηγεί ότι η διαδικασία της γραφής βοηθάει να εντυπω-θεί η λέξη και να συνδεθεί µε άλλες οµόρριζες λέξεις. «Οταν χρησιµοποιείται αυτή η µορφή επικοινωνίας, κα-ταστρέφονται, ατονούν. ∆εν είναι προς θάνατο, αλλά θα κάνει ζηµιά», αναφέρει ο κ. Μπαµπινιώτης, ο οποίος συµβουλεύει τους χρήστες να επιλέγουν την ελληνική γραµµατοσειρά.

Γιώργος Μπαµπινιώτης.

Page 18: The META-NET Strategic Research Agenda for Multilingual Europe

Website: Visitors Overview

http://www.meta-net.eu 18

began sending out press release

European Day of Languages

unusually high traffic

Page 19: The META-NET Strategic Research Agenda for Multilingual Europe

Website: Visitors’ Cities

http://www.meta-net.eu 19

Page 20: The META-NET Strategic Research Agenda for Multilingual Europe

Strategic Research Agenda META-VISION

http://www.meta-net.eu 20

Page 21: The META-NET Strategic Research Agenda for Multilingual Europe

Three Ingredients

21

Appropriate Programme

Vision & Agenda

Appropriate Actors

Research & Commercialisation

Appropriate Support

Funding

http://www.meta-net.eu

Page 22: The META-NET Strategic Research Agenda for Multilingual Europe

Strategic Research Agenda

http://www.meta-net.eu 22

q  META-NET Strategic Research Agenda for Multilingual Europe 2020.

q  Addresses the problems we found during the white paper study.

q  Three priority research themes and application/innovation scenarios.

q  Can put Europe ahead of its competitors in this technology area.

q  190+ contributors. q  Final version to be ready in Nov. 2012.

q  SRA will be presented to the EC and national bodies.

Page 23: The META-NET Strategic Research Agenda for Multilingual Europe

Strategic Research Agenda

http://www.meta-net.eu 23

Page 24: The META-NET Strategic Research Agenda for Multilingual Europe

Priority Themes: 3 + 2

q  Three Priority Research Themes: §  Translation Cloud

§  Social Intelligence and e-Participation

§  Socially-Aware Interactive Assistant q  Two additional themes:

§  European Language Technology Platform

§  Core Technologies for Language Analysis and Production

http://www.meta-net.eu 24

Page 25: The META-NET Strategic Research Agenda for Multilingual Europe

Gartner Hype Cycle 2012

13 of the 48 emerging technologies are

language technologies!

Page 26: The META-NET Strategic Research Agenda for Multilingual Europe

Conclusions META-NET

http://www.meta-net.eu 26

Page 27: The META-NET Strategic Research Agenda for Multilingual Europe

Conclusions

q  Our white paper press campaign shows that Europe is extremely interested in and passionate about its languages.

q  Two Parliamentary Questions in the European Parliament on the “digital extinction of languages” topic.

q  Now is the time to move forward with a continent-wide, systematic push and to invest in strategic research.

q  A modest investment is required.

q  This push will generate a countless number of opportunities.

q  Horizon 2020 and Connecting Europe Facility can provide sufficient resources to make our visions for Europe’s citizens and economy a reality.

http://www.meta-net.eu 27

Page 28: The META-NET Strategic Research Agenda for Multilingual Europe
Page 29: The META-NET Strategic Research Agenda for Multilingual Europe

Thank you very much! [email protected] http://www.meta-net.eu http://www.facebook.com/META.Alliance

29

Q/A