white paper series coleção livros brancos the a … · de desenvolvimento da tecnologia da...

93
White Paper Series THE PORTUGUESE LANGUAGE IN THE DIGITAL AGE Coleção Livros Brancos A LÍNGUA PORTUGUESA NA ERA DIGITAL António Branco Amália Mendes Sílvia Pereira Paulo Henriques Thomas Pellegrini Hugo Meinedo Isabel Trancoso Paulo Quaresma Vera Lúcia Strube de Lima Fernanda Bacelar

Upload: hoangminh

Post on 08-Nov-2018

215 views

Category:

Documents


0 download

TRANSCRIPT

White Paper Series

THEPORTUGUESE

LANGUAGE INTHE DIGITAL

AGE

Coleção Livros Brancos

ALÍNGUAPORTUGUESANA ERADIGITAL

António BrancoAmália MendesSílvia PereiraPaulo HenriquesThomas PellegriniHugo MeinedoIsabel TrancosoPaulo QuaresmaVera Lúcia Strube de LimaFernanda Bacelar

White Paper Series

THEPORTUGUESE

LANGUAGE INTHE DIGITAL

AGE

Coleção Livros Brancos

ALÍNGUAPORTUGUESANA ERADIGITAL

António Branco Universidade de Lisboa

Amália Mendes CLUL, Universidade de Lisboa

Sílvia Pereira Universidade de Lisboa

Paulo Henriques CLUL, Universidade de Lisboa

Thomas Pellegrini INESC-ID

Hugo Meinedo INESC-ID

Isabel Trancoso INESC-ID, IST

Paulo Quaresma Universidade de Évora

Vera Lúcia Strube de Lima PUCRS

Fernanda Bacelar CLUL, Universidade de Lisboa

Georg Rehm, Hans Uszkoreit(organizadores, editors)

PREFÁCIO PREFACE

Este Livro Branco, sobre a língua portuguesa na era di- is white paper about the Portuguese language in thegital, faz parte de uma coleção que promove o conheci- digital age is part of a series that promotes knowledgemento sobre a tecnologia da linguagem e o seu poten- about language technology and its potential. It ad-cial. É dirigido a um público o mais vasto possível, não dresses a wider non expert audience, in general, includ-especializado nestas matérias, incluindo comunidades ing language communities, journalists, politicians orlinguísticas, jornalistas, políticos ou docentes, entre educators, among many others.muitos outros. is book seeks to make available an assessment of theEste livro procura disponibilizar uma análise do estado state of development of language technology for Por-de desenvolvimento da tecnologia da linguagem para tuguese, and reports on theprospects, andnecessary ac-a língua portuguesa, assim como das perspectivas que tions, for the consolidation of Portuguese as a languagese oferecem, e das ações necessárias, para a consolida- for international communication with global projec-ção do português como língua de comunicação inter- tion, in the scope of this emerging technology.nacional com projeção global, no quadro desta tecno- e present White Paper series was organized bylogia emergente. META-NET, aNetworkofExcellence partially fundedEsta coleção de Livros Brancos foi organizada pela by theEuropeanCommission, whichhas conducted anMETA-NET, uma Rede de Excelência parcialmente analysis of current language resources and technology.financiada pela Comissão Europeia, que levou a cabo e analysis focused on the 23 official European lan-uma análise dos recursos e tecnologias da linguagem guages as well as other important national and regionalatualmente disponíveis. A análise abordou as 23 lín- languages in Europe.guas oficiais europeias assim como outras línguas im- As of November 2011, META-NET consists of 54 re-portantes na Europa a nível nacional e regional. search centres from 33 European countries (p. 81). It isEm Novembro de 2011, a rede META-NET inte- workingwith stakeholders from economy, governmentgrava 54 centros de investigação de 33 países europeus agencies, research organisations, non governmental or-(p. 81). Esta rede está a colaborar com atores do setor ganisations, language communities and universities.da economia, agências governamentais, instituições de Together with all these actors, META-NET seeks toinvestigação, organizações não governamentais, comu- foster a shared strategic research agenda for a multilin-nidades linguísticas e universidades. Em conjunto com gual Europe and a multilingual world.todos estes atores, a META-NET procura estimularuma agenda de investigação estratégica partilhada parauma Europa e para um mundo multilingue.

III

META-NET – [email protected] – http://www.meta-net.eu

Os autores deste documento agradecem aos autores do LivroBranco sobre o alemão por permitirem a utilização de partesseleccionadas do seu texto original [1].

A realização deste Livro Branco foi financiada pelo 7º

Programa-uadro e pelo Programa de Apoio à Política das

TIC (ICTPSP) daComunidade Europeia no âmbito dos con-

tratos T4ME (Acordo de Financiamento 249119), CESAR

(AcordodeFinanciamento 271022),METANET4U(Acordo

de Financiamento 270893) e META-NORD (Acordo de Fi-

nanciamento 270899).

e authors of this document are grateful to the authors ofthe White Paper on German for permission to re-use selectedlanguage-independent materials from their document [1].

e development of this White Paper has been funded by the

Seventh Framework Programme and the ICT Policy Support

Programme of the European Commission under the contracts

T4ME (Grant Agreement 249119), CESAR (Grant Agree-

ment 271022), METANET4U (Grant Agreement 270893)

and META-NORD (Grant Agreement 270899).

IV

ÍNDICE CONTENTS

A LÍNGUA PORTUGUESA NA ERA DIGITAL

1 Sumário Executivo 1

2 Línguas em Risco: um Desafio para a Tecnologia da Linguagem 32.1 Fronteiras Linguísticas Entravam a Sociedade de Informação Europeia . . . . . . . . . . . . . . . 42.2 As Nossas Línguas em Risco . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42.3 A Tecnologia da Linguagem é uma Tecnologia Facilitadora . . . . . . . . . . . . . . . . . . . . . 52.4 Oportunidades para a Tecnologia da Linguagem . . . . . . . . . . . . . . . . . . . . . . . . . . 62.5 Desafios para a Tecnologia da Linguagem . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62.6 Aquisição da Linguagem por Seres Humanos e por Máquinas . . . . . . . . . . . . . . . . . . . 7

3 O Português na Sociedade de Informação 93.1 Factos Gerais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93.2 Particularidades da Língua Portuguesa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103.3 Desenvolvimentos Recentes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113.4 Divulgação e Promoção . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113.5 Língua Portuguesa e Educação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 133.6 Aspetos Internacionais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 133.7 A Língua Portuguesa na Internet . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14

4 Tecnologia da Linguagem para o Português 164.1 Arquiteturas de Aplicações . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 164.2 Áreas Centrais de Aplicação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 174.3 Outras Áreas de Aplicação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 264.4 Formação Académica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 274.5 Projetos e Iniciativas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 294.6 Disponibilidade de Ferramentas e Recursos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 314.7 Comparação entre Línguas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 334.8 Conclusões . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34

5 Sobre a META-NET 39

THE PORTUGUESE LANGUAGE IN THE DIGITAL AGE

1 Executive Summary 41

2 Languages at Risk: a Challenge for Language Technology 432.1 Language Borders Hold back the European Information Society . . . . . . . . . . . . . . . . . . 442.2 Our Languages at Risk . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 442.3 Language Technology is a Key Enabling Technology . . . . . . . . . . . . . . . . . . . . . . . . 452.4 Opportunities for Language Technology . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 452.5 Challenges Facing Language Technology . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 462.6 Language Acquisition in Humans and Machines . . . . . . . . . . . . . . . . . . . . . . . . . . . 46

3 The Portuguese Language in the Information Society 483.1 General Facts . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 483.2 Particularities of the Portuguese Language . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 493.3 Recent Developments . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 503.4 Dissemination and Promotion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 503.5 Language in Education . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 513.6 International Aspects . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 523.7 Portuguese on the Internet . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53

4 Language Technology Support for Portuguese 554.1 Application Architectures . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 554.2 Core Application Areas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 564.3 Other Application Areas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 634.4 Educational Programmes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 654.5 Projects and Initiatives . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 664.6 Availability of Tools and Resources . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 684.7 Cross-language Comparison . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 704.8 Conclusions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71

5 About META-NET 74

A Referências --- References 77

B Membros da META-NET --- META-NET Members 81

C A Coleção Livros Brancos META-NET --- The META-NET White Paper Series 85

1

SUMÁRIO EXECUTIVO

A linguagemhumana é umaporta para omundoquenosrodeia. É usando a linguagem no dia a dia que comuni-camos, aprendemos, trocamos informação, planeamos onosso futuro, nos coordenamos uns com os outros paramelhor agirmos em conjunto, efabulamos ou nos com-prazemos coma leitura de umahistória oudeumpoema.

Porém, na era digital e num mundo globalizado, a lin-guagem humana é também uma das maiores barreirascomunicacionais comque nos deparamos. As novas tec-nologias da informação e da comunicação colocam aonosso alcance pessoas de todo o mundo com quem serápossível interagir, assim como um acervo ilimitado deinformação a que será possível aceder. No entanto, paracada um de nós, este novo universo, na sua quase totali-dade, continua inacessível e fechado, encerradonas fron-teiras invísiveis das línguas que o dividem.

A Europa será talvez um caso paradigmático do impactoresultante das barreiras linguísticas. Durante os últimos60 anos, tornou-se numa estrutura política e económicacom identidade própria. Tem um imenso patrimónioquer do ponto de vista da diversidade cultural quer doponto de vista da diversidade linguística. Contudo, dalíngua portuguesa à polaca ou da italiana à islandesa, oscidadãos europeus são confrontados com a dificuldadede comunicar entre si emdiferentes línguas, tanto no diaa dia, como na esfera dos negócios ou da política. As in-stituições daUnião Europeia, por sua vez, gastam anual-mente cerca de mil milhões de euros na manutenção dasua política de multilinguismo, ou seja, na tradução detextos e na interpretação de comunicações orais.

O multilinguismo constitui sem dúvida um dos maispreciosos patrimónios da humanidade. Um mundodigital em que um único idioma viesse a assumir umaposição dominante, e viesse a substituir todos os outros,implicaria perdermos essa imensa riqueza imaterial quefaz do mundo, em geral, e da Europa, em particular, umespaço único de encontro de culturas e diferenças.

É porém um fato, que não há vantagem em ignorar, quea diversidade linguística dificulta a comunicação do diaa dia. Apresenta-se como um obstáculo intransponívelpara os cidadãos, dificulta o debate político e atrasa oprogresso económico e científico.

A tecnologia da linguagem e a investigação científica so-bre as línguas naturais podem dar um contributo de-cisivo para se ultrapassarem estas barreiras linguísticas.No futuro, quando combinada com dispositivos e apli-cações inteligentes, a tecnologia da linguagem ajudaráfalantes de diferentes línguas a comunicar naturalmenteentre si. Preservando o multilinguismo, permitirá der-rubar as fronteiras linguísticas que bloqueiam o acessoao conhecimento, ajudando assim a concretizar todo opotencial da sociedade da informação.

Para atingir este objetivo, e preservar a diversidade cul-tural e linguística da Europa e do mundo, é necessário,antes de mais, fazer uma análise sistemática das particu-laridades linguísticas das diferentes línguas e do estadoatual das tecnologias de apoio criadas para as mesmas.Essa é a finalidade do presente livro, no que diz respeitoà língua portuguesa.

1

As ferramentas e aplicações para a tecnologia da lin-guagem e o processamento da fala atualmente existentesnomercado – dos sistemas de resposta a perguntas às in-terfaces em linguagem natural, incluindo as gramáticascomputacionais ou as ferramentas de sumarização, en-tre muitas outras –, ainda estão porém muito distantesdeste objetivo ambicioso. Isto aplica-se com particularacuidade à tradução automática, uma tecnologia espe-cialmente relevante para a sustentabilidade do multilin-guismo na era digital. Desde o final dos anos 70 que aUnião Europeia percebeu a extrema importância da te-cnologia da linguagem como forma de contribuir paraa unidade europeia e começou a financiar os primeirosprojetos de investigação, como foi o caso do programade tradução automáticaEUROTRA.Pelamesma altura,foram lançados projetos nacionais que produziram re-sultados assinaláveis mas que não conduziram a umaação europeia concertada. Em contraste com este es-forço de financiamento altamente seletivo, outras so-ciedadesmultilingues, como a Índia (22 línguas oficiais)ou a África do Sul (11 línguas oficiais), criaram recente-mente programas nacionais de longo prazo para a inves-tigação sobre a linguagem humana e o respetivo desen-volvimento tecnológico.Nesta área, os atores dominantes são sobretudo empre-sas privadas, comfins lucrativos, sediadas naAmérica doNorte. Estas empresas recorrem a abordagens estatísti-cas imprecisas que não utilizammétodos e conhecimen-tos linguísticos mais profundos. Por exemplo, as frasessão automaticamente traduzidas através da comparaçãode uma nova frase commilhares de frases anteriormentetraduzidas por seres humanos. Assim, a qualidade do re-sultado depende em grande medida da quantidade e daqualidade do corpus que serve de amostra. Embora a

tradução automática de frases simples em línguas comuma quantidade suficiente de textos disponíveis possaalcançar resultados úteis, estes métodos estatísticos su-perficiais estão condenados ao fracasso no caso das lín-guas com um conjunto de material de amostra muitomenor ou, sobretudo, no caso de frases com estruturasum pouco mais complexas.Este livro fornece uma análise pormenorizada desta e deoutras aplicações e soluções potenciadas pela tecnolo-gia da linguagem. Como seria de esperar, e é reveladode forma circunstanciada nos volumes desta coleção deLivros Brancos, há diferenças dramáticas entre os váriospaíses e as suas línguas no que diz respeito às soluçõesdisponíveis e ao estado da investigação na área da ciên-cia e tecnologia da linguagem.O português é a quinta língua com maior númerode falantes no mundo, com cerca de 220 milhões defalantes em quatro continentes – África, América, Ásiae Europa. Das línguas europeias, é a terceira línguacom maior número de falantes no mundo. Face aosdesafios colocados pela sociedade da informação nummundo globalizado, verifica-se a necessidade prementede se concentrarem mais esforços quer na criação derecursos linguísticos quer na investigação e desenvolvi-mento de ferramentas e aplicações para o processamentocomputacional do português.O presente volume oferece uma exposição por-menorizada dos desafios, oportunidades e necessidadespara o português na era digital. Uma das principais con-clusões que resulta da análise feita neste livro é a de que odesenvolvimento de tecnologia da linguagem para a lín-gua portuguesa é urgente e de importância fundamentalpara a consolidação do português como uma língua decomunicação internacional com projeção global.

2

2

LÍNGUAS EM RISCO: UM DESAFIO PARA ATECNOLOGIA DA LINGUAGEM

Somos testemunhas de uma revolução digital que está ater um impacto radical na forma de comunicarmos e nasociedade em que vivemos. Os recentes desenvolvimen-tos nas áreas das Tecnologias da Informação e daComu-nicação são por vezes comparados coma invençãoda im-prensa por Gutenberg.O que pode esta analogia dizer-nos sobre o futuro da so-ciedade de informação europeia e sobre as nossas línguasem particular?Na sequência da invenção da imprensa por Gutenberg,os avanços na comunicação e na partilha de conheci-mentos foram concretizados através de inúmeras real-izações, das quais a tradução da Bíblia do Latim para aslínguas vernáculas da Europa é apenas um dos aspetosmais reconhecidos. Nos séculos seguintes, foram desen-volvidas novas técnicas para melhor lidar com o proces-samento da linguagem e a partilha de conhecimento:

a padronização ortográfica e gramatical das princi-pais línguas permitiu a rápida divulgação de novasperspetivas científicas e intelectuais;

o desenvolvimento das línguas oficiais tornou pos-sível aos cidadãos comunicarem dentro de certasfronteiras (muitas vezes políticas);

o ensino e a tradução de línguas permitiramumapar-tilha de conhecimento entre línguas;

a criação de diretrizes editoriais e bibliográficasgarantiu a qualidade e a disponibilidade do materialimpresso;

o surgimento de diferentes meios de comunicação,como jornais, rádio, televisão, livros e outros su-portes e formatos, veio dar resposta às diferentes ne-cessidades de comunicação.

Estamos a testemunhar uma revolução digitalcom um impacto que tem sido comparado com

invenção da imprensa por Gutenberg.

De forma análoga, nos últimos vinte anos, as Tecnolo-gias da Informação e da Comunicação vieram ajudarainda mais a automatizar e a facilitar o processamentoda linguagem e a comunicação:

as aplicações para edição de texto (desktop publishingsoware) substituem a datilografia e a composição ti-pográfica;

as projeções de transparências são substituídas porapresentações em Powerpoint;

o correio eletrónico permite receber e enviar docu-mentos de forma mais rápida que o fax;

o Skype permite realizar chamadas de telefone gra-tuitas ou a preços reduzidos pela internet, assimcomo videoconferências;

os formatos de codificação de áudio e vídeo facilitama troca de conteúdos multimédia;

os motores de busca permitem aceder a informaçãocom base em palavras-chave;

3

os serviços de tradução online, como o GoogleTranslate, produzem traduções rápidas ainda queapenas aproximadas;

as plataformas de redes sociais como o Facebook, oTwitter ou oGoogle+ facilitam a comunicação, a co-laboração e a partilha de informação.

Apesar de estas ferramentas e aplicações serem úteis,ainda não são capazes de apoiar, de forma sustentada,uma sociedade europeia multilingue para todos, onde ainformação e os bens possam circular livremente.

2.1 FRONTEIRAS LINGUÍSTICASENTRAVAM A SOCIEDADE DEINFORMAÇÃO EUROPEIANão podemos saber exatamente como será o futuro dasociedade de informação. Há porém uma forte proba-bilidade de que a revolução nas tecnologias da comuni-cação venha a aproximar, de forma inovadora, pessoasque falamdiferentes línguas. Esta situação vai pressionartoda a gente a aprender novas línguas e pressiona so-bretudo os criadores de soware a desenvolverem no-vas aplicações que permitam a inter-compreensão en-tre falantes de diferentes idiomas e o acesso a conheci-mento partilhado. Este espaço económico e de infor-mação global envolve a interação entre línguas, falantese conteúdos no âmbito de novosmeios de comunicação.A recente popularidade das redes sociais (Wikipédia,Facebook, Twitter, YouTube e, mais recentemente, oGoogle+) é apenas a ponta visível de um iceberg.

A economia e o espaço de informação globaiscolocam-nos perante mais línguas, falantes e

conteúdos.

Hoje, podemos transmitir gigabytes de texto para todoo mundo em poucos segundos antes ainda de nos con-

seguirmos aperceber de que o conteúdo está redigidonuma língua que não entendemos. De acordo com umrecente relatório da Comissão Europeia, 57% dos uti-lizadores da internet compram bens e serviços em lín-guas que não a sua (o inglês é a língua estrangeira maisusada, seguido pelo francês, alemão e espanhol). Por suavez, 55% dos utilizadores leem conteúdos numa línguaestrangeira, enquanto apenas 35% utilizam outra línguapara escrever mensagens de correio eletrónico ou colo-car comentários na internet [2].

Há alguns anos atrás, o inglês era a língua franca na in-ternet – a maior parte dos conteúdos estavam de factoem inglês – mas agora a situação mudou radicalmente.A quantidade de conteúdos online noutras línguas eu-ropeias (assim como em línguas asiáticas e do PróximoOriente) aumentou exponencialmente.

Surpreendentemente, esta divisão digital criada pelasfronteiras linguísticas não recebemuita atenção pública.Ainda assim, levanta uma questão premente:

ue línguas europeias vão prosperar na informação emrede e na sociedade do conhecimento, e quais estão con-denadas a desaparecer?

2.2 AS NOSSAS LÍNGUAS EMRISCOEmbora a imprensa escrita tenha ajudado a intensificara troca de informação na Europa, também levou à ex-tinção de muitas línguas europeias. Línguas regionais eminoritárias raramente foram impressas, como o Cor-nish e o Dálmata, e foram reduzidas a formas orais detransmissão, o que limitou o seu uso.

No futuro, terá a internet o mesmo impacto nas nossaslínguas?

As cerca de 80 línguas da Europa são umdosmais ricos eimportantes patrimónios culturais e uma parte vital doseu modelo social, que é único [3]. Enquanto línguascomo o inglês e o espanhol sobreviverão no mercado

4

digital emergente, muitas línguas europeias poderãotornar-se irrelevantes numa sociedade ligada em rede.Isso enfraqueceria a posição global da Europa e iria con-tra o objetivo estratégico da participação de todos oscidadãos europeus em igualdade de circunstâncias, in-dependentemente da sua língua.

A grande variedade de línguas naEuropa é um dos seus patrimóniosculturais mais ricos e importantes.

De acordo com um relatório da UNESCO sobre mul-tilinguismo, as línguas são um meio essencial para oexercício dos direitos fundamentais, como a expressãopolítica, a educação e a participação social [4].

2.3 A TECNOLOGIA DALINGUAGEM É UMATECNOLOGIA FACILITADORANo passado, os esforços de investimento para a preser-vação das línguas concentraram-se no ensino e natradução. De acordo com uma estimativa, o mercadoeuropeu de tradução, interpretação, localização de so-ware e preparação de websites para o mercado global foide 8,4 mil milhões de euros em 2008 e deverá crescer10% por ano [5]. No entanto, este número abrange ape-nas uma pequena parte das necessidades atuais e futurasda comunicação entre línguas.A solução mais viável para garantir uma utilização am-pla e continuada das várias línguas na Europa do fu-turo encontra-se no recurso a tecnologia apropriada, talcomo recorremos a tecnologia apropriada para dar res-posta às nossas necessidades, por exemplo, nas áreas daenergia e dos transportes, ou para apoiar cidadãos comnecessidades especiais, entre tantos outros casos.A tecnologia da linguagem, dirigida a todas as formas detexto escrito e discurso falado, ajuda as pessoas a colabo-

rar, a concretizar negócios, a partilhar conhecimentos ea participar em debates sociais e políticos, independen-temente das barreiras linguísticas e das aptidões infor-máticas de cada um.A tecnologia da linguagem funciona muitas vezes “nosbastidores”, de forma invisível dentro de sistemas de so-ware complexos, ajudando-nos já hoje em dia em tarefascomo:

encontrar informação com um motor de busca;

verificar a ortografia e a gramática com um proces-sador de texto;

ver as recomendações para um produto numa lojaonline;

seguir as indicações verbais de um sistema de nave-gação;

traduzir páginas web com um serviço online.

A tecnologia da linguagem consiste num conjunto deaplicações nucleares que permitem uma série de proced-imentos embebidos em sistemas mais amplos. Um dosobjetivos desta coleção de Livros Brancos da META-NET é o de perceber o nível de desenvolvimento destatecnologia para cada uma das línguas europeias.

A Europa precisa de tecnologia da linguagemrobusta e económica para todas

as línguas europeias.

Para manter a sua posição na linha da frente da ino-vação mundial, a Europa necessitará de tecnologia dalinguagem que esteja adaptada a todas as línguas eu-ropeias e que seja igualmente robusta e económica, ebem integrada em ambientes de soware-chave.Sem tecnologia da linguagem suficientemente desen-volvida, não nos será possível alcançar uma experiênciaefetivamente interativa, multimédia e multilingue numfuturo próximo.

5

2.4 OPORTUNIDADES PARA ATECNOLOGIA DA LINGUAGEMO desenvolvimento da imprensa, com a duplicação rá-pida de uma imagem de texto, constituiu um avançotecnológico fundamental. Mas os seres humanos con-tinuam ainda a ter de fazer o trabalho árduo de buscar,apreciar, traduzir e resumir a informação.

A tecnologia da linguagem pode agora simplificar e au-tomatizar muitos dos processos de tradução, produçãode conteúdos e gestão de conhecimentos. Permite igual-mente desenvolver interfaces de voz para eletrodomés-ticos, máquinas, veículos, computadores e robôs. Asaplicações industriais e comerciais ainda estão num es-tádio inicial de desenvolvimento, mas os resultados emInvestigação e Desenvolvimento estão a criar uma janelade oportunidade genuína. Por exemplo, a tradução au-tomática já é razoavelmente precisa em certos domíniosespecíficos e algumas aplicações experimentais já assegu-ram informação multilingue e gestão do conhecimento,assim como a possibilidade de produzir conteúdos, emvárias línguas europeias.

Tal como a maioria das tecnologias, as primeiras apli-cações para a linguagem humana, como as interfacescom o utilizador baseadas na voz ou os sistemas de diá-logo, foram desenvolvidas para domínios altamente es-pecializados, e em regra apresentam limitações de de-sempenho. Contudo, existem imensas oportunidadesde mercado nas indústrias da educação e do entreten-imento para a integração da tecnologia da linguagemem jogos, pacotes de jogos educativos, bibliotecas, am-bientes de simulação ou programas de formação. Osserviços de informação móveis, os programas de apren-dizagemde uma língua assistida por computador, os am-bientes de e-learning, as ferramentas de autoavaliaçãoe os programas de deteção de plágio são apenas algunsdos exemplos onde esta tecnologia pode desempenharum papel importante. A popularidade das redes sociais,comooTwitter e oFacebook, sugeremumamaiorneces-

sidade de sofisticação da tecnologia da linguagempara sepoder monitorizar mensagens, resumir discussões, sug-erir tendências de opinião, detetar respostas emocionais,identificar infrações aos direitos de autor ou encontrarusos indevidos.

A tecnologia da linguagem ajuda a superar osobstáculos colocados pela diversidade

linguística.

A tecnologia da linguagem representa uma enormeoportunidade para a União Europeia. Pode ajudar a re-solver a complexa questãodomultilinguismonaEuropa,nomeadamente ajudando a que diferentes línguas coex-istamnaturalmente nos negócios, nas organizações e nasescolas. Os cidadãos têm a necessidade de comunicarpara além destas fronteiras linguísticas que cruzam oMercado Comum Europeu e a tecnologia da linguagempode assim ajudar a superar os obstáculos que ainda ex-istem, permitindo o uso livre e ilimitado do idioma decada um.

Pensando a longo prazo, a tecnologia da linguagemmul-tilingue europeia poderá ser inclusive uma referênciainovadora para os nossos parceiros globais e as suas co-munidades multilingues.

A tecnologia da linguagem pode ser vista como umaforma de “tecnologia de apoio” que ajuda a ultrapassaros obstáculos da diversidade linguística e tornar as co-munidades linguísticas mais acessíveis umas às outras.

2.5 DESAFIOS PARA ATECNOLOGIA DA LINGUAGEMApesar do progresso assinalável na área da tecnologiada linguagem nos últimos anos, o atual ritmo de pro-gresso tecnológico e de inovação em termos de produtosé demasiado lento. As tecnologias commaior utilização,

6

comoos corretores ortográficos e gramaticais emproces-sadores de texto, são normalmente monolingues e estãodisponíveis apenas para um pequeno número de idio-mas. Os serviços de tradução automática online, ape-sar de serem úteis para gerar rapidamente uma aproxi-mação razoável ao conteúdo de umdocumento, veem-seenredados em imensa dificuldade quando lhe são pedi-das traduções mais precisas e completas.

O ritmo atual do progresso da tecnologia dalinguagem é demasiado lento.

Devido à complexidade da linguagem humana, provi-denciar a modelação computacional dos nossos idiomase testá-la no mundo real é um processo longo e oneroso,que exige compromissos de financiamento sustentados.A Europa tem, por isso, de manter o seu papel pioneirode lidar comos desafios tecnológicos colocados por umacomunidade multilingue, inventando novos métodospara acelerar o desenvolvimento de forma pervasiva.

2.6 AQUISIÇÃO DALINGUAGEM POR SERESHUMANOS E POR MÁQUINASPara ilustrar como os computadores lidam com a lin-guagem natural e as razões pelas quais é difícil progra-má-los para esse efeito, vamo-nos centrar, muito breve-mente, na forma como os seres humanos adquirem assuas primeira e segunda línguas, e depois ver como fun-cionam os sistemas de tecnologia da linguagem.Os seres humanos adquirem competências linguísticasde dois modos diferentes. Os bebés aprendem uma lín-gua interagindo linguisticamente e ouvindo as inter-ações entre os pais, irmãos e outros membros da família.Por volta dos dois anos de idade, as crianças começam aproduzir as suas primeiras palavras e frases curtas. Isto

só é possível porque os seres humanos têm uma predis-posição genética para imitar e racionalizar o que ouvem.Aprender uma segunda língua numa idade maisavançada exige um maior esforço cognitivo, sobretudoquando quem aprende não está inserido numa comu-nidade de falantes dessa língua. Na escola, as línguasestrangeiras são normalmente adquiridas através do en-sino da estrutura gramatical, vocabulário e ortografia,utilizando exercícios que descrevem conhecimentos lin-guísticos em termos de regras abstratas, tabelas e exem-plos.

Os seres humanos adquirem aptidões linguísticasde dois modos diferentes: aprendendo a partir deexemplos e aprendendo as regras subjacentes.

Passando agora para a tecnologia da linguagem, os doistipos principais de sistemas adquirem capacidades lin-guísticas de forma similar. As abordagens estatísti-cas permitem obter conhecimentos linguísticos a par-tir de vastas coleções de exemplos concretos de textos.Embora seja suficiente usar textos numa única línguapara, por exemplo, treinar um corretor ortográfico, sãonecessários textos paralelos emduas oumais línguas parao treino de um sistema de tradução automática. O algo-ritmo de aprendizagem automática pode então adquiriros padrões quanto aomodo como as palavras, expressõese frases completas são traduzidas.Em regra, esta abordagem estatística requer milhões defrases para se obter um acréscimo significativo da qua-lidade no seu desempenho. Esta é uma das razões porque os fornecedores de motores de busca pretendem re-colher o máximo de material escrito possível. Por exem-plo, a correção ortográfica em processadores de texto ouserviços como o Google Search ou o Google Translatedepende de abordagens estatísticas. A grande vantagemda estatística é que a máquina realiza uma rápida apren-dizagem em séries contínuas de ciclos de treino.

7

Uma outra abordagem na tecnologia da linguagem, emgeral, e na tradução automática, em particular, consistena construção de sistemas baseados em regras. Peritosnas áreas da Linguística, Linguística Computacional eEngenharia Informática têm de, primeiro, codificar aanálise gramatical (regras gramaticais) e compilar listasde vocabulário (léxicos). Isto requer imenso tempo e tra-balho. Alguns dos principais sistemas de tradução au-tomática baseados em regras têm estado em constantedesenvolvimento desde há mais de 20 anos. A grandevantagem de sistemas baseados em regras é que os peri-tos têm um controlo mais pormenorizado sobre o pro-cessamento da linguagem. Isto torna possível corrigirde forma sistemática os erros no soware e dar uma res-posta detalhada ao utilizador, especialmente quando ossistemas baseados em regras são usados para a aprendiza-gemde línguas. Contudo, devido ao alto custo deste tra-balho, a tecnologia da linguagem baseada em regras temsido desenvolvida apenas para alguns idiomas até agora.

Como os pontos fortes e fracos de sistemas baseadosem estatística e em regras tendem a ser complementares,a investigação atual concentra-se em abordagens híbri-

das que combinem as duas metodologias. No entanto,até agora, estas abordagens têm tido menos sucesso nasaplicações industriais do que nos laboratórios de inves-tigação.

Os dois principais tipos de tecnologia dalinguagem adquirem capacidades de

processamento de uma forma algo similar àforma como os seres humanos o fazem.

Como vimos neste capítulo, muitas aplicações ampla-mente utilizadas na atual sociedade de informação de-pendem fortemente da tecnologia da linguagem. De-vido à sua comunidade multilingue, isto é particular-mente verdadeiro no espaço económico e de infor-mação da Europa. Embora a tecnologia da linguagemtenha obtido progressos assinaláveis nos últimos anos,há ainda um enorme potencial para melhorar os resul-tados alcançados. Nos próximos capítulos, vamos descr-ever o papel do português na sociedade europeia de in-formação e no mundo e avaliar o estado atual da tecno-logia da linguagem para a língua portuguesa.

8

3

O PORTUGUÊS NA SOCIEDADE DEINFORMAÇÃO

3.1 FACTOS GERAISO português é a terceira língua europeia com maiornúmero de falantes no mundo, com cerca de 220 mil-hões de falantes em quatro continentes, dos quais 200milhões têm o português como língua materna: África,América, Ásia e Europa [6, 7]. É a língua oficial de An-gola, Brasil, CaboVerde, Guiné-Bissau,Macau,Moçam-bique, Portugal, São Tomé e Príncipe, Timor-Leste, edesde 2010, da Guiné Equatorial.

O português é a terceira línguaeuropeia mais falada no mundo, com

cerca de 220 milhões de falantes.

Em resultado de movimentos migratórios [8, 9], o por-tuguês é também falado por comunidades presentes emmuitos países, ocupando em alguns deles uma impor-tante posição entre a população estrangeira. É o caso, naEuropa, do Luxemburgo (cerca de 25% da população),Andorra (à volta de 11%), França, Alemanha, ReinoUnido, Suíça, Espanha e Bélgica [10].O português é uma das línguas oficiais da União Eu-ropeia, doMercosul e daUniãoAfricana. Como avançoda alfabetização nos países africanos e em Timor-Leste,o português tem um grande potencial de crescimento.As expedições e o comércio costeiro que Portugal man-teve durante vários séculos apresentam hoje contra-partidas linguísticas: o português incorporou palavras

de origem africana, ameríndia e asiática, mas tambémdeu a sua contribuição lexical para muitas línguas nomundo e vários pidgins e crioulos do Oceano Atlântico,Oceano Pacífico e Oceano Índico [11, 12].

Em Portugal, a divisão geográfica dos dialetos [13] dis-tingue os dialetos do Centro-Sul, os dialetos do Norte eos dialetos das ilhas atlânticas. Os dialetos doNorte po-dem ser identificados pela ausência da distinção fonoló-gica entre /b/ e /v/, com prevalência do /b/, pela preser-vação de antigos ditongos, e pela existência de fricati-vas ápicoalveolares. As diferenças entre estes dialetosencontram-se sobretudo ao nível da fonética e fonolo-gia e ao nível lexical, sendo todos eles mutuamente com-preensíveis de forma imediata (possivelmente com a ex-ceção de alguns dialetos das ilhas).

uanto ao Brasil, dada a dimensão geográfica deste país,não é viável apresentar aqui as suas variedades linguís-ticas. Por razões geográficas, políticas e sociais, não épossível falar de uma variedade padrão do português doBrasil. Os especialistas tendem amencionar “normas ur-banas cultas”.

A situação das variedades africanas do português é vari-ada: enquanto em Angola e Moçambique o númerode falantes de português tem vindo a aumentar desdea independência destes países, noutros casos, como SãoTomé e Princípe ou Cabo Verde, em muitas circunstân-cias utiliza-se amplamente o crioulo e o português éadquirido como língua segunda.

9

Todas as variantes do português nos diferentes conti-nentes são mutuamente compreensíveis de forma gene-ralizada.

3.2 PARTICULARIDADES DALÍNGUA PORTUGUESAO português é uma língua românica [14], pelo que amaioria do seu léxico deriva do Latim. Em diferentesmomentos da sua história, integrou muitas palavras devárias outras línguas, as quais, em muitos casos, per-manecem entre os vocábulosmais frequentes. Exemplospré-latinos: barranco, seara, bruxa; germânicos: luas,bando, guerra; árabes: aldeia, açúcar, laranja; africanos:batuque, inhame; asiáticos: chá, biombo, bengala; eameríndios: cacau, tapioca. As línguas dos povos comos quais os portugueses estabeleceramcontactos durantea expansão marítima também integraram palavras por-tuguesas, como, no caso do japonês, as palavras bidoro(do português vidro) e pan (do português pão).Para um ouvinte que não domina a língua portuguesa,a variante europeia desta língua pode muitas vezes soarcomo uma sequência de consoantes. Isto deve-se aofacto de as vogais átonas do português serem muitasvezes enfraquecidas ou mesmo não realizadas, ao invésdo que acontece com outras línguas românicas. Esteprocesso fonológico do enfraquecimento das vogais éuma mudança tardia no português europeu e não tevelugar na variedade falada no Brasil, a qual, deste pontode vista, se encontrará mais próxima do português fal-ado há séculos atrás.

O português é uma lingua românica.Ao longo da sua história, integrou muitas

palavras de outras línguas.

A ordem básica das palavras em português é dita serSVO – Sujeito Verbo Objeto (ele leu o liro). Em al-

guns contextos pragmáticos, como por exemplo contex-tos enfáticos, a ordem VSO pode ocorrer (lês tu o liro)e as ordens OSV ou OVS são possíveis em construçõesque na terminologia gramatical são ditas marcadas (oliro, ele não leu).O português é uma língua que permite sujeitos nulos,isto é, o sujeito de uma dada frase pode não estar rea-lizado foneticamente ( _ li o liro). uando o sujeitotem a flexão de primeira pessoa, a sua não realizaçãofonética é a opção por omissão. Adicionalmente, em re-gra, não ocorrem pronomes expletivos nas construçõesimpessoais ( _ há um liro sobre esse tema). Esta é umadas características do português que representa um de-safio acrescido para a análise sintática automática dostextos e da fala.O paradigma flexional do português é muito mais ricoque o de línguas como o inglês, em particular no quediz respeito aos verbos. Por exemplo, um verbo podeter diferentes marcas para aspeto, tempo, modo, pes-soa, número, género ou polaridade, atingindo mais de160 formas flexionadas diferentes, incluindo as simplese compostas [15].

Algumas propriedades da língua portuguesaconstituem um desafio acrescido para a

tecnologia da linguagem.

Além disso, há dois paradigmas de flexão verbal que nãoexistememoutras línguas românicas e que sãomuito fre-quentes emportuguês: o infinitivo flexionado e o futurodo conjuntivo. O primeiro partilha o tema com o in-finitivo não flexionado (por exemplo, cantar) ao qual sejuntam marcadores flexionais de aspeto, tempo, modo,pessoa e número (por exemplo, para tu cantares). Excetono caso dos verbos irregulares, as formas flexionadas dofuturo do conjuntivo são homónimas com as do infini-tivo não flexionado, o que aumenta o número de formasambíguas no paradigma flexional do verbo.

10

Aposição dos pronomes clíticos na frase é outra caracte-rística que coloca desafios específicos ao processamentoautomático da língua portuguesa. Os pronomes clíti-cos podem ocorrer antes ou depois do verbo, exceto nostempos futuro e condicional, em que podem ocorrerantes ou no meio da forma verbal (dar-lho-ei). A pre-sença de um clítico de terceira pessoa no meio ou após overbo pode afetar a forma do próprio verbo. Por exem-plo, na sequência final -ar, o -r cai e a vogal é acentuada(dá-lo-ei).

3.3 DESENVOLVIMENTOSRECENTESSendo o inglês a língua mais difundida no mundo, asua influência noutras línguas, incluindo o português,é cada vez mais notória. O cinema e a televisão, sobre-tudo séries norte-americanas, a música e a internet, con-tribuempara apresença regular da língua inglesanoquo-tidiano emuitas palavras desta língua acabam por ser in-tegradas no português.

É sobretudo em línguas de especialidade, como a gestãoou a informática, que as palavras inglesas ganham maiorvisibilidade, como CEO, manager, briefing, casual dayou download, pen USB, upload, online ou site, e tambémliing, e-learning ou shopping, entre muitas outras.

No que diz respeito àmúsica, embora hajamuitos proje-tos musicais com letras em inglês dirigidos a um públicomais jovem, a música cantada em português, incluindoo fado e outros tipos de música tradicional portuguesa,está agora a recuperar uma grande audiência de todas asidades.

Na última década, tem havido um crescimento darelevância do português no contexto económico in-ternacional, sobretudo devido ao desenvolvimentoeconómico do Brasil e dos países africanos de língua ofi-cial portuguesa. No âmbito das Nações Unidas, o por-tuguês tem desempenhado um papel cada vez mais im-

portante, com iniciativas para torná-lo uma das línguasde trabalho, como já acontece na União Europeia e noMercosul.A crescente importância do português a nível interna-cional reflete-se no número crescente de pessoas que seinscrevem em cursos de português por todo o mundo.

3.4 DIVULGAÇÃO EPROMOÇÃOAComunidade dos Países de LínguaOficial Portuguesa(CPLP) é uma organização intergovernamental para acooperação. Um dos seus objetivos consiste na divul-gação e promoção do português. O Instituto Interna-cional da Língua Portuguesa é o organismo da CPLPespecificamente dedicado à promoção da língua por-tuguesa como língua internacional de projeção global.Foi também no seio da CPLP que foram empreendi-dos esforços conducentes ao Novo Acordo Ortográ-fico [16], comum a todos os países desta comunidade,de forma a apoiar a consolidação da língua no cenárioeconómico e político internacional. Este Novo AcordoOrtográfico abrange todos os países de língua oficialportuguesa.

A Comunidade dos Países de Língua OficialPortuguesa (CPLP) é uma organização

intergovernamental com um papel ativo nadivulgação e promoção da Língua Portuguesa.

A Academia das Ciências de Lisboa e a AcademiaBrasileira das Letras dedicam-se à divulgação da lín-gua portuguesa, nomeadamente através da edição de di-cionários de referência: o Dicionário da Língua Por-tuguesa Contemporânea, no caso da Academia por-tuguesa, e o Dicionário da Academia Brasileira de Le-tras, no caso da Academia brasileira.O Instituto Camões é uma instituição sob a tutela doMinistério dos Negócios Estrangeiros de Portugal e um

11

dos seus principais objetivos é a promoção do portuguêsnomundo. Esta instituição coordena e apoia o ensinodoportuguês em universidades e centros de cultura e lín-gua portuguesa em todo o mundo. Concede financia-mento a atividades culturais relacionadas com a língua,concedendo bolsas de estudo a nacionais e estrangeirose apoiando o português como língua de comunicaçãointernacional, particularmente em instituições interna-cionais como as Nações Unidas.

O Instituto Camões é a instituição soba tutela do Ministério dos

Negócios Estrangeiros de Portugalque tem por missão promover

a língua portuguesa.

A Fundação Calouste Gulbenkian [17], sediada emLisboa, também apoia a promoção da língua por-tuguesa. Por exemplo, através do seu serviço interna-cional, equipa Departamentos de Português e Históriaem universidades estrangeiras ou instituições culturaisde todo o mundo com livros de autores portugueses. Fi-nancia a organização de congressos, conferências e sem-inários sobre língua e literatura portuguesas. Financiatambém projetos de investigação, como por exemplo, oprojeto doCorpus deReferência doPortuguêsContem-porâneo ou o projeto Gramática do Português do Cen-tro de Linguística da Universidade de Lisboa.

Nos últimos anos, o Brasil tem aumentado a coopera-ção internacional, com especial incidência no domínioda educação, com reflexos no apoio à língua portuguesa.Neste sentido, existem acordos com Angola e Moçam-bique para a oferta de cursos de pós-graduação in loco eà distância. Já compaíses de língua espanhola que fazemfronteira com o Brasil, como o Uruguai, existem bolsasde estudo para docentes das principais universidades e,nas zonas fronteiriças desses mesmos países, está a ser es-timulada a educação bilingue.

A rádio e televisão públicas de Portugal têm-se empe-nhado na promoção do português através da transmis-são de programas de divulgação que procuram ensinarboas práticas no uso da língua portuguesa, emitindo di-ariamente programas para esclarecer algumas dúvidasfrequentes sobre a norma do português. Na cadeia detelevisão pública, o programa semanal Cuidado coma Língua é simultaneamente educativo e divertido eajuda a divulgar o Novo Acordo Ortográfico. Na rádiopública, há debates regulares sobre as boas práticas doportuguês escrito e falado. Tem havido também muitaspublicações dedicadas à língua portuguesa, procurandoatrairmais público para o seu uso adequado. Todos estesprogramas e publicações visam responder a um inter-esse empenhado da população pelas questões da língua.Também as estações de rádio e televisão em língua por-tuguesa, dispersas pelo mundo, têm feito um trabalhoassinalável para manter o uso do português junto dosemigrantes e dos seus descendentes.

O novo Acordo Ortográfico para o português foiaprovado no quadro da Comunidade dos Países

de Língua Oficial Portuguesa (CPLP).

No setor da música, o uso do português tem sidoapoiado através de um sistema de quotas nas rádios por-tuguesas. A lei estipula uma percentagem obrigatória,nomeadamente 25%, de música em português nos pro-gramas emitidos.A língua portuguesa tambémépromovida através do au-mento da projeção internacional de autores africanos,brasileiros e portugueses. Pode-se destacar filósofos por-tugueses, como Eduardo Lourenço ou FernandoGil, as-sim como escritores portugueses, como António LoboAntunes ou José Saramago, o recentemente desapare-cido Prémio Nobel da Literatura, cujas obras se encon-tram traduzidas em todo o mundo, entre vários ou-tros. No contexto da literatura brasileira, Jorge Amado

12

ou Paulo Coelho são exemplos de escritores com am-pla tradução e divulgação a nível mundial. No que dizrespeito aos autores africanos, Mia Couto, de Moçam-bique, e José Eduardo Agualusa ou Luandino Vieira,de Angola, são alguns exemplos também a merecerdestaque.

3.5 LÍNGUA PORTUGUESA EEDUCAÇÃONos últimos anos, teve lugar em Portugal um grande in-vestimento no desenvolvimento de uma rede de biblio-tecas escolares. Isto foi feito no âmbito do Plano Na-cional de Leitura, cujo objetivo é a melhoria dos índicesde literacia dos estudantes portugueses nos vários níveisde aprendizagem, com especial enfoque nos primeirosanos de ensino. Também no Brasil têm sido implemen-tadas, de forma gradual, políticas educativas que permi-tamumaumentodonível de literacia entre os estudantesbrasileiros.Outra iniciativa recente em Portugal foi a integraçãogeneralizada das novas tecnologias da informação nasescolas. Os alunos mais novos têm a possibilidade deadquirir a baixo custo, e nalguns casos gratuitamente,computadores portáteis especialmente concebidos paraos diferentes níveis de ensino. Em conjunto com esteacesso a computadores pessoais, foram desenvolvidosprogramas educativos em português que estimulam, en-tre outros aspetos, a aprendizagem da gramática.

O Plano Nacional de Leitura em Portugaltem como objetivo a promoção dos índices

de literacia dos estudantes. Iniciativassemelhantes têm sido desenvolvidas no Brasil.

Cabe também referir o papel desempenhado pela Fun-dação Gulbenkian, nomeadamente no apoio dado àconstituição de bibliotecas escolares e públicas. Rele-vante foi também o apoio dado ao projeto Diversidade

Linguística na Escola Portuguesa [18], desenvolvido emconjunto com o Instituto de Linguística Teórica eCom-putacional, e cujo principal objetivo é o de contribuirpara a integração escolar de alunos que não têm o por-tuguês como língua materna.Os recentes resultados do PISA 2009 (Programme forInternational Student Assessment) demonstraram umamelhoria comparativa dos resultados dos alunos por-tugueses aonível da leitura, das ciências e damatemática,com especial destaque para a componente da leitura.Num futuro próximo, espera-se o continuado impactobenéfico deste investimento no Plano Nacional deLeitura e nas novas tecnologias, assim como da recentemedida de aumentar a escolaridade obrigatória paradoze anos.

3.6 ASPETOS INTERNACIONAISNa sequência das explorações marítimas portuguesas,das descobertas geográficas e da abertura de novas rotasno comérciomundial, desde há séculos que a língua por-tuguesa tem sido projetada em todo omundo comoumadas línguas mais importantes para o comércio e para osnegócios.O português é atualmente uma língua de comunicaçãointernacional com projeção global, com cerca de 220milhões de falantes, dos quais cerca de doze milhõesencontram-se na Europa, com cerca de 10 milhões emPortugal [19]. É no Brasil que se encontra a maior co-munidade de falantes do português, com 190 milhões.A par do tamanho da sua população, o Brasil está acontribuir para uma cada vez maior projeção interna-cional da língua portuguesa em resultado do seu desen-volvimento económico e da sua posição na cena inter-nacional como uma das potências emergentes do séculoXXI. Tem-se registado um interesse crescente pela lín-gua portuguesa, sendo o português ensinado em muitospaíses do mundo [20]. Diversas Câmaras de Comérciotêm proporcionado aulas de português para potenciais

13

investidores, como foi o caso recente da Câmara Ital-iana emPortugal, só para citar um exemplo entremuitosoutros. As comunidades de emigrantes portugueses nomundo têm sido outro fator de promoção do ensino doportuguês.

Há um crescente interesse pela línguaportuguesa no mundo, tanto no setor académico

como no setor da economia e dos negócios.

A língua portuguesa é atualmente uma das 23 lín-guas oficiais da União Europeia e tem sido incluída emmuitos projetos de investigação financiados pelaComis-são Europeia com o objetivo de se desenvolver recursose tecnologia da linguagem. A língua portuguesa é tam-bém língua administrativa e de trabalho de 27 organi-zações internacionais, incluindo, por exemplo, a Comu-nidadedosPaíses deLínguaOficial Portuguesa (CPLP),o Mercosul, a União Latina ou a Federação Interna-cional de Futebol (FIFA).

A língua portuguesa é língua administrativa e detrabalho de 27 organizações internacionais.

Apesar da sua progressiva projeção, a língua portuguesapode enfrentar alguns desafios no que toca à suaposição como língua de comunicação internacional. NaAmérica Latina, com cerca de 190 milhões de falantes,o português co-existe com grandes comunidades defalantes de espanhol. Na Europa, um continente mul-tilingue, o português conta apenas com cerca de dozemilhões de falantes, incluindo as comunidades emigran-tes. Na Ásia, é língua oficial somente em Timor-Leste eMacau. E emÁfrica, a par do facto demuitas línguas na-tivas co-existirem com o português, o inglês e o francêssão línguas com uma projeção forte e concorrente nessecontinente.

3.7 A LÍNGUA PORTUGUESANA INTERNETUm apanhado geral dos dados estatísticos sobre a línguaportuguesa revela que esta é uma das línguas mais uti-lizadas na internet. De acordo com estimativas recentes,o português é a quinta língua mais usada na internet,sendo ultraprassada apenas pelo inglês, chinês, espanhole japonês [21]. Esta pesquisa mostra que cerca de 82,5milhões de utilizadores usam o português para navegarna internet, e que numa década, entre 2000 e 2010, onúmero de utilizadores que usam o português registouuma surpreendente expansão de 990%.O português está particularmente bem posicionadoquando se trata da presença nas redes sociais. Um es-tudo semântico e quantitativo de 2,8 milhões de tweets,realizado pela Semiocast, revela que o português é a ter-ceira línguamais usada no Twitter, depois do inglês e dojaponês [22].

A língua portuguesa é a quinta mais utilizada nainternet, onde registou um surpreendentecrescimento de 990% na última década.

Isto resulta do enorme aumento do acesso à internet noBrasil, particularmente entre os jovens. Este país temum dos maiores números de utilizadores de internet emtodo omundo, com 72milhões de internautas [23], e asrespostas a um questionário do censos revelaram que onúmero de utilizadores da internet com 10 anos oumaisdeu um salto de doze milhões desde 2008 [24]. Portu-gal, por sua vez, temcerca de 5milhões de utilizadores dainternet [25, 26] e as estatísticas revelam que o númerode subscritores de acesso à internet tem registado umaumento notório: em 2001 havia pouco menos de 500mil assinantes, e as últimas estimativas indicam perto de2 milhões de assinantes atualmente [27]. As estatísti-cas revelam também que em 2006, 95% das empresas

14

com dez ou mais funcionários usavam computador, en-quanto 84% utilizavam o email e 83% tinham acessoà internet; que em 2008, mais de 90% dos indivíduoscom idades entre os 10 e 15 anos usavam computador(96,6%) e a internet (92,7%); e que em 2010, 54% doslares portugueses tinham acesso à internet [27].Paralelamente ao esforço de assegurar a presença de in-stitutos, agências e serviços públicos na internet, em2007, foi implementado em Portugal o Plano Nacionalpara a Promoção da Acessibilidade [28], orientado parapromover a inclusão social através da Sociedade de In-

formação e para permitir o acesso a conteúdos na redepor parte de cidadãos com deficiência.É pois inequívoco o uso crescente da língua portuguesana internet.A par dos dados acima apresentados, vale a pena realçarque o português está presente em vários sites de insti-tuições políticas e económicas internacionais, como ossites da União Europeia ou do Mercosul, só para citardois exemplos, devendo ser dada continuidade aos es-forços para que esta língua esteja presente noutras insti-tuições onde ainda não é opção.

15

4

TECNOLOGIA DA LINGUAGEM PARA OPORTUGUÊS

A tecnologia da linguagem é usada para desenvolver sis-temas de soware cujo objetivo é lidar com a linguagemhumana, pelo que frequentemente é também designadapor tecnologia da linguagem humana.A linguagem humana surge na forma falada e escrita.Enquanto a fala representa a formade comunicaçãomaisantiga em termos de evolução humana, e o meio de co-municaçãomais natural, é através dos textos escritos quese transmite informação complexa e é neles que está ar-mazenada a maioria do conhecimento humano. As tec-nologias de processamento da fala e do texto analizamou produzem linguagem, sob estas diferentes formas,através da utilização de dicionários, regras de gramática esemânticas. Isto significa que a tecnologia da linguagemliga a linguagem a várias formas de conhecimento, inde-pendentemente do meio (textual ou oral) em que é ex-pressa.uando comunicamos, combinamos a linguagem comoutras formas de comunicação e outros meios de infor-mação. Falar pode envolver gestos e expressões faciais.Os textos digitais são acompanhados por imagens e sons.Os filmes podem incluir linguagem sob a forma oral ouescrita. Isto quer dizer que as tecnologias da fala e dotexto se entrecruzam com outras tecnologias de modo afacilitar o processamento da comunicação multimodal.A Figura 1 apresenta, em traços muitos gerais, este en-quadramento da tecnologia da linguagem.Neste capítulo, começar-se-á por apresentar as áreas deaplicações nucleares para a tecnologia da linguagem,descrevendo sumariamente o seu estado de desenvolvi-

mento. No final, apresentar-se-á uma apreciação no querespeita ao estado de desenvolvimento da tecnologia dalinguagem para o português. Isto permitirá obter umaperspetiva sobre o estado da arte desta tecnologia paraa língua portuguesa e uma comparação sinóptica com oque se passa relativamente às outras línguas abrangidaspor esta coleção de Livros Brancos.A tecnologia da linguagem constitui uma área de in-vestigação autónoma com uma vasta literatura. Parauma introdução, o leitor interessado poderá consultar asseguintes referências [29, 30, 31, 32].Em preparação da discussão sobre as áreas de aplicaçãonucleares apontadas acima, descrever-se-á brevemente aarquitetura típica de um sistema de tecnologia da lin-guagem.

4.1 ARQUITETURAS DEAPLICAÇÕESAs aplicações mais usuais para o processamento da lin-guagem são constituídas por vários componentes querefletem diferentes aspetos da linguagem. A Figura 2mostra, de um modo bastante simplificado, a arquite-tura que pode ser encontrada num sistema típico deprocessamento de texto. Os três primeiros módulosocupam-se da estrutura e do significado do texto de en-trada:

1. pré-processamento: limpeza dos dados, análise ouremoção da formatação, e deteção do idioma, etc;

16

Tecnologias multimédia e multimodais

Tecnologias da linguagem

Tecnologias da fala

Tecnologias de processa-mento de texto

Tecnologias do conhecimento

1: A tecnologia da linguagem em contexto

2. análise gramatical: deteção do verbo e dos seus com-plementos e modificadores, deteção de elementosde outras categorias, identificação da estrutura dasfrases;

3. análise semântica: desambiguação (por exemplo,qual das aceções de bateria é a usada em determi-nado contexto?), resolução de anáforas (por exem-plo, que pronome recupera a referência de que outraexpressão na frase?), e representação do significadoda frase num modelo interpretável pela máquina.

Após a análise do texto, alguns módulos específicos po-dem executar outro tipo de operações, como a sumariza-ção automática ou uma busca em bases de dados, entreoutras.

4.2 ÁREAS CENTRAIS DEAPLICAÇÃOApresentar-se-ão, em seguida, algumas aplicações cen-trais na área da tecnologia da linguagem: verificação delinguagem, busca na web, tecnologia da fala e traduçãoautomática.

4.2.1 Verificação da Linguagem

uem tiver usado uma ferramenta de processamento detexto, como o MS Word, sabe que esta tem um corre-tor ortográfico que destaca possíveis erros ortográficose propõe correções. Os primeiros programas de verifi-cação ortográfica comparavam uma lista de palavras ex-traídas do texto a analisar com o que constava de um di-cionário com palavras corretamente escritas. Hoje em

Texto de entrada

Pré-processamento Análise gramatical Análise semântica Módulos para tarefas específicas

Saída

2: Arquitetura típica de uma aplicação para o processamento de texto

17

Texto de entrada Corretor ortográfico Corretor gramatical Propostas de correção

Modelo de linguagem estatístico

3: Corretor ortográfico e sintático: modelo estatístico (em cima) e modelo baseado em regras (em baixo)

dia, esses programas tornaram-se bem mais sofisticados.Além de usarem algoritmos para a análise de texto afi-nados para a linguagem em apreço, detetam erros rela-cionados com a morfologia (por exemplo, formação doplural) e a sintaxe, tais como a ausência de um verboou a falta de concordância com o sujeito em pessoa enúmero (por exemplo, como em elas *escreve uma carta),etc. Ainda assim, a maioria dos corretores ortográficosnão alertará para um potencial erro na segunda destasduas frases:

Fizemos jogos tradicionais, incluindo o jogo do pião.Fizemos jogos tradicionais, incluindo o jogo do peão.

Para lidar com este tipo de erros, é necessária a for-mulação de regras gramaticais específicas da língua (oque implica um elevado grau de especialização e tra-balho manual) ou o uso de um modelo de linguagemestatístico, como ilustrado na Figura 3. Este tipo demodelo calcula a probabilidade de uma determinadapalavra ocorrer num determinado contexto. Para oexemplo acima referido, o jogo do pião é uma sequên-cia de palavras muito mais provável do que o jogo dopeão. Um modelo estatístico pode ser automaticamenteobtido recorrendo-se a uma grande quantidade de dadosda língua, que se costuma designar por um corpus.

A verificação da linguagem não se limita aos proces-sadores de texto. É também usada em sistemas de apoioao autor (authoring support systems). Estes sistemas sãoaplicações que apoiam a redação de manuais e outra do-cumentação para as áreas das tecnologias da informação

complexas, cuidados de saúde ou engenharia, entre ou-tros. Temendo as reclamações dos clientes devido à uti-lização errada dos produtos ou devido aos danos resul-tantes de uma possível má interpretação dos manuais deinstrução, as empresas prestam cada vez mais atenção àqualidade técnica da documentação quando se dirigemao mercado internacional. Os avanços na área da tecno-logia da linguagem levaram ao desenvolvimento de apli-cações de apoio à elaboração de textos, que auxiliam oredator de documentação técnica no uso de vocabulárioe de estruturas de frases, de acordo com certas regras erestrições terminológicas.

O uso de corretores ortográficos não se limitaaos processadores de texto. Também se aplica a

sistemas de apoio aos autores de textosespecializados.

Para além do corretor ortográfico associado ao MSWord, existem outras ferramentas de correção ortográ-fica para o português. Em Portugal, é comercializadoo FLIP, um soware que disponibiliza vários produ-tos na área da verificação ortográfica e sintática para oportuguês europeu e do Brasil. O CoGrOO, para oOpenOffice, é um corretor gramatical para o portuguêsdo Brasil. Também para esta variedade do português,e partindo de um algoritmo concebido pelo Institutode Computação daUniversidade Estadual de Campinas(UNICAMP), o Núcleo Interinstitucional de Lingüís-ticaComputacional (NILC) desenvolveu o corretorRe-

18

Gra, que é parte integrante do MS Word e do proces-sador de texto REDATOR.

Alémdos corretores ortográficos e dos sistemas de apoioao autor, este tipo de verificação da língua é também im-portante na área da aprendizagem de línguas assistidapor computador e nas aplicações de correção automáticade pesquisas enviadas paramotores de busca da internet,como é o caso das sugestões do Google “Será que quisdizer ...”.

4.2.2 Busca na Web

A busca na web, em intranets ou em bibliotecas digi-tais é provavelmente a tecnologia da linguagemmais uti-lizada mas também a menos desenvolvida nos dias dehoje. Na Figura 4 encontra-se uma representação es-quemática dos seus principais componentes.

O motor de busca Google, surgido em 1998, recebeatualmente cerca de 91% dos pedidos de busca que sefazem na web em todo o mundo [33]. O verbo googlarpassou a ter uma entrada no dicionário de Português on-line da Porto Editora [34]. Nem a interface de buscanem a apresentação dos resultados obtidos sofreram al-terações significativas desde a primeira versão deste mo-tor de busca. Na versão atual, o Google oferece cor-reção ortográfica para as palavras comerros ortográficos.A sua capacidade de busca semântica, que desde 2009se encontra incorporada no seu algoritmo, permite-lhemelhorar a precisão dos resultados através da análise dosignificado dos termos do pedido de busca no seu con-texto [35].

A história de sucesso do Google mostra que, na possede um grande volume de dados e de técnicas de index-ação eficiente de dados, uma abordagem essencialmentebaseada em estatística pode levar a resultados satisfató-rios.

No entanto, para uma busca de informação mais ela-borada, é essencial integrar conhecimentos linguísticosmais profundos. Experiências realizadas em laboratório,

com recurso a thesauri e bases de dados ontológicas(como a ontologia lexical WordNet), têm apresentadoavanços ao permitir que se encontre uma página combase nos sinónimos dos termos da busca (por exem-plo, para uma busca por energia atómica, busca-se au-tomaticamente também por energia nuclear e centraisnucleares, etc). Neste contexto, para o português (eu-ropeu ou do Brasil), será útil a ontologia lexical Multi-Wordnet.PT [36], para o português europeu, a Word-Net.PT [37], e para o português do Brasil, o e-saurus Eletrônico para o Português (TEP), em desen-volvimento como parte do projeto WordNet.BR.

A próxima geração de motores de busca terá de incluirtecnologia da linguagem muito mais sofisticada. Seem vez de uma lista de palavras-chave, a busca consis-tir numa pergunta ou noutro tipo de frase, a obtençãode respostas relevantes para esta consulta vai requerernão só uma análise da frase a nível sintático e semân-tico, como também a disponibilização de uma index-ação que permita uma recuperação rápida dos documen-tos pertinentes. Suponhamos, por exemplo, que um uti-lizador introduz a seguinte busca: uais são as empre-sas que foram compradas por outras empresas nos últimoscinco anos? Para se alcançar uma resposta satisfatória, énecessário proceder-se a uma análise gramatical da frasepara obter a sua estrutura e determinar que o utilizadorestá à procura de empresas que foram compradas e nãode empresas que compraram outras; é igualmente pre-ciso processar a expressão últimos cinco anos para desco-brir quais os anos a que ela se refere exatamente, etc.

Adicionalmente, é necessário que o pedido de buscaseja comparado com uma grande quantidade de dadosnão estruturados, com o objetivo de encontrar parte(ou partes) da informação de que o utilizador está àprocura. Este processo é normalmente referido comorecuperação de informação (information retrieval) e en-volve tarefas de busca em documentos considerados rel-evantes. No caso da busca acima referida, para se obter

19

Pedido de busca do utilizador

Páginas Web

Pré-processamento Análise do pedido de busca

Pré-processamento Processamento semântico Indexação

Correspondência e

relevância

Resultados da busca

4: Arquitectura da busca na web

uma lista de empresas é ainda necessário extrair a in-formação de que uma dada sequência de palavras numdocumento se refere ao nome da empresa. Esta tarefaé realizada através de ferramentas que executam aquiloquena área se designa por reconhecimentode expressõesnomeadoras de entidades (named entity recognition).

A próxima geração de motores de busca terá deincluir a tecnologia da linguagem com um grau

muito mais elevado de sofisticação.

Mais exigente ainda é fazer uma busca por documentosescritos em línguas diferentes do idioma dos termos debusca. Para a recuperação de informação transversal adiferentes línguas, há que traduzir automaticamente abusca para todas as línguas alvo possíveis e transferir ainformação recolhida de volta para a língua fonte.Face à crescente percentagem de dados disponíveis emformatos não textuais, há uma necessidade de serviçosque permitam a recuperação de informaçãomultimédia,

ou seja, a busca de informação em imagens, em áudioe em vídeo. Para ficheiros de áudio e vídeo, esta tarefaenvolve um módulo de reconhecimento da fala que tempor função converter a fala em formato textual ou numarepresentação fonética em relação aos quais se possa es-tabelecer uma correspondência comas buscas que os uti-lizadores possam fazer.

No final dos anos 90, começaram a ser desenvolvidosem Portugal vários motores de busca. O AEIOU surgiuem 1996 e foi posteriormente comprado pelo grupoImpresa, sendo transformado num portal de conteúdos[38]. O Sapo foi lançado em 1997 como motor debusca, tornando-se mais tarde um portal e sendo agoraum fornecedor de serviços de internet propriedade daPT Multimédia [39]. Foram também criadas versõesdestemotor de busca paraAngola, CaboVerde,Moçam-bique e Timor-Leste. Hoje em dia, embora tenhamsido criados muitos outros motores de busca em Portu-gal (Busca Online, Clix, Guianet, Netindex, entre ou-tros) [40], são poucas as empresas portuguesas que con-

20

tinuam a fornecer serviços autónomos de busca, sendo oGoogle.pt tido como o mais popular.No Brasil encontram-se exemplos de motores de buscadirecionados apenas para sites brasileiros – como oAchei [41] ouoGigaBusca [42]–, sendo a sua coberturae o seu alcance limitados. Há que destacar o motor debusca METAMINER, desenvolvido em 1996 pela Uni-versidade Federal deMinas Gerais, mais tarde integradonoportalUOL.OGoogle.br é por isso tido comoomo-tor de busca dominante no Brasil.

4.2.3 Interação por Fala

A interação através de fala é umadasmuitas áreas de apli-cação que dependem da tecnologia da fala, ou seja de te-cnologia que processa os sons da linguagem. A tecnolo-gia da fala é usada para criar interfaces que permitem aoutilizador interagir commáquinas usando linguagem fa-lada emvez de, por exemplo, ummonitor, um teclado ouum rato. Atualmente estas interfaces com o utilizadorbaseadas em voz podem ser parcial ou totalmente auto-matizadas e são geralmente utilizadas por empresas paraoferecerem serviços por telefone aos seus clientes, em-pregados ou associados. Os negócios na área da banca,logística, transportes públicos ou telecomunicações sãodos que mais fortemente apostam neste tipo de apli-cações. A tecnologia da fala proporciona ainda outrostipos de utilizações, nomeadamente interfaces para cer-tos dispositivos, como por exemplo, os sistemas de nave-gação presentes nos carros, ou o recurso à linguagemoral como alternativa às modalidades de input/outputexistentes em interfaces gráficas, como acontece com ossmartphones.

A tecnologia da fala é a base para se criarinterfaces que permitem ao utilizador interagir

com máquinas usando a voz em vez de umteclado ou um rato.

Como ilustrado na Figura 5, sobre sistemas de diálogobaseados em voz, a tecnologia da fala compreende trêsdimensões principais:

1. O reconhecimento automático da fala determinaque palavras foram efetivamente proferidas numa se-quência de sons produzidos por um utilizador.

2. A gestão do diálogo determina que ação deve serrealizada tendo em conta o input do utilizador e afuncionalidade do próprio sistema.

3. A síntese de voz (texto-para-fala) transforma o out-put do sistema em sons para o utilizador.

Um dos grandes desafios dos sistemas de reconheci-mento automático da fala consiste em reconhecer comprecisão as palavras proferidas por um utilizador. Istopode implicar restringir-se o leque de enunciados ad-missíveis a um conjunto limitado de palavras-chave, ouproceder-se à criação manual de modelos de linguagemque cubram uma grande variedade de enunciados emlinguagem natural. Através da utilização de técnicasde aprendizagem automática, os modelos de linguagempodem também ser gerados automaticamente a par-tir de corpora de fala, ou seja, de grandes coleções deficheiros áudio com fala e respetivas transcrições tex-tuais. Restringir-se o leque de enunciados admissíveisforça porém as pessoas a utilizarem a interface de vozde uma forma rígida e reduz a sua aceitação por partedos utilizadores. Interfaces de tipo alternativo, querecorrem a modelos de linguagem e permitem ao uti-lizador expressar a sua intenção de forma mais flexível– numa interação desencadeada, por exemplo, pela per-gunta “Como posso ajudá-lo?” –, têm por isso uma me-lhor aceitação. Mas esta alternativa envolve a criação,afinação e manutenção de modelos de linguagem, o quepode fazer aumentar os custos de modo muito significa-tivo.Os sistemas de reconhecimento do português europeue do português do Brasil têm um bom desempenho em

21

Input de fala Processamento do sinal

Output de fala Síntese de falaPesquisa fonética &

planeamento da entoação Compreensão da

linguagem natural & diálogo

Reconhecimento

5: Sistema de diálogo baseado em voz

geral, obtendo resultados de reconhecimento moder-adamente bons, e têm sido mantidos de forma ativa. Agrande maioria destes sistemas não se encontra disponi-bilizada de forma livre e os sistemas desenvolvidos noslaboratórios, em particular, não apresentam conformi-dade com padrões estabelecidos. Alguns sistemas usamgrandes vocabulários, para transcreverem notícias, porexemplo. Alguns são específicos para um certo domínio,usando um vocabulário limitado (para tarefas circuns-critas, e. g. na área damedicina), sendo a adaptação a umnovo domínio possível com recursos apropriados.

As empresas tendem a usar enunciados pré-gravados porlocutores profissionais para gerar o output de uma inter-face de voz. Para enunciados estáticos em que a formu-lação não depende de contextos particulares nem de da-dos pessoais do utilizador, isto permitirá uma experiên-cia do utilizador satisfatória. No entanto, quanto maisdinâmico for o conteúdo de um enunciado que o sin-tetizador tem de produzir mais hipóteses há de os re-sultados de output apresentarem uma prosódia pobre,resultante da mera concatenação de pedaços de áudio.Recorrendo-se a técnicas de otimização, os atuais sis-temas de texto-para-fala têm apresentado cada vez me-lhores resultados na produção de enunciados dinâmicosque soam com naturalidade.

O estado da arte da síntese de fala para o português ésimilar ao do reconhecimento de fala. Poucos sistemassão acessíveis de forma livre e os dados de fala necessários

para criar uma voz não se encontram disponíveis. Noentanto, a maturidade dos sistemas de síntese para usogeneralizado parece ainda assim sermaior emvárias apli-cações: dispositivos GPS, centros de atendimento tele-fónico, avatares, websites, etc.

A última década tem sido caracterizada por umapadronização das interfaces de interação por fala em ter-mos dos seus vários componentes tecnológicos. Houvetambém uma forte consolidação do mercado nos úl-timos dez anos, em particular nas áreas de reconheci-mento e síntese da fala. Os mercados nacionais dospaíses do G20 são dominados por apenas cinco atoresglobais, sendo a Nuance (EUA) e a Loquendo (Itália) asempresasmais proeminentes. Em2011, aNuance anun-ciou a aquisição da Loquendo, o que representamais umpasso na consolidação do mercado.

No mercado português de texto-para-fala, existem al-gumas pequenas empresas, como a SVOX e a VoiceInteraction, procurando esta última diferenciar-se pordisponibilizar vozes não apenas para o português eu-ropeu e do Brasil, mas também para as variedadesafricanas do português. No mercado brasileiro a em-presa VOCALISE oferece produtos e serviços nestaárea (texto-para-fala, fala-para-texto, reconhecimentoautomático de fala, busca em fala gravada, etc), coma particularidade de estar muito próxima das grandesuniversidades da zona de São Paulo e Campinas [43].É de destacar também o número crescente de empre-

22

sas estrangeiras que se estabelecem junto das universi-dades e que têm demonstrado interesse nas diferentesvariedades do português do Brasil.

No que respeita à tecnologia e know how para gestãode diálogo, a DigA é a única aplicação completa con-struída especificamente para o português europeu: éde domínio público mas não está disponível em códigoaberto. A aplicaçãoOlympus SDS, de código aberto, foiadaptada com sucesso para o português mas ainda nãofoi amplamente testada. Dos vários módulos exigidospor sistemas de diálogo, o gestor de diálogo é o únicomóduloquepode ser usadoparaqualquer língua. Osou-tros módulos existem embora não sejam usualmente delivre acesso nem estejam disponíveis em código aberto.

Olhando para o futuro, anteveem-se mudanças signi-ficativas devido à disseminação dos smartphones en-quanto nova plataforma para a gestão de relações comclientes, em acumulação com o telefone fixo, a inter-net e o correio eletrónico. Isto afetará também a formacomo a tecnologia da fala é usada. A longo prazo, haverámenos interfaces baseadas em voz para serem usadas portelefone e a utilização da linguagem falada desempen-hará um papel cada vez maior enquanto input amigávelpara smartphones. Esta tendência será impulsionadapelas melhorias graduais, que se irão obtendo no futuropróximo, em termos da precisão do reconhecimento defala independente do falante feito através serviços de di-tado, serviços esses que são já oferecidos como serviçoscentralizados para utilizadores de smartphones.

Para o português europeu, tem havido recentementeinvestigação dirigida para novas aplicações, nomeada-mente nas áreas da saúde e do ensino da língua. Al-guns projetos procuram, por exemplo, desenvolver e tes-tar ferramentas para apoiar o ensino da pronúncia oupara jogos “sérios” para a aquisição de vocabulário e dagramática. No caso da saúde, decorrem projetos que es-tudam a fala dos idosos e o seu impacto no desempenhodas ferramentas de reconhecimento da fala, com vista

a ajudar a recuperação de doentes com perturbações dafala, como a afasia.

4.2.4 Tradução Automática

A ideia de usar computadores para a tradução das lín-guas naturais surgiu em 1946 e veio a merecer financia-mentos substanciais nos anos 50 e novamente nos anos80. A tradução automática encontra-se longe de corre-sponder, porém, às expectativas que gerou nos primeirosanos de investigação.

No seu nívelmais básico, a tradução automática pode serrealizada através de uma mera substituição das palavrasde uma língua por palavras de outra língua. Istopoderá ser útil em domínios com terminologias restri-tas e que façam uso de uma linguagem controlada, comopor exemplo, os boletins meteorológicos. Contudo,para uma boa tradução de textos menos padronizados,é necessário fazer corresponder as unidades de textomaiores (sintagmas, frases ou mesmo textos completos)às suas contrapartesmais próximas na língua alvo. Nestecaso, a maior dificuldade reside no facto de a linguagemhumana ser ambígua. A desambiguação de palavras ap-resenta um enorme desafio a vários níveis. Por exemplo,a nível lexical, banco apresenta pelomenos duas aceções,“peça de mobiliário” ou “instituição financeira”, o que éilustrado no seguinte exemplo:

O Pedro viu a rapariga no banco.

Dependendodo contexto emqueocorra, esta frase tantopode indicar que o Pedro viu a rapariga na instituiçãobancária ou no assento.

A ambiguidade sintática também apresenta grandes de-safios, como é ilustrado pelos dois exemplos abaixo.Repare-se que as frases são estruturalmente idênticas,mas na primeira o sintagma preposicional introduzidopor com causa ambiguidade, e na segunda não – otelescópio foi usado pelo Pedro para ver a rapariga, ou arapariga usava o telescópio quando foi vista pelo Pedro:

23

Tradução automática baseada em

modelos estatísticos

Texto de origem

Texto-alvo

Análise de texto (formatação, morfologia,

sintaxe, etc)

Geração de texto

Regras de tradução

6: Tradução Automática: modelo estatístico (esquerda) e modelo baseado em regras (direita)

O Pedro viu a rapariga com o telescópio.O Pedro viu a rapariga com o boné.

Uma forma de construir sistemas de tradução au-tomática consiste em usar regras linguísticas. Paratraduções entre línguas aproximadas, a tradução diretapalavra a palavra pode ser útil. Mas os sistemas maissofisticados são baseados em regras e em conhecimentolinguístico que ajudam a analisar o texto de entrada e acriar uma sua representação intermédia a partir da qualgeram o texto da língua alvo. O sucesso destes méto-dos está fortemente dependente da disponibilidade nãosó de grandes léxicos – com informação morfológica,sintática e semântica –, como também de grandes con-juntos de regras gramaticais concebidas cuidadosamentepor linguistas especializados. Alguns dos mais impor-tantes sistemas de tradução automática baseados em re-gras, como o LOGOS, o Apertium ou o SYSTRAN, es-tão disponíveis para a língua portuguesa.

A partir dos finais dos anos 80, quando os recursos com-putacionais se tornaram mais baratos, começou a sur-gir um maior interesse na criação de modelos estatísti-cos para a tradução automática. Os parâmetros destesmodelos derivam da análise de corpora bilingues, comopor exemplo, o corpus paralelo Europarl, que contémas atas do Parlamento Europeu em 21 línguas diferen-tes. Comumvolumede dados suficiente, através do pro-cessamento de versões paralelas e da busca por padrõesprováveis de palavras, a tradução automática baseada em

estatística funciona suficientemente bem para produziruma tradução aproximada na língua alvo. Além da van-tagem de ser necessário um menor esforço humano, atradução automática baseada em estatística pode tam-bém cobrir particularidades da língua de que os outrossistemas não dão conta, como é o caso, por exemplo, dasexpressões idiomáticas. Contudo, ao contrário dos sis-temas baseados em regras linguísticas, este tipo de abor-dagem tende a gerar, muitas mais vezes, resultados comerros gramaticais.

Adicionalmente, e no caso do português em particular,a falta de recursos para a desambiguação de aceções depalavras – dados (ontologias lexicais e corpora anota-dos) e soware desenvolvido a partir desses dados – éuma das razões para que os resultados dos sistemas detradução automática existentes sejam aindamais insatis-fatórios.

A Figura 6 sintetiza diagramaticamente estas duas abor-dagens para a tradução automática, baseada em regrase baseada em estatística. Devido ao facto de os pontosfortes e os pontos fracos destes dois tipos de abordagempara a tradução automática serem complementares, osinvestigadores têm-se concentrado em aperfeiçoar abor-dagens híbridas, combinando ambas as metodologias.Uma das formas de pôr em prática esta ideia consiste emutilizar tanto o modelo baseado em regras como o mo-delo baseado em estatística e ter um módulo de seleçãoque decida omelhor output para cada frase. No entanto,

24

Língua-alvo – Target languageEN BG DE CS DA EL ES ET FI FR HU IT LT LV MT NL PL PT RO SK SL SV

EN – 40.5 46.8 52.6 50.0 41.0 55.2 34.8 38.6 50.1 37.2 50.4 39.6 43.4 39.8 52.3 49.2 55.0 49.0 44.7 50.7 52.0BG 61.3 – 38.7 39.4 39.6 34.5 46.9 25.5 26.7 42.4 22.0 43.5 29.3 29.1 25.9 44.9 35.1 45.9 36.8 34.1 34.1 39.9DE 53.6 26.3 – 35.4 43.1 32.8 47.1 26.7 29.5 39.4 27.6 42.7 27.6 30.3 19.8 50.2 30.2 44.1 30.7 29.4 31.4 41.2CS 58.4 32.0 42.6 – 43.6 34.6 48.9 30.7 30.5 41.6 27.4 44.3 34.5 35.8 26.3 46.5 39.2 45.7 36.5 43.6 41.3 42.9DA 57.6 28.7 44.1 35.7 – 34.3 47.5 27.8 31.6 41.3 24.2 43.8 29.7 32.9 21.1 48.5 34.3 45.4 33.9 33.0 36.2 47.2EL 59.5 32.4 43.1 37.7 44.5 – 54.0 26.5 29.0 48.3 23.7 49.6 29.0 32.6 23.8 48.9 34.2 52.5 37.2 33.1 36.3 43.3ES 60.0 31.1 42.7 37.5 44.4 39.4 – 25.4 28.5 51.3 24.0 51.7 26.8 30.5 24.6 48.8 33.9 57.3 38.1 31.7 33.9 43.7ET 52.0 24.6 37.3 35.2 37.8 28.2 40.4 – 37.7 33.4 30.9 37.0 35.0 36.9 20.5 41.3 32.0 37.8 28.0 30.6 32.9 37.3FI 49.3 23.2 36.0 32.0 37.9 27.2 39.7 34.9 – 29.5 27.2 36.6 30.5 32.5 19.4 40.6 28.8 37.5 26.5 27.3 28.2 37.6FR 64.0 34.5 45.1 39.5 47.4 42.8 60.9 26.7 30.0 – 25.5 56.1 28.3 31.9 25.3 51.6 35.7 61.0 43.8 33.1 35.6 45.8HU 48.0 24.7 34.3 30.0 33.0 25.5 34.1 29.6 29.4 30.7 – 33.5 29.6 31.9 18.1 36.1 29.8 34.2 25.7 25.6 28.2 30.5IT 61.0 32.1 44.3 38.9 45.8 40.6 26.9 25.0 29.7 52.7 24.2 – 29.4 32.6 24.6 50.5 35.2 56.5 39.3 32.5 34.7 44.3LT 51.8 27.6 33.9 37.0 36.8 26.5 21.1 34.2 32.0 34.4 28.5 36.8 – 40.1 22.2 38.1 31.6 31.6 29.3 31.8 35.3 35.3LV 54.0 29.1 35.0 37.8 38.5 29.7 8.0 34.2 32.4 35.6 29.3 38.9 38.4 – 23.3 41.5 34.4 39.6 31.0 33.3 37.1 38.0MT 72.1 32.2 37.2 37.9 38.9 33.7 48.7 26.9 25.8 42.4 22.4 43.7 30.2 33.2 – 44.0 37.1 45.9 38.9 35.8 40.0 41.6NL 56.9 29.3 46.9 37.0 45.4 35.3 49.7 27.5 29.8 43.4 25.3 44.5 28.6 31.7 22.0 – 32.0 47.7 33.0 30.1 34.6 43.6PL 60.8 31.5 40.2 44.2 42.1 34.2 46.2 29.2 29.0 40.0 24.5 43.2 33.2 35.6 27.9 44.8 – 44.1 38.2 38.2 39.8 42.1PT 60.7 31.4 42.9 38.4 42.8 40.2 60.7 26.4 29.2 53.2 23.8 52.8 28.0 31.5 24.8 49.3 34.5 – 39.4 32.1 34.4 43.9RO 60.8 33.1 38.5 37.8 40.3 35.6 50.4 24.6 26.2 46.5 25.0 44.8 28.4 29.9 28.7 43.0 35.8 48.5 – 31.5 35.1 39.4SK 60.8 32.6 39.4 48.1 41.0 33.3 46.2 29.8 28.4 39.4 27.4 41.8 33.8 36.7 28.5 44.4 39.0 43.3 35.3 – 42.6 41.8SL 61.0 33.1 37.9 43.5 42.6 34.0 47.0 31.1 28.8 38.2 25.7 42.3 34.6 37.3 30.0 45.9 38.2 44.1 35.8 38.9 – 42.7SV 58.5 26.9 41.0 35.6 46.6 33.3 46.6 27.4 30.9 38.9 22.7 42.0 28.2 31.0 23.7 45.6 32.2 44.2 32.7 31.3 33.5 –

7: Tradução automática entre 22 línguas oficiais da UE – Machine translation between 22 EU-languages [44]

para frases mais longas, por exemplo, com mais de dozepalavras, os resultados estão longe de serem perfeitos.

Apesar de haver uma investigação significativa nesta áreada tecnologia, os sistemas híbridos têm sido, até agora,menos bem sucedidos em termos comerciais do que emtermos de investigação.

Há ainda um grande potencial para se melhorar a quali-dade dos sistemas de tradução automática. De entre osdesafios existentes, destacam-se a adaptação dos recursoslinguísticos a domínios ou áreas de utilização específi-cos, e a sua integração em sistemas que já têm bases dedados terminológicas e memórias para tradução. Alémdisso, a maioria dos atuais sistemas é direcionada parao inglês, havendo poucos sistemas para a tradução entrepares de línguas de e para o português.

A qualidade dos sistemas de tradução automática cos-tuma ser avaliada através de campanhas de avaliação,que permitem a comparação do desempenho dos sis-

temas perante diferentes metodologias e diferentes lín-guas. O quadro da Figura 7 foi preparado no âmbito doprojeto Euromatrix+, apoiado pela Comissão Europeia.Mostra o resultado de uma campanha de avaliação parao desempenho de um mesmo sistema de tradução au-tomática baseado em estatística, o MOSES, na traduçãoentre os pares de línguas obtidos para 22 das 23 línguasoficiais da União Europeia (com exceção do irlandês).Os resultados estão ordenados de acordo com a classi-ficação BLEU, que atribui as pontuações mais elevadasàs melhores traduções [45]. Um tradutor humano con-seguirá, em regra, uma avaliação de cerca de 80 pontos.

Os melhores resultados (a azul e a verde) foram obtidostanto para línguas que têm beneficiado de consideráveisesforços de investigação, apoiados por programas de fi-nanciamento à Investigação e Desenvolvimento, comoda existência de corpora paralelos – como é o caso, porexemplo, das línguas inglesa, francesa, neerlandesa, es-

25

panhola ou alemã. Os piores resultados (a vermelho)dizem respeito a línguas que não beneficiaram de es-forços semelhantes ou que estão em pares de traduçãocom línguas de famílias linguísticas muito diferentes.

4.3 OUTRAS ÁREAS DEAPLICAÇÃOA construção de aplicações na área da tecnologia da lin-guagem envolve uma série de tarefas que nem sempre sãodiretamente percetíveis ao nível da interação com o uti-lizador mas que asseguram funcionalidades significati-vas nos “bastidores” dos sistemas em questão. Essas tare-fas e suas funcionalidades têm constituído tópicos cru-ciais de investigação, tendo-se tornado subáreas autóno-mas da tecnologia da linguagem.

As aplicações de tecnologia da linguagemasseguram funcionalidades-chave nos“bastidores” de sistemas mais amplos.

Os sistemas de resposta a perguntas, por exemplo,tornaram-se numa das áreas de investigação mais ati-vas, tendo levado à construção de corpora anotados eao estabelecimento de competições científicas especí-ficas. O objetivo é passar de uma busca baseada empalavras-chave (à qual o motor de busca deve respondercom um conjunto de documentos potencialmente rel-evantes) para o cenário em que o utilizador coloca umaquestão concreta e o sistema produz uma única resposta,como no seguinte exemplo:

Pergunta: Com que idade Neil Armstrong pisou aLua?

Resposta: 38 anos.

Estando esta área relacionada com o que foi acimareferido sobre a busca na web, ela tem porém agrupado

uma série de tópicos de investigação específicos, comopor exemplo: que tipos de perguntas existem e como éque devem ser tratados; como é que os documentos quepodem conter a resposta devem ser analisados e com-parados (será que fornecem respostas contraditórias?);que nível de confiança atribuir a uma informação especí-fica extraída (a resposta) levando emconsideração o con-texto, etc.

As questões acima colocadas estão, por sua vez, rela-cionadas com a tarefa de extração de informação, umaárea que foi muito popular e influente no deslocamentoespistemológico do início dos anos 90 em direção à ex-ploração de métodos estatísticos.

A extração de informação tem como objetivo identi-ficar conteúdos específicos de informação em determi-nado tipos de documentos. Por exemplo, pode consi-stir em identificar os agentes principais na aquisição deumadada empresa, tal como esta aquisição é relatada nosjornais. Uma outra aplicação, por exemplo, diz respeitoa relatórios sobre incidentes terroristas, em que o ob-jetivo consiste no mapeamento de partes de textos empartes de uma ficha de informação (information tem-plate) que registam, por exemplo, a informação sobre oagressor, o alvo, a hora, o local e os resultados do inci-dente. O preenchimento de fichas de informação relati-vas a domínios específicos é pois a característica centralda extração de informação, o que faz dela mais um casode tecnologia da linguagem a funcionar nos “bastidores”e uma das subáreas da tecnologia da linguagem.

A sumarização e a geração automática de textos, porsua vez, constituem outras duas áreas que podem de-sempenhar um papel de tecnologia de apoio nos “basti-dores” ou podem funcionar como aplicações individu-alizadas. A sumarização consiste na tarefa de fornecero que é essencial num texto numa sua versão mais re-duzida, sendo uma das funcionalidades disponíveis, porexemplo, no MS Word. Esta aplicação funciona so-bretudo com base em métodos estatísticos: identifica

26

primeiramente palavras “importantes” num texto (quepodem ser, por exemplo, aquelas que apresentam umafrequência elevada nesse textomas que sãomuitomenosfrequentes nouso geral queos falantes fazemda língua) eem seguida seleciona as frases que contêm essas palavras“importantes”. Estas frases são então marcadas no docu-mento, ou extraídas, e é a partir delas que se irá cons-truir o resumo. Neste cenário, que é de longe o maisaplicado, a sumarização corresponde ao processo de ex-tração de frases: o texto é reduzido a um subconjuntodas suas frases. Todas as aplicações comerciais de suma-rização automática de textos funcionam deste modo.

Uma abordagem alternativa, que tem estado a ser in-vestigada, consiste em sintetizar efetivamente frases no-vas que não ocorrem no texto de origem. Esta tarefaexige uma compreensão mais aprofundada do texto epor isso tem permitido até agora soluções menos robus-tas. Cabe notar que um gerador automático de textodeste género não representa, em regra, uma aplicaçãoindividual, encontrando-se embebido numa aplicaçãomais vasta, como é o caso dos sistemas de informaçãohospitalares, nos quais os dados dos doentes são recolhi-dos, armazenados e processados. A geração automáticade relatórios será apenas uma das suas muitas funciona-lidades.

Nestas áreas, a investigação tem recaído muito menossobre a língua portuguesa do que sobre outras línguas,sobretudo a língua inglesa, em relação à qual sistemasde resposta a perguntas, de extração de informação e desumarização automática têm sido objeto, desde a décadade 90, de inúmeros concursos para atribuição de finan-ciamento à Investigação e Desenvolvimento, como osorganizados pela DARPA/NIST, nos Estados Unidos.Este apoio tem contribuído significativamente para oavanço do estado da arte em tecnologia da linguagem,focado porém no inglês.

A língua portuguesa, tal como muitas outras línguas,não tem recebido apoio suficiente para poder ser proces-

sada ao nível do estado da arte, emuitomenos para que oseu estudo possa oferecer uma maior contribuição parao avanço da fronteira do conhecimento neste domíniocientífico e tecnológico.

A investigação e as aplicações desenvolvidasestão esmagadoramente direcionadas para o

inglês. Sendo os resultados iniciais obtidos parao português promissores, a investigação referente

à lingua portuguesa carece de um impulsodecidido para ser continuada e aprofundada.

Nos laboratórios de investigação foram desenvolvidosprotótipos de sistemas de resposta a perguntas parao português, como por exemplo o Xisuê [46], daUniversidade de Lisboa, que procura as respostas paraas perguntas na web dos textos em língua portuguesa(disponível para demonstração em http://xisque.di.fc.ul.pt). Sendo os resultados promissores, a investigaçãoreferente à lingua portuguesa carece porém de ser con-tinuada e aprofundada.uanto aos sistemas de sumarização automática, aque-les que utilizam apenas métodos estatísticos são, emgrande medida, independentes da língua e neste caso,encontram-se disponíveis alguns protótipos de suma-rizadores para o português, como por exemplo, o Gist-Sum, da Universidade de São Paulo.No que respeita à geração automática de texto, existemcomponentes reutilizáveis cujo uso tem sido tradicional-mente limitado à construção de módulos que geram es-truturas de superfície (as gramáticas de geração). Mastambém aqui as aplicações desenvolvidas estão esma-gadoramente direcionadas para o inglês, não havendonesta área ferramentas disponíveis para o português.

4.4 FORMAÇÃO ACADÉMICAA tecnologia da linguagem é uma área altamente inter-disciplinar que envolve a combinação das competências

27

de informáticos, linguistas, matemáticos, filósofos e psi-colinguistas, entre outros.

Em Portugal, a área da tecnologia da linguagem temvindo a ser promovida em várias universidades querem termos de investigação quer em termos educativos,em cursos de licenciatura, mestrado e doutoramento.No Ensino Superior há uma oferta razoável nesta área,encontrando-se as disciplinas relevantes integradas emcursos oferecidos porDepartamentos de Informática oude Ciências da Linguagem.

Na Universidade de Lisboa, a par de diversas disciplinasemdiferentes níveis de ensino, (incluídas numminor emProcessamento de Linguagem Natural, no mestrado enodoutoramento emEngenharia Informática e nos pro-gramas demestrado e doutoramento emCiênciaCogni-tiva), existem centros de investigação dedicados à tecno-logia da linguagem. O Departamento de Informática,da Faculdade de Ciências, acolhe uma unidade dedi-cada ao processamento computacional do português (ogrupo NLX), que entre várias outras atividades, asse-gura o LX-Center [47], um centro online de serviçosde processamento linguístico e de demonstração da te-cnologia da linguagem, e coordena um dos quatro pro-jectos europeus da Rede de Excelência META-NET. OCentro de Linguística (CLUL), da Faculdade de Letras,conta com uma longa tradição na produção de recursoslinguísticos – quer a nível do português padrão, quer anível dialetal ou mesmo da história da língua –, tendoconstruído um corpus de grande escala, de que resultouo desenvolvimento de outros recursos mais específicos,disponíveis online.

O Instituto Superior Técnico (IST), emLisboa, além deoferecer cursos em tecnologia da linguagem, tambémas-segura um programa de doutoramento em Ciências daComputação em colaboração com outras universidadesportuguesas e com a Carnegie Mellon University. OINESC-ID é uma instituição de investigação associadaao IST e o seu Laboratório de Sistemas de Língua Fa-

lada (L2f ) é um centro líder na produção de sistemas dereconhecimento e síntese da fala.A Universidade Nova de Lisboa tem também cursos eunidades de investigação activas neste campo da tecno-logia da linguagem, nomeadamente oCentro de Investi-gação emTecnologias de Informação (CITI) e oCentrode Linguística (CLUNL).Ainda em Lisboa, existe o Instituto de LinguísticaTeórica e Computacional (ILTEC), que foi criado paraalbergar o projecto EUROTRA.Na Universidade do Porto, dois centros têm feito tra-balho em ciência e tecnologia da linguagem natural,nomeadamente o Laboratório de Inteligência Artificiale Ciência de Computadores (LIACC) e o Centro deLinguística (CLUP).A actividade neste campo de forma alguma se restringeàs duas maiores cidades, Lisboa e Porto. No resto dopaís, existem várias outras universidades que oferecemtambém cursos na área da ciência e tecnologia da lin-guagem e que acolhem centros de investigação.É o caso do Centro de Investigação em Tecnologias daInformação (CITI-UE), na Universidade de Évora.Na Universidade de Coimbra, destacam-se o Centro deEstudos de Linguística Geral e Aplicada (CELGA) e oInstituto de Telecomunicações (IT).Cabe indicar igualmenteoCentrodeTecnologia daLin-guagemHumana e Bioinformática (HULTIG), naUni-versidade da Beira Interior, assim como o Centro de Es-tudos Humanísticos (CEHUM), na Universidade doMinho.A Universidade do Algarve tem cooperado com o pro-grama europeu Erasmus na realização de um mestradona área do Processamento de Linguagem Natural.

A tecnologia da linguagem tem vindo a serpromovida em várias universidades quer em

termos de investigação que em termoseducacionais.

28

No Brasil, tem-se assistido igualmente a uma atividadeconsiderável na área da tecnologia da linguagem, tantono ensino como na investigação, que se concentra so-bretudo nas áreas Sul e Sudeste do país, com particulardestaque para as áreas urbanas de São Paulo, Porto Ale-gre e Rio de Janeiro. Os cursos têm sido ministradosmais a nível de pós-graduações (mestrados e doutora-mentos) do que de licenciatura. Recentemente, foi elab-orado o Programa Nacional de Pós-Graduação 2011-2020, com que se procura reforçar o interesse pela in-vestigação inter e multidisciplinar.Nos outros países de língua portuguesa, a área da tecno-logia da linguagem apresenta pouco ou nenhum desen-volvimento, sendoque a recolha de dados e o desenvolvi-mento de recursos e ferramentas orientados para as ou-tras variedades do português têm sido realizados princi-palmente pelos centros de investigação em Portugal.

4.5 PROJETOS E INICIATIVASEm Portugal, a atividade na área da tecnologia da lin-guagem tem sido sustentada por iniciativas, projetos eprogramas de investigação levados a cabonas últimas dé-cadas. Para efeitos ilustrativos, nesta seção referiremosapenas alguns.Um dos primeiros e mais importantes programas nestaárea foi o EUROTRA, um ambicioso programa sobretradução automática criado e financiado pela ComissãoEuropeia desde o final dos anos 70 até 1994. Portugalentrou neste programa em 1986 através do ILTEC, cri-ado especificamente para este propósito e contando cominvestigadores sobretudo das Universidades de Lisboa edo Porto. Este programa teve um impacto duradouroa nível europeu. Constituiu um impulso decisivo paraa prossecução de atividades no âmbito da tecnologia dalinguagem em Portugal e para o surgimento e consoli-dação de uma comunidade de investigadores nesta áreano país. O projeto LE-PAROLE, desenvolvido no finaldos anos 90, com a participação doCLUL e do INESC-

ID, foi outro projeto-chave europeu na área da tecnolo-gia da linguagemque envolveu a língua portuguesa. Dosseus resultados, destaca-se a construção de corpora e léx-icos de acordo com modelos integrados de constituiçãoe descrição de materiais, o que permite estabelecer lig-ações multilingues e dar apoio a um grande número deaplicações. Para cada língua, foi construído um corpusde 20 milhões de palavras, comparável no que respeitaà composição e codificação, que incluiu um subcorpusanotado de 250 mil palavras. Foi também constituídoum léxico para cada língua, incluindo o português, com-posto por 20 mil entradas, com informação sintática emorfológica.

Parte deste corpus foi alargado e enriquecido no pro-jeto TagShare, levado a efeito na Universidade de Lis-boa pelo Departamento de Informática (NLX) e peloCentro de Linguística (CLUL), em 2005. Este pro-jeto desenvolveu um conjunto de recursos linguísticose de ferramentas que permitem melhorar o processa-mento computacional do português. Obteve-se umcorpus de 1 milhão de palavras linguisticamente ano-tadas e manualmente revistas por especialistas – o cor-pus CINTIL [48] –, assim como todo um conjuntode ferramentas para segmentação, anotação de categoriamorfossintática, flexão, lematização, reconhecimentodeunidades lexicais multipalavra, reconhecimento de ex-pressões nomeadoras de entidades, etc. Os esquemasde anotação desenvolvidos no âmbito deste projectotornaram-se num padrão de facto para o português nocampo da tecnologia da linguagem, sendo utilizados,por exemplo, no Corpus de Referência do PortuguêsContemporâneo (CRPC). Estes resultados foram sub-sequentemente alargados através de um outro projecto,o SemanticShare, em que se deu início à construção deum treebank, ou seja, à anotação do corpus com a repre-sentação sintática das frases.

Lançado em 2000, o Corpus de Extratos de TextosEletrónicos MCT/Público (CETEMPúblico) é, por

29

sua vez, um corpus comcerca de 180milhões de palavrasprovenientes de textos de um jornal diário português.A criação deste corpus teve como objetivo dar apoioao desenvolvimento de ferramentas de processamentodo português que necessitam de textos “em bruto” (i. e.sem anotação linguística) para a sua construção e avali-ação. Este corpus foi criado no âmbito do projeto Pro-cessamento Computacional do Português, ao abrigo deumprotocolo entre oMinistério daCiência, Tecnologiae Ensino Superior e o jornal Público. Posteriormente,este projeto evoluiu para a Linguateca [49], um projetode longo prazo para a tecnologia da linguagem do por-tuguês.

Também em 2000, a tradução automática viria a ser ofoco de um outro projecto apoiado pela Comissão Eu-ropeia, o TRADAUT, dirigido pela UniversidadeNovade Lisboa. Este projecto teve por objectivo a melhoriada aplicaçãode tradução automática usada pelos serviçosda Comissão Europeia para os pares de tradução entre oportuguês, por um lado, e o inglês e o francês, por outro.

No campo do processamento de fala, cabe destaque parao projeto TECNOVOZ, iniciado em 2006. Este pro-jeto foi liderado pelo INESC-ID e teve como objetivoprincipal favorecer a transferência de tecnologia para osetor empresarial, contando entre os seus parceiros comempresas como a estação de televisão pública RTP, en-tre outros. No setor empresarial, importa destacar apresença em Portugal, desde 2005, do Microso Lan-guage Development Center (MLDC), que tem igual-mente contribuído para o desenvolvimento da indústriada tecnologia da linguagem no país.

Mais recentemente, instituições portuguesas ebrasileiras têm participado no projeto CLARIN, quetem como objetivo a criação de uma infraestrutura deinvestigação europeia para a linguagem natural.

NoBrasil, têm sido igualmente realizados esforços signi-ficativos em termos de investigação sobre tecnologia dalinguagem para o português.

Como exemplos, pode referir-se a criação do Banco dePortuguês no âmbito doprojetoDIRECT,no início dosanos 90, pela Pontifícia Universidade Católica de SãoPaulo. Desde a sua criação, o Banco de Português temsido uma importante fonte de dados para diversos estu-dos baseados em corpora.

Vale a pena referir também o corpus Summ-it, con-struído para dar apoio a estudos sobre sumarização au-tomática, fenómenos anafóricos e relações retóricas noportuguês. Este recurso foi desenvolvido no âmbitodo projeto PLN-BR, do Núcleo Interinstitucional deLingüística Computacional (NILC), levado a cabo pelaUniversidade de São Paulo e por um conjunto de inves-tigadores de outras sete instituições brasileiras, em queforam produzidos uma série de outros corpora.

Mais recentemente, no período de 2006-2010, foi le-vado a efeito o projeto FAROL, liderado pela Universi-dade Pontifícia Católica do Rio Grande do Sul, que in-tegrava quatro equipas de investigação. O objetivo prin-cipal deste projeto foi o reforço das ligações entre as di-versas equipas, promovendo o intercâmbio entre estu-dantes e investigadores, de forma amelhorar a qualidadeda investigação na área do processamento da linguagemnatural.

A par de programas e projetos de investigação quer noBrasil quer em Portugal, cabe destacar o PROPOR en-quanto principal iniciativa aglutinadora de uma cres-cente comunidade internacional de investigadores quetrabalha sobre o português. O PROPOR é a conferên-cia científica internacional de referência para o proces-samento computacional da língua portuguesa. É umaconferência bienal que desde 1993 tem lugar alternada-mente nos dois países.

Estes são apenas alguns exemplos de iniciativas, proje-tos e programas na área da tecnologia da linguagem paraa língua portuguesa. Representam um avanço impor-tante. Existe ainda, porém, uma grande distância no querespeita à muito maior atividade de investigação sobre

30

outras línguas mais estudadas e para as quais o desen-volvimento de recursos linguísticos e tecnológicos se en-contra muito mais avançado.Comparado com o nível de financiamento para a tecno-logia da linguagem não só para o inglês, mas tambémpara idiomas até de bastante menor projeção global quea língua portuguesa, o apoio para a tecnologia da lin-guagem para o português é ainda muito baixo.EmPortugal, o financiamento vem sobretudo doMinis-tério da Ciência, Tecnologia e Ensino Superior, atravésda Fundação para a Ciência e a Tecnologia (FCT). Noentanto, a obtenção de apoios para projetos em tecno-logia da linguagem tornou-se particularmente difícil, senãomesmo impossível, uma vez que as propostas de pro-jetos nesta área são submetidas e avaliadas não na seçãode Informática ou na de Ciências da Linguagem, mas naseção de Engenharia Eletrotécnica, em que têm de com-petir com centenas de propostas de projetos sobre assun-tos completamente ortogonais e enfrentar um júri des-conectado da área e dos seu temas.Além da FCT, a Fundação Calouste Gulbenkian tam-bémfinancia, ocasionalmente, projetosna áreada tecno-logia da linguagem.

Comparado com o nível de financiamento para atecnologia da linguagem não só para o inglês,mas inclusive para idiomas de bastante menorprojeção global que a língua portuguesa, o

apoio para a investigação sobre o português éainda muito baixo.

No Brasil, embora ainda seja limitado, o financiamentopara a investigação em geral, e para as atividades emtecnologia da linguagem em particular, vem sobretudode agências governamentais. O Conselho Nacional deDesenvolvimento Científico e Tecnológico (CNPq), aFundação deAmparo à Pesquisa do Estado de São Paulo(FAPESP), a Coordenação de Aperfeiçoamento de Pes-soal deNível Superior (CAPES) e a Financiadora de Es-

tudos e Projetos (FINEP) são as quatro principais insti-tuições de financiamento no país.

Algumas destas agências participaram inclusivamenteem programas de financiamento conjunto com algu-mas empresas. Por exemplo, a FAPESP e o MicrosoResearch Center formaram recentemente uma parceriapara o financiamento de projetos socialmente relevantesno Estado de São Paulo, que incluiu, entre outros, o Por-Simples [50], um projeto na área da tecnologia da lin-guagemque tem como objetivo a simplificação de textosde português para auxiliar leitores pouco alfabetizados acompreender textos da internet.

4.6 DISPONIBILIDADE DEFERRAMENTAS E RECURSOSNesta seção, é apresentadoumresumodo estado atual datecnologia da linguagem para o português. A Figura 8contém o resultado de uma apreciação levada a efeitopor especialistas na área quanto ao estado de desenvolvi-mento de recursos linguísticos e ferramentas de proces-samento para a língua portuguesa, combase numa escalade 0 (muito baixo) a 6 (muito alto) e de acordo com ossete critérios que encabeçam as colunas da figura.

Estes resultados devem ser apreciados no seguinte en-quadramento:

Apesar de haver sub-áreas muito ativas neste campo,emtermosde tecnologia da linguagem, oportuguês éum idioma menos bem equipado sobretudo quandocomparado com línguas de países com uma apostamuito forte nesta tecnologia, como por exemplo, oinglês, o alemão ou o neerlandês;

Foram compilados dois grandes corpora de texto“em bruto” para o português, sendo que um é poucorepresentativo, uma vez que abrange apenas um tipode texto (jornalístico), e o outro não está totalmentedisponível, devido a restrições de direitos de autor;

31

ua

ntid

ade

Disp

onib

ilida

de

ua

lidad

e

Cob

ertu

ra

Matur

idad

e

Susten

tabi

lidad

e

Ada

ptab

ilida

de

Tecnologia da Linguagem: Ferramentas de Processamento e Aplicações

Reconhecimento da Fala 2 3 4 2 2 2 4

Síntese da Fala 3 3 4 4 4 3 4

Análise Gramatical 3 3 4 4 4.5 2.5 4.5

Análise Semântica 1.5 2 3 2 2.5 2.5 2.5

Geração de Linguagem 0 0 0 0 0 0 0

Tradução Automática 3 2 2 2 4 2 2

Recursos Linguísticos: Conjuntos de Dados e Bases de Conhecimento Linguístico

Corpora Escritos 3 3 4 4.5 4 4.5 4.5

Corpora de Fala 4 2 4 4 4 3 3

Corpora Paralelos 2 4 2 2 2 3 3

Recursos Lexicais 3.5 3 4.5 3 4 3 3

Gramáticas 1 4 5 2 2 2 2

8: Estado de desenvolvimento da tecnologia da linguagem para o português

Está disponível um corpus anotado de 1 milhãode palavras, juntamente com o respetivo etiqueta-dor morfossintático e outras ferramentas de proces-samento de base morfológica. Para as variedadesdo português menos estudadas, têm estado a serconstruídos corpora nos últimos anos, que precisamporém de receber mais atenção;

Em relação à tecnologia da fala, há um conjuntode sistemas comerciais para as variedades europeia ebrasileira doportuguês (reconhecimentoda fala, sín-tese da fala e gestão de diálogo), e embora as equipasem Portugal e no Brasil sejam dinâmicas nesta área,as ferramentas e os corpora anotados não se encon-tram disponíveis, estando em regra reservados parauso interno dos laboratórios;

É necessário bastante mais trabalho no desenvolvi-mento de recursos lexicais de todoo tipo, incluindo acriação de ontologias e a expansão de léxicos e word-nets, actualmente de volume muito reduzido;

Não existem ainda corpora anotados com infor-mação sobre semântica lexical, o que origina umpreocupante entrave à investigação sobre desam-biguação de aceção de palavras em português, as-sim como ao desenvolvimento de ferramentas asso-ciadas;

Enquanto alguns corpora têm anotação morfossin-tática e outros tipos de informação morfológica, oscorpora com anotação sintática (treebanks) sãomaisraros e de tamanho muito reduzido. Com basenestes recursos, têm sido desenvolvidos alguns anal-isadores sintáticos, que precisam porém de ser apro-

32

fundados. É necessário por isso bastante mais tra-balho na construção de treebanks e no desenvolvi-mento de ferramentas de análise sintática.

uanto mais conhecimento linguístico e semânticouma ferramenta tomar em consideração, mais lacu-nas existem (ver, por exemplo, recuperação de infor-mação vs. semântica do texto): é preciso aplicarmaisesforço de Investigação e Desenvolvimento no pro-cessamento linguístico profundo, incluindo a cons-trução de gramáticas computacionais para o por-tuguês;

As ferramentas de análise do texto e do discurso sãopoucas e foram alvo até agora de um desenvolvi-mento apenas parcial;

Situação similar ou pior se encontra no que diz res-peito a outras ferramentas ou aplicações de mais altonível, como por exemplo, os sistemas de sumarizaçãoou de resposta a perguntas, entre várias outras;

Os corpora paralelos para tradução automática queincluem o português são, sobretudo, os disponi-bilizados por iniciativas desenvolvidas pela UE e,consequentemente, são muito limitados quanto aodomínio a que dizem respeito (e. g. texto jurídico).

Estes resultados da avaliação do estado de desenvolvi-mento da tecnologia da linguagem para o portuguêsapontam claramente para a necessidade premente deconcentrarmais esforços quer na criação de recursos lin-guísticos quer na investigação de ferramentas para o pro-cessamento computacional do português e desenvolvi-mento de aplicações da tecnologia da linguagem.

Há uma necessidade premente de seconcentrarem mais esforços quer na criação de

recursos linguísticos quer na investigação edesenvolvimento de ferramentas e aplicações

para o processamento computacionaldo português.

A falta de dados em muito maior volume e a grandecomplexidade dos sistemas de tecnologia da linguagemtornam igualmente indispensável a criação de novas in-fraestruturas de investigação que apoiem a partilha dedados e estimulem a cooperação na investigação.

4.7 COMPARAÇÃO ENTRELÍNGUASOestado atual de desenvolvimento da tecnologia da lin-guagem varia de forma significativa em função da línguaem consideração. Para se obter uma ideia da situação en-tre as diferentes línguas, esta seção apresenta uma avali-ação que tomou como amostra duas áreas de aplicação –a tradução automática e o processamento da fala – e umatecnologia de base – a análise de texto –, assim como re-cursos de base (conjuntos de dados, bases de conheci-mento linguístico, etc) necessários para a criação de fer-ramentas e aplicações em tecnologia da linguagem.A classificação foi levada a efeito usando a seguinte es-cala:

1. Apoio excelente

2. Apoio bom

3. Apoio médio

4. Apoio fragmentário

5. Pouco ou nenhum apoio

Onível de apoio em termos de tecnologia da linguagem,classificado com essa escala, foi determinado de acordocom os seguintes critérios:Tradução automática: ualidade da tecnologia detradução automática existente; número de pares de lín-guas cobertos; cobertura de fenómenos linguísticos e dedomínios textuais; qualidade e tamanhodos corpora pa-ralelos existentes; quantidade e variedade das aplicaçõesde tradução automática.Análise do Texto: ualidade e cobertura da tecnolo-gia do texto existente (morfologia, sintaxe, semântica);

33

cobertura em termos de fenómenos linguísticos e dedomínios; quantidade e variedade das aplicações exis-tentes; qualidade e tamanho dos corpora anotados; qua-lidade e cobertura dos recursos lexicais e das gramáticasexistentes.

Processamento de fala: ualidade da tecnologia de re-conhecimento de fala existente; qualidade da tecnolo-gia de síntese de fala; cobertura em termos de domínios;número e tamanho dos corpora de fala; quantidade e va-riedade das aplicações baseadas em tecnologia da fala.

Recursos: ualidade e tamanho dos corpora escritos,de fala e paralelos existentes; qualidade e cobertura dosrecursos lexicais e gramáticas.

As Figuras 9 a 12 mostram que a língua portuguesa estáem posições um pouco diferentes consoante as áreas deinvestigação.

uando comparada com o espanhol ou o italiano, porexemplo, a língua portuguesa está bem posicionada noque respeita às ferramentas e recursos da fala. Contudo,quanto a tradução automática, análise do texto e recur-sos linguísticos, o português está longe de contar coma mesma cobertura que o inglês (líder em quase todas asáreas da tecnologia da linguagem) eoutras línguas, comopor exemplo, o neerlandês ou o alemão, etc. Cabe porémnãoperder de vista que, até para o inglês, há aindamuitaslacunas, sobretudo no que diz respeito às aplicações demais alto nível.

No caso do processamento da fala, a tecnologia atual-mente existente tem um nível de desempenho suficientepara ser integrada em várias aplicações industriais, comoos sistemas de diálogo ou de ditado.

As componentes de análise de texto e recursos linguís-ticos, por sua vez, já abrangem um leque considerávelde fenómenos linguísticos e fazem parte de muitas apli-cações que envolvem principalmente processamento su-perficial da linguagemnatural, comopor exemplo, a cor-reção ortográfica ou as aplicações de apoio ao autor.

No entanto, para a construção de aplicaçõesmais sofisti-

cadas, como a tradução automática, os sistemas de res-posta a perguntas, a sumarização, etc, existe uma claranecessidade de bastantes mais recursos e ferramentas,emquantidade e qualidade, que cubramumamais amplagamade aspetos linguísticos e que permitamuma análisemais profunda dos textos.Ao melhorar a qualidade e a cobertura destes recur-sos e tecnologias de base, estar-se-á a criar novas opor-tunidades para aperfeiçoar um vasto leque de áreas deaplicação avançadas, incluindo a tradução automáticaabrangente e de alta qualidade.

4.8 CONCLUSÕESOs resultados reunidos nesta coleção de Livros Bran-cos mostram que existem enormes diferenças entre aslínguas europeias quanto à tecnologia da linguagem.Embora algumas línguas e áreas de aplicação estejamequipadas com soware e recursos linguísticos emquan-tidade e qualidade, para outras línguas e aplicações,encontram-se várias lacunas, que emalguns casos podemser muito significativas. Muitas línguas não estão aindaequipadas coma tecnologia básica para a análise de textonemcomos recursos linguísticos essenciais para o desen-volvimento dessa tecnologia. Outras línguas terão es-sas ferramentas e recursos básicos, mas a implementaçãode níveis de processamento mais avançados ainda se en-contra a alguma distância. Nesta medida, é preciso re-alizar um esforço em grande escala para se alcançar o ob-jetivo ambiciosode se assegurar tecnologia da linguagemde alta qualidade para todas as línguas, com especialdestaque para a tradução automática de muito maior fi-abilidade.No caso do português, o apoio da tecnologia da lin-guagem para esta língua tem vindo a melhorar gradu-almente, mas é necessário garantir o incremento es-tratégico do esforço aplicado nesta área para se vir a al-cançar um patamar de desenvolvimento sustentado. Háuma boa comunidade de centros de investigação, tanto

34

em Portugal como no Brasil, que cooperam ativamenteentre si e que, de momento, têm capacidade instaladapara fazer avançar a tecnologia da linguagem para a lín-gua portuguesa.São porém necessárias medidas imediatas para que sepossam obter progressos importantes para o portuguêse assegurar a sua posição como língua de comunicaçãointernacional com projeção global.

São necessárias medidas imediatas para que sepossam obter progressos importantes para alíngua portuguesa e assegurar a sua posição

como língua de comunicação internacional comprojeção global.

Tem-se registado uma falta de continuidade no finan-ciamento da Investigação e Desenvolvimento. Progra-mas de curta duração tendem a alternar com períodos

de financiamento escasso ou mesmo nulo. A par disso,verifica-se ainda a conveniência de uma melhor coorde-nação de programas de investigação entre países, da Eu-ropa e de outros continentes, ou de articulação dessesprogramas com programas da Comissão Europeia.

Os resultados deste livro apontam no sentido de que aúnica via de progresso consiste em se realizar um esforçosubstancial para se criarem recursos linguísticos para oportuguês que permitam, por sua vez, impulsionar e fo-mentar a investigação, a inovação e o desenvolvimentode ferramentas e aplicações da tecnologia da linguagem.

A necessidade de grandes volumes de dados e a extremacomplexidade dos sistemas da tecnologia da linguagemtornam também cruciais o desenvolvimento de uma in-fraestrutura e de uma organização de investigação maiscoerente, que fomentem uma maior cooperação e par-tilha de resultados.

35

Apoio Apoio Apoio Apoio Pouco/nenhumexcelente bom médio fragmentário apoio

Inglês FrancêsEspanhol

AlemãoCatalãoHúngaroItalianoNeerlandêsPolacoRomeno

BascoBúlgaroChecoCroataDinamarquêsEslovacoEslovenoEstónioFinlandêsGalegoGregoIrlandêsIslandêsLetãoLituanoMaltêsNorueguêsPortuguêsSérvioSueco

9: Tradução Automática: estado da tecnologia da linguagem para 30 línguas europeias

Apoio Apoio Apoio Apoio Pouco/nenhumexcelente bom médio fragmentário apoio

Inglês AlemãoEspanholFrancêsItalianoNeerlandês

BascoBúlgaroCatalãoChecoDinamarquêsEslovacoEslovenoFinlandêsGalegoGregoHúngaroNorueguêsPolacoPortuguêsRomenoSueco

CroataEstónioIrlandêsIslandêsLetãoLituanoMaltêsSérvio

10: Análise do Texto: estado da tecnologia da linguagem para 30 línguas europeias

36

Apoio Apoio Apoio Apoio Pouco/nenhumexcelente bom médio fragmentário apoio

Inglês AlemãoChecoEspanholFinlandêsFrancêsItalianoNeerlandêsPortuguês

BascoBúlgaroCatalãoDinamarquêsEslovacoEslovenoEstónioGalegoGregoHúngaroIrlandêsNorueguêsPolacoSérvioSueco

CroataIslandêsLetãoLituanoMaltêsRomeno

11: Processamento da Fala: estado da tecnologia da linguagem para 30 línguas europeias

Apoio Apoio Apoio Apoio Pouco/Nenhumexcelente bom médio fragmentário apoio

Inglês AlemãoChecoEspanholFrancêsHúngaroItalianoNeerlandêsPolacoSueco

BascoBúlgaroCatalãoCroataDinamarquêsEslovacoEslovenoEstónioFinlandêsGalegoGregoNorueguêsPortuguêsRomenoSérvio

IrlandêsIslandêsLetãoLituanoMaltês

12: Recursos linguísticos escritos e orais: estado da tecnologia da linguagem para 30 línguas europeias

37

5

SOBRE A META-NET

AMETA-NET é umaRede de Excelência para a investi-gação científica parcialmente financiada pela ComissãoEuropeia. A rede abrange atualmente 54 centros de in-vestigação em33 países da Europa. Resulta da agregaçãode quatro projetos europeus: CESAR, METANET4U,META-NORD e T4ME. O projeto METANET4U écoordenadopela Faculdade deCiências daUniversidadede Lisboa.A META-NET promove a META, a Multilingual Eu-rope Technology Alliance (Aliança Europeia para aTecnologia Multilingue), uma comunidade com umnúmero crescente de profissionais e de organizações datecnologia da linguagem na Europa. A META-NETprocura fazer avançar as fundações tecnológicas parauma sociedade europeia de informação verdadeiramentemultilingue que:

torne possíveis a comunicação e a cooperaçãousando-se línguas diferentes;

assegure a todos os europeus o acesso à informaçãoe ao conhecimento em igualdade de circunstâncias,independentemente da sua língua;

desenvolva e melhore as funcionalidades da tecno-logia de informação conetada em rede.

Esta Rede de Excelência contribui para o desenvolvi-mento de uma Europa que se une em torno de umespaço de informação digital único. Estimula e pro-move tecnologias multilingues para todas as línguaseuropeias. Estas tecnologias apoiam a tradução au-tomática, a produção de conteúdos, o processamento deinformação e a gestão do conhecimento para um amplo

leque de domínios e aplicações. Tornam também pos-síveis interfaces intuitivas baseadas em linguagem quepermitem a interação com os mais diversos dispositivos,que abrangemdesde os eletrodomésticos atémaquinariae veículos, incluindo, entre vários outros, computadorese robôs.

Lançada a 1 de fevereiro de 2010, aMETA-NET já reali-zou várias atividadesnas suas três linhas de ação: META-VISION, META-SHARE e META-RESEARCH.

A META-VISION promove uma comunidadedinâmica e influente de atores que se unem em tornode uma perspetiva partilhada e de uma Agenda de In-vestigação Estratégica (AIE) comum. O enfoque prin-cipal desta linha de ação consiste no desenvolvimento,na Europa, de uma comunidade coerente e coesa quese reúne em torno da tecnologia da linguagem, jun-tando representantes de grupos altamente fragmenta-dos e diversificados de atores. O presente Livro Brancofoi preparado juntamente com volumes similares paraoutras 29 línguas. A perspetiva partilhada acerca da te-cnologia foi desenvolvida em três Grupos de Perspetivasetoriais. OMETATechnologyCouncil foi constituídopara discutir e preparar a AIE baseada nessa perspetivapartilhada, através de uma interação intensa com toda acomunidade da tecnologia da linguagem.

A META-SHARE cria uma plataforma, aberta e dis-tribuída, para a permuta e partilha de recursos linguís-ticos. A rede peer-to-peer de repositórios conterá dadoslinguísticos, ferramentas e serviços web, que são doc-umentados com metadados de elevada qualidade e or-ganizados em categorias padronizadas. O recursos po-

39

dem ser acedidos de forma imediata e estão organizadosde forma a permitir que sobre eles se efetuem pesquisasde maneira uniforme. Os recursos disponíveis incluemmateriais gratuitos e de código aberto, assim como ele-mentos restritos, de natureza comercial, que podem seradquiridos.A META-RESEARCH constrói pontes em direção aáreas tecnológicas relacionadas. Esta atividade procuraestimular avanços noutros campos e tirar partido de in-

vestigação inovadora que possa beneficiar a tecnologiada linguagem. Em particular, esta linha de ação foca-se: na realização de investigação de ponta em traduçãoautomática; na angariação de dados; na preparação deconjuntos de dados e organização de recursos linguísti-cos tendo emvista processos de avaliação; na compilaçãode inventários de ferramentas e métodos; e na organiza-ção de workshops e eventos de formação para membrosda comunidade.

[email protected] – http://www.meta-net.eu

40

1

EXECUTIVE SUMMARY

e human language is a gateway to the world aroundus. It is by its daily usage that we communicate, learn,share information, plan our future, coordinatewith eachother to better act together, or get pleased with a storyor a poem.

However, in the digital age and in a globalized world,human language is also one of the largest communica-tional barriers we are faced with. e new technolo-gies of information and communication permit to reachpeople all over the world with whom we could commu-nicate, andmake available an endless repository of infor-mation that we could have access to. Nevertheless, forevery one of us, most of this new universe keeps inacces-sible and closed, locked within the invisible barriers ofthe languages that split it.

Europe is perhaps one of the most paradigmatic casesof the impact of linguistic barriers. During the last 60years, it has become a distinct political and economicstructure. Culturally and linguistically, it is rich anddiverse. However, from Portuguese to Polish and Ital-ian to Icelandic, everyday communication between Eu-rope’s citizens, within business or among politicians isinevitably confrontedwith language barriers. eEuro-pean Union’s institutions, in turn, spend about a billioneuros a year onmaintaining their policy ofmultilingual-ism, i. e., translating texts and interpreting spoken com-munication.

Multilingualism constitutes a most precious heritage ofmankind. A digital world in which a single languagewould take a dominant position, and would end up re-placing all other languages, would imply losing this huge

immaterial wealth which makes the world, in general,and Europe, in particular, a privileged space for culturalexchanges.

It is however a fact, that we have no advantage to ig-nore, that linguistic diversity hampers communicationin daily life. It represents an insurmountable obstaclefor citizens, hampers the political debate and delays eco-nomical and scientific progress.

Language technology and linguistic research can makea significant contribution to removing these linguisticborders. Combined with intelligent devices and appli-cations, language technology will help people to talkand do business together even if they do not speak acommon language. While preservingmultlingualism, itwill permit to tear down the linguistic barriers that areblocking the access to knowledge, thus helping to un-leash the full potential of the information society.

To achieve this goal, and preserve Europe and world’scultural and linguistic diversity, it is necessary to firstcarry out a systematic analysis of the linguistic particu-larities of different languages, and of the current state oflanguage technology support for them. at is the goalof the present book in what concerns the Portugueselanguage.

e language technology and speech processing toolsand applications currently available on the market –ranging from question answering systems to natural lan-guage interfaces, and including computational gram-mars or summarization tools, amongmany others –, stillfall short, however, of this ambitious goal. is is spe-cially true of automated translation, a particularly rele-

41

vant technology to support multilinguality in the digi-tal age. Already in the late 1970s, the European Unionrealised the profound relevance of language technol-ogy as a driver of European unity, and began fundingits first research projects, such as EUROTRA. At thesame time, national projects were set up that generatedvaluable results but never led to concerted European ac-tion. In contrast to this highly selective funding effort,othermultilingual societies such as India (22official lan-guages) or South Africa (11 official languages) have re-cently set up long term national programmes for lan-guage research and technology development.In this field, the dominant actors are primarily privatelyowned for profit enterprises based in Northern Amer-ica. ese companies today rely on imprecise statisti-cal approaches that do not make use of deeper linguis-tic methods and knowledge. For example, sentences areautomatically translated by comparing a new sentenceagainst thousands of sentences previously translated byhumans. e quality of the output largely depends onthe amount and quality of the available sample corpus.While the automatic translation of simple sentences inlanguages with sufficient amounts of available text ma-terial can achieve useful results, such shallow statisticalmethods are doomed to fail in the case of languageswitha much smaller body of sample material or in the case ofsentences with little more complex structures.

is book provides a detailed analysis of this and otherapplications and solutions supported by language tech-nology. As expected and as authoritatively substanti-ated by the volumes in this White Paper series, there aredramatic differences among the countries and their lan-guageswith respect to the available solutions and the ad-vancement of research in terms of language technology.

Portuguese is the fih language with the largest num-ber of speakers in the world, with around 220 millionspeakers in four continents – Africa, America, Asia andEurope. From the European languages, it is the thirdone with the largest number of speakers in the world.Considering the new challenges raised by the informa-tion society in a globalizedworld, there is anurgentneedto direct substantially more efforts both for the creationof language resources and for research and developmentof tools and applications for the computational process-ing of Portuguese.

e present volume provides a detailed rendering of thechallenges, opportunities and needs for the Portugueselanguage in the digital age. One of the major conclu-sions drawn from the analysis undertaken in this bookis that the development of language technology for Por-tuguese is urgent and of utmost importance for the con-solidation of the Portuguese language as a language ofinternational communication with global projection.

42

2

LANGUAGES AT RISK: A CHALLENGE FORLANGUAGE TECHNOLOGY

We are witnesses to a digital revolution that is dramati-cally impacting communication and society. Recent de-velopments in digital information and communicationtechnology are sometimes compared to Gutenberg’s in-vention of the printing press.What can this analogy tell us about the future of theEuropean information society and our languages in par-ticular?AerGutenberg’s invention of press, real breakthroughsin communication and knowledge exchange were ac-complished by efforts such as the translation of theBibleinto vernacular languages. In subsequent centuries, cul-tural techniques have been developed to better handlelanguage processing and knowledge exchange:

the orthographic and grammatical standardisationof major languages enabled the rapid disseminationof new scientific and intellectual ideas;

the development of official languages made it possi-ble for citizens to communicate within certain (of-ten political) boundaries;

the teaching and translation of languages enabled ex-changes across languages;

the creationof editorial andbibliographic guidelinesassured the quality of printed material;

the creation of different media like newspapers, ra-dio, television, books, and other formats satisfieddifferent communication needs.

We are witnessing a digital revolution whoseimpact has been compared to Gutenberg’s

invention of the printing press.

Likewise, in the past twenty years, information technol-ogy has helped to further automate and facilitate lan-guage processing and knowledge exchange:

desktop publishing soware has replaced typewrit-ing and typesetting;

MS PowerPoint has replaced overhead projectortransparencies;

e-mail allows documents to be sent and receivedmore quickly than using a fax machine;

Skype offers cheap Internet phone calls and hostsvirtual meetings;

audio and video encoding formatsmake it easy to ex-change multimedia content;

web search engines provide keyword based access;

online services like Google Translate produce quickthough approximate translations;

social media platforms such as Facebook, Twitterand Google+ facilitate communication, collabora-tion, and information sharing.

Although these tools and applications are helpful, theyare not yet capable of supporting a fully sustainable,multilingual European society in which informationand goods can flow freely.

43

2.1 LANGUAGE BORDERSHOLD BACK THE EUROPEANINFORMATION SOCIETYWe cannot predict exactly what the future informationsociety will look like. But there is a strong likelihoodthat the revolution in communication technology isbringing people speaking different languages togetherin new ways. is is putting pressure on individuals tolearn new languages and especially on developers to cre-ate new technology applications to ensure mutual un-derstanding among speakers of different languages andaccess to shareable knowledge. In a global economicand information space, more languages, speakers andcontent interact more quickly with new types of me-dia. e current popularity of social media (Wikipedia,Facebook, Twitter, YouTube, and, recently, Google+) isonly the tip of the iceberg.

A global economy and information spaceconfront us with different languages, speakers

and content.

Today, we can transmit gigabytes of text around theworld in a few seconds before we recognise that it is ina language we do not understand. According to a re-cent report from the EuropeanCommission, 57% of In-ternet users in Europe purchase goods and services innon-native languages (English is the most common for-eign language followed by French, German and Span-ish). 55% of users read content in a foreign languagewhile only 35% use another language to write e-mails orpost comments on the web [2].

A few years ago, English might have been the linguafranca of the web – the vast majority of content on theweb was in English – but the situation has now drasti-cally changed. e amount of online content in other

European (as well as Asian and Middle Eastern) lan-guages has exploded.

Surprisingly, this ubiquitous digital divide due to lan-guage borders has not gained much public attention;yet, it raises a very pressing question:

WhichEuropean languages will thrive in the networkedinformation and knowledge society, and which aredoomed to disappear?

2.2 OUR LANGUAGES AT RISKWhile the printing press helped step up the exchange ofinformation in Europe, it also led to the extinction ofmany European languages. Regional and minority lan-guages were rarely printed and languages such as Cor-nish or Dalmatian were limited to oral forms of trans-mission, which in turn restricted their scope of use.

Will the Internet have the same impact on our lan-guages?

Europe’s approximately 80 languages are one of its rich-est and most important cultural assets, and a vital partof its unique social model [3]. While languages such asEnglish and Spanish are likely to survive in the emerg-ingdigitalmarketplace,manyEuropean languages couldbecome irrelevant in a networked society. is wouldweakenEurope’s global standing, and run counter to thestrategic goal of ensuring equal participation for everyEuropean citizen regardless of language.

The wide variety of languages in Europe is one ofits richest and most important cultural assets.

According to a UNESCO report on multilingualism,languages are an essential medium for the enjoyment offundamental rights, such as political expression, educa-tion and participation in society [4].

44

2.3 LANGUAGE TECHNOLOGYIS A KEY ENABLINGTECHNOLOGYIn the past, investment efforts in language preservationfocused on language education and translation. Accord-ing to one estimate, the European market for transla-tion, interpretation, soware localisation and websiteglobalisationwas € 8.4 billion in 2008 andwas expectedto growby10%per annum[5]. Yet this figure covers justa small proportion of current and future needs in com-municating between languages. e most compellingsolution for ensuring the breadth and depth of languageusage in Europe tomorrow is to use appropriate technol-ogy, just as we use technology to solve our transport, en-ergy and disability needs among others.Language technology targeting all forms of written textand spoken discourse can help people to collaborate,conduct business, share knowledge and participate insocial and political debate regardless of language barri-ers and computer skills.It oen operates invisibly inside complex soware sys-tems to help us already today to:

find information with a search engine;

check spelling and grammar in a word processor;

view product recommendations in an online shop;

follow the spoken directions of a navigation system;

translate web pages via an online service.

Language technology consists of a number of core ap-plications that enable processes within a larger applica-tion framework. e purpose of the META-NET lan-guage white papers is to focus on how ready these coreenabling technologies are for each European language.

Europe needs robust and affordable languagetechnology for all European languages.

Tomaintain our position in the frontline of global inno-vation, Europe will need language technology, tailoredto all European languages, that is robust and affordableand can be tightly integrated within key soware envi-ronments.

Without language technology, we will not be able toachieve a really effective interactive, multimedia andmultilingual user experience in the near future.

2.4 OPPORTUNITIES FORLANGUAGE TECHNOLOGYIn the world of print, the technology breakthrough wasthe rapid duplication of an image of a text using a suit-ably powered printing press. Human beings had to dothe hard work of looking up, assessing, translating, andsummarising information.

Language technology can now simplify and automatethe processes of translation, content production, andknowledge management. It can also empower intuitivespeech based interfaces for household electronics, ma-chinery, vehicles, computers and robots. Real worldcommercial and industrial applications are still in theearly stages of development, yet R&D achievements arecreating a genuine window of opportunity. For exam-ple, machine translation is already reasonably accuratein specific domains, and experimental applications pro-vide multilingual information and knowledge manage-ment, as well as content production, in many Europeanlanguages.

As with most technologies, the first language applica-tions such as voice based user interfaces and dialoguesystems were developed for specialised domains, and of-ten exhibit limited performance. However, there arehuge market opportunities in the education and enter-tainment industries for integrating language technolo-gies into games, edutainment packages, libraries, simu-lation environments and training programmes. Mobile

45

information services, computer assisted language learn-ing soware, eLearning environments, self-assessmenttools and plagiarism detection soware are just someof the application areas in which language technologycan play an important role. e popularity of socialmedia applications like Twitter and Facebook suggest aneed for sophisticated language technologies that canmonitor posts, summarise discussions, suggest opiniontrends, detect emotional responses, identify copyrightinfringements or track misuse.

Language technology helps overcome the“disability” of linguistic diversity.

Language technology represents a tremendous opportu-nity for the European Union. It can help to address thecomplex issue of multilingualism in Europe – the factthat different languages coexist naturally in Europeanbusinesses, organisations and schools. However, citi-zens need to communicate across the language bordersof the European Common Market, and language tech-nology can help overcome this final barrier, while sup-porting the free and open use of individual languages.Looking even further ahead, innovative European mul-tilingual language technology will provide a benchmarkfor our global partners when they begin to support theirown multilingual communities.Language technology can be seen as a form of “assistive”technology that helps overcome the “disability” of lin-guistic diversity andmakes language communities moreaccessible to each other.

2.5 CHALLENGES FACINGLANGUAGE TECHNOLOGYAlthough language technology has made considerableprogress in the last few years, the current pace of tech-nological progress and product innovation is too slow.

Widely used technologies, such as the spelling andgrammar correctors in word processors, are typicallymonolingual, and are only available for a handful of lan-guages. Online machine translation services, althoughuseful for quickly generating a reasonable approxima-tion of a document’s contents, are fraught with difficul-ties when highly accurate and complete translations arerequired.

The current pace of progress in languagetechnology is too slow.

Due to the complexity of human language, providingfor the computational modelling of our tongues andtesting it in the real world is a long, costly business thatrequires sustained funding commitments.Europe must therefore maintain its pioneering role infacing the technological challenges of a multiple lan-guage community by inventing new methods to accele-rate development right across the map.

2.6 LANGUAGE ACQUISITIONIN HUMANS AND MACHINESTo illustrate how computers handle language andwhy itis difficult to program them toprocess different tongues,let us look briefly at the way humans acquire first andsecond languages, and then see how language technol-ogy systems work.Humans acquire language skills in two different ways.Babies acquire a language by linguistic interaction andby listening to the real interactions between their par-ents, siblings andother familymembers. Fromthe age ofabout two, children produce their first words and shortphrases. is is only possible because humans have a ge-netic disposition to imitate and then rationalise whatthey hear.

46

Learning a second language at an older age requiresmore cognitive effort, largely because the child is not im-mersed in a language community of native speakers. Atschool, foreign languages are usually acquired by learn-ing grammatical structure, vocabulary and spelling usingdrills that describe linguistic knowledge in terms of ab-stract rules, tables and examples.

Humans acquire language skills in two differentways: learning from examples and learning the

underlying language rules.

Moving now to language technology, the two maintypes of systems “acquire” language capabilities in a si-milar manner. Statistical (or data driven) approachesobtain linguistic knowledge from vast collections ofconcrete example texts. While it is sufficient to use textin a single language for training, say, a spell checker, par-allel texts in two or more languages have to be avail-able for training a machine translation system. e ma-chine learning algorithm then “learns” patterns in termsof how words, short phrases and complete sentences aretranslated.is statistical approach usually requiresmillions of sen-tences to boost performance quality. is is one rea-son why search engine providers are eager to collect asmuch written material as possible. Spelling correctionin word processors, and services such as Google Searchor Google Translate, all rely on statistical approaches.e great advantage of statistics is that the machinelearns quickly in a continuous series of training cycles.Another approach to language technology, and to ma-chine translation in particular, is to build rule based sys-tems. Experts in the fields of linguistics, computationallinguistics and computer science first have to encode

grammatical analyses (grammar rules) and compile vo-cabulary lists (lexicons). is is very time consumingand labour intensive. Someof the leading rule basedma-chine translation systems have been under constant de-velopment for more than 20 years. e great advantageof rule based systems is that the experts have more de-tailed control over the language processing. is makesit possible to systematically correct mistakes in the so-ware and give detailed feedback to the user, especiallywhen rule based systems are used for language learning.However, due to the high cost of this work, rule basedlanguage technology has so far only been developed fora few major languages.

As the strengths and weaknesses of statistical and rulebased systems tend to be complementary, current re-search focusses on hybrid approaches that combine thetwomethodologies. However, these approaches have sofar been less successful in industrial applications than inthe research lab.

The two main types of language technologysystems acquire language in a similar manner as

humans do.

As we have seen in this chapter, many applicationswidely used in today’s information society rely heavilyon language technology, particularly in Europe’s eco-nomic and information space. Although this technol-ogy hasmade considerable progress in the last few years,there is still huge potential to improve the quality of lan-guage technology systems. In the next chapters, we de-scribe the role of Portuguese in European informationsociety and in the world, and assess the current state oflanguage technology for the Portuguese language.

47

3

THE PORTUGUESE LANGUAGE IN THEINFORMATION SOCIETY

3.1 GENERAL FACTSPortuguese is the third most spoken European languagein the world, with around 220 million speakers, ofwhich 200 million are native speakers, spread over fourcontinents: Africa, America, Asia and Europe [6, 7].It is the official language of Angola, Brazil, Cape Verde,East Timor, Guinea-Bissau, Macau, Mozambique, Por-tugal, S. Tome and Principe, and since 2010, of Equato-rial Guinea.

Portuguese is the third most spoken Europeanlanguage in the world with around 220 millions

speakers.

Due to migratory movements [8, 9], Portuguese is alsospoken by communities in many countries, occupyingin some of them an important position in the foreignpopulation. at is the case, in Europe, of Luxembourg(around 25% of the population), Andorra (around 11%of the population), France, Germany, United Kingdom,Switzerland, Spain and Belgium [10].Portuguese is an official language of the EuropeanUnion, the Mercosul and the African Union. Withthe advancement of the alphabetisation in the Africancountries and in East Timor, Portuguese is confirmingits growth potential in terms of number of speakers.e expeditions and coastal trade that Portugal main-tained for several centuries show linguistic counterpartstoday: Portuguese incorporated words from African,

Amerindian and Asian languages, but also gave its lex-ical contribution to many languages in the world andto several pidgins and creoles of the Atlantic, the Pacificand the Indian Oceans [11, 12].

e geographical division of dialects in Portugal [13]identifies Southern-Central, Northern and Atlantic is-lands dialects. e Northern dialects can be distin-guished by the lack of the phonological distinction be-tween /b/ and /v/, with prevalence of /b/, the preser-vation of ancient diphthongs, and the existence ofapico-alveolar fricatives. Differences rely at the pho-netic/phonological and lexical levels, being all dialectsmutually understandable in an immediate fashion (pos-sibly with the exception of some dialects of the islands).

Given its very large dimension, it is not feasible topresent here an account of the Portuguese language vari-eties in Brazil. For geographical, political and social rea-sons, it is not possible to talk about a standard varietyof Brazilian Portuguese. Experts tend to mention ‘culti-vated urban varieties’. e situation among the Africanvarieties differs: while in Angola and Mozambique thenumber of speakers of Portuguese has been increasingsince the independence of these countries, in other cases,like S. Tome and Principe or Cape Verde, in many cir-cumstances creole languages have a widespread usageand Portuguese is a second language.

All variants of Portuguese across the different conti-nents are, in general, mutually understandable.

48

3.2 PARTICULARITIES OF THEPORTUGUESE LANGUAGEPortuguese is a Romance language [14], with most ofits lexicon being derived from Latin. At different timesin its history, it integrated many words from a vari-ety of languages, which, in many cases, remain amongthe most frequent ones. From pre-Latin: barranco /ravine, seara / cornfield, bruxa /witch; Germanic: luas/ gloves, bando / band, guerra /war; Arabic: aldeia / vil-lage, açúcar / sugar, laranja / orange; African: batuque/ drum, inhame / yam; Asian: chá / tea, biombo / par-tition, bengala / walking cane; and Amerindian: cacau/ cocoa, tapioca / tapioca. e languages of the pop-ulations that Portuguese contacted during their mar-itime explorations and coastal trade also integrated Por-tuguese words. For example, in the case of Japanese, thewords bidoro (from Portuguese vidro / glass) and pan(from Portuguese pão / bread).

Portuguese is a Romance language and hasintegrated many words from other languages

along its history.

To a speaker not knowing Portuguese, the Europeanvariant of this language may oen sound like a sequenceof consonants. is is due to the fact that, differentlyfrom the other Romance languages, the Portuguese un-stressed vowels are oen weakened or even not pro-nounced. is vowel weakening is a late change in Euro-pean Portuguese and it did not affect the variety spokenin Brazil, which in this aspect, is more close to the Por-tuguese as spoken some centuries ago.e basic word order in Portuguese is SVO – SubjectVerb Object (ele leu o liro / he read the book). Incertain pragmatic contexts (e. g. emphatic reading), theVSO order can be used (lês tu o liro / read you thebook) and the OSV or OVS order are possible in con-

structions termed asmarked by linguists (o liro, ele nãoleu / the book, he not read).Portuguese is a null subject language, that is the sub-ject of the sentence may not be realised by a phoneti-cally overt expression ( _ li o liro / [I] read the book).When the subject is pairedwith a first person inflection,its non-realisation in phonetic terms is the default op-tion. Additionaly, there is no expletive pronoun in im-personal constructions ( _ há um liro sobre esse tema /[there] is a book on that subject). is feature of thePortuguese language represents an accrued challenge forthe automatic syntactic analysis of Portuguese texts andspeech.e inflection paradigm in Portuguese is much richerthan the one of a language like English, for instance, es-pecially in what concerns verbs: a verb with a regular in-flection paradigmwill have different markers for aspect,tense, mood, person, number or polarity, reachingmorethan 160 different inflected verb forms, encompassingboth simple and complex ones [15].

Certain linguistic properties of thePortuguese language represent accrued

challenges for language technology.

Also, there are two verb inflectional paradigms whichdo not exist in the other official Romance languagesand are very frequent in Portuguese: the inflected in-finitive and the future subjunctive. e former sharesthe theme with the non inflected infinitive (e. g. can-tar / to sing), to which the aspect, tense, mood, per-son andnumbermarkers are adjoined (para tu cantares /for you to sing). e inflected forms of the subjunctivefuture are homonyms to the ones of the non inflectedinfinitive, except with irregular verbs, and this increasesthe number of ambiguous forms in the verbal inflectionparadigm.e position of clitic pronouns in the sentence is an-other feature that raises specific challenges to the auto-

49

matic processing ofPortuguese language. As a rule, cliticpronouns can occur before or aer the verb, and in thefuture and conditional tenses, they can be realised be-fore or in the middle of the verb form (dar-lho-ei / willgive it to him/her/them). Furthermore, the presence ofa third person clitic in themiddle or in the final positioncan affect the verb: for example, in the final sequence -ar, the -r falls and the vowel is stressed (dá-lo-ei / willgive it).

3.3 RECENT DEVELOPMENTSAsEnglish is themostwidespread language in theworld,its influence on other languages, including Portuguese,is increasingly noticeable. Movies and television, espe-cially American series, music and the Internet open awindow to the regular presence of English in daily lifeand many words are eventually integrated into the Por-tuguese vocabulary. It is mainly in the business languageand on the web that English words are more visible, likeCEO, manager, briefing, casual day or download, USBpen, upload, online or site, and also liing or e-learning,among many others.Inwhat concernsmusic, although there aremany singersand bands with English lyrics targeted at a younger au-dience, traditional types of Portuguese music like fadoare regaining a large audience of all ages.In the last decade there has been a growth in the eco-nomic relevance of Portuguese in an international con-text, particularly due to the economic development ofBrazil and the African countries with Portuguese as of-ficial language. Within the United Nations, Portuguesehas played an increasingly important role, with ongoinginitiatives for Portuguese to become one of its workinglanguages, as it is already the case in theEuropeanUnionand the Mercosul.is growing importance of Portuguese at the interna-tional level is reflected in the increasing number of peo-ple taking Portuguese courses worldwide.

3.4 DISSEMINATION ANDPROMOTIONe Community of Countries with Portuguese as Of-ficial Language (CPLP) is an intergovernment organ-isation for cooperation. One of its goals is the dis-semination and promotion of the Portuguese language.e International Institute for the Portuguese Language(IILP) is the organism of CPLP specifically dedicatedto the promotion of Portuguese as an international lan-guage of global projection. It was also in the frame-work of CPLP that efforts were undertaken conductingto a newAgreement for theOrthography of Portuguese[16], which is common to all countries of this commu-nity and supports the consolidation of the language inthe international economic and political arena. isnewAgreement for theOrthography of Portuguese cov-ers all countries having Portuguese as official language.

The Community of Countries with Portuguese asOfficial Language (CPLP) is an intergovernment

organisation active in the dissemination andpromotion of the Portuguese language.

e Academy of Sciences of Lisbon and the BrazilianAcademy of Letters contribute to the promotion of thePortuguese language, in particular with the publicationof reference dictionaries: the Dictionary of Contempo-rary Portuguese, by the Portuguese Academy, and theDictionary of the Brazilian Academy of Letters, by theBrazilian one.e Instituto Camões is an institution under the Por-tuguese ForeignAffairsMinistry and one of itsmain ob-jective is the promotion of Portuguese. is institutioncoordinates Portuguese teaching abroad by establishingand supporting courses of Portuguese in foreign univer-sities as well as centers of Portuguese language and cul-ture all over the world. It also provides support to cul-tural activities related to language, by awarding schol-

50

arships to nationals and foreigners in order to promotePortuguese, or by supporting Portuguese as a communi-cation language at the international level, particularly ininternational institutions like the United Nations.

Under the Foreign Affairs Ministry of Portugal,Instituto Camões has the mission of promoting

Portuguese in the world.

eGulbenkian Foundation [17] has also been engagedin the promotion of the Portuguese language. For exam-ple, it supplies books by Portuguese authors to Depart-ments of History and Portuguese in foreign universitiesand cultural institutions all over the world. is Foun-dation supports the organisation of congresses, confer-ences and seminars on the Portuguese language and lit-erature. It grants funding to specific research projects, asfor instance, for the project Reference Corpus of Con-temporary Portuguese or for the project Comprehen-sive Grammar of Portuguese, of the Center of Linguis-tics of the University of Lisbon.In recent years, Brazil has also increased internationalcooperation, with particular focus on education andwith an impact in terms of promoting the Portugueselanguage. ere are agreements with Angola andMozambique to offer graduate courses and e-learningcourses. Scholarships are available for professors of themain universities of the Spanish speaking countries ofAmerica such as Uruguay and at their border territoriesbilingual education is being supported.e Portuguese public radio and television have beenengaged in the promotion of the Portuguese language.ey broadcast short daily programs that seek to teachgood practices regarding the use of Portuguese. Forexample, in the public channel, the weekly TV showWatchUpYourLanguage is both educational and enter-taining and has helped to disseminate the New Agree-ment for Orthography. In the public radio, there are

regular talks regarding good practices concerning thespeaking and writing of Portuguese. ere have beenalso many publications concerned with the promotionof Portuguese, seeking to attract more audiences to theappropriate use of the language. All these programs andpublications address a vivid interest by the Portuguesepopulation regarding language issues. Also the radioand television stations in Portuguese language, spreadthroughout the world, have made a great effort to keepthe use of Portuguese among emigrants and their de-scendants.e use of Portuguese is supported in the music sectorby means of a quota system in the radios in Portugal.By law, there is a mandatory proportion of 25% of Por-tuguese music in broadcasted programs.

A new Agreement for the Orthography ofPortuguese was approved in the scope of theCommunity of Countries with Portuguese as

Official Language (CPLP).

e Portuguese language has been also promotedthrough the increasing international projection of theworks of African, Brazilian and Portuguese authors. Assome notorious examples, one can refer the Portuguesephilosophers Eduardo Lourenço or Fernando Gil, andthe Portuguese fiction writers António Lobo Antunesor the recently deceased Nobel prize, José Saramago,whose works have been translated worldwide. Alsoworth of note in this context are the internationally ac-claimedBrazilianwriters JorgeAmadoorPauloCoelho,as well asMia Couto, fromMozambique, and José Edu-ardo Agualusa or Luandino Vieira, fromAngola, just toname a few.

3.5 LANGUAGE IN EDUCATIONIn the last few years, there has been in Portugal a largeinvestment in the development of a network of school

51

libraries. is has been done under the scope of the Na-tional Plan for Reading whose ultimate goal is to fos-ter the literacy level of Portuguese students from vari-ous learning levels, with special focus on the early yearsof school. Also inBrazil, educational policies to increasethe level of literacy among students have been graduallyimplemented in the last few years.Another recent initiative in Portugal has been thewidespread integration of new information technolo-gies in schools. Younger students have been granted thepossibility to get at very low cost, or in some cases evenfor free, laptops especially designed for their differentlevels of education. On a par with this access to indi-vidual laptops, educational soware programshave beendesigned where Portuguese is the language used, and inmany cases where the learning of Portuguese grammar isspecifically fostered.

The National Plan for Reading in Portugal aimsto foster the literacy level of students. Similar

initiatives have been undertaken in Brazil.

e Gulbenkian Foundation has played a relevant rolein supporting and implementing public libraries, as wellas school libraries. Another example of the support ofthis Foundation to education is the funding granted tothe project Linguistic Diversity in Portuguese School[18], developed by the Institute for eoretical andComputational Linguistics, whose main objective is tocontribute to the integration of students who do nothave Portuguese as their first language.Recent results from the 2009 Programme for Inter-national Student Assessment (PISA) reveal a notori-ous comparative progress of the Portuguese students interms of their reading, science and mathematics skills,with special highlights to the reading component.In the near future, it is expected that this investmenton theNational Plan for Reading and on the dissemina-tionof new technologies, aswell as of the recentmeasure

to increase the compulsory school attendance to twelveyears, will have a continued positive impact.

3.6 INTERNATIONAL ASPECTSAs a consequence of the historical undertaking of thePortuguese maritime explorations, geographical discov-eries and settling of new global trade routes, the Por-tuguese language has been projected for centuries allover the world as one of the most prominent languagesfor business and trade.Portuguese is a global language with around 220 mil-lion speakers, of which twelve million live in Europe,with 10 million in Portugal [19]. It is in Brazil that onefinds the largest Portuguese speaking community, withits 190 million speakers. On a par to the size of its pop-ulation, Brazil is contributing to the increasingly largerinternational projection of the Portuguese language asa consequence of its economical development and of itsposition in the international arena as one of the emer-gent powers of the 21st century.erefore, a recent increase of interest on the Por-tuguese language is taking place as Portuguese is beingtaught in many countries around the world [20]. Sev-eral Chambers of Commerce have been interested in of-fering course on Portuguese for potential investors, as itwas recently the case of the Italian Chamber in Portu-gal, just to refer one case among many others. e Por-tuguese emigrant communities around the world havebeen also promoting the learning of Portuguese.

There is an increased interest on the Portugueselanguage at the international level, in the

academia as well as in the business world.

e portuguese language is currently one of the 23 of-ficial languages of the European Union and has beenincluded in some research projects funded by the Eu-

52

ropean Commission targeting the development of lan-guage resources and technology. e Portuguese lan-guage is also an official, administrative or workinglanguage of 27 international organizations, including,for example, e Community of Portuguese SpeakingCountries (CPLP), the Mercosul, the Latin Union orthe International Federation of Football Association(FIFA).

The Portuguese language is an official,administrative or working language of 27

international organizations.

In spite of its progressive projection, the Portuguese lan-guage may face challenges as an international languageof communication. In Latin America, with around 190million native speakers, Portuguese co-exists with largeSpanish speaking countries. In Europe, a highly mul-tilingual continent, Portuguese has about 12 millionspeakers, including the emigrant communities. In Asia,Portuguese is an official language only in East Timorand Macau. And in Africa, besides the fact that manynative languages co-exist with Portuguese, English andFrench are languages with a vigorous and concorrentprojection in that continent.

3.7 PORTUGUESE ON THEINTERNETAn overview on statistical data about the Portugueselanguage reveals that it is one of themost used languageson the internet. According to recent estimates, Por-tuguese is the fih most common language on the web,being surpassed only by English, Chinese, Spanish andJapanese [21]. is survey shows that about82.5millionusers are surfing the web in Portuguese, and that in onedecade, from 2000 to 2010, it registered an astonishingexpansion of 990%.

The Portuguese language is the fifth mostused language on the internet. Its use on

the web has registered an astonishingexpansion of 990% in the last decade.

Portuguese is particularlywell positionedwhen it comesto its presence in social networks. A semantic and quan-titative studyof 2.8million tweets, performedbySemio-cast, reveals that Portuguese is the third language mostused on Twitter, right aer English and Japanese [22].

is is in line with the boom of Internet access in Brazil,especially among the young people. is country hasone of the largest numbers of Internet users worldwide(76 million) [23], and the replies to a census question-naire revealed that the number of people aged 10 orolder using the Internet jumped by 12 million since2008 [24]. Portugal in turn has around 5 million In-ternet users [25, 26] and has also registered a notori-ous growth in terms of Internet access. Statistics revealthat the number of Internet subscribers has steadily in-creased: in 2001 there were around half million sub-scribers, and the last counting indicates almost 2 mil-lions [27]. ey reveal also that in 2006, 95% of compa-nies with ten or more employees used computers, while84% used e-mail and 83% had access to the Internet;that in 2008, more than 90% of individuals aged be-tween 10 and 15 years used a computer (96.6%) and theInternet (92.7%); and that in 2010, 54% of Portuguesehouseholds had an Internet connection [27].

On a par with the effort of assuring the presence of pub-lic institutes, agencies and services on the internet, in2007, aNational Plan for thePromotionofAccessibilityhas been implemented in Portugal [28], aiming at fos-tering social inclusion through the Information Societyand allowing access to e-content by citizenswith disabil-ities. An increasing usage of the Portuguese language inthe Internet is thus clear.

53

Along with the data shown above, it is worth pointingout that Portuguese is present in several websites of in-ternational institutions, as in the sites of the EuropeanUnion or the Mercosul, just to give two examples, and

the efforts should be continued so that it will be presentin a number of others where it is not yet an option.

54

4

LANGUAGE TECHNOLOGY SUPPORT FORPORTUGUESE

Language technology is used to develop soware sys-tems designed to handle human language and are there-fore oen also termed as human language technology.Human language comes in spoken and written forms.While speech is the oldest in terms of human evolution,and the most natural form of language communica-tion, complex information and most human knowledgeis stored and transmitted through the written word.Speech and text technologies process or produce thesedifferent forms of language, using dictionaries, rulesof grammar, and semantics. is means that languagetechnology links language to various forms of knowl-edge, independently of the media (speech or text) inwhich it is expressed.When we communicate, we combine language withother modes of communication and information media– for example speaking can involve gestures and facialexpressions. Digital texts link to pictures and sounds.Movies may contain language in spoken and writtenform. Inotherwords, speech and text technologies over-lap and interact with other multimodal communicationand multimedia technologies.Figure 1 illustrates the language technology landscape.In this chapter, we introduce the core application ar-eas for language technology, and follow this with anoverview of the state of language technology research.Finally, we present an estimate of the state of develop-ment of language technology tools and resources forPortuguese. Support for Portuguese is also compared tothe other languages of this series.

Language technology is an established area of researchwith an extensive set of introductory literature. e in-terested reader is referred to the following references:[51, 29, 30, 31, 32].Before discussing the above application areas, we willbriefly describe the architecture of a typical languagetechnology system.

4.1 APPLICATIONARCHITECTURESSoware applications for language processing typicallyconsist of several components that mirror different as-pects of language. While such applications tend to bevery complex, Figure 2 shows a highly simplified archi-tecture of a text processing system. e first three mod-ules handle the structure andmeaning of the text input:

1. Pre-processing: cleans the data, analyses or removesformatting, detects the input languages, and so on.

2. Grammatical analysis: finds the verb, its objects,modifiers and other sentence elements, and detectsthe sentence structure.

3. Semantic analysis: performs disambiguation (i. e.computes the appropriate meaning of words in agiven context), resolves anaphora (i. e. which pro-nouns refer to which nouns in the sentence), andrepresents the meaning of the sentence in a machinereadable way.

55

Multimedia &MultimodalityTechnologies

LanguageTechnologies

Speech Technologies

Text Technologies

Knowledge Technologies

1: Language technologies

Aer analysing the text, task specific modules can per-form other operations, such as automatic summarisa-tion or database look ups, for example.

4.2 CORE APPLICATION AREASIn this section, we will discuss the main application ar-eas of language technology, i. e. language checking, websearch, speech interaction, and machine translation.

4.2.1 Language Checking

Anyone who has used a word processor, such as MSWord, knows that it has a spell checker that highlightspossible spellingmistakes andproposes corrections. efirst spelling correction programs compared a list of ex-tracted words against a dictionary of correctly spelledwords. Today these programs are farmore sophisticated.

Using language dependent algorithms for grammaticalanalysis, they detect errors related to morphology (e. g.plural formation) as well as syntax related errors, suchas a missing verb or a conflict of verb subject agreement(e. g. she *write a letter). However, most spell checkerswill not find any errors in the following text [52]:

I have a spelling checker,It came with my PC.It plane lee marks four my revueMiss steaks aye can knot sea.

For handling this type of errors, analysis of the contextis needed in many cases, as in the following Portugueseexamples:

Fizemos jogos tradicionais, incluindo o jogo do pião.[We played traditional games, including the whippingtop game]

Input Text

Pre-processing Grammatical Analysis Semantic Analysis Task-specific Modules

Output

2: A typical text processing architecture

56

Input Text Spelling Check Grammar Check Correction Proposals

Statistical Language Models

3: Language checking (top: statistical; bottom: rule-based)

Fizemos jogos tradicionais, incluindo o jogo do peão.[We played traditional games, including the game of thepedestrian]

is either requires the formulation of language spe-cific grammar rules, i.e. a high degree of expertise andmanual labour, or the use of a so called statistical lan-guage model, as depicted in Figure 3. Such model cal-culates the probability of a particular word occurring ina specific environment (i.e. the preceding and followingwords). For example, jogo do pião is a much more prob-able word sequence than jogo do peão. A statistical lan-guage model can be automatically derived using a largeamount of language data (i.e. a corpus).Language checking is not limited to word processors. Itis also used in authoring support systems, which are so-ware environments in which manuals and other typesof technical documentation for complex IT, healthcare,engineering and other products, are written. To off-set customer complaints about incorrect use and dam-age claims resulting from poorly understood instruc-tions, companies are increasingly focusing on the qual-ity of technical documentation while targeting the in-ternational market (via translation or localisation) atthe same time. Advances in natural language process-ing have led to the development of authoring supportsoware, which helps the writer of technical documen-tation to use vocabulary and sentence structures that areconsistent with industry rules and terminology restric-tions.

The use of language checking is notlimited to word processors. It also applies to

authoring support systems.

Additionally to the one provided by MS Word, thereare some other language checking tools for Portuguese.In Portugal, FLIP is a language checker for Europeanand Brazilian Portuguese commonly used. CoGrOOis a grammar checker of Brazilian Portuguese for OpenOffice. Also for Brazilian Portuguese, building on analgorithm by the Instituto de Computação from Uni-versidadeEstadual deCampinas (UNICAMP), theNú-cleo Interinstitucional de Lingüística Computacional(NILC), developed the checker ReGra, which is avail-able as an integral part of the MS Word and the wordprocessor REDATOR.Besides spell checkers and authoring support, languagechecking is also important in the field of computer as-sisted language learning. And language checking appli-cations also automatically correct search engine queries,as found in Google’s Did you mean… suggestions.

4.2.2 Web Search

Searching the web, intranets or digital libraries is proba-bly themostwidely used and yet largely underdevelopedlanguage technology application today. Figure 4 depictsits major components.e Google search engine, which started in 1998, nowhandles about 91% of all search queries [33]. e verb

57

User Query

Web Pages

Pre-processing Query Analysis

Pre-processing Semantic Processing Indexing

Matching&

Relevance

Search Results

4: Web search architecture

googlar / to google even has an entry in the Porto Edi-tora online dictionary of Portuguese [34]. e Googlesearch interface and results page display has not signif-icantly changed since the first version. Yet in the cur-rent version, Google offers spelling correction for mis-spelled words and has now incorporated basic semanticsearch capabilities that can improve search accuracy byanalysing themeaning of terms in a search query context[35].

e Google success story shows that a large volumeof available data and efficient indexing techniques candeliver satisfactory results for a statistically based ap-proach.

However, for a more sophisticated request for infor-mation, integrating deeper linguistic knowledge is es-sential. In the research laboratories, experiments us-ing machine readable thesauri and ontological languageresources like WordNet have shown improvements byallowing to find a page on the basis of synonyms ofthe search terms (e. g. ”atomic energy”, “atomic power”,and “nuclear energy”). To this end, it will be useful to

use, for Brazilian and European Portuguese, the Multi-Wordnet.PT [36], for European Portuguese, the Word-Net.PT [37], and for Brazilian Portuguese, the e-saurus Eletrônico para o Português (TEP), under devel-opment as part of the project WordNet.BR.

e next generation of search engines will have to in-clude much more sophisticated language technology, inparticular in order to deal with search queries consistingof a question or other sentence type rather than a list ofkeywords. For the query What are the companies thatwere taken over by other companies in the last five years?,the language technology system needs to analyse thesentence syntactically and semantically as well as pro-vide an index to quickly retrieve relevant documents. Asatisfactory answer will require parsing to get the gram-matical structure of the sentence and determine that theuserwants companies that have been acquired, not com-panies that acquired other companies. And for the ex-pression last five years, the system needs to determinethe relevant years. Additionaly, the query needs to bematched against a huge amount of unstructured data to

58

find the piece or pieces of relevant information the userwants. is is called information retrieval, and involvessearching and ranking relevant documents. To generatea list of companies, the system also needs to recognisethat a particular string of words in a document is a com-panyname, in a process callednamed entity recognition.

The next generation of search engines will haveto include much more sophisticated language

technology.

A more demanding challenge is matching a query inone language with documents in another language.Cross-lingual information retrieval involves automati-cally translating the query into all possible target lan-guages and then translating the results back into thesource language.Now that data is increasingly found in non textual for-mats, there is a need for services that deliver multime-dia information retrieval by searching images, audio filesand video data. In the case of audio and video files, aspeech recognition module must convert speech intotext, or into a phonetic representation, that can then bematched against a user query.In the late 1990’s, several search engines started beingdeveloped in Portugal. AEIOU came up in 1996 andwas later bought by Impresa and developed further intoa content portal [38]. Sapo was launched in 1997 asa search engine as well and was turned into a portal,being now part of an internet service provider ownedby PT Multimédia [39]. In the meanwhile, Sapo cre-ated search engine versions forAngola,CapeVerde, EastTimor and Mozambique. As of today, although manyother search engines have been developed in Portugal(Clix, BuscaOnline, Guianet, Netindex, among others)[40], only a few Portuguese companies keep providingautonomous search engine services. e search engineGoogle.pt is deemed to be the most popular.

In Brazil, there are examples of web search engines di-rected to Brazilian sites only, such as Achei [41] or GigaBusca [42], whose coverage and outreach is thus lim-ited. It is worth noting the METAMINER search en-gine, which was developed in 1996 by the UniversidadeFederal de Minas Gerais and later integrated into theUOLportal. Google is thus deemed to be the dominantsearch engine in Brazil.

4.2.3 Speech Interaction

Speech interaction is one of many application areas thatdepend on speech technology, i. e. technology for pro-cessing spoken language. Speech interaction technol-ogy is used to create interfaces that enable users to in-teract in spoken language instead of using a graphicaldisplay, keyboard or mouse. Today, these voice userinterfaces (VUI) are used for partially or fully auto-mated telephone services provided by companies to cus-tomers, employees or partners. Business domains thatrely heavily on VUIs include banking, supply chain,public transportation, and telecommunications. Otheruses of speech interaction technology include interfacesto car navigation systems and the use of spoken languageas an alternative to the graphical or touchscreen inter-faces in smartphones.

Speech interaction is the basis for creatinginterfaces that allow a user to interact with spoken

language instead of a graphical display,keyboard or mouse.

As illustrated in Figure 5, on dialogue systems, speechinteraction technology comprises three dimensions:

1. Automatic Speech Recognition (ASR) determineswhich words are actually spoken in a given sequenceof sounds uttered by a user.

2. Dialogue management determines which action totake given the user input and system functionality.

59

Speech Input Signal Processing

Speech Output Speech Synthesis Phonetic Lookup & Intonation Planning

Natural Language Understanding &

Dialogue

Recognition

5: Speech-based dialogue system

3. Speech synthesis (text-to-speech or TTS) trans-forms the system’s reply into sounds for the user.

One of the major challenges of ASR systems is to ac-curately recognise the words a user utters. is meansrestricting the range of possible user utterances to alimited set of keywords, or manually creating languagemodels that cover a large range of natural language ut-terances. Using machine learning techniques, languagemodels can also be generated automatically from speechcorpora, i. e. large collections of speech audio files andtext transcriptions. Restricting utterances usually forcespeople touse theVUI in a rigidway and candamageuseracceptance; but the creation, tuning and maintenanceof rich language models will significantly increase costs.VUIs that employ language models and initially allow auser to express their intent more flexibly – prompted bya How may I help you? greeting – are better accepted byusers.ASR systems for European and Brazilian Portuguesehave a good quality in general, by achieving moderatelygood recognition results, and they are actively main-tained. e great majority of them are not freely avail-able, and the laboratory systems in particular are usu-ally not compliant with standards. Some systems havelarge vocabulary, for example to transcribe broadcastnews. Some are domain specific, with a limited vocabu-lary (limited tasks, e. g. in medical area), but adaptationto a new domain is feasible with proper resources.

Companies tend to use utterances pre-recorded by pro-fessional speakers for generating the output of the voiceuser interface. For static utterances where the word-ing does not depend on particular contexts of use orpersonal user data, this can deliver a rich user experi-ence. But more dynamic content in an utterance maysuffer from unnatural intonation because different partsof audio files have simply been strung together. roughoptimisation, today’s TTS systems are getting better atproducing natural sounding dynamic utterances.

e state of the art in TTS for Portuguese is similarto the ASR one. Few systems are freely available andspeech data needed to build a voice are not available.Nevertheless, thematurity of TTS seems to be larger forthe general use, in a lot of applications: GPSdevices, callcenters, avatars, web sites, etc.

Interfaces in speech interaction have been considerablystandardised during the last decade in terms of their var-ious technological components. ere has also beenstrong market consolidation in speech recognition andspeech synthesis. enationalmarkets in theG20 coun-tries have been dominated by just five global players,with Nuance (USA) and Loquendo (Italy) being themost prominent ones. In 2011, Nuance announcedthe acquisition of Loquendo, which represents a furtherstep in market consolidation.

In thePortugueseTTSmarket, there further exists somesmaller companies like SVOX and Voice Interaction,

60

and the later has a differentiating focus by providingvoices not only for European and Brazilian Portuguesebut also for the African varieties of Portuguese. Inthe Brazilian market, the company VOCALISE offersproducts and services in this area (TTS, STT, ASR,searching recorded speech, etc.), with the particularityof establishing partnerships in projects with the majoruniversities in the area of São Paulo andCampinas [43].We can also highlight the growing number of foreigncompanies which are established near the universitiesand are interested in the Portuguese varieties of Brazil.

With regard to dialogue management technology andknow how, DigA is the only complete framework es-pecially built for European Portuguese. It is open do-main though it is not available as open source. e opensource Olympus SDS was adapted to Portuguese withsuccess, yet not extensively tested so far. From the vari-ous modules required by Spoken Dialogue Systems, thedialogue manager is the only module that is languageindependent. e other modules exist, although usu-ally not available for free and not as open source frame-works.

Looking forward, there will be significant changes dueto the spread of smartphones as a new platform forman-aging customer relationships in addition to fixed tele-phones, the Internet and e-mail. is will also affecthow speech technology is used. In the long run, therewill be fewer telephone based VUIs and spoken lan-guage will play a far more central role as a user friendlyinput for smartphones. is will be largely driven bystepped improvements in the accuracy of speaker in-dependent speech recognition via speech dictation ser-vices already offered as centralised services to smart-phone users.

Some recent research effort can be observed in newapplications of speech technologies in European Por-tuguese, namely in language learning and health. Forexample, some projects aim at developing and testing

tools to help learning pronunciation or at creating se-rious games to learn vocabulary and grammar. In rela-tion to health applications, projects aim at studying el-derly speech to measure the impact on the performanceof ASR systems, helping in the recovering of people suf-fering from speech disorders such as aphasia.

4.2.4 Machine Translation

e idea of using digital computers to translate naturallanguages can be traced back to 1946 and was followedby substantial funding for research during the 1950s andagain in the 1980s. Yet machine translation (MT) stillcannot deliver on its initial promise of providing acrossthe board automated translation.

e most basic approach to machine translation is theautomatic replacement of the words in a text written inone natural language with the equivalent words of an-other language. is can be useful in subject domainsthat have a very restricted, formulaic language such asweather reports.

However, in order to produce a good translation of lessrestricted texts, larger text units (phrases, sentences, orevenwhole passages) need to bematched to their closestcounterparts in the target language.

Amajor difficulty is that human language is ambiguous.Word sense disambiguation is a challenge at the lexicallevel. For instance, banco from Portuguese has at leasttwo meanings, ‘bank’ or ‘bench’:

O Pedro viu a rapariga no banco.[Pedro saw the girl at the bank / on the bench.]

Syntactic ambiguity is also a challenge as the next twosentences show. Notice that the prepositional phrasein the first sentence causes ambiguity, but the preposi-tional phrase in the second one does not:

O Pedro viu a rapariga com o telescópio.[Pedro saw the girl with the telescope.]

61

Statistical Machine

Translation

Source Text

Target Text

Text Analysis (Formatting, Morphology, Syntax, etc.)

Text Generation

Translation Rules

6: Machine translation (left: statistical; right: rule-based)

O Pedro viu a rapariga com o boné.[Pedro saw the girl with the cap.]

One way to build an MT system is to use linguis-tic rules. For translations between closely related lan-guages, a translation using direct substitution may befeasible. However, rule based (or linguistic knowledgedriven) systems oen analyse the input text and createan intermediary symbolic representation from whichthe target language text can be generated. e successof these methods is highly dependent on the availabil-ity of extensive lexicons with morphological, syntactic,and semantic information, and large sets of grammarrules carefully designed by skilled linguists. Leadingrule basedMTsystems, likeLOGOS,Apertiumor SYS-TRAN, are available for Portuguese.

In the late 1980s when computational power increasedand became cheaper, interest in statistical models formachine translation began to grow. Statistical modelsare derived from analysing bilingual text corpora, paral-lel corpora, such as the Europarl parallel corpus, whichcontains the proceedings of the European Parliament in21 European languages. Given enough data, statistical(or data driven) MT works well enough to derive an ap-proximate meaning of a foreign language text by pro-cessing parallel versions and finding plausible patternsof words. Data driven MT is advantageous because lesshuman effort is required, and it can also cover specialparticularities of the language (e. g. idiomatic expres-

sions) that are oen ignored in knowledge-driven sys-tems. Unlike the latter, however, statistical MT systemsgenerate ungrammatical output more oenly.

Additionally, and for the case of the Portuguese lan-guage in particular, the lack of resources for effectiveword sense disambiguation – data (lexical ontologiesand annotated corpora) and tools developed over thosedata – is another reason why the results of the existingMT systems are oen insufficient.

Figure 6 presents a synopsis of these two approachesto MT, based on rules and based in statistics. estrengths and weaknesses of these two approaches tendto be complementary, so that nowadays researchers fo-cus on hybrid approaches that combine both method-ologies. One such approachuses both knowledge drivenand data driven systems, together with a selection mod-ule that decides on the best output for each sentence.However, results for sentences longer than, say, twelvewords, will oen be far from perfect.

While there is significant research in this technology innational and international contexts, hybrid systems havebeen less successful in business than in research so far.

ere is still a huge potential for improving the qual-ity of MT systems. e challenges involve adapting lan-guage resources to a given subject domain or user area,and integrating the technology into workflows that al-ready have term bases and translation memories. An-other problem is that most of the current systems are

62

Língua-alvo – Target languageEN BG DE CS DA EL ES ET FI FR HU IT LT LV MT NL PL PT RO SK SL SV

EN – 40.5 46.8 52.6 50.0 41.0 55.2 34.8 38.6 50.1 37.2 50.4 39.6 43.4 39.8 52.3 49.2 55.0 49.0 44.7 50.7 52.0BG 61.3 – 38.7 39.4 39.6 34.5 46.9 25.5 26.7 42.4 22.0 43.5 29.3 29.1 25.9 44.9 35.1 45.9 36.8 34.1 34.1 39.9DE 53.6 26.3 – 35.4 43.1 32.8 47.1 26.7 29.5 39.4 27.6 42.7 27.6 30.3 19.8 50.2 30.2 44.1 30.7 29.4 31.4 41.2CS 58.4 32.0 42.6 – 43.6 34.6 48.9 30.7 30.5 41.6 27.4 44.3 34.5 35.8 26.3 46.5 39.2 45.7 36.5 43.6 41.3 42.9DA 57.6 28.7 44.1 35.7 – 34.3 47.5 27.8 31.6 41.3 24.2 43.8 29.7 32.9 21.1 48.5 34.3 45.4 33.9 33.0 36.2 47.2EL 59.5 32.4 43.1 37.7 44.5 – 54.0 26.5 29.0 48.3 23.7 49.6 29.0 32.6 23.8 48.9 34.2 52.5 37.2 33.1 36.3 43.3ES 60.0 31.1 42.7 37.5 44.4 39.4 – 25.4 28.5 51.3 24.0 51.7 26.8 30.5 24.6 48.8 33.9 57.3 38.1 31.7 33.9 43.7ET 52.0 24.6 37.3 35.2 37.8 28.2 40.4 – 37.7 33.4 30.9 37.0 35.0 36.9 20.5 41.3 32.0 37.8 28.0 30.6 32.9 37.3FI 49.3 23.2 36.0 32.0 37.9 27.2 39.7 34.9 – 29.5 27.2 36.6 30.5 32.5 19.4 40.6 28.8 37.5 26.5 27.3 28.2 37.6FR 64.0 34.5 45.1 39.5 47.4 42.8 60.9 26.7 30.0 – 25.5 56.1 28.3 31.9 25.3 51.6 35.7 61.0 43.8 33.1 35.6 45.8HU 48.0 24.7 34.3 30.0 33.0 25.5 34.1 29.6 29.4 30.7 – 33.5 29.6 31.9 18.1 36.1 29.8 34.2 25.7 25.6 28.2 30.5IT 61.0 32.1 44.3 38.9 45.8 40.6 26.9 25.0 29.7 52.7 24.2 – 29.4 32.6 24.6 50.5 35.2 56.5 39.3 32.5 34.7 44.3LT 51.8 27.6 33.9 37.0 36.8 26.5 21.1 34.2 32.0 34.4 28.5 36.8 – 40.1 22.2 38.1 31.6 31.6 29.3 31.8 35.3 35.3LV 54.0 29.1 35.0 37.8 38.5 29.7 8.0 34.2 32.4 35.6 29.3 38.9 38.4 – 23.3 41.5 34.4 39.6 31.0 33.3 37.1 38.0MT 72.1 32.2 37.2 37.9 38.9 33.7 48.7 26.9 25.8 42.4 22.4 43.7 30.2 33.2 – 44.0 37.1 45.9 38.9 35.8 40.0 41.6NL 56.9 29.3 46.9 37.0 45.4 35.3 49.7 27.5 29.8 43.4 25.3 44.5 28.6 31.7 22.0 – 32.0 47.7 33.0 30.1 34.6 43.6PL 60.8 31.5 40.2 44.2 42.1 34.2 46.2 29.2 29.0 40.0 24.5 43.2 33.2 35.6 27.9 44.8 – 44.1 38.2 38.2 39.8 42.1PT 60.7 31.4 42.9 38.4 42.8 40.2 60.7 26.4 29.2 53.2 23.8 52.8 28.0 31.5 24.8 49.3 34.5 – 39.4 32.1 34.4 43.9RO 60.8 33.1 38.5 37.8 40.3 35.6 50.4 24.6 26.2 46.5 25.0 44.8 28.4 29.9 28.7 43.0 35.8 48.5 – 31.5 35.1 39.4SK 60.8 32.6 39.4 48.1 41.0 33.3 46.2 29.8 28.4 39.4 27.4 41.8 33.8 36.7 28.5 44.4 39.0 43.3 35.3 – 42.6 41.8SL 61.0 33.1 37.9 43.5 42.6 34.0 47.0 31.1 28.8 38.2 25.7 42.3 34.6 37.3 30.0 45.9 38.2 44.1 35.8 38.9 – 42.7SV 58.5 26.9 41.0 35.6 46.6 33.3 46.6 27.4 30.9 38.9 22.7 42.0 28.2 31.0 23.7 45.6 32.2 44.2 32.7 31.3 33.5 –

7: Machine translation between 22 EU-languages [44]

English centred and only support a few languages fromand into Portuguese.

Evaluation campaigns help to compare the quality ofMT systems, the different approaches and the status ofthe systems for different language pairs. Figure 7 wasobtained by the Euromatrix+ project, funded by the Eu-ropean Commission. It displays the result of one suchcampaign where the performance of a given statisticalMT system, i. e., MOSES, was evaluated over the lan-guage pairs formed for 22 of the 23 official EU lan-guages (Irish was not included). e results are rankedaccording to a BLEU score, which indicates higherscores for better translations [45]. A human translatorwould normally achieve a score of around 80 points.

e best results (in green and blue) were achieved withlanguages that have benefited from a considerable re-search effort in coordinated programmes and the exis-tence of many parallel corpora (e. g. English, French,

Dutch, Spanish orGerman). e poorer results (in red)were acchieved with languages that either lack such de-velopment efforts or are structurally very different fromthe other languages in the translation pair at stake.

4.3 OTHER APPLICATION AREASBuilding language technology applications involves arange of subtasks that do not always surface at the levelof the interaction with the user, but provide significantservice functionalities “behind the scenes” of the systeminquestion. ey all form important research issues thathave now evolved into individual sub-areas of languagetechnology.

Language technology applications often providesignificant service functionalities “behind the

scenes” of larger software systems.

63

uestion answering, for example, is an active subarea ofresearch for which annotated corpora have been builtand scientific competitions have been initiated. econcept of question answering goes beyond keywordbased searches (in which the search engine respondsby delivering a collection of potentially relevant docu-ments) and enables users to ask a concrete question towhich the system provides a single answer. For exam-ple:

uestion: How old was Neil Armstrong when hestepped on the moon?

Answer: 38.

While question answering is related to the core area ofweb search, it is nowadays an umbrella term for such re-search issues as which different types of questions existand how they should be handled; how a set of docu-ments that potentially contains the answer can be anal-ysed and compared (do they provide conflicting an-swers?); and how specific information (the answer) canbe reliably extracted from a document without ignoringthe context.

uestion answering is related to information extrac-tion, an area that was extremely popular and influentialwhen language technology took a statistical turn in theearly 1990s.

Information extraction aims to identify specific piecesof information in specific classes of documents, such asthe key players in company take overs as reported innewspaper stories. Another common scenario that hasbeen studied is reports on terrorist incidents. e taskhere consists of mapping appropriate parts of the textto a template that specifies, for instance, the perpetra-tor, target, time, location and results of the incident.Domain specific template filling is the central charac-teristic of Information Extraction, which makes it an-other example of a “behind the scenes” technology thatforms a well demarcated research area, which in practice

needs to be embedded into a suitable application envi-ronment.

Text summarisation and text generation, in turn, are twoborderline areas that can act either as standalone appli-cations or play a supporting role. Summarisation at-tempts to give the essentials of a long text in a shortform and, for instance, is one of the features available inMS Word. It mostly uses a statistical approach to iden-tify the “important” words in a text (i. e. words that oc-cur very frequently in the text in question but less fre-quently in general language use) and determines whichsentences contain the most of these “important” words.ese sentences are then extracted and put together tocreate the summary. In this very common commercialscenario, summarisation is simply a form of sentence ex-traction, and the text is reduced to a subset of its sen-tences.

An alternative approach, for which some research hasbeen carried out, is to generate brand new sentences thatdo not exist in the source text. is requires a deeperunderstanding of the text, which means that so far thisapproach is far less robust. On the whole, a text gen-erator is rarely used as a stand alone application but isembedded into a larger soware environment, such as aclinical information system that collects, stores and pro-cesses patient data. Creating reports is just one of manyapplications for text summarisation.

In these areas, the Portuguese language has been lessresearched than other languages, most notoriously En-glish, forwhichquestion answering, information extrac-tion and summarisation have since the 1990s been thesubject of numerous Research and Development pro-grams and funded competitions, primarily those organ-ised byDARPA/NIST in theUnited States. ese havesignificantly improved the state of the art, but the focushas always been on English.

ePortuguese language, likemanyother languages, hasnot received enough support so that it can be processed

64

at the state of the art level, and its studymay have amorebold contribution to pushing the knowledge frontier inthis scientific and technological domain.

Research and aplications have been directedoverwhelmingly to English. As the initial results forPortuguese stand out as promising, research on

the Portuguese language calls for a decisive pushtowards its continuation and deepening.

uestion answer systems for Portuguese have been de-veloped in the research laboratories, like for example,the Xisuê system [46], from the University of Lisbon,which gets the answers to the questions entered from theweb of texts in Portuguese (available for demonstrationat http://xisque.di.fc.ul.pt). While the results here arepromising, the research concerning the Portuguese lan-guage needs nevertheless to be continued anddeepened.As to summarisation systems, those that use purely sta-tistical methods are, to a considerable extent, languageindependent and in this case some research prototypesare available for Portuguese, as for example theGistSum,from the University of Sao Paulo.In what concerns text generation, reusable componentshave traditionally been limited to the surface realisationmodules (the “generation grammars”). Again, mostavailable soware is for English, and in this area thereare no available tools for Portuguese.

4.4 EDUCATIONALPROGRAMMESLanguage technology is a very interdisciplinary fieldthat involves the combined expertise of computer sci-entists, linguists, mathematicians, philosophers and psy-cholinguists among others.In Portugal, the area of language technology has beenfostered in several universities, both in research centresand in education, in majors, Master and PhD degrees.

ere is a reasonable offer in this area with respect tohigher education, where the relevant courses are usuallyintegrated in departments offering studies in ComputerScience or Language Science.

At the University of Lisbon, on a par with severalcourses at different levels of education, (in a minorin Natural Language Processing, in the MA and PhDcourses in Informatics Engineering, and in the MA andPhD programs in Cognitive Science), there are majorresearch centers focusing on language technology. eDepartment of Informatics, at the Faculty of Sciences,hosts a unit devoted to the computational processing ofPortuguese (the NLX Group), which among other ac-tivities, maintains the LX-Center [47], an online cen-ter providing a comprehensive set of language process-ing services and demos of language technology, andis coordinating one of the four European projects inthe META-NET network. e Center of Linguistics(CLUL), from the Faculty of Arts, has a long traditionin producing standard, dialectal and historical languageresources, including a large scale corpus and smaller andspecific data sets, available online.

e Instituto Superior Técnico (IST), fromLisbon, alsooffers courses in language technology and has a doctoralprogram in Computer Science in collaboration withother Portuguese universities and with the CarnegieMellon University. INESC-ID is a research institutionassociated to IST and its Laboratory of Spoken Lan-guage Systems (L2f ) is a leading team in speech recog-nition and synthesis.

e New University of Lisbon also has courses and ac-tive research units working in the language technologyfield, namely its Centre for Research in Computing andInformation Technology (CITI) and its Center of Lin-guistics (CLUNL).

Still in Lisbon, there is the Institute of eoretical andComputational Linguistics (ILTEC), which was cre-ated to host the EUROTRA project.

65

In the University of Oporto, two centers have under-taken work in natural language science and technology,namely the Laboratory for Artificial Intelligence andComputer Science (LIACC) and theCenter ofLinguis-tics (CLUP).e activity in this field by no means is restricted to thetwo larger towns, Lisbon and Oporto. In the rest of thecountry, there are several other universities that also of-fer courses in the area of language science and technol-ogy or host other research units.at is the case of the Centre for Research in Informa-tionTechnology (CITI-UE), in theUniversity of Evora.In the University of Coimbra, there are the Center forGeneral and Applied Linguistic Studies (CELGA) andthe Institute for Telecomunications (IT).One should indicate also the Centre for Human Lan-guage Technology and Bioinformatics (HULTIG), inthe University of Beira Interior, and the Center forHumanities Studies (CEHUM), in the University ofMinho.e University of Algarve is cooperating in an MA inNatural Language Processing under the European Eras-mus program.

Language technology has been fostered inseveral universities both in terms of research

and in terms of education.

In Brazil, there has been also reasonable activity in lan-guage technology both in terms of education and re-search, that concentrates mostly around the south andsoutheast areas, with particular emphasis on the urbanareas of Sao Paulo, Porto Alegre and Rio de Janeiro.Courses in this area have beenofferedmostly at the post-graduation level, inMA and PhDprograms, rather thanat the undergraduate level. Recently, the National Pro-gram for PostGraduation 2011-2020 has been imple-mented, fostering the strengthening of inter and mul-tidisciplinary areas such as language technology.

In the other Portuguese speaking countries, the lan-guage technology area shows little or no development,with the data collection and the development of re-sources and tools targeted to other Portuguese varietiesbeing undertaken mostly by research centres from Por-tugal.

4.5 PROJECTS AND INITIATIVESIn Portugal, the activity in language technology can betraced back to projects, programs or initiatives carriedout in the last decades.One of the first important programs in this area wasEUROTRA, an ambitiousMachineTranslation projectestablished and funded by the European Commissionfrom the late 1970’s until 1994. e participation ofPortugal in this project since 1986 was undertaken byILTEC, specifically created for this purpose and involv-ing mostly researchers from the Universities of Lisbonand Oporto. is project had a long lasting impact onthe language industries in Europe with Portugal beingno exception. EUROTRApromoted a significant start-ing step for consistently pursued language technologyactivities in Portugal and for setting up and fostering aPortuguese community of researchers in this area.Another European key project in language technologyinvolving Portuguese was LE-PAROLE, developed inthe late 1990’s, with the participation of CLUL andINESC-ID. Its main achievement was the building ofcorpora and lexicons according to integrated models ofcomposition and materials description. For each lan-guage, a 20 million word corpus was built with har-monised design, composition and codification, includ-ing a 250 thousand word tagged subcorpus. Each lan-guage lexicon comprised 20 thousand entries with syn-tactic and morphologic information.Part of this corpus was enriched and enlarged under thenational project TagShare, conducted at the Universityof Lisbon, in the Department of Informatics (NLX)

66

and in the Center of Linguistics (CLUL), in 2005. isproject enabled the development of a set of linguisticresources and soware component tools to support thecomputational processing of Portuguese. e outcomewas a 1 million word corpus linguistically annotatedand fully verified by experts – the CINTIL corpus [48]–, and a whole range of processing tools for tokeniza-tion, morphosyntactic category (POS) tagging, inflec-tion analysis, lemmatization, multiword lexeme recog-nition, named entity recognition, etc. e annotationschemes developed in the project became de facto stan-dards for Portuguese in the field of language technol-ogy and have been further used, for instance, in the Ref-erence Corpus of Contemporary Portuguese (CRPC).ese results were subsequently expanded in anotherproject, the SemanticShare project, where the construc-tion of a treebank, i.e. the annotation of sentences withtheir syntactic structure, was initiated.

e Corpus de Extractos de Textos ElectrónicosMCT/Público (CETEMPúblico), released in 2000, inturn, is a corpus of about 180 million words from textsof a Portuguese daily newspaper. It is intended prima-rily to support the development of processing tools forthe Portuguese language which need raw texts for theirconstruction and testing. is corpuswas created by theproject Computational Processing of Portuguese, undera protocol between the Ministry of Science and Tech-nology (MCT) and that newspaper. is project sub-sequently evolved into Linguateca, a long term projectfor Portuguese language technology [49].

Also in 2000, machine translation was the focus of an-other project supported by the European Commission,the TRADAUT project, directed by the New Univer-sity of Lisbon. e goal of this project was to enhancethe machine translation application used by the Euro-pean Commission services for the translation pairs be-tween Portuguese, on the one hand, and English andFrench, on the other hand.

In the field of speech processing, it is worth noting theTECNOVOZ project, which started in 2006. isproject was directed by INESC-ID and one of its ma-jor goals was to foster technology transfer to the busi-ness sector, having as partners companies like the publictelevision RTP.

On the industry side, an important contribution for theemerging of a language technology industry in Portugalis the establishment of the international Microso Lan-guage Development Center, near Lisbon, since 2005.

More recently, Portuguese and Brazilian institutionshave been participating in the ongoing CLARINproject, aiming at establishing an integrated and inter-operable European research infrastructure of languageresources and technology.

In Brazil, relevant efforts in language technology sup-port to Portuguese have been also undertaken.

To mention just a few illustrative examples, in the early1990’s, under the DIRECT project, the Bank of Por-tuguese was created at the Pontifical Catholic Univer-sity of São Paulo. Since its inception, the Bank of Por-tuguese has been a source of data for corpus based stud-ies for several projects.

Also worth mentioning is the Summ-it corpus, a cor-pus built to support the study of summarisation alongwith the phenomena of anaphoric and rhetorical rela-tions in Portuguese. is resource was developed underthe PLN-BR project, by the Núcleo Interinstitucionalde Lingüística Computacional (NILC), driven by theUniversity of São Paulo and gathering researchers fromseven other Brazilian institutions.

More recently, in 2006-2010, the FAROL project wasdeveloped, with four participating groups and con-ducted by the Pontifical Catholic University of RioGrande do Sul, aimed at reinforcing the cooperationlinks among teams in Brazil, promoting students and re-searchers interchange and better research quality in na-tural language processing.

67

Onaparwith these programs andprojects both inBraziland inPortugal, it isworthunderliningPROPORas thekey focal initiative of a growing international researchcommunity working on Portuguese. PROPOR is themajor international scientific conference devoted to thecomputational processing of Portuguese. is is a bien-nial conference whose location, since 1993, alternatesbetween the two countries.

e above notes cover only a few illustrative examples ofprojects, programmes and initiatives in language tech-nology addressing the Portuguese language. Althoughthese are part of positive developments for the Por-tuguese language in recent years, the fact is that thereis a large gap with respect to the language technologyactivity on other more researched languages, for whichthe development of language resources and technologyis far more advanced.

Compared to the level of funding for language technol-ogy not only for English but also for other languageswith far less global projection than the Portuguese lan-guage, the support for language technology for Por-tuguese is still very low.

InPortugal, funding for this area comesmainly from theMinistry of Science, Technology andHigherEducation,through the Foundation for Science and Technology(FCT). However, obtaining support for language tech-nology projects is particularly difficult, if not impossi-ble, because project proposals in this area are acceptedand evaluated under the Electrical Engineering track incalls for project proposals, where they have to competewith hundreds of proposals on totally unrelated issuesand face evaluation committees disconnected from thearea and its research topics.

On a parwith FCT, the FundaçãoCalousteGulbenkianoccasionally funds some language technology projects.

In Brazil, funding for research, in general, and for lan-guage technology activities, in particular, is still lim-ited and comes mainly from government agencies. e

National Council for Scientific and Technological De-velopment (CNPq), the Sao Paulo Research Founda-tion (FAPESP), the Coordination for Advancement ofHigh Education Personnel (CAPES), and the FundingAgency for Studies and Projects (FINEP) are the fourinstitutions that significantly support research in thiscountry.

Compared to the level of funding for languagetechnology not only for English but also for other

languages with far less global projection, thesupport for Portuguese is still very low.

Some of these agencies have provided also special jointuniversity-industry funding programs. For instance,FAPESP and Microso Research recently formed apartnership to fund socially relevant projects in the stateof Sao Paulo, which included, for instance, the PorSim-ples [50] text simplification project in the area of lan-guage technology.

4.6 AVAILABILITY OF TOOLSAND RESOURCESIn this section, the current state of language technologysupport for Portuguese is summarised. Figure 8 pro-vides a rating for such support. is rating of existingtools and resources was generated by leading experts inthe field who provided estimates based on a scale from 0(very low) to 6 (very high) using the seven criteria head-ing the columns of that table.ese results should be appreciated in the scope of thefollowing considerations:

Although a number of sub-areas in the field havebeen very active, in terms of language technology,Portuguese is a less resourced language when com-pared to languages from countries with much larger

68

ua

ntity

Availabi

lity

ua

lity

Cov

erag

e

Matur

ity

Sustaina

bilit

y

Ada

ptab

ility

Language Technology: Processing Tools and Applications

Speech recognition 2 3 4 2 2 2 4

Speech synthesis 3 3 4 4 4 3 4

Grammatical analysis 3 3 4 4 4.5 2.5 4.5

Semantic analysis 1.5 2 3 2 2.5 2.5 2.5

Text generation 0 0 0 0 0 0 0

Machine translation 3 2 2 2 4 2 2

Language Resources: Data Sets and Knowledge Bases

Text corpora 3 3 4 4.5 4 4.5 4.5

Speech corpora 4 2 4 4 4 3 3

Parallel corpora 2 4 2 2 2 3 3

Lexical resources 3.5 3 4.5 3 4 3 3

Grammars 1 4 5 2 2 2 2

8: State of language technology support for Portuguese

expenditure in this technology, like English, Ger-man or Dutch.

Two large corpora were compiled for Portuguese,but one lacks representativeness, as it covers onlyone text type (newspaper), and the other is not fullyavailable due to copyright restrictions;

A de facto standard 1 million word tagged corpusis available together with the respective POS tag-ger and other processing tools at the morphologicallevel. For less studied varieties of Portuguese, cor-pora have been compiled during the last years butthey still need to receive more attention;

Concerning speech technologies, a number of com-mercial systems exist for both European and Brazil-ian varieties (for speech recognition, speech synthe-sis and dialoguemanagement); althoughPortugueseand Brazilian teams are active in the field, tools and

annotated corpora are usually not available and re-served for internal use in the laboratories;

Muchmore work needs to be dedicated to lexical re-sources of all types, including ontologies and the ex-pansion of lexica andwordnets, currently with a veryreduced size;

Annotated corpora with lexical semantic informa-tion are missing, leading to the worrisome situationthat noprocessing tools or research exist yet forwordsense disambiguation in Portuguese;

While many corpora have POS annotation andother types of morphological information, syntacti-cally annotated corpora are smaller and more rare.Some parsers were developed but need to be deep-ened. It is necessary much more effort on the con-struction of treebanks and the development of pars-ing tools;

69

e more linguistic and semantic knowledge a tooltakes into account, the more gaps exist (e. g. in-formation retrieval vs. text semantics): more ef-forts for supporting deep linguistic processing arethus needed, including the development of compu-tational grammars for Portuguese;

Tools addressing text and discourse processing arefew and partial;

e same applies to other high level processing toolsand applications, like for example, summarisation orquestion answering systems, among many others;

Parallel corpora for machine translation which in-clude Portuguese are essentially the ones made avail-able by EU initiatives and are consequently very lim-ited in terms of text type (e. g. law texts).

ese results of the evaluation of the current devel-opment status of language technology for Portugueseclearly indicate the urgent need to direct substantiallymore efforts both for the creation of language resourcesand for research and development of processing toolsand applications.

There is an urgent need to direct more efforts bothfor the creation of language resources and forresearch and development of processing tools

and applications for Portuguese.

e need for large amounts of data and the high com-plexity of language technology systems make it also ur-gent to develop research infrastructures for data sharingand cooperative research work.

4.7 CROSS-LANGUAGECOMPARISONe current state of language technology support variesconsiderably from one language community to another.

In order to compare the situation between languages,this section presents an evaluation based on two sam-ple application areas (machine translation and speechprocessing) and one underlying technology (text anal-ysis), as well as basic resources needed for building lan-guage technology applications. e languages were cat-egorised using the following five point scale:

1. Excellent support

2. Good support

3. Moderate support

4. Fragmentary support

5. Weak or no support

LTsupportwasmeasured according to the following cri-teria:Machine Translation: uality of existing MT tech-nologies; number of language pairs covered; coverageof linguistic phenomena and domains; quality and sizeof parallel corpora; amount and variety of availableMTapplications.Text Analysis: uality and coverage of existing textanalysis technologies (morphology, syntax, semantics);coverage of linguistic phenomena anddomains; amountand variety of available applications; quality and size ofannotated corpora; quality and coverage of lexical re-sources and grammars.Speech Processing: uality of existing speech recogni-tion technologies; quality of speech synthesis technolo-gies; coverage of domains; number and size of speechcorpora; amount and variety of available speech basedapplications.Resources: uality and size of existing text corpora,speech corpora and parallel corpora; quality and cover-age of existing lexical resources and grammars.Figures 9 to 12 show that the Portuguese language ranksdifferently according to the research area. It compareswell with languages like Spanish or Italian regarding

70

tools and resources for speech. But in terms of Ma-chine Translation, Text Analysis and Resources, Por-tuguese clearly do not yet reach the quality and coverageof comparable resources and tools for the English lan-guage (which is in the lead in almost all language tech-nology areas) and also for other languages likeDutch orGerman, among others. And one has to take into con-sideration that there are still plenty of gaps in Englishlanguage resources with regard to high quality applica-tions.For speech processing, current technologies performwell enough to be successfully integrated into a numberof industrial applications such as spoken dialogue anddictation systems. Today’s text analysis components andlanguage resources already cover the linguistic phenom-ena of Portuguese to a certain extent and form part ofmany applications involving mostly shallow natural lan-guage processing, e. g. spelling correction and authoringsupport.However, for building more sophisticated applications,such as machine translation, there is a clear need for re-sources and technologies that cover a wider range of lin-guistic aspects and enable a deep semantic analysis of theinput text. By improving the quality and coverage ofthese basic resources and technologies, it will be possi-ble to open up new opportunities for tackling a broaderrange of advanced application areas, including reliablemachine translation.

4.8 CONCLUSIONSe results of this white paper series show that there is adramatic difference in language technology support be-tween the various European languages. While there aregood quality soware and resources available for somelanguages and application areas, others have substantialgaps. Many languages lack basic technologies for textanalysis and the essential resources. Others have basic

tools and resources but the implementation of, for ex-ample, semantic methods is still far away. erefore alarge scale effort is needed to attain the ambitious goalof providing high quality language technology supportfor all European languages, with special focus on reliablemachine translation.In the case of Portuguese, language technology supporthas been steadily improving but it requires a strategicboost to reach a decisive level of sustained development.Noteworthy is the fact that a good network of researchcenters, both from Portugal and Brazil, which activelycooperate among themselves has, for the time being, thecapacity to help to promote the advancement of lan-guage technology for Portuguese in the near future iffunding will be properly secured.Immediate action must therefore take place so that im-portant progress for the Portuguese language can be at-tained and its position as an international language ofcommunication with global projection can be secured.erehas been a lackof continuity in research anddevel-opment funding. Short term coordinated programmestend to alternate with periods of sparse or zero funding.In addition, a tighter coordination among programmesof different countries, including bothEuropean andnonEuropean ones, and among national programmes andprogrammes at the European Commission level wouldhave an important leverage effect.e findings of this book lead to the conclusion that theonly way forward is to make a substantial effort to cre-ate language technology resources for Portuguese, as ameans to drive forward research, innovation and devel-opment of tools and applications in language technol-ogy.e need for large amounts of data and the extremecomplexity of language technology systems also makesit vital to develop an infrastructure and a coherentresearch organisation to spur greater cooperation andsharing of results.

71

Excellent Good Moderate Fragmentary Weak/nosupport support support support support

English FrenchSpanish

CatalanDutchGermanHungarianItalianPolishRomanian

BasqueBulgarianCroatianCzechDanishEstonianFinnishGalicianGreekIcelandicIrishLatvianLithuanianMalteseNorwegianPortugueseSerbianSlovakSloveneSwedish

9: Machine translation: state of language technology support for 30 European languages

Excellent Good Moderate Fragmentary Weak/nosupport support support support support

English DutchFrenchGermanItalianSpanish

BasqueBulgarianCatalanCzechDanishFinnishGalicianGreekHungarianNorwegianPolishPortugueseRomanianSlovakSloveneSwedish

CroatianEstonianIcelandicIrishLatvianLithuanianMalteseSerbian

10: Text analysis: state of language technology support for 30 European languages

72

Excellent Good Moderate Fragmentary Weak/nosupport support support support support

English CzechDutchFinnishFrenchGermanItalianPortugueseSpanish

BasqueBulgarianCatalanDanishEstonianGalicianGreekHungarianIrishNorwegianPolishSerbianSlovakSloveneSwedish

CroatianIcelandicLatvianLithuanianMalteseRomanian

11: Speech processing: state of language technology support for 30 European languages

Excellent Good Moderate Fragmentary Weak/nosupport support support support support

English CzechDutchFrenchGermanHungarianItalianPolishSpanishSwedish

BasqueBulgarianCatalanCroatianDanishEstonianFinnishGalicianGreekNorwegianPortugueseRomanianSerbianSlovakSlovene

IcelandicIrishLatvianLithuanianMaltese

12: Speech and text resources: State of support for 30 European languages

73

5

ABOUT META-NET

META-NET is a Network of Excellence for scientificresearch partially funded by the EuropeanCommission.e network currently consists of 54 research centresin 33 European countries. It results from the cluster-ing of four projects: CESAR, METANET4U, META-NORD and T4ME. e METANET4U project is co-ordinated by the Faculty of Sciences of theUniversity ofLisbon.

META-NET forges META, the Multilingual EuropeTechnologyAlliance, a growing community of languagetechnology professionals and organisations in Europe.META-NET fosters the technological foundations fora truly multilingual European information society that:

makes communication and cooperation possibleacross languages;

grants all Europeans equal access to information andknowledge regardless of their language;

builds upon and advances functionalities of net-worked information technology.

is Network of Excellence supports a Europe thatunites as a single digital market and information space.It stimulates and promotes multilingual technologiesfor all European languages. ese technologies supportautomatic translation, content production, informationprocessing and knowledge management for a wide vari-ety of subject domains and applications. ey also en-able intuitive language-based interfaces to technologyranging from household electronics, machinery and ve-hicles to computers and robots.

Launched on 1 February 2010, META-NET has al-ready conducted various activities in its three lines ofaction META-VISION, META-SHARE and META-RESEARCH.

META-VISION fosters a dynamic and influentialstakeholder community that unites around a shared vi-sion and a common strategic research agenda (SRA).e main focus of this activity is to build a coherentand cohesive language technology community in Eu-rope by bringing together representatives from highlyfragmented and diverse groups of stakeholders. epresent White Paper was prepared together with simi-lar volumes for 29 other languages. e shared tech-nology vision was developed in three sectorial VisionGroups. e META Technology Council was estab-lished in order to discuss and to prepare the SRA basedon the vision in close interaction with the entire lan-guage technology community.

META-SHARE creates an open, distributed facilityfor exchanging and sharing resources. e peer-to-peer network of repositories will contain language data,tools and web services that are documented with high-quality metadata and organised in standardised cate-gories. e resources can be readily accessed and uni-formly searched. e available resources include free,open sourcematerials as well as restricted, commerciallyavailable, fee-based items.

META-RESEARCH builds bridges to related technol-ogy fields. is activity seeks to leverage advances inother fields and to capitalise on innovative research thatcan benefit language technology. In particular, the ac-

74

tion line focuses on conducting leading-edge research inmachine translation, collecting data, preparing data setsand organising language resources for evaluation pur-

poses; compiling inventories of tools and methods; andorganising workshops and training events for membersof the community.

75

A

REFERÊNCIAS REFERENCES

[1] AljoschaBurchard,Markus Egg, Kathrin Eichler, BrigitteKrenn, JörnKreutel, Annette Leßmöllmann,GeorgRehm, Manfred Stede, Hans Uszkoreit, and Martin Volk. Die Deutsche Sprache im Digitalen Zeitalter – eGerman Language in the Digital Age. META-NET White Paper Series. Georg Rehm and Hans Uszkoreit(Series Editors). Springer, 2012.

[2] User language preferences online, analytical report. Flash Eurobarometer 313, 2011. Direção Geral paraa Sociedade da Informação e Meios de Comunicação da Comissão Europeia (Directorate-General Informa-tion Society & Media of the European Commission). Internet, 25/01/2012 - http://ec.europa.eu/public_opinion/flash/fl_313_en.pdf.

[3] Multilinguismo: uma mais-valia para a Europa e um compromisso comum (Multilingualism: an asset for Eu-rope and a shared commitment), 2008. Comissão das Comunidades Europeias (Commission of the Euro-pean Communities). Comissão Europeia (European Comission). Internet, 25/01/2012 - http://ec.europa.eu/languages/news/20080918-commission-communication-on-multilingualism_en.htm.

[4] Intersectoral mid-term strategy on languages and multilingualism (Executive Board, Hundred and seventy-sixth session, 176 EX/INF.15 ). Paris, 2007. UNESCO. Internet, 25/01/2012 - http://unesdoc.unesco.org/images/0015/001503/150335e.pdf.

[5] Adriane Rinsche and Nadia Portera-Zanotti. e size of the language industry in the EU, Studies on transla-tion and multilinguism. Technical report, Comissão Europeia, Direção Geral da Tradução (European Com-mission, Directorate-General for Translation), Language Technology Centre, United Kingdom, 2009. Inter-net, 25/01/2012 - http://ec.europa.eu/dgs/translation/publications/studies.

[6] Dados Estatísticos - Falantes de Português. Observatório da Língua Portuguesa. Internet, 25/01/2012 - http://observatorio-lp.sapo.pt/pt/dados-estatisticos/falantes-de-portugues.

[7] M. Paul Lewis, editor. Ethnologue: Languages of the World. Sixteenth edition, 2009. Ethnologue. Internet,25/01/2012 - http://www.ethnologue.com.

[8] Demography and Population: InternationalMigrationDatabase. Organização para a Cooperação e oDesen-volvimento Económico - OCDE (Organisation for Economic Co-operation and Development - OECD).Internet, 25/01/2012 - http://stats.oecd.org.

[9] Observatório da Emigração. Internet, 25/01/2012 - http://www.observatorioemigracao.secomunidades.pt.

77

[10] Comunidade Lusófona. Portugal em Linha. Internet, 25/01/2012 - http://www.portugal-linha.pt.

[11] Ernesto d’Andrade, Dulce Pereira, and Maria Antónia Mota, editors. Crioulos de Base Portuguesa. APL,Lisboa, 1999.

[12] Centro Virtual Camões. Instituto Camões. Internet, 25/01/2012 - http://cvc.instituto-camoes.pt/index.php.

[13] Luís Lindley Cintra. Nova proposta de classificação dos dialectos galego-portugueses. Boletim de Filologia,22, pages 81–116, 1999.

[14] Esperança Cardeira. O Essencial sobre a História do Português. Editorial Caminho, Lisboa, 2006.

[15] António Branco, Francisco Costa, and Filipe Nunes. e Processing of Verbal Inflection Ambiguity: Char-acterization of the Problem Space. In Actas do XXI Encontro Anual da Associação Portuguesa de Linguística,pages 157–168, 2007.

[16] Paulo F. Pinto. Noo Acordo Ortográfico da Língua Portuguesa. INCM, Lisboa, 2009.

[17] Programas Gulbenkian - Língua Portuguesa. Fundação Calouste Gulbenkian. Internet, 25/01/2012 - http://www.gulbenkian.pt/section63artId103langId1.html.

[18] Projecto Gulbenkian - Diversidade Linguística na Escola Portuguesa. Fundação Calouste Gulbenkian. Inter-net, 25/01/2012 - http://www.gulbenkian.pt/section54artId483langId1.html.

[19] Censos 2001. Instituto Nacional de Estatística. Internet, 25/01/2012 - http://censos.ine.pt.

[20] Missão do Instituto Camões. Instituto Camões. Internet, 26/01/2012 - http://www.instituto-camoes.pt/informacao-institucional/quem-somos.

[21] Internet world users by language - Top 10 languages. Internet World Stats. Internet, 25/01/2012 - http://www.internetworldstats.com/stats7.htm.

[22] Most Used Languages on Twitter. Semiocast. Internet, 17/02/2012 - www.semiocast.com/downloads/Semiocast_Half_of_messages_on_Twitter_are_not_in_English_20100224.pdf.

[23] Top 20 countries with the highest number of internet users. Internet World Stats. Internet, 25/01/2012 -http://www.internetworldstats.com/top20.htm.

[24] Rudolph Muller. Internet in Brazil booms. Mybroadband. Internet, 25/01/2012 - http://mybroadband.co.za/news/internet/15031-Internet-access-Brazil-booms.html.

[25] Internet users in Europe. Internet World Stats. Internet, 25/01/2012 - http://www.internetworldstats.com/stats4.htm.

[26] Internet users in South America. Internet World Stats. Internet, 25/01/2012 - http://www.internetworldstats.com/stats15.htm.

78

[27] Pordata - Base de dados Portugal contemporâneo. Pordata. Internet, 25/01/2012 - http://www.pordata.pt.

[28] Legislação - Acessibilidade a cidadãos com necessidades especiais. UMIC - Agência para a Sociedade doConhecimento, Ministério da Ciência, Tecnologia e Ensino Superior. Internet, 25/01/2012 - http://www.umic.pt/index.php?option=com_content&task=view&id=2777&Itemid=40.

[29] Daniel Jurafsky and James H. Martin. Speech and Language Processing (2nd Edition). Prentice Hall, 2009.

[30] Christopher D. Manning and Hinrich Schütze. Foundations of Statistical Natural Language Processing. MITPress, 1999.

[31] Language Technology World (LT World). Internet, 27/01/2012 - http://www.lt-world.org/.

[32] Ronald Cole, Joseph Mariani, Hans Uszkoreit, Giovanni Battista Varile, Annie Zaenen, and Antonio Zam-polli, editors. Survey of the State of the Art in Human Language Technology (Studies in Natural LanguageProcessing). Cambridge University Press, 1998.

[33] Top 5 Search Engines, 2012. Internet, 17/02/2012 - http://gs.statcounter.com/#search_engine-ww-monthly-201111-201201.

[34] Dicionário Online. Porto Editora. Internet, 26/01/2012 - http://www.portoeditora.pt/alp/dol/dicionarios-online.

[35] Juan Carlos Perez. Google Rolls out Semantic Search Capabilities, 2009. PCWorld. Inter-net, 26/01/2012 - http://www.pcworld.com/businesscenter/article/161869/google_rolls_out_semantic_search_capabilities.html.

[36] MultiWordnet.PT. Internet, 26/01/2012 - http://mwnpt.di.fc.ul.pt.

[37] WordNet.PT. Internet, 26/01/2012 - http://www.clul.ul.pt/clg/eng/wordnetpt.

[38] AEIOU - Motor de Busca. Internet, 26/01/2012 - http://www.aeiou.pt.

[39] Sapo - Motor de Busca. Internet, 26/01/2012 - http://www.sapo.pt.

[40] Colossus - Directory of Search Engines. Internet, 26/01/2012 - http://www.searchenginecolossus.com/Portugal.html.

[41] Achei - Motor de Busca. Internet, 26/01/2012 - http://www.achei.com.br.

[42] Gigabusca - Motor de Busca. Internet, 26/01/2012 - http://www.gigabusca.com.br.

[43] Nelson Neto, Carlos Patrick, Aldebaro Klautau, and Isabel Trancoso. Free tools and resources for BrazilianPortuguese speech recognition. In Journal of the Brazilian Computer Society, 17:1, pages 53–68, 2011.

[44] Philipp Koehn, Alexandra Birch, and Ralf Steinberger. 462 Machine Translation Systems for Europe. InProceedings of MT Summit XII, 2009.

79

[45] Kishore Papineni, SalimRoukos, ToddWard, andWei-JingZhu. BLEU:AMethod forAutomatic EvaluationofMachineTranslation. InProceedings of the 40thAnnualMeeting of ACL, pages 311–318, Philadelphia, PA,2002.

[46] Xisuê - Resposta a Perguntas na Web Portuguesa. Internet, 26/01/2012 - http://xisque.di.fc.ul.pt.

[47] LX-Center - Language Resources andTechnology for Portuguese. Internet, 26/01/2012 - http://lxcenter.di.fc.ul.pt.

[48] Concordanciador CINTIL online (CINTIL online concordancer). Universidade de Lisboa. Internet,26/01/2012 - http://cintil.ul.pt.

[49] Linguateca. Internet, 26/01/2012 - http://www.linguateca.pt.

[50] Simplificação Textual do Português para Inclusão e AcessibilidadeDigital. PorSimples. Internet, 26/01/2012- caravelas.icmc.usp.br/wiki/index.php/English.

[51] Kai-Uwe Carstensen, Christian Ebert, Cornelia Ebert, Susanne Jekat, Hagen Langer, and Ralf Klabunde, ed-itors. Computerlinguistik und Sprachtechnologie: Eine Einführung (Computational Linguistics and LanguageTechnology: An Introduction). Spektrum Akademischer Verlag, 2009.

[52] Jerrold H. Zar. Candidate for a Pullet Surprise. e Journal of Irreproducible Results, page 13, 1994.

80

B

MEMBROS DAMETA-NET

META-NETMEMBERS

Alemanha Germany Language Technology Lab, DFKI: Hans Uszkoreit, Georg Rehm

Human Language Technology and Pattern Recognition, RWTH Aachen Uni-versity: Hermann Ney

Dept. of Computational Linguistics, Saarland University: Manfred Pinkal

Áustria Austria Zentrum für Translationswissenscha, Univ. Wien: Gerhard Budin

Bélgica Belgium Computational Linguistics and Psycholinguistics Research Centre, Univ. ofAntwerp: Walter Daelemans

Centre for Proc. Speech and Images, Univ. of Leuven: Dirk van Compernolle

Bulgária Bulgaria Institute for Bulgarian Language, Bulgarian Academy of Sciences: Svetla Koeva

Chipre Cyprus Language Centre, School of Humanities: Jack Burston

Croácia Croatia Institute of Linguistics, Faculty of Humanities and Social Science, Univ. of Za-greb: Marko Tadić

Dinamarca Denmark Centre for Language Technology, Univ. of Copenhagen: Bolette Sandford Ped-ersen, Bente Maegaard

Eslováquia Slovakia Ludovit Stur Institute of Linguistics, Slovak Academy of Sciences: RadovanGarabik

Eslovénia Slovenia Jozef Stefan Institute: Marko Grobelnik

Espanha Spain Barcelona Media: Toni Badia

Institut Universitari de Lingüistica Aplicada, Univ. Pompeu Fabra: Núria Bel

Aholab Signal Processing Laboratory, Univ. of the Basque Country: Inma Her-naez Rioja

Center for Language and SpeechTechnologies andApplications, TechnicalUniv.of Catalonia: Asunción Moreno

Dept. of Signal Processing andCommunications, Univ. of Vigo: CarmenGarcíaMateo

Estónia Estonia Institute of Computer Science, Univ. of Tartu: Tiit Roosmaa

Finlândia Finland ComputationalCognitive SystemsResearchGroup, AaltoUniv.: TimoHonkela

Dept. of General Linguistics, Univ. of Helsinki: Kimmo Koskenniemi, KristerLinden

81

França France Centre National de la Recherche Scientifique, Laboratoire d’Informatique pourla Mécanique et les Sciences de l’Ingénieur: Joseph Mariani

Evaluations and Language Resources Distribution Agency: Khalid Choukri

Grécia Greece Institute for Language and Speech Processing, R.C. “Athena”: Stelios Piperidis

Holanda Netherlands Utrecht Institute of Linguistics, Utrecht Univ.: Jan Odijk

Computational Linguistics, Univ. of Groningen: Gertjan van Noord

Hungria Hungary Research Inst. for Linguistics, Hungarian Academy of Sciences: Tamás Váradi

Dept. of Telecommunications and Media Informatics, Budapest Univ. of Tech-nology and Economics: Géza Németh, Gábor Olaszy

Irlanda Ireland School of Computing, Dublin City Univ.: Josef van Genabith

Islândia Iceland School of Humanities, Univ. of Iceland: Eirikur Rögnvaldsson

Itália Italy Consiglio Nazionale Ricerche, Istituto di Linguistica Computazionale “AntonioZampolli”: Nicoletta Calzolari

Human Language Technology, Fondazione Bruno Kessler: Bernardo Magnini

Letónia Latvia Tilde: Andrejs Vasiljevs

Inst. of Mathematics and Computer Science, Univ. of Latvia: Inguna Skadina

Lituânia Lithuania Institute of the Lithuanian Language: Jolanta Zabarskaitė

Luxemburgo Luxembourg Arax Ltd.: Vartkes Goetcherian

Malta Malta Dept. Intelligent Computer Systems, Univ. of Malta: Mike Rosner

Reino Unido UK Institute for Language, Cognition and Computation, Center for Speech Tech-nology Research, Univ. of Edinburgh: Steve Renals

Research Institute of Informatics and Language Processing, Univ. of Wolver-hampton: Ruslan Mitkov

School of Computer Science, Univ. of Manchester: Sophia Ananiandou

Noruega Norway Dept. of Linguistics, Univ. of Bergen: Koenraad De Smedt

Dept. of Informatics, LT Group, Univ. of Oslo: Stephan Oepen

Polónia Poland Institute of Computer Science, Polish Academy of Sciences: AdamPrzepiórkowski, Maciej Ogrodniczuk

Univ. of Łódź: Barbara Lewandowska-Tomaszczyk, Piotr Pęzik

Dept. of Computer Linguistics and Artificial Intelligence, Adam MickiewiczUniv.: Zygmunt Vetulani

Portugal Portugal Univ. of Lisbon: António Branco, Amália Mendes

Spoken Language Systems Laboratory, Institute for Systems Engineering andComputers: Isabel Trancoso

82

Rep. Checa Czech Republic Institute of Formal and Applied Linguistics, Charles Univ. in Prague: Jan Hajic

Roménia Romania Research Institute for Artificial Intelligence, Romanian Academy of Sciences:Dan Tufis

Faculty of Computer Science, Univ. Alexandru Ioan Cuza: Dan Cristea

Sérvia Serbia Faculty of Math., Belgrade Univ.: Dusko Vitas, Cvetana Krstev, Ivan Obradovic

Pupin Institute: Sanja Vranes

Suécia Sweden Dept. of Swedish Language, Univ. of Gothenburg: Lars Borin

Suiça Switzerland Idiap Research Institute: Hervé Bourlard

Cerca de 100 especialistas em Tecnologias da Linguagem – representantes dos países e das línguas incluídas naMETA-NET – discutiram e finalizaram os resultados e as mensagens-chave incluídos na Coleção Livros Brancosnuma reunião META-NET, em Berlim, Alemanha, a 21/22 de outubro de 2011. — About 100 language technol-ogy experts – representatives of the countries and languages included in META-NET – discussed and finalisedthe key results and messages of the white paper series at a META-NET meeting in Berlin, Germany, on October21/22, 2011.

83

C

A COLEÇÃO LIVROBRANCO META-NET

THE META-NETWHITE PAPER SERIES

Alemão German DeutschBasco Basque euskaraBúlgaro Bulgarian българскиCatalão Catalan catalàCheco Czech češtinaCroata Croatian hrvatskiDinamarquês Danish danskEslovaco Slovak slovenčinaEsloveno Slovene slovenščinaEspanhol Spanish españolEstónio Estonian eestiFinlandês Finnish suomiFrancês French françaisGalego Galician galegoGrego Greek εηνικάHúngaro Hungarian magyarInglês English EnglishIrlandês Irish GaeilgeIslandês Icelandic íslenskaItaliano Italian italianoLetão Latvian latviešu valodaLituano Lithuanian lietuvių kalbaMaltês Maltese MaltiNeerlandês Dutch NederlandsNorueguês Bokmål Norwegian Bokmål bokmålNorueguês Nynorsk Norwegian Nynorsk nynorskPolaco Polish polskiPortuguês Portuguese portuguêsRomeno Romanian românăSérvio Serbian српскиSueco Swedish svenska

85

www.meta-net.eu

La

ngua

ge Users Society Research Communities In

dustries

www.meta-net.eu

Este livro contém uma excelente panorâmica da área das tecnologias da linguagem com ênfase no tratamento do português.Embora escrito em termos acessíveis ao grande público, os conceitos mais técnicos são descritos com o rigor adequado,como seria de esperar de um grupo de autores que inclui os investigadores desta área em Portugal com maior reconheci-mento internacional. Um livro a ler por quem queira compreender a importância desta área.— Prof. Doutor Miguel Filgueiras, Professor Catedrático aposentado (Universidade do Porto)

This book presents an overview of the language technology area with a focus on the Portuguese language. Although writtenfor a non-technical audience, the presentation is sound, what comes as no surprise from a set of authors where the mostinternationally recognized researchers in this area in Portugal are to be found. This is a must-read book for anyone wishingto understand the importance of this area.— Prof. Doutor Miguel Filgueiras, Emeritus Professor (University of Oporto)

O processamento das línguas faladas e escritas é uma área fundamental para as novas modalidades de interação naturalhomem-máquina. Este livro consegue, de uma forma acessível mas científica e rigorosa, apresentar o estado da arte do pro-cessamento do português na era digital, uma das línguas com mais rápida expansão e importância económico-tecnológicado mundo ocidental.— Dra. Daniela Braga, International Program Manager (Microsoft, Redmond WA, EUA)

The processing of written and spoken languages is a crucial area for the new modalities of human-computer natural in-teraction. In an accessible yet scientific and rigorous way, this book presents the state of the art in the digital age of thecomputational processing of the Portuguese language, one of the languages with more rapid expansion and more economic-technological importance in the western world.— Dra. Daniela Braga, International Program Manager (Microsoft, Redmond WA, USA)

É da maior importância a investigação realizada na área da tecnologia da linguagem para a consolidação do portuguêscomo língua de comunicação global na sociedade da informação.— Dr. Pedro Passos Coelho, Primeiro-Ministro de Portugal

The research carried out in the area of language technology is of utmost importance for the consolidation of Portuguese asa language of global communication in the information society.— Dr. Pedro Passos Coelho, Prime-Minister of Portugal