tÍtulo: pneumopatias ocupacionais: padrÕes da … cnpq.pdf · em paralelo com pesquisa correlata...

64
Proposta de pesquisa PQ anterior PQ- 10/2012-2016 – finalizada em 29/2/2016 TÍTULO: PNEUMOPATIAS OCUPACIONAIS: PADRÕES DA LINGUAGEM MÉDICA PARA LEIGOS E ESPECIALISTAS. Relatório PQ -10/2012 Processo 307562/2012-3 - relatório aprovado em maio de 2016. A) IDENTIFICAÇÃO DESTA PROPOSTA - PQ TÍTULO: FUNDAMENTOS LINGUÍSTICOS PARA A ACESSIBILIDADE DA INFORMAÇÃO CIENTÍFICA PARA LEITORES ADULTOS DE ESCOLARIDADE LIMITADA: SIMPLIFICAÇÃO TEXTUAL, GRAMATICAL, LEXICAL E TERMINOLÓGICA EM CIÊNCIAS DA SAÚDE. Submetida em 09/08/2016 ÁREAS IMPLICADAS: Linguística de Corpus; Linguística Aplicada; Terminologia; Terminologia de Perspectiva Textual; Estudos do Texto e do Discurso; Processamento da Linguagem Natural. Duração prevista: 36 meses Importante: esta proposta de pesquisa PQ, embora autônoma e original , desenvolver-se-á em paralelo com pesquisa correlata intitulada Da Doença de Parkinson a cuidados básicos em Pediatria: acessibilidade textual e terminológica para leitores brasileiros de baixa escolaridade submetida à CHAMADA UNIVERSAL MCTI/CNPq 01/2016. Esta proposta PQ ambém está correlacionada a outras pesquisas em andamento (vide item I) COMPILAÇÃO SUCINTA...). O texto da pesquisa correlata (projeto Universal-CNPq), conforme submetido ao CNPq, encontra-se reproduzido, COMO ANEXO, na seção J) DEMAIS INFORMAÇÕES RELEVANTES. Esse projeto, até o dia 09/8/2016, não havia sido julgado. Ele, mesmo sem apoio do CNPq, será iniciado em setembro de 2016, sendo registrado no sistema de pesquisa da UFRGS e na Plataforma Brasil. Discentes/orientandos do PPG-LETRAS-UFRGS diretamente envolvidos: Pós-Graduandos do UFRGS/Programa de Pós-Graduação em Letras: Bianca Pasqualini e Aline Evers (mestres em Letras pela UFRGS, doutorandas em Estudos da Linguagem, ambas com bolsa do PPG). Giselle Fetter (graduada em Letras pela UNISINOS, mestranda, funcionária da EMATER-RS, sem bolsa) e Asafe Cortina (graduado em Letras pela PUCRS, mestrando, com bolsa SEAD-UFRGS). Esses orientandos da proponente fazem pesquisas relacionadas ao tópico da acessibilidade de textos de temática científica para leigos e/ou padrões de complexidade textual/simplificação. Alunos de Iniciação Científica - UFRGS – Programa Institucional BIC-PIBC-CNPq- UFRGS Aluno:VINICIUS ALCES MACHADO - com bolsa - período de 01/08/2016 a 31/07/2017 Curso: Letras/Tradução Projeto de pesquisa: 31166 - A LINGUAGEM DO PATRIMONIO CULTURAL BRASILEIRO: CONSERVACAO DOS BENS CULTURAIS MOVEIS Pesquisa registrada na UFRGS sobre acessibilidade/simplificação de textos neste tema junto ao Grupo TERMISUL www.ufrgs.br/termisul Aluna: LAURA DUPKE DE ALMEIDA – com bolsa - período de 01/08/2016 a 31/07/2017

Upload: hoangdieu

Post on 25-Nov-2018

218 views

Category:

Documents


0 download

TRANSCRIPT

  • Proposta de pesquisa PQ anterior PQ- 10/2012-2016 finalizada em 29/2/2016 TTULO: PNEUMOPATIAS OCUPACIONAIS: PADRES DA LINGUAGEM

    MDICA PARA LEIGOS E ESPECIALISTAS. Relatrio PQ -10/2012 Processo 307562/2012-3 - relatrio aprovado em maio de 2016.

    A) IDENTIFICAO DESTA PROPOSTA - PQ TTULO: FUNDAMENTOS LINGUSTICOS PARA A ACESSIBILIDADE DA INFORMAO CIENTFICA PARA LEITORES ADULTOS DE ESCOLARIDADE LIMITADA: SIMPLIFICAO TEXTUAL, GRAMATICAL, LEXICAL E TERMINOLGICA EM CINCIAS DA SADE. Submetida em 09/08/2016 REAS IMPLICADAS: Lingustica de Corpus; Lingustica Aplicada; Terminologia; Terminologia de Perspectiva Textual; Estudos do Texto e do Discurso; Processamento da Linguagem Natural. Durao prevista: 36 meses Importante: esta proposta de pesquisa PQ, embora autnoma e original, desenvolver-se- em paralelo com pesquisa correlata intitulada Da Doena de Parkinson a cuidados bsicos em Pediatria: acessibilidade textual e terminolgica para leitores brasileiros de baixa escolaridade submetida CHAMADA UNIVERSAL MCTI/CNPq 01/2016. Esta proposta PQ ambm est correlacionada a outras pesquisas em andamento (vide item I) COMPILAO SUCINTA...). O texto da pesquisa correlata (projeto Universal-CNPq), conforme submetido ao CNPq, encontra-se reproduzido, COMO ANEXO, na seo J) DEMAIS INFORMAES RELEVANTES. Esse projeto, at o dia 09/8/2016, no havia sido julgado. Ele, mesmo sem apoio do CNPq, ser iniciado em setembro de 2016, sendo registrado no sistema de pesquisa da UFRGS e na Plataforma Brasil. Discentes/orientandos do PPG-LETRAS-UFRGS diretamente envolvidos: Ps-Graduandos do UFRGS/Programa de Ps-Graduao em Letras: Bianca Pasqualini e Aline Evers (mestres em Letras pela UFRGS, doutorandas em Estudos da Linguagem, ambas com bolsa do PPG). Giselle Fetter (graduada em Letras pela UNISINOS, mestranda, funcionria da EMATER-RS, sem bolsa) e Asafe Cortina (graduado em Letras pela PUCRS, mestrando, com bolsa SEAD-UFRGS). Esses orientandos da proponente fazem pesquisas relacionadas ao tpico da acessibilidade de textos de temtica cientfica para leigos e/ou padres de complexidade textual/simplificao. Alunos de Iniciao Cientfica - UFRGS Programa Institucional BIC-PIBC-CNPq-UFRGS Aluno:VINICIUS ALCES MACHADO - com bolsa - perodo de 01/08/2016 a 31/07/2017 Curso: Letras/Traduo Projeto de pesquisa: 31166 - A LINGUAGEM DO PATRIMONIO CULTURAL BRASILEIRO: CONSERVACAO DOS BENS CULTURAIS MOVEIS Pesquisa registrada na UFRGS sobre acessibilidade/simplificao de textos neste tema junto ao Grupo TERMISUL www.ufrgs.br/termisul Aluna: LAURA DUPKE DE ALMEIDA com bolsa - perodo de 01/08/2016 a 31/07/2017

  • Curso: Letras/Traduo Projeto de pesquisa: 24020 - RECUPERACAO DA INFORMACAO E REPRESENTACAO DO CONHECIMENTO EM BASES DE TEXTOS CIENTIFICOS DE LINGUISTICA E DE MEDICINA: PADRES E PROCESSAMENTO AUTOMATICO DA LINGUAGEM Pesquisa registrada na UFRGS, estudo de IC com textos divulgao de temas de Medicina para leigos no segmento blogs no tema das Pneumopatias Ocupacionais Projeto DOC-FIX CAPES-FAPERGS. B) DADOS DA PROPONENTE PROPONENTE/RESPONSVEL: Profa. Dra. Maria Jos Bocorny Finatto (UFRGS) Bolsista Produtividade-Pesquisa (PQ) do CNPq de 2007 at 29/2/2016. Coordenadora do PPG-Letras UFRGS (CAPES 6) de 2014 a 2015. Integrante do grupo TERMISUL desde 1993. Fundadora do grupo de Pesquisa em Lingustica de Corpus para regio Sul (GELCORP-SUL, 2010). Doutora em Letras (UFRGS, 2001).Docente do Programa de Ps-Graduao em Letras da UFRGS desde 2002. Ps-Doutorada junto o Ncleo Interinstitucional de Lingustica Computacional (NILC) do ICMC-USP em 2011. Responsvel pelas disciplinas Fundamentos de Terminologia e PLN para linguistas na linha de pesquisa Lexicografia e Terminologia: relaes textuais do PPG-Letras da UFRGS. Regente das disciplinas de graduao Introduo Terminologia e Lxico e Dicionrios, obrigatrias do curso de Letras-Traduo da UFRGS. Orientadora de mestrado, de doutorado e supervisora de ps-doutorado. Coordenou o Curso de Ps-Graduao Lato Sensu *Especializao em Estudos Lingusticos do Texto* de 2004 a 2009. Temas de pesquisa: Lingustica de Corpus, Terminologia, Lingustica das Linguagens Especializadas baseada em Corpus, Processamento da Linguagem Natural, Lexicologia e Estatstica Lexical, Lexicografia, Estudos do Texto, Traduo e Enunciao Cientfica, padres do portugus popular escrito (Projeto PorPopular - www.ufrgs.br/textecc) e Educao a Distncia. Desenvolve produtos on-line para aprendizes de traduo (http://www.ufrgs.br/textecc/traducao/). Coordenadora (2006-2008), vice-coordenadora (2009) e pesquisadora (2010-16) do grupo TERMISUL (www.ufrgs.br/termisul). Co-organizadora e terminloga responsvel do Dicionrio de Lingustica da Enunciao (2009, Ed. Contexto). Coordenadora e Vice-Coordenadora do GT Lexicologia, Lexicografia e Terminologia da ANPOLL (2006-2010). C) INSTITUIES PARTICIPANTES EQUIPE DE PESQUISA: UFRGS/Instituto de Letras: Prof. Dra. Maria Jos Bocorny Finatto (responsvel e coordenadora) UFRGS/Faculdade de Medicina/Depto. de Pediatria e Puericultura: Prof. Dr. Danilo Blank, mdico Pediatra (consultor e colaborador) UFRGS/Instituto de Informtica: Profa. Dra. Aline Villavicencio (colaborador, pesquisador de Processamento da Linguagem Natural - PLN) COLABORADORES: UFCSPA- Universidade Federal de Cincias da Sade de Porto Alegre Profa. Dra. Aline Pagnussat (consultor e colaborador) Programa de Ps-Graduao em Cincias da Reabilitao e do Programa de Ps-Graduao em Cincias da Sade da UFCSPA Prof. Dr. Carlos Roberto de Mello Rieder (consultor e colaborador)

  • Programa de Ps Graduao em Reabilitao (UFCSPA) e Cincias Mdicas da Universidade Federal do Rio Grande do Sul (UFRGS). Coordena o Grupo de Distrbios do Movimento do Hospital de Clnicas de Porto Alegre (HCPA) CONSULTORES EM CINCIAS DA SADE ESPECIALMENTE CONVIDADOS: Aline de Souza Pagnussat - UFCSPA Fisioterapeuta graduada pela Universidade Federal de Santa Maria, Mestre e Doutora em Neurocincias pela Universidade Federal do Rio Grande do Sul. Professora Adjunta 3 da Universidade Federal de Cincias da Sade de Porto Alegre (UFCSPA), professora permanente do Programa de Ps-Graduao em Cincias da Reabilitao e do Programa de Ps-Graduao em Cincias da Sade da UFCSPA. Coordenadora do Programa de Ps-Graduao em Cincias da Reabilitao da UFCSPA. Carlos Roberto de Mello Rieder - UFCSPA Mdico Neurologista. Bolsista de Produtividade em Pesquisa do CNPq - Nvel 2 - CA MD Medicina - Professor dos programas de Ps Graduao em Reabilitao (UFCSPA) e Cincias Mdicas da Universidade Federal do Rio Grande do Sul (UFRGS). Coordena o Grupo de Distrbios do Movimento do Hospital de Clnicas de Porto Alegre (HCPA); colaborador do Grupo de Distrbios do Movimento do Hospital So Lucas da PUCRS. Atual diretor cientfico da Associao Parkinson do Rio Grande do Sul (APARS). Danilo Blank UFRGS Mdico Pediatra. Doutor em Sade da Criana e do Adolescente pela Universidade Federal do Rio Grande do Sul, na linha de pesquisa de Educao e Sade. Professor associado, Chefe do Departamento de Pediatria da Faculdade de Medicina da Universidade Federal do Rio Grande do Sul. Coordenador do Curso de Ps-Graduao em Ensino na Sade - Mestrado Profissional da Faculdade de Medicina da Universidade Federal do Rio Grande do Sul. Membro do Departamento Cientfico de Segurana da Sociedade Brasileira de Pediatria. Instrutor da Residncia Mdica em Pediatria do Hospital de Clnicas de Porto Alegre. Atuao preferencial em pediatria ambulatorial, segurana, educao e publicaes mdicas. Editor associado do Jornal de Pediatria (SBP) e da revista Injury Prevention (BMJ Journals). PESQUISADOR DA REA DE PROCESSAMENTO DE LINGUAGEM NATURAL Aline Villavicencio UFRGS Cientista da Computao. Professora Adjunta. Bolsista PQ-CNPq. Coordena o projeto de Inovao Tecnolgica Samsung SRBR Textual Simplification of Complex Expressions. Tem experincia na rea de Cincia da Computao, com nfase em PLN, atuando principalmente nos seguintes temas: modelos computacionais de aquisio de linguagem, corpora, machine learning, mtodos estatsticos, lingustica computacional. Membro do Board do Special Interest Group on the Lexicon, da Association for Computational Linguistics, co-responsvel por vrios eventos na rea bem como co-editora de nmeros especiais de peridicos como o Computational Linguistics. Membro do comit de programa de vrios eventos internacionais. D) DADOS GERAIS DO PROJETO EM PORTUGUS E INGLS, INCLUINDO TTULO, PALAVRAS-CHAVE, RESUMO E OBJETIVO GERAL Observao importante: esta proposta de pesquisa, EMBORA SEJA ORIGINAL E AUTNOMA, integra uma rede de investigaes conexas e, por isso:

  • a) aproveita ideias e segmentos de texto de um projeto especfico intitulado Conhecimentos e Terminologias de Medicina para Leigos de pouca escolaridade: a Doena de Parkinson submetido no Edital CNPq 2015 de Cincias Humanas e Sociais. Esse projeto teve mrito reconhecido e foi muito bem recomendado para implementao, inclusive com dotao financeira explicitada no Parecer. Todavia, face escassez de recursos, NO atingiu nota de corte para ser contemplado com o auxlio estipulado; b) desenvolver-se- em paralelo com pesquisa intitulada Da Doena de Parkinson a cuidados bsicos em Pediatria: acessibilidade textual e terminolgica para leitores brasileiros de baixa escolaridade submetida CHAMADA UNIVERSAL MCTI/CNPq 01/2016, por isso compartilha parte dos seus objetivos, referenciais tericos e metodologia. Essa pesquisa, independentemente desse apoio financeiro do CNPq, est registrada na UFRGS, a ser iniciada em setembro de 2016. O projeto, conforme submetido ao UNIVERSAL/CNPq, encontra-se reproduzido na seo J) DEMAIS INFORMAES RELEVANTES. Important observation: this research proposal, ALTHOUGH ORIGINAL, integrates a network of related studies, therefore: a) It takes ideas and uses some text segments from a specific project named Conhecimentos e Terminologias de Medicina para Leigos de pouca escolaridade: a Doena de Parkinson [Knowledge and terminologies of Medicine to little schooling laypeople: Parkinson's Disease], which was submitted to the Public Notice of the Social and Human Sciences Department, issued in 2015 by CNPq. This research project had its merit acknowledged and its implementation was highly recommended. In addition, the report of aptitude detailed the financial support value to be granted. However, due to lack of resources, it did NOT reach the cutoff score in order to be supported by this stipulated aid; b) It will be developed in parallel with a research entitled Da Doena de Parkinson a cuidados bsicos em Pediatria: acessibilidade textual e terminolgica para leitores brasileiros de baixa escolaridade [From Parkinson's disease to basic health care in Pediatrics: textual and terminological accessibility for users with little schooling] which was submitted to the Universal Public Notice [Edital Universal] of CNPq in the first semester of 2016. Therefore, both researches have some goals, theoretical background and methodology in common. This research, regardless of a financial support from CNPq, is already registered at UFRGS, and it is going to be initiated on September, 2016, even with lack of financial founds. These research project, as submitted to the Universal/CNPq, is reproduced in section J ) OUTRAS INFORMAES RELEVANTES [OTHER RELEVANT INFORMATIONS]. TTULO DESTA PROPOSTA: Fundamentos lingusticos para a acessibilidade da informao cientfica para leitores adultos de escolaridade limitada: simplificao textual, gramatical, lexical e terminolgica em Cincias da Sade TTULO EM INGLS: Linguistic Foundations for Accessibility of scientific information for low educated adult readers: textual, grammatical, lexical and terminological simplification in Health Sciences RESUMO DESTA PROPOSTA: Esta pesquisa visa estabelecer uma base lingustica, terica e metodolgica, que sirva para fundamentar e guiar processos de simplificao de textos escritos em portugus do Brasil, especialmente de textos institucionais pblicos disponveis on-line que tratem de temas de Sade Pblica, no mbito das Cincias da Sade/Medicina, para que sejam potencialmente

  • mais compreensveis por parte de pblicos leitores adultos de escolaridade limitada e pouco hbito de leitura. Com apoio computacional, partindo da descrio e de anlises lingusticas e terminolgicas de corpora especialmente reunidos, compostos por coletneas de textos disponveis em portugus do Brasil para acesso de pblico leigo sobre temticas variadas de Sade e, em especial, sobre Doena de Parkinson (em Neurologia) e Cuidados com a Criana (em Pediatria) com aproveitamento de um material de divulgao para leigos previamente reunido sobre o tema das Pneumopatias Ocupacionais (PO), objetiva-se, nesta proposta, fundamentar e apoiar a futura produo de uma "Cartilha de Redao de Textos Facilitados para Leigos. Essa Cartilha, em formato eletrnico e disponvel gratuitamente on-line, ser uma ferramenta de apoio escrita dirigida para profissionais de Sade brasileiros, redatores tcnicos e gestores de informao institucional em rea Sade Pblica. Prope-se, como uma das metas indiretas desta pesquisa, auxiliar a promover a acessibilidade textual para pblicos leigos de baixa escolaridade e de pouco letramento. Como prottipo de leitor leigo, para quem se procura produzir textos acessveis, considerar-se- um cidado brasileiro adulto, com idade entre 25 e 50 anos, trabalhador das classes socioeconmicas C e D, de pouco letramento e com pouco hbito de leitura. Sua escolaridade limitada, equivalente ao Ensino Fundamental completo. A proposta socialmente relevante e est situada nas linhas de pesquisas desenvolvidas pela proponente e pelos dois pesquisadores da equipe junto UFRGS, um Mdico Pediatra especialista no estudo de terminologias mdicas e terminologias de Pediatria e uma cientista da Computao, atuante na rea da pesquisa sobre simplificao automtica de textos. Tambm conta-se com a colaborao de profissionais da Sade, pesquisadores da Universidade Federal de Cincias da Sade de Porto Alegre, com atuao na rea da Doena de Parkinson (Neurologia e Fisioterapia), que atuaro como consultores na parte conceitual dos textos simplificar e textos simplificados. A originalidade e o potencial de inovao da proposta, tanto na parte terica, como na parte da sua aplicao concreta, residem na metodologia, baseada em recursos de Processamento de Linguagem Natural, Lingustica de Corpus, Terminologia, Estudos do Texto Especializado, Estatstica Lexical, Lexicologia e Minerao de Dados, com o aporte do conhecimentos de Educao em Sade. Tambm original pelo tipo de produto a ser criado, a partir da pesquisa terica, uma ferramenta on-line especfica de auxlio escrita (a Cartilha), e pelo tratamento em destaque de dois temas de Sade em contraste, Doena de Parkinson (em Neurologia/Fisioterapia) e Cuidados com a Criana (em Pediatria). Essa dupla temtica, visto que interessa pblicos leitores de diferentes perfis e faixas etrias, funcionar como um tertio comparationis para embasar o desenho e a implementao futura de uma cartilha on-line que seja verstil e adaptvel pelo usurio, cujos dados, instrues e recursos provem do exame dos corpora reunidos. Com ajustes bsicos, a ideia , com a futura Cartilha, atender necessidade redacionais em diferentes temticas da rea de Sade, tanto em um plano genrico do domnio quanto no plano especfico de subreas ou de assuntos pontuais. SUMMARY: This research aims at stablishing a linguistic, theoretical and methodological foundation which may be used to support and guide the process of simplifying texts written in Brazilian Portuguese; mainly the institutional ones, available online, which deal with issues of Public Health under the Health Sciences/Medicine fields in order to make them potentially more understandable by a public of adult readers with little schooling and whose reading habits are low. Supported by computational tools, starting by the description and by the linguistic and terminological analysis of a specially assembled corpora - composed of collections of texts that are available in Brazilian Portuguese to a lay public, regarding several topics about health matters, especially texts dealing with Parkinson's Disease (Neurology) and Child Care

  • (Pediatrics) - including some materials about occupational lung diseases (Pneumology) - this particular proposal aims at justifying and supporting a future production of a "Primer of writing simplified texts for laypeople. This primer, in electronic format and available online for free, will be a supporting tool on writing, directed to Brazilian healthcare professionals, technical writers and corporate information managers within the Public Health area. We propose, as one of the indirect goals of this research, a way of promoting textual accessibility for laypeople publics, mainly the ones with low educational and literacy levels. As the prototype of lay reader, for whom the text accessibility is destined to, the research is going to take into account Brazilian adults, aged between 25 and 50, who are middle and lower class workers, whose literacy levels are low and whose reading habits are poor. Their educational level is limited, equivalent to having finished Middle School. This proposal is socially relevant and it is part of the research lines carried out by the proponent and by two researchers working along with UFRGS: a Pediatrician (expert in the study of medical and pediatrics terminologies) and a computer scientist (researcher of automatic simplification of texts). This project also counts on the help of Healthcare professionals, researchers of the Federal University of Health Sciences of Porto Alegre, who work with the topic of Parkinsons Disease, who are going to advise us about the conceptual part of the texts that will be worked on, as well as the simplified ones. The originality and innovative potential of this proposal, both in the theoretical part and in its implementation, are given due to its methodology, which is based in resources from areas such as Natural Language Processing, Corpus Linguistics, Terminology, Studies of Specialized Texts, Lexical Statistics, Lexicology and Data Mining, supported by areas and specialists of Health Education. It is also considered original due to the product that is going to be developed. The project is going to start with a theoretical research, which is going to support, later on, the development of an online tool, specifically designed to assist with writing techniques. Moreover, its originality also comes from the fact that the project deals with two themes in contrast: Parkinsons Disease (Neurology) and Child Care (Pediatrics). This double theme once it arouses the interest of readers with different ages and profiles will work as a tertio comparationis to support the design and the future implementation of the online primer (in a way that it is versatile and adaptable for the user) whose data, instructions and resources come from the study of the collected corpora. With some basic adjustments, the idea is that the future primer, which will be a tool to support writing, will meet the needs regarding writing for different topics on Healthcare, both in generic conceptions and in specific ones that may deal with certain sub-areas or issues. OBJETIVO GERAL DESTA PROPOSTA Realizar uma reviso da literatura pr-existente e atualizar o estado-da-arte, nacional e internacional, no mbito dos Estudos da Linguagem, especialmente no que tange aos Estudos do Texto e do Discurso, de Terminologia, da Leitura e do Processamento da Linguagem Natural sobre os temas da complexidade e acessibilidade textual e da facilitao da compreenso de leitura de textos de temtica cientfica para adultos de escolaridade limitada. Buscar e adaptar, para o portugus do Brasil, guias pr-existentes para a reescrita adaptada ou para escrita original de textos simples, visando promover sua maior acessibilidade em termos de compreenso de leitura. Confrontar a reviso e a atualizao empreendidas com a anlise de corpora especialmente reunidos em portugus, sendo que esses corpora visam representar a prtica da divulgao on-line de temas de Sade para pblico leigo. Desse confronto, estabelecer uma fundamentao terica e metodolgica, com destaque para a funcionalidade

  • de elementos textuais, lexicais e terminolgicos, de modo a orientar procedimentos de simplificao de textos institucionais de temtica mdica para acesso de leitores brasileiros adultos com escolaridade limitada e pouco hbito de leitura. GENERAL GOALS OF THIS RESEARCH PROPOSE: One of the purposes of this project is to conduct a review of the pre-existing literature and update the state-of-the-art, both nationally and internationally, under the Language Studies, particularly with regard to Text and Discourse Studies, Terminology Studies, Reading and Natural Language Processing about issues related to text complexity and accessibility and related to the processes of text simplification of scientific themes for adults with little schooling. Another goal of this project is to search and adapt for Brazilian Portuguese, pre-existing guidelines on adapted rewriting or original writing of simple texts, in order to promote accessibility in terms of reading comprehension. Moreover, the project intends to compare the review and the undertaken updates with the analysis of the corpora, which was especially assembled in Portuguese, that is supposed to represent the practice of online dissemination of information about health issues for a lay/general public. From this comparison, it is planned to establish a theoretical and methodological foundation, highlighting the functionality of textual, lexical and terminological elements, in order to guide procedures of text simplification of health topics to make them accessible to Brazilian adults whose educational levels are low and whose reading habits are poor. PALAVRAS-CHAVE Lingustica de Corpus, Terminologia, Leitura, Processamento de Linguagem Natural, Acessibilibidade textual, Estudos do Lxico. KEY-WORDS Corpus Linguistics, Terminology, Reading, Natural Language Processing, Textual Accessibility, Lexicon Studies. E) REA DO CONHECIMENTO PREDOMINANTE E REAS DO CONHECIMENTO CORRELATAS REA DO CONHECIMENTO PREDOMINANTE: Lingustica de Corpus; Lingustica Aplicada; Terminologia; Terminologia de Perspectiva Textual; Estudos do Texto e do Discurso; Processamento da Linguagem Natural. REAS DO CONHECIMENTO CORRELATAS: Estudos da Leitura Popularizao Cientfica Sistemas de Informao em Processamento de Linguagem Natural/Computao Educao em Sade Sade Pblica Medicina Preventiva F) METODOLOGIA Materiais de pesquisa(sntese): Esta proposta de pesquisa PQ toma como materiais de estudo bibliografias tericas e prticas dos Estudos da Linguagem e da Cincia da

  • Computao, relacionadas ao tema da acessibilidade textual e simplificao/complexidade textual, em contraponto com um corpus textual composto de textos institucionais escritos em portugus e disponveis on-line - sobre temas de Sade Pblica dirigidos para pblico leigo. i) Metodologia da pesquisa conexa a esta Conforme j mencionado no item D, h uma outra pesquisa, de carter aplicado, correlata a esta, na qual se pretende produzir uma Cartilha de Redao de Textos Facilitados para Leigos. Pesquisa submetida ao Edital Universal vide seo J j registrada no Sistema de Pesquisa UFRGS ver PESQUISADOR>FINATTO em: http://www1.ufrgs.br/pesquisa/forms/form_paginaInicial.php) Essa Cartilha ser uma ferramenta, um sistema on-line de apoio escrita de textos simplificados em portugus. Sua finalidade auxiliar profissionais de Sade e redatores tcnicos/especializados a gerar textos informativos para pblico leigo de escolaridade limitada sobre temas de Sade Pblica. Considerando-se uma nfase inicial na produo de textos facilitados nos temas da Doena de Parkinson e de Cuidados da Criana, a investigao correlata, que inicia em setembro de 2016 e que deve durar 36 meses, prev, em sntese1, os seguintes passos: a) aproveitamento de segmentos de corpora da pesquisa PQ-CNPq anterior sobre Pneumopatias Ocupacionais na parte de textos para leigos; composio dos novos corpora especficos sobre Doena de Parkinson e Cuidados com a Criana e anlise de diferentes tipos de textos nstitucionais de divulgao para leigos no mbito das Cincias da Sade; b) identificao e sistematizao de um quadro de potenciais boas e ms prticas redacionais (textuais, gramaticais, lexicais e terminolgicas) para a promoo de acessibilidade do texto escrito para um leitor leigo adulto de escolaridade limitada. c) classificao subjetiva (a partir de uma base terica) e com apoio computacional-estattisco dos textos para leigos do corpus (sobre os temas Pneumopatias Ocupacionais, Doena de Parkinson e Cuidados com a Criana) de acordo com diferentes graus de complexidade em diferentes quesitos; d) reelaborao manual, subjetiva (com apoio terico), e com apoio computacional, com forte suporte de estatstica lingustica e lexical e com uso de ferramentas informatizadas, de verses simplificadas para os textos mais complexos integrantes dos corpora reunidos; e) avaliao das verses simplificadas, as geradas manualmente e as produzidas com apoio computacional e estattsico, quanto sua adequao conceitual, com profissionais da Sade das reas em foco nos textos (coloboradores da rea da Sade da UFCSPA e UFRGS); f) elaborao de um teste de compreenso de leitura para os textos simplificados a ser aplicado com leitores do perfil em foco (prev-se recrutamento de leitores-avaliadores para coleta de dados sobre sua percepo dos textos simplificados gerados no item d); g) submisso de textos simplificados, previamente avalizados pelos nossos 1Este apenas um resumo. H, no cronograma do projeto conexo vide seo J deste documento, etapas de produo de artigos e de apresentaes de trabalhos relacionados aos procedimentos de pesquisa, fase de tratamento do corpus, como tambm um detalhamento de procedimentos e da prpria estrutura computacional da Cartilha.

  • especialistas/colaboradores de Sade, a leitores leigos de escolaridade limitada. Esses leitores sero especialmente recrutados, de acordo com nosso perfil de pblico-alvo, para aferio de sua compreenso de leitura do textos produzidos; h) sistematizao de resultados obtidos na testagem de compreeenso de leitura do pblico-alvo dos testos simplificados e realizao de ajustes necessrios no conjunto de procedimentos de simplificao a adotar; i) desenho e abastecimento da Cartilha com os funcionalidades que espelhem os procedimentos de simplificao textuais e lexicais depreendidos das bibliografias revisadas e que tenham sido identificados como vlidos ou produtivos para os leitores do pblico-alvo; j) planejamento e produo do sistema computacional da Cartilha para uso/teste on-line de profissionais de Sade em verso prottipo o sistema integrado por instrues, guias e exemplos de boas e ms prticas verificados nos textos dos corpora reunidos; k) testagem de uso do prottipo computacional da Cartilha com profissionais de Sade (especialmente com os nossos colaboradores consultores de Sade e com seus orientandos) e com profissionais de redao tcnica/pesquisadores de Terminologia e dos Estudos do Texto, tendo em vista ajustar e ampliar a usabilidade da ferramenta on-line de auxlio escrita; l) produo inicial, no prprio sistema on-line da Cartilha, para escrita/reecrita de textos simplificados, com apoio de instrues, de exemplos dos corpora reunidos, de guias e de exemplos de procedimentos de escrita, e divulgao do recurso computacional em verso Beta para testes abertos com pesquisadores interessados. ii) Metodologia desta pesquisa (PQ) Considerando-se a necessidade de acompanhar e subsidiar, terica e metodologicamente, os passos acima citados para uma aplicao/ferramenta em particular (a Cartilha on-line), nesta pesquisa de fundamentao (esta pesquisa PQ a iniciar em maro de 2017, quando a pesquisa correlata j ter 06 meses de incio), prevemos os seguintes procedimentos bsicos: a) retomada crtica dos resultados, relatrio tcnico e dos corpora2 reunidos da pesquisa CNPq-PQ anterior intitulada Pneumopatias Ocupacionais: Padres da Linguagem Mdica para Leigos e Especialistas com destaque para a parte dos textos escritos por especialistas de Sade para leigos; b) acompanhamento e apreciao do trabalho com o corpus reunido na pesquisa correlata de textos institucionais em portugus nas temticas da Doena de Parkinson e dos Cuidados com a Criana dirigidos a pblico leigo; c) reviso da literatura pr-existente, sistematizao e atualizao do estado-da-arte, nacional e internacional, no mbito dos Estudos da Linguagem, especialmente no que tange aos estudos da Leitura, do Texto e do Discurso, de Terminologia, estudos sobre Gneros

    2Corpus (plural corpora), conforme a termilogia da LC, corresponde a um conjunto de dados lingusticos, do uso oral ou escrito da lngua, ou de ambos, reunidos de acordo com critrios especficos, suficientemente extensos em amplitude e profundidade, de maneira que possam representar a totalidade do uso lingustico ou de algum de seus mbitos. So conjuntos de textos organizados de tal modo que possam ser processados por computador, com o objetivo de propiciar resultados vrios e teis para a descrio e anlise lingustica (conforme SANCHEZ, 1995, p. 8-9, apud BERBER SARDINHA, 2000).

  • Textuais/Discursivos (como vimos, por exemplo, em MOTA-ROTH; GIERING, 2009; MOTTA-ROTH, 2009 e 2011 ), da Lingustica de Corpus e de Lexicologia sobre os temas do estatuto do lxico em meio ao funcionamento textual da linguagem, da complexidade do texto, da acessibilidade textual e da facilitao da compreenso de leitura de textos de temtica cientfica para adultos de escolaridade limitada; d) reviso da literatura pr-existente, sistematizao e atualizao do estado-da-arte, nacional e internacional, no mbito do Processamento da Linguagem Natural e da Lingustica Computacional (tal como vemos, por exemplo, resumido em SIDDHARTHAN, 2015; e no trabalho recente de WAGNER FILHO, 2016), considerando especialmente recursos e ferramentas computacionais para identificao automtica, para a produo de textos simplificados partindo-se de textos originais complexos e/ou classificaoo de textos por graus de legibilidade/complexidade/inteligibilidade; e) busca e adaptao, para o portugus do Brasil, de guias pr-existentes para a reescrita adaptada ou para escrita original de textos institucionais ou de carter educativo simples sobre temas de Cincias ou sobre temas de Sade, com destaque para as iniciativas e diretivas: i) Plain English do governo norte-americano (http://www.plainlanguage.gov); ii) Health literacy, tambm do governo norte-americano, com orientaes especficas para textos na rea de Sade (https://health.gov/communication/literacy/quickguide/factsbasic.htm); iii) dados da U.S. National Library of Medicine no segmento Health Literacy (https://medlineplus.gov/healthliteracy.html); iv) diretivas educacionais sobre Letramento Cientfico trazidas para o Brasil (INEP 2016, PISA 2016); f) busca e reviso de bases lingusticas subjacentes aos desenhos e arquiteturas de recursos computacionais pr-existentes para simplificao/facilitao de textos em portugus, como os sistemas automticos da pesquisa PorSimples e da pesquisa Facilita (http://nilc.icmc.usp.br/nilc/index.php/tools-and-resources), incluindo os sistemas disponveis para a lngua inglesa, como o sistema Simplish (www.simplish.org) e afins. Para o portugus, as iniciativas antes citadas so precursoras, reconhecidas internacionalmente. Infelizmente, hoje esto inoperantes por problemas tcnicos elas visaram, justamente, apoiar a escrita de textos simplificados e/ou classificar textos automaticamente por graus de complexidade para determinados perfis de leitores/audincias seu resgate mais do que merecido; g) confronto entre a reviso e a atualizao empreendidas em a), b), c), d), e) e f) com a anlise de corpora especialmente reunidos em portugus nos temas Doena de Parkinson (Neurologia e Fisioterapia) e Cuidados da Criana (Pediatria) e com os materiais para leigos do corpus sobre Pneumopatias Ocupacionais. Esses corpora visam representar a prtica da divulgao institucional on-line de temas de Sade para o nosso perfil de pblico leigo; h) do confronto citado em g), estabelecer uma fundamentao terica e metodolgica com indicao procedimental -, com destaque para a natureza, funcionalidade e operao de elementos textuais, gramaticais, lexicais e terminolgicos, de modo a subsidiar procedimentos de simplificao ou de elaborao original de textos de temtica mdica ou sobre Sade Pblica para ampliar a sua acessibilidade para o nosso pblico-alvo. i) sistematizao de um quadro de potenciais boas e ms prticas redacionais (textuais, gramaticais, lexicais e terminolgicas) para a promoo de acessibilidade do texto escrito sobre temas de Sade para um leitor leigo adulto de escolaridade limitada.

  • Esta metodologia, naturalmente, fruto de uma determinada orientao terica de pesquisa e prev, para cada uma, etapas contnuas de produo de artigos e de trabalhos para apresentao em eventos sobre o trabalho em andamento. Sobre a orientao terica subjacente metodologia desta proposta, tratamos, brevemente, a seguir. Mais dados podem ser conferidos no texto da pesquisa correlata, no item J) DEMAIS INFORMAES RELEVANTES. Cronograma sinttico desta pesquisa por trimestre 36 meses

    Meses (um bimestre por coluna) ano

    1/ano 2/ ano 3 Procedimentos 1-2 3-4 5-6 7-8 9-10 11-12 a) ano 1

    X X X

    b) ano 1/ano 2

    X X X X X X

    c) ano 1/ano 2/ ano 3

    X X X X X

    d) ano 1/ano 2/ ano 3

    X X X X X

    e) ano 1

    X X X

    f) ano 1

    X X X

    g) /ano 2/ ano 3

    X X X X X

    h) /ano 2/ ano 3

    X X X

    i) ano 1/ano 2/ ano 3

    X X

    Elaborao e Submisso de artigo sobre a pesquisa ano 1/ano 2/ ano 3

    X X X X

    Elaborao de relatrio parcial/final ano 1/ano 2/ ano 3

    X X

    iii) Conceitos, perspectivas envolvidos e pontos de partida

    Esta proposta de pesquisa baseia-se, fundamentamente, nos apontamentos dos nossos trabalhos recentemente publicados sobre o bom potencial da parceria entre pesquisas lingusticas e computacionais (FINATTO, LOPES, CIULLA, 2015a e 2015b; CIULLA, LOPES, FINATTO, 2016) em torno do tratamento e descrio de determinados tipos de textos, especialmente os textos de temtica cientfica que so dirigidos para pblico leigo e

  • para pblico especialista. Nesse trabalho destacamos o Processamento de Linguagem Natural (PLN), em suas especificidades, em cooperao com a Lingustica de Corpus, com a Terminologia e os estudos de gneros textuais e discursivos.

    Para chegar aos fins que nos propomos, isto , amparar terica e metodologicamente uma pesquisa aplicada, partimos do pressuposto de que o lxico e a sintaxe do texto so elementos destacados na estruturao lingustica do texto de divulgao cientfica para leigos de pouca escolaridade e pouco hbito de leitura. Esses elementos destacados, de acesso para o nosso enfoque terico, no so os nicos elementos dignos de ateno. Desse modo, o lxico e a sintaxe do texto sero tomados como ponto de entrada para o nosso estudo de textos sobre temas de Sade Pblica dirigidos para pblico leigo.

    Esses elementos so pontos tradicionalmente reconhecidos como integrantes de sua estrutura interna. Naturalmente, a gramtica (da lngua e a do texto), a semntica do texto, e tambm a sua dimenso semitica (cf. BARROS, 2000) fazem parte da abordagem do texto de divulgao sobre temas de Sade, assim como uma ampla srie de outros elementos e de condies externas. Afinal, o texto um todo complexo, um objeto de significao e de comunicao (BARROS, 2000, p.7). Dado que promover a acessibilidade para o texto envolver o texto, como estrutura, a leitura e o leitor, os trs em interao, tratar do tema da Leitura tambm uma necessidade na nossa pesquisa terica. Conforme j afirmamos em trabalho recente (FINATTO et. al, 2015b), um livro didtico bastante singelo sobre o tema da Leitura, especialmente dirigido para estudantes de Letras/Traduo, h diversas abordagens relacionadas leitura e sua compreenso. Conforme salientou Leffa (LEFFA, 1996, p. 9) ler, para alguns autores, extrair o significado do texto. Para outros, atribuir um significado. E, entre essas duas posies, h muito o que pensar. Ademais, conforme ensina Leffa, esse um processo extremamente complexo, composto de inmeros subprocessos que se encadeiam de modo a estabelecer canais de comunicao por onde, em via dupla, passam inmeras informaes entre o leitor e o texto. Para ns, como um ponto de partida de pesquisa, saber ler um texto on-line sobre temas de Sade Pblica saber atribuir-lhe significados, preenchendo lacunas com conhecimentos prvios. Entretanto, cremos que h, ainda, muito a pesquisar a respeito, especialmente no mbito do que j produziu em Lingustica Aplicada, Psicolingustica e Educao. Afinal, esses significados atribudos pelo leitor no esto na mensagem do texto, mas na srie de acontecimentos que o texto desencadeia na mente do leitor (LEFFA, 1996 a, p. 15). Alm disso, dada a complexidade do que se envolve no processo da leitura, cabe lembrar que:

    A nfase na construo de sentido a partir do leitor pode exigir, portanto, que se defina o perfil desse leitor, em termos mais ou menos ideais. Nesse caso, para executar o ato da leitura, o leitor precisa conhecer o jogo de espelhos que se interpe entre ele e a realidade. Podemos dizer que o leitor precisa possuir, alm da competncia sinttica, semntica e textual, uma competncia especfica da realidade histrico-social refletida pelo texto. (LEFFA, op. cit. p. 16)

    Essas competncias acima aludidas, naturalmente, incluem a noo terica de letramento. Sobre esse conceito, vale, no Brasil, recorrer ao pensamento de Magda Soares (SOARES, 2004), que nos ensina que letramento, a despeito de seus limites com e frente alfabetizao, corresponde ao desenvolvimento de habilidades de uso da leitura e da escrita nas prticas sociais que envolvem a lngua escrita. Assim, ao ter letramento, o sujeito l para, com e a partir da sua leitura, fazer alguma coisa em meio sociedade em que vive. No nosso caso, tambm se implica o conceito de um letramento cientfico, visto que h, no pano de fundo da interao entre texto e leitor, o cenrio de uma educao cientfica.

  • Como bem salienta Motta-Roth (2011), o acesso ao repertrio de conhecimentos gerados pela cincia um dos principais meios de qualificao das condies de vida em sociedade na contemporaneidade. Esse repertrio registra-se atravs da escrita, o que tornaria a produo de conhecimento e a competncia lingustica interdependentes, de modo que no se poderia pensar em uma educao cientfica que no ocorra concomitantemente a uma educao lingustica. nesse contexto de ideias que a autora trata do conceito de letramento cientfico. De acordo com o Instituto Nacional de Estudos e Pesquisas em Educao (INEP), letramento cientfico significa ter a capacidade de empregar o conhecimento cientfico para identificar questes, adquirir novos conhecimentos, explicar fenmenos cientficos e tirar concluses baseadas em evidncias sobre questes cientficas (INEP, 2015). Nesta pesquisa, ponderaremos sobre complexidade textual e inteligibilidade textual. Esses so temas que vm sendo tratados de longa data em diferentes mbitos de pesquisa (na Psicologia da Educao, por exemplo, por DALE & CHALL(1948), LEFFA (1996b), bem Lingustica, e tambm em Processamento de Linguagem Natural/Computao, com FLESCH, 1949).

    Nesses mbitos diversos, Lingustica/Educao e Computao, conceitos como os de legibilidade e de apreensibilidade, s vezes so utilizados por certos autores com sentido semelhante ou muito diferente. Diremos aqui, todavia, que complexidade textual, na sua acepo mais geral, diz respeito ao nvel de dificuldade de um texto, considerando a dificuldade lexical (comumente medida pela frequncia e pela extenso das palavras) e a dificuldade advinda do tamanho da sentena (a partir do clculo do nmero de palavras que a formam). Tratam-se de dificuldades para uma dada pessoa ou tipos de perfis de leitores ao lerem e compreenderem um texto, naturalmente. Entretanto, o carter um tanto formulista desta concepo simples visto que fica na superfcie das palavras - cede espao a outros pontos de vista, que admitem que a complexidade textual no uma caracterstica facilmente mensurvel somente com frmulas matemticas, e que deve levar em conta outros componentes lingusticos, discursivos, pragmticos e semiticos.

    Para Dubay (2004), por exemplo, na mbito da Computao, a inteligibilidade o que torna alguns textos mais simples de ler do que outros. O termo legibilidade, por outro lado, compreenderia as caractersticas fsicas do texto, como o tamanho, o tipo e a cor de letras, o espaamento, o alinhamento de pargrafos e elementos da formatao textual, como a diagramao (SILVA, 1985). J o termo apreensibilidade (traduo para a forma inglesa readability) refere-se fcil leitura, compreenso, velocidade da leitura e apreenso de um texto, fatores relacionados com a forma de escrita (prolixa ou sucinta) e com o vocabulrio utilizado (DUBAY, 2004).

    Tendo em mente a complexidade dessas noes e suas implicaes, e a necessidade de seu equacionamento, esta pesquisa PQ prope auxiliar a responder, no mbito dos estudos de Lingustica Aplicada/Lingustica de Corpus, Terminologia e de Processamento de Linguagem Natural, tambm a seguinte questo: como tornar linguisticamente mais acessvel, para o cidado brasileiro, adulto, de pouca escolaridade3 e pouco hbito de leitura, a formulao textual escrita de materiais informativos sobre temas de Sade Pblica considerando seu oferecimento institucional na Internet?

    A partir da identificao torica e prtica - das melhores alternativas para a elaborao textual acessvel (considerando-se aspectos terminolgicos, discursivos, textuais,

    3Para especificar ainda mais esse perfil de leitor de pouca escolaridade, possvel considerar um indivduo adulto com mais de 25 anos de idade, com filhos, trabalhador(a) do segmento comercial ou de servios, interessado(a) por contedos da Internet, que tenha perfil ativo no Facebook, e que tenha apenas o Ensino Fundamental Completo. Esse sujeito imaginado pode ter o Ensino Mdio em curso ou o frequentar de modo intermitente, isto , com interrupes.

  • frasais e vocabulares), na pesquisa correlata a esta (vide seo J), textos-prottipos simplificados sero submetidas a testes com usurios-leitores para verificao do que funciona ou no com um dado perfil de leitor.

    Como aliamos a pesquisa terica e a observao de um corpus determinado (na verdade, trataremos de diferentes corpora), julgamos importante esclarecer que nos interessa, no mbito desta pesquisa PQ e da pesquisa aplicada correlata, refletir sobre a linguagem e a comunicao via texto escrito a partir de uma amostra qualificada de textos. Vale essa ressalva pelo o que temos percebido (NOVODVORSKI, FINATTO, 2014) em tom de crtica a pesquisas orientadas pela Lingustica de Corpus, segundo as quais elas apenas envolveriam reunir e contar palavras em textos, partindo-se de uma quantidade o maior possvel de textos. Assim, seriam meras metodologias, um enfoque quantitativo, sem orientao ou fundamentao terica subjacente e prvia. Essa crtica injusta e no se aplica s nossas propostas de investigao aqui associadas.

    Conforme colocamos em Finatto (2016, no prelo) e vimos em trabalhos recentes de PLN, a dimenso ideal do corpus estabelecida pela natureza do trabalho e pelos objetivos que se queira alcanar. Por isso, pode ser possvel haver confiabilidade com grandes e pequenas amostras de dados textuais, sendo a noo de tamanho relativa. No nosso interesse, primeiro, reunir um corpus gigante para ento, depois, proceder seu estudo qualitativo e quantitativo. Alm disso, em paralelo parte aplicada do e com o corpus, temos aqui justamente uma pesquisa terica suporte.

    Quanto prtica e a necessidade, para fins de validade estatstica, de se compilarem corpora com dimenses gigantescas em termos de nmero de palavras (em torno de 01 bilho de palavras), recentemente, um trabalho de pesquisadores de PLN (LOPES, FERNANDES, VIEIRA, 2016) nos deu uma outra viso sobre tamanhos vlidos e necessrios de acervos textuais. perfeitamente possvel a obteno de timos resultados com corpora menores.

    O desenho de um corpus, conforme j havia explicado D. Biber (BIBER, 1988 e 1995), uma tarefa de grande ponderao, no havendo, neste momento, como anteciparmos, exatamente, qual ser a sua composio final em termos de nmero de textos e dimenses em termos de types/tokens. Todavia, dadas as nossas experincias anteriores, espcialmente com textos de Penumopatias Ocupacionais, confiamos que possvel um trabalho com amostras de diferentes dimenses em funo de enfoques matemticos e estatsticos especficos. Alm do trabalho do linguista terico, a etapa de pesquisa concernente reunio de um corpus que envolva informao cientfica das reas da Sade como o nosso - tambm envolve a avaliao de sua adequao e confiabilidade conceitual por especialistas de domnio.

    Por isso, a etapa de reunir um corpus permanece bastante onerosa em termos de tempo, de trabalho humano e dos recursos financeiros envolvidos. Portanto, poder estimar dimenses minimamente teis desses acervos, em termos de rendimento descritivo e analtico, uma parte importante do trabalho terico de pesquisa com acervos textuais. O qualitativo e o quantitativo so, assim, faces de uma mesma moeda. Mais detalhes sobre fundamentao terica desta proposta esto nas prxima sees deste Projeto de Pesquisa PQ. G) RELEVNCIA DO PROJETO PARA O DESENVOLVIMENTO CIENTFICO, TECNOLGICO OU DE INOVAO i) Cenrio do problema e questo de pesquisa introduo Para que se possa mensurar a relevncia deste projeto de investigao e do projeto conexo a ele, preciso, antes de tudo, considerar o nosso problema de pesquisa e a situao a ser enfrentada a partir dos dados obtidos quando se busca construir um corpus de textos institucionais em portugus sobre temas de Sade para pblicos leigos do Brasil. Esse problema, que o da promoo da acessibilidade do texto para leitores de um

  • perfil especfico, mesmo em um mbito estritamente lingustico, tem diferentes facetas. Esse problema relaciona-se ao reconhecimento dos melhores modos de apresentar a informao lingustica sobre temas de Sade para pblico leigo adulto de escolaridade limitada e pouco hbito de leitura. Em meio aos modos e nveis de apresentao textual (lxico, gramtica, sintaxe e semntica do texto, recursos grficos, elementos pragmticos, elementos discursivos, semiticos, entre outros) restringiremo-nos funcionalidade e disposio de elementos estruturais: elementos lingustico-textuais, elementos gramaticais, elementos lexicais (em sentido amplo) e a elementos terminolgicos do texto institucional sobre temas de Sade Pblica dirigido a leitores comuns. Vejamos, a seguir, um texto institucional atual (acessado em 25/7/2016), produzido pela Fundao Osvaldo Cruz (FIOCRUZ). Esse material visa informar o cidado brasileiro sobre um tema de Sade relativamente corriqueiro, a varicela, tambm chamada de catapora, expresso, inclusive, nele no mencionada. Esse tipo de texto, tomado aqui apenas como um exemplo ilustrativo de uma prtica textual e discursiva (delimitada histrica e ideologicamente), espelha uma srie de condies de formulao de textos instituticionais da rea de Sade Pblica. So textos oferecidos gratuitamente on-line, dirigidos, em tese, a qualquer cidado brasileiro que busque informao associada a uma autoria institucional confivel sobre esse tema na internet.

    Varicela: sintomas, transmisso e preveno Sintomas Surgimento de exantema de aspecto maculopapular* e distribuio predominantemente na face e tronco, que, aps algumas horas, torna-se vesicular, evolui rapidamente para pstulas e, posteriormente, forma crostas de 3 a 4 dias. Pode ocorrer febre moderada e prurido (coceira), frequente. Em crianas, geralmente, uma doena benigna e autolimitada. Em adolescentes e adultos, o quadro clnico mais grave e sujeita a complicaes, como pneumonia. Se uma gestante adquirir varicela, existe um risco de leso fetal grave. *Maculopapular: leses que progridem de mculas (manchas na pele) para ppulas (carocinhos na pele), vescula (pequenas bolhas na pele) e crostas (casquinhas na pele). Transmisso transmitida de pessoa a pessoa, atravs de contato direto ou de secrees respiratrias (disseminao area de partculas virais/aerossis) e, raramente, atravs de contato com leses de pele. uma infeco altamente transmissvel, que pode ocorrer em surtos, acometendo principalmente crianas, e pode estar associada a complicaes como infeces de pele e doenas neurolgicas. A infeco confere imunidade permanente. A imunidade passiva transferida para o feto pela me que j teve varicela assegura, na maioria das vezes, proteo de 4 a 6 meses de vida extrauterina. Alm de ser possvel a preveno atravs da vacinao [LINK PARA VACINAS], que comear a ser fornecida em meados de 2013.

    Fonte: https://www.bio.fiocruz.br/index.php/component/content/article/93-informacao/doencas/648-doencas [acesso em 25/07/16]

    esse tipo de texto, de origem institucional com destaque para instituies/organismos de Sade Pblica, que buscaremos reunir, descrever e analisar em suas diferentes dimenses em termos do que dito e tambm do como se diz -, tomando-o como suporte e objeto de estudo. Nosso problema de pesquisa, assim, envolver reconhecer, categorizar e sistematizar os pontos estruturais de dificuldade para a compreeenso de leitura de textos como este. Este texto-exemplo, em especial, bastante heterogneo e traz marcas de um desejo

  • de seu redator/autor de se fazer entendido com explicaes em linguagem coloquial (carocinhos, casquinhas). No obstante, ele ainda traz pontos de dificuldade at mesmo para a compreenso de um graduado em Letras (enxantema) que no tivesse um dicionrio mo a ser aberto em outra aba no seu computador. Naturalmente, alm do exemplo desse texto, h outros textos de mesma natureza que so muito melhor apresentados. Nosso esforo aqui, com esse texto, o de ilustrar um ponto de problema da comunicao institucional com o cidado. Ainda assim, ficaria a questo: o Ministrio da Sade do Brasil? Essa instituio, sem dvida, fornece timos exemplos de prticas textuais e comunicativas que visamos tomar como objeto de estudo. A seguir um exemplo, justamente em um texto sobre a Doena de Parkinson publicado recentemente no Blog da Sade do Ministrio da Sade do Brasil. Grifamos alguns pontos que nos parecem que poderiam ser problemticos quanto ao vocabulrio, construes e terminologia tendo em vista sua compreenso por parte de um leitor leigo com escolaridade limitada ao Ensino Fundamental: Fonte: acesso em 26/10/15

    A Doena de Parkinson (DP), descrita por James Parkinson em 1817, uma das doenas neurolgicas mais comuns e intrigantes dos dias de hoje. Tem distribuio universal e atinge todos os grupos tnicos e classes socioeconmicas. Estima-se uma prevalncia de 100 a 200 casos por 100.000 habitantes. Ela causada pela deteriorao de neurnios dopaminrgicos da substncia negra cerebral e tambm pelo comprometimento de outras regies, como o ncleo dorsal do vago, sistema olfatrio e alguns neurnios perifricos. Fatores genticos tambm devem ser considerados, principalmente em casos precoces (antes dos 50 anos), que so mais raros.

    Assim, a partir desses objetos textuais de significao e de comunicao (conforme a viso semitica de texto de BARROS (2002) j citada), nosso problema de pesquisa o seguinte:

    A partir do que j produziu no mbito dos Estudos da Linguagem e dos estudos de Processamento de Linguagem Natural (PLN), quais as alternativas para que formulao textual e lingustica desse tipo de informao institucional sobre temas de Sade Pblica possa ser adequada para a compreeenso de leitores brasileiros adultos de escolaridade limitada e pouco hbito de leitura?

    Naturalmente, h uma srie de alternativas j descritas na literatura de referncia sobre o tema, principalmente no mbito das pesquisas nacionais e internacionais de PLN e estudos sobre Leitura: os eixos mais explorados so os da simplificao lexical e o da simplificao sinttica. O primeiro eixo inclui o uso de palavras de frequncia maior na norma de lngua tomada como referncia (como empregar MAS em vez de TODAVIA ou CASA em vez de RESIDNCIA), evitar anforas ou pronominalizaes, no empregar elipses e retomadas de expresses por formas reduzidas; sempre que possvel, repetir extamente as mesmas palavras ou expresses que correspondem a noes ou tpicos importantes. No segundo eixo, temos os padres de frase, que devem ser curtas, evitando-se intercalaes e subordinaes, assim como o uso de gerndios e voz passiva, especialmente quando implicarem em algum tipo de ocultamento de agentes e pacientes de aes ou de processos. Os elementos coesivos, no mbito da ligao entre oraes, frases e pargrafos, devem ser explcitos. O tamanho das frases e dos textos, assim como o tamanho e a variedade das palavras, em termos do seu nmero de slabas e de sua repetividade tambm integram esses eixos. Vrios desses elementos, desde bastante tempo, especialmente no cenrio norte-

  • americano, j tm sido explorados no mbito do ensino de lnguas, especialmente no que tange gradao de materiais didticos de acordo com nveis de proficincia ou faixa etria de leitores. Isso o que confirma, por exemplo, nas indicaes de prticas de texto de Hess e Hervey (HESS; HERVEY, 2011) para uma entidade no-governamental norte-americana que se prope a tratar de Educao e Acessibilidade.

    ii) Acessibilidade informao cientfica, simplificao de linguagem e acesso internet Embora seja um tema de extrema relevncia, a promoo da acessibilidade informao - especialmente informao lingustico-textual sobre temas cientficos (no que inserimos os temas de promoo Sade Pblica), atravs da simplificao da linguagem especialmente do lxico - e da apresentao diferenciada de textos escritos - esse ainda um tpico tratado com restries e cercado de polmicas. Essas polmicas existem e persistem h muito tempo. Isso porque, entre vrios fatores, repercutem, sobre o tpico da acessibilidade e da simplificao, questes como a vulgarizao cientfica, que implicaria deturpao de conhecimento sob o pretexto de populariz-lo. Essa vulgarizao, mormente associada a algo pejorativo ou caricaturizado, tem mobilizado os brasileiros desde longa data, conforme nos conta, por exemplo, o trabalho histrico de De Rezende Vergara (2008). Nesse trabalho, vemos que houve, inclusive, uma aproximao histrica, etimolgica e dicionarstica, do sentido de vulgarizar com o de reduzir conhecimentos e saberes, chegando-se at a uma correlao de vulgarizao com prostituio. No cenrio ideolgico e poltico que cerca o ato de simplificar um texto cientfico escrito sobre um tema importante como, por exemplo, microcefalia ou AIDS ou Diabetes, de modo que ele possa ser entendido por pessoas brasileiras adultas de pouca escolaridade, manifestam-se crticos que consideram que tal escrita ou reescrita, a ttulo de popularizar um saber cientfico mdico, implicaria deturparem-se ou reduzirem-se conhecimentos srios. Populismo tambm algo evocado aqui. Para os crticos da acessibilidade e da facilitao, assim, divulgar cincia, no mbito da Sade e tambm em outros mbitos, significaria vulgarizar, com seu sentido negativo mais marcado. A dificuldade de entender um texto, vista como um desconforto, seria compreendida como algo que impulsionaria a pessoa a querer aprender, a buscar e a enfrentar um desafio de conhecimento. Por outro lado, h quem entenda que a divulgao cientfica, diferente dessa vulgarizao, negativa, algo possvel, legtimo e necessrio. Nessa concepo, tornar o texto cientfico mais acessvel ao entendimento do pblico leigo uma tarefa importante para a promoo da cidadania, especialmente em um pas como o Brasil, em que vemos uma poro gigantesca da populao buscar informao confivel e cientificamente fundamentada e no conseguir, por diferentes motivos, acess-la ou compreend-la. Tendo esse vis de concepes divergentes em mente, colocamo-nos a favor da divulgao cientfica. Acreditamos que especialistas e profissionais de Sade, linguistas e profissionais de Comunicao e de Informao/Computao podem se unir em torno de um processo de crtica e de transformao de prticas de informao como um todo e de prticas de escrita - para que se possa de proporcionar mais acessibilidade da informao em temas de Sade Pblica. O esforo deve ser conjunto e multidisciplinar, pois essa no um tarefa, nem mesmo num mbito bem especfico como o do texto escrito, nada trivial. Alm disso, entendemos que promover a acessibilidade de textos instituicionais de temtica de Sade Pblica pode, inclusive, envolver repercusses econmicas, dado o que se investe hoje, financeiramente, no Brasil, em polticas de Sade. O texto institucional justamente o texto que inspirar a confiana do cidado que busca informao. Se o texto institucional, especialmente o texto de rgo pblicos da Sade, no funcionar bem e no

  • puder atender as expectativas do cidado, no faltaro fontes privadas na internet, muitas de confiabilidade duvidosa. So incontveis os sites que trazem informaes sobre temas de Sade, mas que visam a venda de produtos ou de servios. Um exemplo dessa situao e at do embate entre a informao institucional, do Ministrio da Sade do Brasil, e a de outras fontes notcia, publicada no jornal Zero Hora, em Porto Alegre, em 26/7/2016 (veja a reproduo da notcia a seguir).

  • Esta notcia nos d conta de que a vacina contra o HPV, disponvel gratuitamente em postos de Sade de todo o Brasil, conseguiu imunizar integralmente, em trs anos de oferecimento e de campanhas de esclarecimento (?) da populao, at junho de 2015 apenas 45% das meninas para as quais ela gratuita. Segundo informa o Ministrio da Sade, conforme relatado nesta notcia, haveria desconhecimento/desinformao da populao e informaes equivocadas disseminadas em redes sociais e em veculos da imprensa que, que relatam riscos e problemas advindos da vacina. Esses relatos e mais a desinformao, aparentemente, teriam dificultado a adeso de 55% da populao-alvo vacina? Enfim, independentemente da resposta, por esta notcia, vemos que est disponvel, gratuitamente, uma vacina contra um cncer que atinge milhares de mulheres no Brasil, o cncer de colo de tero, e que muito desse investimento j teria sido desperdiado. Afinal, a vacina, por diferentes motivos, no foi procurada pela populao. A despeito do mrito da notcia, ainda que hoje o material de divulgao disponvel sobre a vacina contra o HPV no site do Ministrio da Sade seja hoje eficiente (com vdeos, cartazes, infogrficos e textos conforme conferimos em 31/7/2016), perguntamo-nos sobre a qualidade da informao institucional ao longo desses trs anos de vacinas disponveis. A informao teria sido bem apresentada? O material produzido pelo Ministrio/Governo do Brasil para toda a populao, frente aos modos de apresentao da informao em boatos de redes sociais e de relatos da imprensa, teria sado perdendo desde sempre? Tentou-se alguma reao institucional ao longo do tempo ou apenas agora, em 2015? Quem se preocupa com a qualidade da informao sobre Sade Pblica para a populao em geral? Em que pese esse quadro evocado aqui pela notcia antes citada que tambm apenas um exemplo do que envolve o nosso problema de pesquisa - , bem sabemos, h uma histrica dicotomia entre a divulgao cientfica (boa e necessria) e a vulgarizao cientfica (ruim). Essa dicotomia tambm alcana o mbito dos Estudos da Linguagem, da Comunicao Social, alm de outras reas de conhecimento, como a Educao para a Sade Pblica e as reas de Servios em Informao e em Sistemas de Recuperao de Informao. Conforme j mecnonado, acreditamos na divulgao cientfica e no valor de oferecer textos escritos sobre Sade que a maioria dos leitores que acessam a internet hoje possam entender. Nossa inteno, nesta proposta de pesquisa que envolve o exame de textos institucionais, sobre o tema da Doena de Parkinson e sobre o tema de Cuidados com a Criana, contribuir, na parte que nos cabe, com um estudo lingustico, para que, futuramente, pessoas comuns possam receber informaes textuais sobre temas de Sade Pblica em um formato que possa lhes ser conveniente. No mbito do Processamento da Linguagem Natural (PLN), em Cincia da Computao, desde os anos 60, para se alcanar a acessibilidade de informao textual escrita, existem propostas, mais ou menos automatizadas, de base estatstica, que vo desde a simplificao do vocabulrio de um texto, com trocas de estruturas lingusticas e de vocabulrio complexo por simples, at a reapresentao das informaes lingusticas em diferentes formatos interativos. No mbito da Comunicao Social, estudam-se recursos como a incluso de imagens, hipertextos, fotos, desenhos e outros tantos recursos audiovisuais, hoje conhecidos como infogrficos. No mbito dos Estudos da Linguagem, seja em Lingustica Aplicada ou em Psicolingustica, o tema de como facilitar a leitura tem tido presena recorrente e larga produtividade no cenrio nacional e internacional pelo menos desde os anos 70 (Fulgncio e Liberato, 1998, p. 09 -11) especialmente no cenrio do Ensino, de lnguas materna e/ou estrangeiras. Parece haver, entretanto, alguma barreira para que esse tipo de conhecimento chegue s instituies e aos redatores responsveis que produzem e divulgam textos na

  • internet, para um grande pblico brasileiro leigo, como, por exemplo, o texto sobre varicela disponvel no site da FIOCRUZ antes citado. Independentemente das divergncias que cercam a facilitao do texto escrito e do modo como diferentes gestores de comunicao institucional e pesquisadores das diversas reas de conhecimento tm lidado com o problema do acesso popular informao cientfica, hoje, cada vez mais, o cidado brasileiro tem acesso informao, sobre diferentes temas cientficos em em diferentes formatos, especialmente graas internet popularizada. Apesar do acesso facilitado web, uma pesquisa relativamente recente da FECOMRCIO do Estado do Rio de Janeiro (FECOMRCIO, 2015), divulgada em diferentes jornais do Brasil e em programas de TV, sinaliza que, pelo menos em 2014, 70% dos brasileiros que acessaram a internet no chegaram a ler um livro completo. Essa assimetria de acesso internet e pouco hbito de leitura pode demonstrar que um tal acesso informao, visual, sonora e escrita, via internet, especialmente com smartphones, no significaria, necessariamente, interesse por outros conhecimentos, pelo menos no que diz respeito ao conhecimento divulgado em formato de livro impresso. Noutra direo, uma pesquisa de 2010 do Ministrio da Cincia e Tecnologia contabilizava um aumento de 41 para 65% no interesse dos brasileiros por cincia. No entanto, a maioria dos entrevistados no sabia citar nenhuma instituio cientfica ou mesmo o nome de algum(a) cientista importante. Um pouco depois, uma pesquisa muito mais recente, noticiada em maro de 2016, relataria que, infelizmente

    apenas 8% das pessoas em idade de trabalhar so consideradas plenamente capazes de entender e se expressar por meio de letras e nmeros. Ou seja, oito a cada grupo de cem indivduos da populao. Eles esto no nvel "proficiente", o mais avanado de alfabetismo funcional em um ndice chamado Inaf (Indicador de Alfabetismo Funcional, INAF (INAF,2016)) .

    Esses dados sugerem que o acesso ao conhecimento cientfico entre o que inserimos o conhecimento sobre temas de Sade em Medicina e em outras Cincias da Sade, por meio da leitura, mesmo a leitura feita em ambientes digitais, ficaria ainda restrito a uma pequena parte da populao brasileira. Apenas essa pequena parcela que acessa a internet e entende o que l, alm de ter acesso internet, teria tido uma educao, em tese, diferenciada e teria passado por uma formao leitora considerada adequada. Assim, uma diminuta quantidade de brasileiros, ainda hoje, parece conseguir interagir qualificadamente com a informao escrita que recebe, seja no jornal impresso ou na internet. Logo, poucos entenderiam o que lem, por vrios motivos. Portanto, poucos entenderiam nosso texto da FIOCRUZ sobre varicela antes citado. Nesse cenrio, a disparidade entre um acesso massificado internet versus acesso e apropriao ao conhecimento, no que tange aos temas de Sade Pblica, cria uma demanda de trabalho intensa para gestores, educadores e outros profissionais. um enorme desafio promover aes que permitam que o acesso livre s informaes tambm signifique acesso livre ao conhecimento. Qualificar a educao do cidado brasileiro, especialmente no Ensino Fundamental, parece ser a grande lacuna a preencher para se promover um acesso verdadeiro ao conhecimento, cientfico ou no, do qual as pessoas se apossem e sobre o qual construam novas experincias. Nossa pesquisa no tem a pretenso de evocar questes da Educao Bsica, mas, acreditamos tambm servir para assinalar problemas conexos necessidade de se simplificarem textos como os que trazemos aqui exemplificados. Nesse estado de realidade, por fim, vale dizer, insere-se a nossa pesquisa Fundamentos lingusticos para a acessibilidade da informao cientfica para leitores adultos de escolaridade limitada. Nesse ponto, entendemos que importante resgatar as

  • pesquisas em Lingustica, sobre Letramento e sobre Leitura e de outras subreas dos Estudos da Linguagem, que trataram do tema dos processos envolvidos na compreeenso de leitura de textos sobre temas de cincias e de simplificao de textos no mbito de diferentes reas do Conhecimento, como o PLN. A partir dessas pesquisas, importante retomar procedimentos e prticas aconselhados especialmente os mais bem sucedidos em testes com leitores de diferentes perfis -, com vistas a qualificar o oferecimento da informao escrita de carter cientfico para pblico leigo. A especificidade da interao leitor-texto em ambientes de informao on-line tambm precisa ser considerada. Em meio ao contato com essas investigaes, especialmente com o que se tem produzido NO BRASIL em termos de recursos computacionais para o portugus (como o que se relatava em MANGINI, 2009), temos, de longa data, esboado algumas reflexes sobre os temas da complexidade e da simplificao textual a partir do contato com linguistas, profissionais de Sade e informatas. Essa experincias nos propomos, igualmente, a retomar. A propsito, cabe dizer, no mbito dos estudos de Terminologia e da produo de Terminografia, com a produo de dicionrios terminolgicos baseados em corpora de textos cientficos de diferentes perfis, temos vivenciado, na prtica, a situao de levar um conhecimento sistematizado e facilitado para diferentes pessoas. O conhecimento sobre esse dilogo, no cenrioa da comunicao tcnico-cientfica, tambm poder ser aqui aproveitado. Afinal, no so os experts que consultam os dicionrios de especialidades. Quem os consultam so, sim, as pessoas que buscam saber o que desconhecem, aprendizes que precisam dirimir dvidas. Essas reflexes que temos experimentado, pela via dos estudos do lxico, das terminologias e do estudo de textos tcnico-cientficos especialmente os textos de reas de Sade, sero agora reunidas e sistematizadas no mbito da reflexo sobre as melhores bases tericas e metodolgicas para a simplificao e a acessibilidade textual. A acessibilidade ou facilitao de um texto insitucional sobre temas de Sade, para alm de atender a alguma carncia do seu leitor-usurio, poder representar um atalho ou mesmo os primeiros passos para algo maior. Alm da construo de um conhecimento ad hoc, instaura-se um ponto inicial, uma porta de acesso para algo que poder ser expandido. O acesso facilitado inicial e bem sucedido informao instiucional sobre temas de Sade tambm pode funcionar como um ponto motivador inicial para o cidado querer buscar mais letramento, mais educao e mais conhecimento. Em meio mirade de fontes de informao hoje disponveis na internet sobre temas de Sade, qui o nosso leitor leigo, de escolaridade limitada e pouco hbito de leitura, possa tambm conseguir chegar a diferenciar a informao equivocada da informao sria e comercialmente desinteressada. iii) Fundamentao terica (A): a simplificao como traduo intralingustica Conforme tentamos refletir com nossos alunos de curso de Letras/Traduo da UFRGS, desde a poca de Lutero, o embate entre ser fiel a um conhecimento e torn-lo acessvel ao vulgo j ocorria. Ao propor que o texto da Bibla deveria estar, no mais em latim, mas, sim, disponvel em um alemo escrito que fosse compreensvel pelos seus contemporneos, Lutero pode ser considerado um precursor dessas reflexes sobre acessibilidade textual e informativa (cf. HEIDERMANN, 2001). Por se tratar de um texto religioso e sagrado, chegava-se a indagar se aquela Bblia de Lutero, escrita de acordo com o dialeto baixo alemo do povo germnico dos anos 1600, ainda seria uma fonte "verdadeira". Nesse embate, tambm histrico, temos, de um lado, o povo inculto; e, de outro, a Bblia original, em latim, com os eruditos e letrados daquela poca. Assim, a lgica da simplificao textual seria similar de uma traduo intralingustica, nos moldes do que refere, por exemplo, Umberto Eco (2007). Essa traduo

  • intralingustica tem sido a orientao da grande maioria das ferramentas computacionais que pretendem produzir, automaticamente, um texto simplificado partindo-se de um texto complexo. Um exemplo de uma ferramenta desse tipo, que segue a lgica da traduo intralingustica, vemos em http://www.simplish.org. Esse o sistema Simplish, que funciona apenas para simplificar, automaticamente, textos em ingls. Um texto institutcional da rea de Sade em ingls que submetemos a este sistema [acesso em 26/7/16] foi o seguinte (disponvel em http://www.cdc.gov/std/hpv/stdfact-hpv.htm):

    What is HPV? HPV is the most common sexually transmitted infection (STI). HPV is a different virus than HIV and HSV (herpes). HPV is so common that nearly all sexually active men and women get it at some point in their lives. There are many different types of HPV. Some types can cause health problems including genital warts and cancers. But there are vaccines that can stop these health problems from happening.

    Abaixo, vemos o o texto traduzido para uma verso mais simples, denominada nesse sistema de basic english:

    Figura 1- ferramenta de traduo intralingustica para simplificar textos iv) Fundamentao terica (B): o texto especializado, o lxico e a Terminologia Conforme j citamos, esta pesquisa tem como ponto de incio o texto, como unidade semitica (BARROS, 2000) no qual daremos destaque para o lxico e para a tessitura da sintaxe do todo texto que, vale frisar, no a sintaxe da frase isolada. H diferentes concepes para o que seja o lxico de uma lngua, e uma srie de

  • controvrsias sobre a sua conceituao, conforme apontam Di Felippo e Silva (2006). Essas diferenas tm a ver com o ponto de vista adotado e tambm com a concepo de lngua que se tenha em mente. Dito de um modo resumido, entendemos que, o lxico, como um componente abstrato do sistema que uma lngua, no se resume a uma mera lista de entradas lexicais. Acompanhando Villalva e Silvestre (2014, p.28), cremos que cabe endossar a posio de que o lxico lembra um entreposto de bens essenciais, nesse caso, as palavras, sendo uma espcie de crebro no corpo das lnguas (grifo nosso). H muito o que ponderar sobre o conceito de lxico, sobre uma perspectiva funcional do lxico, e sobre suas interligaes com a gramtica, conforme o grande linguista E. Coseriu (1987) j nos ensinava. Cremos que esta pesquisa PQ, em sendo um suporte terico-metodolgico para uma pesquisa aplicada, poder avanar justamente nessa reflexo sobre o estatuto do lxico como um componente do funcionamento textual da linguagem. Conforme Abbade (2011, p. 1342), um estudo estrutural do lxico deixa claro que, ainda que no se possa abarcar todo o lxico de uma lngua, pode-se comear a realizar a estruturao desse lxico a partir de um corpus delimitado. Esta investigao ser realizada sob inspirao terico-metodolgica da Lingustica de Corpus (LC), conforme apresentada no Brasil por Berber Sardinha (2000 e 2004), dos Estudos do Texto e do Discurso (ADAM, 2011) e orientada por diferentes trabalhos de Terminologia de perspectiva textual e comunicativa (CABR, 2002 e 1999; CIAPUSCIO, 1998 e 2003; BOURIGAULT & SLODZIAN, 2004; FINATTO, 2004; KRIEGER, 2008; HOFFMANN, 2015; PEARSON (J.), 1998). Conforme entendemos, ao lidar com textos do tipo tcnico-cientfico para leigos (categorias de textos especializados, conforme CIAPUSCIO, 1998 e 2003), as terminologias assumem um papel diferenciado, mas h toda uma outra srie de elementos lexicais e textual-discursivos que precisam ser ponderados. Para encerrar esta breve seo, cabe dizer que, se, no mbito da LC, a lngua entendida como um sistema probabilstico de combinatrias, importar situar tambm, na nossa pesquisa PQ, em que medida o lxico como componente estrutural da lngua - se encaixaria nessa perspectiva. H) RESULTADOS E IMPACTOS ESPERADOS Potencial de impacto da pesquisa

    Alm de um impacto de promoo de conhecimento cientfico terico e prtico - no mbito da rea de Letras, Lingustica/Estudos da Linguagem, com destaque para as Cincias do Lxico, esta pesquisa prope-se a gerar impactos concretos sobre determinadas prticas sociais de comunicao institucional sobre temas de Sade Pblica no Brasil no cenrio da comunicao com pblico leigo adulto de escolaridade limitada.

    Alm disso, ao envolver grupos interdisciplinares de pesquisa de Letras/Lingustica, Cincias da Sade/Educao em Sade, Medicina e de Computao/Informtica e Processamento de Linguagem Natural, adquire alto potencial de incentivar o aumento da produo cientfica, tecnolgica e de inovao relacionada promoo da acessibilidade da informao em Sade. Afinal, todos os colaboradores envolvidos atuam em Programas de Ps-Graduao conceituados, com seus orientandos e bolsistas, favorecendo-se a interdisciplinaridade e os trabalhos de grupos de pesquisa em parceria.

    A ideia de uma Cartilha de Redao de Textos Facilitados para Leigos, um produto com perfil de ferramenta on-line para permitir, diretamente, a ESCRITA/RESCRITA de textos tambm uma inovao tecnolgica associada a esta pesquisa, na esteira do que j se ofereceu em pesquisas do Projeto PorSimples e Facilita do NILC Ncleo Interinstituconal de Lingustica Computacional do ICMC da USP de So Carlos SP e do background de conhecimentos que j adquirimos ao ter estudado jornais populares brasileiros (cujo texto

  • dirigido a leitores de menor escolaridade), alm de ter pesquisado sobre textos de divulgao cientfica e suas terminologias.

    O principal impacto desta pesquisa ser o subsdio terico e metodolgico produo de uma ferramenta on-line para auxiliar a escrita e/ou reescrita de textos institucionais sobre temas de Sade para pblicos leigos adultos, considerando-se a superao de barreiras para a compreenso da informao por parte de pessoas de escolaridade limitada. Nesse sentido, esta pesquisa PQ deve resgatar, no mbito dos Estudos da Linguagem e da Lingustica Aplicada, toda uma trajetria de conhecimentos ainda necessrios, para que problemas de comunicao, via promoo de acessibilidade do texto escrito, possam ser melhor equacionados. Outro potencial impacto desta investigao a sistematizao e a disponibilizao de um acervo textual especfico, relacionado a prticas textuais de divulgao cientfica nos temas de Pneumopatias Ocupacionais, Doena de Parkinson e Cuidados com a a Criana no segmento textos de divulgao institucional para leigos.

    Esta pesquisa, do ponto de vista tcnico-cientfico, socioeconmico e de difuso e de inovao, pretende mostrar tambm que os desafios para o processamento do portugus do Brasil conforme registro no livro A Lngua Portuguesa na Era Digital (BRANCO et al, 2012) abrangem tambm o processamento do portugus escrito encontrado em textos escritos para divulgao institucional sobre temas de Sade Pblica, especialmente os textos de rgos governamentais e de associaes cientficas.

    Conforme reiterado, nosso foco de estudo so os textos institucionais dirigidos para o cidado comum, sem conhecimento ou formao acadmica, considerando-se um cidado adulto com escolaridade restrita. Os textos desse tipo geralmente esto apresentados em folhetos, flders, guias ou cartilhas, em postagens de blogs, em formato digital, ou em formato escrito impresso. Nosso foco preferencial ser para o texto disponvel on-line, publicado por instituties de Sade Pblica.

    Ademais, a descrio de contedo lexical e terminolgico de divulgao de temas de Sade para leigos, como os textos de divulgao para leigos encontrados em sites e blogs de instituies pblicas brasileiras, relacionados aos temas de doenas e seus tratamentos, pode revelar pontos de conhecimento vlidos para que se promova sua maior eficincia informativa. O trabalho de pesquisa sobre as condies acessibilidade do cidado comum a esses textos, especialmente no que se refere s suas condies de compreenso de leitura desses materiais, em sendo de cunho descritivo e crtico-analtico, especialmente no que se refere ao lxico empregado, contando-se com os aportes das anlises com apoio computacional, poder representar uma contribuio inovadora em meio aos Estudos da Linguagem e Estudos de Terminologia atualmente desenvolvidos no Brasil, salientando-se tambm o potencial de interesse indisciplinar do trabalho.

    I) COMPILAO SUCINTA DAS ATIVIDADES DE PESQUISA DESENVOLVIDAS PELO REQUERENTE

    Esta proposta de pesquisa parte de todo um histrico de nossas investigaes, com apoio financeiro do CNPq e de outros rgos de fomento como CAPES e FAPERGS, e de publicaes sobre o tema do tratamento da linguagem e das terminologias mdicas, com destaque para tratamentos do lxico com apoio computacional. Entretanto, alm das pesquisas a seguir resumidamente descritas e concretizadas em publicaes acadmicas esta proposta de pesquisa (como tambm a pesquisa correlata submetida ao Edital Universal vide seo J) tambm parte de uma experincia prtica especfica relatada a seguir via nosso trabalho para uma publicao em especial.

    Publicao relevante (no prelo):

  • Em julho de 2016, colaboramos com uma obra especialmente afinada com esta proposta de pesquisa, no prelo, pela Editora da PUCRS, de Porto Alegre. Seu ttulo : ENTENDENDO A DOENA DA PARKINSON: INFORMAES PARA PACIENTES, FAMILIARES E CUIDADORES.

    Essa obra (RIEDER, CHARDOSIM, TERRA, GONZATTI, 2016) organizada pelos seguintes profissionais de Sade: Carlos R. de Mello Rieder (Neurologista, colaborador desta proposta de pesquisa), Neusa M.de O. Chardosim (Psicloga), Newton L. Terra (Neurologista), Valria Gonzatti (Psicloga) e rene 14 captulos escritos por diferentes profissionais que atendem multidisciplinarmente - o paciente com a Doena de Parkinson mdicos, fisioterapeutas, advogados, nutricionistas, psicolgos, educadores fisicos.

    Nela, na condio de especialista em Letras/Linguagem e Terminologias, temos um captulo, em parceria com a acadmica de Letras-Traduo Jacqueline Zaar, nossa aluna de Terminologia. Esse captulo trata da acessibilidade da informao nesse tema e inclui um Glossrio especialmente imaginado para pblico leigo de menor escolaridade.

    Alm da autoria desse captulo, atuamos como revisora e conselheira de acessibilidade do todo do texto do livro, indicando, aos autores, eventuais pontos de dificuldade - gramaticais, lexicais e terminolgicas - para o leitor visado. Assim, os autores de cada captulo, se achassem conveniente nossas indicaes, poderiam tornar seus textos, em tese, mais compreensveis para um pblico leigo de menor escolaridade.

    Este livro deve estar publicado at outubro de 2016 e /foi uma grande base de experincias prticas para esta proposta de pesquisa PQ sobre promoo de acessibilidade. Esperamos que at o julgamento desta proposta possa j esteja devidamente registrado, com ISBN, no nosso CV Lattes.

    Pesquisas em andamento e recentemente concludas: Alm dessa experincia prtica com a promoo da acessibilidade, temos orientado

    vrios trabalhos de doutorado e de mestrado, sempre com inter-relao com o estudo das terminologias, do vocabulrio e dos textos tcnico-cientificos, pela via do ensino ou pela via da traduo. No momento, em agosto de 2016, estamos orientando dois mestrandos e dois doutorandos que investigam temas diretamente relacionados complexidade/simplificao textual: Giselle Fetter e Asafe Cortina (mestrado); Bianca Pasqualini e Aline Evers (doutorado, ambas com bolsa).

    Destacamos os nossos PROJETOS DE PESQUISA em andamento e recentemente concludos: 1) Rich Text Analysis through Enhanced Tools based on Lexical Resources Descrio: PROGRAMA CAPES STIC-AMSUD 2013 - The main goal of the project is to create a framework to integrate the resources and capabilities of each group, to achieve an enhanced approach to syntactico-semantic analysis of Spanish and Portuguese. Coordenao no Brasil: Maria Jos B. Finatto (UFRGS) e Helena Caseli (UFSCar) pesquisadora associada: Aline Villavicencio (UFRGS). Este projeto, com dotao financeira considervel na mbito da Cincia da Computao, tem a participao de ncleos de pesquisa e de investigadores informatas e linguistas da Frana (dois laboratrios de PLN em Paris) e da America do Sul (um laboratrio de PLN no Uruguai e outro na Argentina). Vigncia prorrogada at 31 de dezembro de 2016. 2) Pneumopatias Ocupacionais: padres da linguagem mdica para leigos e especialistas Descrio: Projeto de pesquisa em Bolsa de Produtividade CNPq 2013-2016. Estudo de padres da linguagem mdica em portugus no que tange ao emprego de terminologias, de construes recorrentes e recursos de textualizao. Com a participao,

  • como consultor, do Prof. Dar. Danilo Blank (FAMED-UFRGS). Encerrado em fevereiro de 2016. 3) Recuperao da informao em representao do conhecimento em bases de textos cientficos de Lingustica e de Medicina: padres e processamento automtico da linguagem Descrio: Projeto de Pesquisa contemplado pelo PROGRAMA DOC-FIX, FAPERGS-CAPES, em 2012, Edital 09/2012 DOCFIX. Durao do financiamento: 04 anos Vigente at 31/10/2016. Envolve o reconhecimento de padres de uso da linguagem em textos especializados em portugus do Brasil das reas de conhecimento desenhadas, grosso modo, pela Lingustica e pela Medicina, com foco especficoco para duas sub-reas ou domnios: a) da Lingustica Saussuriana, com destaque para o corpus composto pela obra Curso de Lingustica Geral (CLG); b) das Pneumopatias Ocupacionais, com destaque para corpora que incluem diversos gneros etxtuais e discursivos (artigos cientficos, legislao, dissertaes/teses, material instrucional). O reconhecimento feito com apoio de recursos computacionais do mbito do Processamento da Linguagem Natural (PLN) e da Lingustica de Corpus (LC). A LC tambm fornece princpios tericos para o trabalho.O ponto de chegada da investigao ser a melhoria das tcnicas de Recuperao de Informao e da representao de conhecimento mediante o emprego de tcnicas e de ferramentas PLN, associadas a recursos e conhecimentos dos estudos lingusticos sobre Terminologia, Lingustica de Corpus, Lingustica das Linguagens Especializadas e Traduo de textos tcnico-cientficos. Importante: A pesquisa contou e conta com a parceria do grupo de pesquisa de PLN da PUCRS, sob coordenao da Profa. Dra. Renata Vieira, com a colaborao da ps-doutoranda Lucelene Lopes, tambm da Faculdade de Informtica da PUCRS. Alm de estimular produo cientfica interdisciplinar e inovao tecnolgica, visa-se ao envolvimento e fixao de um BOLSISTA RECM-DOUTORADO (ps-doutorando, que atua como professor-pesquisador visitante junto UFRGS e ao PPG-Letras-UFRGS) em Institutio de Ensino Superior. Integra dois grandes campos de conhecimento, os Estudos da Linguagem e a Cincia da Computao. Nesses campos, destaca, respectivamente, os Estudos sobre Textos Especializados/Terminologia e o Processamento da Linguagem Natural (PLN)/Recuperao da Informao. Importante: a ex-bolsista ALENA CIULLA E SILVA deste Projeto (atuando ao longo de 03 anos e meio, at junho de 2016) foi aprovada em dois concursos pblicos para docente efetivo na UFRGS. professora efetiva da UFRGS desde junho de 2016. Foi substituda pela ps-doutoranada LIA EMILIA CREMONESE, que deve concluir as atividades de pesquisa previstas. Alm desses PROJETOS DE PESQUISA, cabe destacar um background de parceria entre o Projeto PorPopular (coordenado pela proponente) e o Projeto PorSimples (coordenado pela Profa. Sandra Alusio do NILC-USP) em torno da caracterizao de um portugus popular escrito, tal como realizado em textos de jornais populares consumidos por pblicos de menor letramento e pouco hbito de leitura, como so os jornais Dirio Gacho e Massa! (de Salvador-BA). Uma amostra dessa cooperao, de longa data, pode ser conferida, por exemplo, no seguinte trabalho: FINATTO, M. J. B.; SCARTON, C. E. ; ROCHA, A. ; ALUISIO, S. M. . Caractersticas do jornalismo popular: avaliao da inteligibilidade e auxlio descrio do gnero. In: VIII Simpsio Brasileiro de Tecnologia da Informao e da Linguagem Humana,

  • 2011, Cuiab - MT. Anais do STIL 2011. Cuiab: Sociedade Brasileira de Computao, 2011. v. 01. p. 30-39. Resumos das publicaes consideradas mais relevantes (ARTIGOS E LIVROS/CAPTULOS): 1) 2015 artigo: Revista: Domnios de Linguagem nmero 5, vol.9 - Qualis A 2 (CAPES) ISSN: 1980-5799. DOI: http://dx.doi.org/10.14393/DLE-v9n5a2015-3 Processamento de Linguagem Natural, Lingustica de Corpus e Estudos Lingusticos: parcerias que j do (muito) certo Maria Jos Bocorny Finatto, Lucelene Lopes, Alena Ciulla Resumo: Neste artigo apresentamos um exemplo de pesquisa que integra Processamento de Linguagem Natural (PLN) e Estudos Lingusticos com o objetivo de demonstrar que essa uma associao possvel e benfica. Utilizamos uma ferramenta para extrao de informaes relevantes e para representao de contedo a partir de corpora em portugus, o ExATOlp. Nessa iniciativa foi utilizado como corpus o texto em portugus do Curso de Lingustica Geral, para a investigao dos principais termos relacionados a conceitos importantes em Saussure. Palavras-chave: Processamento de Linguagem Natural; Lingustica de Corpus; Estudos Lingusticos 2) 2014 - Artigo Revista: Letras&Letras Qualis A 2 (CAPES) ISSN: 1981-5239. DOI: http://dx.doi.org/10.14393/LL60-v30n2a2014-1 Lingustica de Corpus no Brasil: uma aventura mais do que adequada Ariel Novodvorski, Maria Jos Bocorny Finatto Este texto introdutrio ao nmero temtico dedicado Lingustica de Corpus, para alm de situar minimamente cada um dos trabalhos que integram a publicao, discute as andanas da Lingustica de Corpus no Brasil - se considerada a data de publicao de uma das primeiras grandes referncias nacionais (BERBER SARDINHA, 2004) - como uma aventura mais do que adequada, haja vista a relevncia e diversidade das pesquisas desenvolvidas e publicaes feitas no pas. 3) 2014 - Artigo Revista Internacional: Lexicographica -Lexicographica International Annual for Lexicography Citation Information: Lexicographica. Volume 30, Issue 1, Pages 247261, ISSN (Online) 1865-9403, ISSN (Print) 0175-6206, DOI: 10.1515/lexi-2014-0009, November 2014 Finatto, Maria Jos B. New Methods for Specialized Lexicography: Brazilian Approach Examples [Neue Methoden der Fachlexikographie: Beispiele des brasilianischen Ansatzes / Nouvelles mthodes pour la lexicographie spcialise: l?exemple de l?approche brsilienne] Maria Jos Bocorny Finatto. Lexicographica -Lexicographica International Annual for Lexicography / Revue Internationale de Lexicographie/Internationales Jahrbuch fr Lexikographie, v. 30, p. 247-261, 2014. This paper presents theoretical and methodological approaches to Terminology that are well known in Brazil, giving special attention to the production of dictionaries and similar reference work based on corpora. A collation of the many theoretical approaches and terminography practices is provided, inviting the reader to learn more about Special-Language Lexicography (SLL) in Brazil. In order to better illustrate Brazilian terminography production, a background on three different terminographic reference works recently

  • developed in the Brazilian scenario using corpora is brought forth: a dictionary about ceramic tiles, a glossary of Oncomastology and an extensive dictionary of Dermatology. At the end of this paper, information about computational resources, such as ontologies and tools for representation of text-based content, is introduced, indicating new methodological approaches for new dictionaries. 4) 2016 Captulo de livro (impresso) ISBN: 978-85-7591-443-4 GNEROS ACADMICOS X GNEROS DE DIVULGAO CIENTFICA UM ESTUDO COMPARATIVO DO LXICO COM AUXLIO DE PROCESSAMENTO AUTOMTICO. Alena Ciulla, Lucelene Lopes e Maria Jos Bocorny Finatto IN: SOUZA, Sweder; SOBRAL, Adail. (organizadores). Gneros, entre o texto e o discurso : questes conceituais e metodolgicas / Sweder Souza, Adail Sobral . -- Campinas, SP : Mercado de Letras, 2016. 5) 2015 livro (on-line, gratuito) ISBN: 978-85-919265-0-3 download gratuito em:http://www.ufrgs.br/ppgletras/pdf/Hoffmann-web2a.pdf FINATTO, M.J.B.; ZILIO, L. Textos e Termos por Lothar Hoffmann, um convite para os estudo das linguagens tcnico-cientficas. Porto Alegre: Pallotti, 2015. Livro produzido com apoio de edital CAPES-FAPERGS. Traz uma seleo de 10 artigos de um dos mais importantes trabalhos do linguista, pensador