corpus de texto de especialidad

Upload: leidy-jimenez

Post on 27-Feb-2018

221 views

Category:

Documents


0 download

TRANSCRIPT

  • 7/25/2019 Corpus de texto de especialidad

    1/39

    Cabr, M. T. (2007). Constituir un corpus de textos de especialidad: condiciones yposibilidades. EnBallard, M.; Pineira-Tresmontant, C. (ed.). Les corpus en linguistique et en traductologie. Arras: ArtoisPresses Universit. 89-106. ISBN 978-2-84832-063-2

    Constituir un corpus de textos de especialidad: condiciones y posibilidades

    M. Teresa Cabr

    Institut Universitari de Lingstica Aplicada

    Universitat Pompeu Fabra (Barcelona)

    No cabe duda de que el desarrollo de corpus textuales ha permitido a la lingsticadescriptiva dar un salto cualitativo muy importante. Este avance ha abierto a loslingistas la posibilidad de dar cuenta de forma ms adecuada del funcionamiento delaslenguas ya que los anlisis han podido basarse por primera vez en muestrasrepresentativas y abundantes de producciones lingsticas, no limitadas nisesgadassubjetivamente como suceda anteriormente. Adems de este argumento, la denominadaLingstica de corpus permite explorar exhaustivamente las producciones lingsticas y,

    con ello, ofrece al lingista muestras de datos que mediante un anlisismanual nollegan a la misma profundidad.

    En esta ponencia nos proponemos tres objetivos. En primer lugar, expondremos algunasde las caractersticas de los denominados lenguajes de especialidad, que son la fuentede los textos especializados. En segundo lugar, presentaremos brevemente el corpustextual especializado del Instituto Universitario de Lingstica Aplicada como muestra

    de adaptacin a las condiciones mencionadas en el primer objetivo. Y en tercer lugar,mostraremos, a modo de ejemplo, un estudio sobre el contraste entre los textos deespecialidad y los textos no especializados a travs de sus caractersticas lingstico-gramaticales.

    1. La constitucin de un corpus de especialidad: cuestiones y criterios

    Ante el propsito de constituir un corpus textual de especialidad la primera cuestin que

    se plantea es qu entendemos por texto especializado o cmo discriminamos los textosespecializados. Sin una respuesta clara a esta pregunta no podemos iniciar, obvi

  • 7/25/2019 Corpus de texto de especialidad

    2/39

    amente,la seleccin del material.

    1.1 Establecidos los criterios que permiten discriminar del universo de los textosproducidos por los especialistas en situaciones profesionales, debemos plantearnos qu

    tipo de textos de especialidad debemos tener en cuenta para que el corpus resultesuficientemente equilibrado.

    En tercer lugar, debemos plantearnos la cantidad de producciones que formarn parte deeste corpus si pretendemos o bien que sea lo suficientemente representativo de cadaespecialidad o bien que sea suficiente para poder analizar un tema determinadopreviamente. Cabe hacer pues en este punto una precisin previa a la constitucin del

    corpus, y sobre todo a la decisin sobre su dimensin : para qu se constituye el corpusque vamos a elaborar? Qu finalidad pretendemos que cumpla este corpus ?A questudios lingsticos queremos que d lugar?

  • 7/25/2019 Corpus de texto de especialidad

    3/39

    Y tras la resolucin de estas tres cuestiones ya podemos iniciar el proceso de trabajo,que, lgicamente, deber plantearse otras cuestiones ya de tipo ms tcnico:sea detcnica relativa a la lingstica, sea de tcnica informtica.

    Finalmente, una vez constituido el corpus en formato digital, debemosentrar en laprogramacin de sus posibilidades de exploracin, posibilidades que deben haberseestablecido en la etapa preliminar de caracterizacin del corpus a elaborar.

    Vayamos respondiendo paso a paso cada una de estas cuestiones.

    a) Qu es un texto especializado? Y cmo reconocemos entre todos los textos

    aquellos que son especializados?

    Los textos especializados son las producciones lingsticas, orales o escritas, que seproducen en escenarios de comunicacin profesional y sirven exclusivamente a unafinalidad profesional. Se reconocen los escenarios profesionales por los interlocutoresque actan en la situacin, por el tratamiento de una temtica relativa al dominio odominios concernidos por la profesin y por la finalidad esencial de buscar lainformacin del receptor, aunque para ello se utilicen estrategias discursivas dis

    tintas.

    Analticamente los textos especializados se definen por tres tipos de condiciones:

    Condiciones discursivas: las propias del escenario especializado de este tipo

    de comunicacin

    Condiciones cognitivas: el tema de qu tratan y la forma precisa de tratarlo Condiciones lingsticas: las condiciones textuales generales (precisin,concisin y sistematicidad, las dos ltimas en grados diversos segn lascondiciones discursivas), la forma textual macro y micro del texto, ysobretodo las unidades lxicas propias del dominio de que trata el texto.

    b) Qu variables podemos considerar en un corpus textual especializado?

    Los textos de especialidad no son homogneos, sino que se organizan en tipos distintosen funcin de los criterios de clasificacin que se tomen en consideracin. Los criter

    iosque en nuestra opinin son los ms relevantes para organizar los textos de especialidad

  • 7/25/2019 Corpus de texto de especialidad

    4/39

    en un corpus son los siguientes:

    El tema

    La perspectiva o dimensin disciplinar El nivel de especializacin Las fuentes El gnero textual La clase de texto por la estrategia discursiva Las lenguas En el caso de los plurilinges (bilinges, y trilinges, etc.), por la relacin

    entre los textos de las lenguas del corpus.

    Por el tema, distinguimos entre corpus unidisciplinares y pluridisciplinares. El

    tema deun corpus puede abarcar un mbito completo o solo una perspectiva de un mbito. Un

  • 7/25/2019 Corpus de texto de especialidad

    5/39

    ejemplo de este segundo caso podra ser el banco de derecho medioambientaldesarrollado por el grupo TERMISUL de la Universidad de Porto Alegre (Brasil).

    Por el nivel de especializacin, un corpus puede incluir textos de un

    solo nivel deespecialidad (por ejemplo: textos de artculos cientficos procedentes de revistashomogneas) o bientextos de distintos niveles deespecialidad1.

    incluir estructuradamente

    Por el canal de transferencia, los textos del corpus pueden proceder de un solo

    tipo defuente o de fuentes diversas. La diversidad de las fuentes puede obedecer tambina unaamplia diversidad de criterios, el que aqu nos interesa es el criterio del canal detransmisin, por el cual los textos de un corpus pueden ser exclusivamente orales oescritos o audiovisuales, o bien incluir muestras de todas las posibilidades.

    Por el gnero textual un corpus puede ser homogneo e incluir solamente textos de un

    gnerorevistas cientficas) o bien comprenderestructuradamente textos de distintos gneros textuales.

    (por ejemplo, abstracts de

    Por el tipo de texto segn la estrategia discursiva, los corpus pueden ser heterogneos uhomogneos en cuanto a la clase textual (por ejemplo, un corpus homogneo incluirasolo textos argumentativos, o narrativos).

    Segn el criterio de las lenguas, los corpus pueden ser monolinges, bilinges,trilinges, etc. Y si comprenden textos de ms de una lengua, estos pueden sercoincidentes solo en la temtica o bien comprender textos en una lengua y sucorrespondiente traduccin en la segunda o tercera lengua. En este ltimocaso sedenominan corpus paralelos.

    c) Qu dimensiones debe tener un corpus especializado?

  • 7/25/2019 Corpus de texto de especialidad

    6/39

    La respuesta a esta cuestin slo puede ser: depende del corpus que hayamos decididoelaborar en lo que se refiere a su finalidad. Para qu va a servir un corpus? Paraextraer datos que sean representativos del uso de una lengua en su conjunto? En este

    caso deberemos constituir un tipo de corpus, que se ha denominado corpus dereferencia, que incluya una muestra representativa de la totalidad dela lengua,entendida en toda su variacin interna y externa. Pero si de lo que se trata es deconstituir un corpus para investigar sobre uno a distintos problemas, la dimensindelcorpus debe adecuarse a la resolucin de las finalidades que se propone. Por ejemplo, elcorpus que hay que constituir para analizar el uso de un pronombreen situacin

    encltica ser evidentemente menor que el que necesitamos para extraer la terminologade un dominio de especialidad; y este ltimo podr ser menor al necesario para extraercolocaciones.

    1.2 El proceso de constitucin del corpus

    1 La pertenencia de un texto a un nivel de especialidad alto, medio

    o bajo suele basarse en lascaractersticas de los destinatarios, el medio en qu aparecen y las finalidades del texto. As, un textoproducido por un especialista para estudiantes ser un texto de nivel medio de especialidad. Para msinformacin puede verse Cabr (1998) o Ciapuscio (2003).

  • 7/25/2019 Corpus de texto de especialidad

    7/39

    La construccin efectiva una vez se han establecido sus caractersticas es un procesoque se distribuye en distintas fases:

    a. Seleccin de fuentesb. Criterios de seleccin de los textos y decisin sobre si tomar el te

    xto

    completo o fragmentos del mismo2

    c. Decisiones sobre la arquitectura de la based. Decisiones sobre la infraestructura de hardware y software (sistema de

    gestin de corpus textuales)

    e. Seleccin de las convenciones para la representacin de los textosf. Criterios, lenguaje y sistema de marcaje estructuralg. Criterios, lenguaje y sistema de marcaje lingstico

    1.3 Herramientas de exploracin

    Los textos de un corpus pueden procesarse en bruto o procesados lingsticamente. Siseopta por la segunda va, parece lgico que debemos contar con recursos y herramientasde tratamiento automtico de la informacin:

    Herramientas de marcaje estructural y lingstico Diccionario inicial de procesamiento Sistema de anlisis morfolgico Sistema de lematizacin Sistema de desambiguacin Sistema de gestin de diccionarios Sistema de estructuracin sintctica (chuncker), etc.

    1.4 Posibilidades de explotacin

    las posibilidades de explotacin

    Finalmente,lingstica de un corpus estncondicionadas por el tratamiento que los datos han recibido en la fase de tratamiento.Las posibilidades de aplicacin de los datos de corpus suelen materializarse en losmbitos siguientes:

    En la ingeniera lingstica, para el desarrollo de herramientas y robots En la extraccin de informacin para fines investigadores, docentes,

    industriales, editoriales, etc.

  • 7/25/2019 Corpus de texto de especialidad

    8/39

    En la recuperacin de informacin en los servicios documentales y

    bibliogrficos

    La utilizacin primaria que los lingistas hacemos de los corpus de espec

    ialidad seorientan fundamentalmente a:

    La investigacin sobre discurso especializado, terminologa y fraseologa

    especializadas

    La elaboracin de diccionarios especializados

    2 Esta decisin est condicionada por los estudios que desearemos hacer a travs del corpus. Para elanlisis textual (conectores, estructura informativa, gneros textuales, etc.) se requieren textos completos.

  • 7/25/2019 Corpus de texto de especialidad

    9/39

    La enseanza de lenguas de especialidad o de lenguas para propsitos

    especficos

    Para la enseanza de lenguas de especialidad, los corpus ofrecen la posibilidad de

    programar ms adecuadamente los contenidos (adecuacin a necesidades y grado deconocimientos de los estudiantes), de elaborar ejercicios y de alimentar sistemas deautoaprendizaje de lenguas.

    En el campo de la documentacin, y concretamente para la gestin de informacin, loscorpus proveen de informacin para la construccin automtica o asistida de tesauros,para la indizacin automtica y para la elaboracin de sistemas de clasificacin dedocumentos o de refinamiento de las consultas orientadas a perfiles de necesidades de

    usuario.

    2. El corpus tcnico plurilinge del IULA

    El Instituto Universitario de Lingstica Aplicada (IULA) es un centro delaUniversidad Pompeu Fabra, de Barcelona, dedicado a la investigacin y a la formacinde postgrado. Fue creado en 1993 y organizado desde su creacin por M

    Teresa Cabr.El IULA se organiza en grupos de investigacin: Lxico, Terminologa y disc

    ursoespecializado (Grupo IULATERM, que acogela Lingstica Computacional),Lexicografa (Grupo INFOLEX), Variacin lingstica (Grupo UVAL), Documentaciny edicin digital (Grupo DIGIDOC) y tres laboratorios: OBNEO (Observatorio deNeologa), LATEL (Laboratorio de Tecnologas Lingsticas) y el Laboratorio deLingstica Forense. Desde 1993 hasta la actualidad, el proyecto Corpus ha sido elproyecto de investigacin comn en el que han participado todos los miembros delIULA. Recopila textos escritos en cinco lenguas diferentes (cataln, castellano, ingls,francs y alemn) de las reas de especialidad de la economa, el derecho,el medioambiente, la medicina y la informtica El corpus comprende adems documentosparalelos, con el objetivo de facilitar estudios de traduccin A su vez, el corpusmultilinge del IULA cuenta con un subcorpus de lengua general, extrado de la prensade gran difusin y constituido como corpus contrastivo

    El objetivo de este corpus es facilitar el anlisis de los datos lingsticos a fin depoder

    establecer las leyes que rigen el comportamiento de cada lengua en cada rea. Susdestinatarios son los investigadores y todos los usuarios que requieran consulta

  • 7/25/2019 Corpus de texto de especialidad

    10/39

    s sobrelos mbitos de especialidad tratados. De la explotacin del corpus se han derivadoestudios de carcter terminolgico, discursivo, morfolgico, sintctico, neolgicootraductolgico. Para facilitar la explotacin de los datos, el IULA ha desarrolladouna

    serie de herramientas de exploracin. Una muestra de estas herramientasson unextractor automtico de neologa, un detector automtico de terminologa, un alineadorde textos, un alimentador de diccionarios, etc. De hecho, este corpuses el soporteprincipal de las actividades de investigacin y docencia de nuestro instituto.

    La herramienta que permite acceder a los datos del corpus a travs deInternet esBwanaNet, que puede encontrarse en la pgina principal de la web del IULA (), en el apartado denominado Portal de recursos del IULA.

  • 7/25/2019 Corpus de texto de especialidad

    11/39

    (AN)(OR)(MA)(PQ)(TE)

    (PS)

    (CB)(CF)(FS)

    analticos,

    (TI)(HU)(IC)(GN)(GS)Toni Valero

    El corpus del IULA contiene textos escritos en cinco lenguas diferentes (cataln,castellano, ingls, francs y alemn) de las reas de especialidad de economa, derecho,medio ambiente, medicina e informtica, adems de documentos paralelos sobre estasmaterias. Cada una de las reas fue estructurada en diferentes subreas por unespecialista, a fin de que los textos pudieran recuperarse con mayor precisin temtica

    Vase a continuacin cmo est estructurada el rea de la medicina:

    Anatoma

    OrganismosEnfermedadesProductos qumicos y frmacosTcnicas yequipamientosdiagnsticos y teraputicosPsiquiatra y sicologaCiencias biolgicasCiencias fsicasAntropologa, educacin, sociologa yfenmenos socialesTecnologa, industria, agriculturaHumanidadesInformacin cientficaGrupos nominalesPlanificacin y gestin sanitariaAsesor:

    El procesamiento de los textos del corpus sigue los siguientes pasos:

    a) Fase de seleccin de los textosLos especialistas en cada materia seleccionan aquellos textos que consideran pertinentesy los clasifican temticamente dentro de una estructuracin del dominio previamente

    consensuada por especialistas de la materia.

    b) Fase de anotacin y registro de la informacin del documento

  • 7/25/2019 Corpus de texto de especialidad

    12/39

    Los documentos se marcan de acuerdo con el estndar SGML y siguiendo las directricesmarcadas por el Corpus Encoding Standard (CES) de la iniciativa EAGLES.Posteriormente se registra la informacin documental de los textos (autor, ttulo,edicin, pginas seleccionadas, subdominio al cual pertenece, idiomas en qu

    e esemismo documento se encuentra en el corpus).

    c) Fase de procesamiento lingsticoEl procesamiento lingstico de los documentos est automatizado y consta de unpreproceso, a travs del cual se tratan lingsticamente aquellas entidades que admitenuna deteccin automtica previa al anlisis morfolgico (fechas, nmeros, locuciones,nombres propios, abreviaturas), un anlisis morfolgico, mediante el cual se lematizantodas las palabras de los documentos y se les da una o ms etiquetas morfolgicas, d

    eacuerdo con los etiquetarios morfosintcticos diseados en el IULA, y unaposteriordesambiguacin lingstica y estadstica, de forma que a cada palabra le acabecorrespondiendo un solo lema y una sola etiqueta.

  • 7/25/2019 Corpus de texto de especialidad

    13/39

    d) Almacenamiento en una base de datos textualFinalmente, cuando ya cada palabra tiene el lema y la categora gramatical que lecorresponde, los textos se almacenan en una base de datos textual, que contienetoda lainformacin que se ha generado sobre el documento El resultado de todo el procesode

    tratamiento de los textos puede consultarse actualmente en lnea en .

    reaDerechoEconomaMedioambienteInformtica 655 000MedicinaTotal:

    Cataln1 463 000 2 085 000 431 0001 776 000 1 091 000 274 0001 506 000 1 062 000 599 000

    194 0002 619 000 4 077 000 1 555 000 27 0008 019 000 9 542 000 3 197 000 573 000

    Total4 039 0003 246 000

    3 826 000

    Alemn16 00027 000429 000

    Francs44 00078 000230 000

    83 000198 000753 000

    2 497 0008 476 00022084000

    Espaol

    Ingls

    1 227 000 338 000

  • 7/25/2019 Corpus de texto de especialidad

    14/39

    Cuadro 1 Nmero de palabras por lengua y mbito

    El corpus de medicina incluye un subcorpus de genoma humano, elaborado por el grupo

    Iulaterm, que contiene 945 000 palabras en cataln, 1 447 000 en espaol y 1 119 000en ingls. Los datos en relacin con el corpus paralelo de las parejas lingsticas mssignificativas cataln-espaol, cataln-ingls, espaol-ingls, se presentan en el cuadro2.

    reaDerechoEconomaMedio ambienteInformticaMedicina

    TotalCataln-espaol460 000600 000214 00028 000118 000420 000

    Espaol-ingls57 000283 000

    144 000300 000640 0001 424 000

    Cataln-ingls12 000250 000213 000-40 000515 000

    Cuadro 2 Nmero de palabras en corpus paralelos por mbito y parejas de lenguas

    Finalmente, los datos del corpus de contraste se muestran en el cuadro 3.

    reaGeneral

    Cataln1 526 000

    Espaol3 230 000

  • 7/25/2019 Corpus de texto de especialidad

    15/39

    Total4 756 000

    Cuadro 3 Nmero de palabras en el corpus de lengua general

    La consulta del corpus del IULA se realiza va Internet a travs de BwanaNet, unainterfaz desarrollada en el IULA El Corpus Tcnico del IULA (CT-IULA) estindexado con un paquete de herramientas desarrolladas por el Institut fr MaschinelleSprachverarbeitung, de la Universidad de Stuttgart (Corpus Workbench) El IULAhadesarrollado la herramienta que permite la interrogacin del CT-IULA en lnea

    (brangaene.upf.es/bwananet/index htm).

  • 7/25/2019 Corpus de texto de especialidad

    16/39

    3. Una aplicacin de la lingstica de corpus : Contrastre gramatical entre

    textos especializados y textos no especializados

    los

    llevando acabo un proyecto de

    investigacin sobre

    Gracias a este corpus se han podido realizar ms de veinte tesis de doctorado3.

    Adems de las tesis, el corpus ha permitido desarrollar una base de conocimiento

    (GENOMA) que puede verse en www.iula.upof.edu/genoma.lasActualmente se estcaractersticas especficas delos noespecializados. Presentamos a continuacin una breve sntesis del proyecto y algunosdesus resultados.

    El proyecto ESPETEX, que forma parte de un proyecto ms amplio financiado por elMinisterio de Educacin y Cultura del gobierno espaol (TEXTERM-2. Fundamentos,estrategias y herramientas para el procesamiento y extraccin automticos d

    e lainformacin especializada. N

    REFERENCIA: BFF2003-02111) al que contribuyen unaveintena de investigadores y colaboradores, se propone dos objetivos:

    textos especializados en relacin a

    Comprobar a travs de un corpus suficientemente representativo si se confirmanlas caractersticas gramaticales que los manuales de lenguajes especializadosatribuyen a los textos de especialidad.

    En caso de que no se confirmen en parte o totalmente, intentar encontrar yestablecer algunos de los factores gramaticales especficos que diferencian lostextos especializados.

    Para llevar a cabo el proyecto hemos partido de la lista de caractersticas de lostextosespecializados expuesta en alguno de los dos manuales siguientes:

    Kocourek, R. (1991). La langue franaise de la technique et de la science. Vers

    une linguistique de la langue savante, Wiesbaden: Oscar Branstetter.

  • 7/25/2019 Corpus de texto de especialidad

    17/39

    3 Las tesinas y tesis realizadas sobre la base de los datos del corpus son las siguientes: Araceli Alonso:Descripcin y anlisis de los sufijos nominalizadores en el rea del medio ambiente. Rosanna Folguer:

    Adjectius en el discurs especialitzat: una primera descripci deis adjectius en els textos del genoma hum.Vanesa Vidal: Aproximacin al fenmeno de la combinatoria verbo-nominal en el discurso especializadoen Genoma Humano. Gabriel Quiroz: Las unidades sintagmticas extensas especializadas en ingls y enespaol: descripcin y clasificacin en un corpus de genoma. John Jairo Giraldo: Anlisis y descripcinde las siglas en el discurso especializado de Genoma humano y Medio ambiente. Iria da Cunha: Haciaun modelo lingstico de resumen automtico de artculos mdicos en espaol. Rolio Nazar:

    Aproximacin cuantitativa al mapeo conceptual. Carles Teb: La representaciconceptual enterminologia: l'atribuci temtica en els bancs de dades terminolgiques. Ricardo Guantiva:Terminologa y variacin vertical: clasificacin de textos en niveles de especializacina partir del anlisisdel tipo y la densidad de las unidades terminolgicas. Ona Domnech: Textos especialitzats i variacivertical: la diversitat terminolgica com a factor discriminant del nivell d'especialitzaci d'un text.

  • 7/25/2019 Corpus de texto de especialidad

    18/39

    Sager, J.C.; Dungworth,D. (1980) English Special Languages. Wiesbaden,

    Oscar Brandstetter Verlag.

    Estos manuales se han basado en corpus de pequea talla. En el proyecto ESPETEX. S

    eha constituido un doble corpus: un primer corpus de textos especializados y un segundocorpus de textos de carcter general.

    El Corpus de lengua general (prensa) consta de 5.002.121 palabras en 155 documentosdel Corpus de l'IULA.

    El corpus de especialidad se compone de 5.018.193 palabras en 251 documentos delCorpus de l'IULA (Derecho, Economa, Informtica, Medio ambiente, Medicina:

    1.000.000 palabras de cada dominio).Las caractersticas gramaticales no lxicas que los manuales atribuyen a los textos deespecialidad se distribuyen, siguiendo a Kocourek (1982, 1991), en cuatro grupos4:

    1. Seleccin de las categoras gramaticales2. Complejidad de la estructura3. Condensacin sintctica4. Impersonalidad de la frase

    En lo que se refiere a la seleccin de las categoras gramaticales se subrayan lossiguientes fenmenos:

    Predominio de los nombres Empleo especial de categoras gramaticales, sobre todo en relacin al verbo (y

    por tanto a los pronombres personales):

    Ausencia de la 2

    persona singular y plural Raramente, uso de la 1

    persona singular a favor de nosotros

    La ausencia de ciertas palabras o morfemas gramaticales de la morfologa

    verbal:

    Predominio de la 3

    persona del singular Predominio del presente Indicativo Frecuencia de la 2

    persona plural del imperativo Predominio de las frases declarativas El uso reduce frases interrogativas directas

    Respecto a la complejidad estructural, se distinguen como especficos delos textos

  • 7/25/2019 Corpus de texto de especialidad

    19/39

    especializados los siguientes rasgos gramaticales:

    Escasa longitud de la frase Abundancia de sintagmas nominales Nominalizacin de los verbos

    Frecuencia de expansiones de nombres y SN Abundancia de frases relativas

    4 Otros autores, adems de Kocourek han realizado estudios sobre el tema. Entre ellos destacamos lossiguientes: Phal (1968), Vigner et Martin (1976), Kocourek (1982, 1991), Loffler-Laurian (1980, 1982,1983, 1985, 1986), D. Candel (1984), Hoffmann (1985) y L'Homme(2005)

  • 7/25/2019 Corpus de texto de especialidad

    20/39

    Construcciones de participio y de infinitivo Diversidad de conjunciones circunstanciales Construcciones insertadas en la frase

    En cuanto a la condensacin sintctica destacan los fenmenos siguientes:

    Uso abundante de la pronominalizacin Uso de frases de infinitivo y participio Nominalizacin de formas verbales

    Y, finalmente, la impersonalidad de la frase en los textos de especialidad se proyecta enlos siguientes fenmenos:

    Pronombre de modestia: nosotros Uso del impersonal uno/una como sujeto del verbo

    Giros impersonales tales como es + adjetivo (probable, cierto, sorprendente,

    etc), resulta que, conviene que, se ha dicho que, etc.

    Abundancia de la voz pasiva

    Adems de todas estas caractersticas gramaticales, se han subrayado en el planotextual:

    Falta de ciertos gneros (cartas, piezas teatrales, etc.) Abundancia de ciertos gneros: dependencia de dominio (derecho, medicina,

    genmica, etc.)

    Control de la estructuracin de la informacin (marcadores discursivos y meta-

    discursivos, tablas, listas, etc.)

    Y en el plano lxico:

    La abundante presencia de terminologa La evitacin de unidades polismicas La tendencia a usar sistemticamente la misma unidad para un concepto

    evitando as el uso de sinnimos

    terminar, en el plano grfico,

    Y, pararepresentaciones icnicas o unidades lxicas hbridas: comando-c, etc.

    El anlisis realizado sobre nuestro doble corpus se ha limitado a lossiguientes

  • 7/25/2019 Corpus de texto de especialidad

    21/39

    fenmenos:

    la presencia de smbolos, frmulas,

    Clases gramaticales: N, V, Adj, Adv, Prep, Conj Nombres propios y nombres comunes

    Gnero y nmero de los nombres Nombre precedido de determinante definido Adjetivos calificativos Pronombres relativos Persona, modo y tiempo de los verbos Formas verbales no personales Preposiciones

  • 7/25/2019 Corpus de texto de especialidad

    22/39

    Conjunciones

    Dentro de los nombres y pronombres:

    N + Adj N + SP Pronombres 1

    , 2

    , 3

    persona singular y plural Forma impersonal se Pronombres relativos: que, quien(es), cuyo(s)

    En el apartado de las formas verbales, se han analizado:

    Tiempos: presente/pasado Persona: 1

    , 2

    , 3

    Nombre: singular/plural Formes en 1

    , 2

    , 3

    persona en activa/pasiva Modo indicativo/subjuntivo/imperativo/condicional

    Se han observado adems algunas preposiciones, conjunciones simples y complejas,concretamente las siguientes :

    Preposicin de Conjunciones coordinativas: y, o, ni, pero Conjunciones subordinadas: porque

    Conjunciones subordinadas complejas: por consiguiente, puesto que, de formaque, a menos que, si bien, ni siquiera, aun cuando, tanto ms cuanto, a menosque

    Algunos marcadores metadiscursivos Lema = aludir, definir, designar, llamar, sobreentender Lema = conocer, definir, entender + como Lema = entender + por Lema = querer + Lema = decir Lema = recibir + el nombre de es decir esto es o sea

    Los resultados a los que hemos llegado se muestran en los siguientes cuadros:

  • 7/25/2019 Corpus de texto de especialidad

    23/39

    TG

    TG

    TETE

    Adj qualificat.Adj qualificat.

    381.813381.813

    430.576

    430.576N+AdjN+Adj

    N+SPN+SP

    150.386 (38,07%)150.386 (38,07%)

    225.856 (42,68%)225.856 (42,68%)

    244.635 (61,93%)244.635 (61,93%)

    303.469 (57,33%)303.469 (57,33%)

    N+participeN+participe

    ----

    TGTG

    ----

    TETE

    FormesFormespersonnelles

    personnelles

    Formes non

  • 7/25/2019 Corpus de texto de especialidad

    24/39

    Formes nonpersonnellespersonnelles

    497.278497.278

    454.947454.947

    187.252187.252

    169.819169.819

    TGTG

    TETE

    prsentprsent

    287.983287.983

    312.423312.423

    pass

    pass

    148.318148.318

    40.07940.079

  • 7/25/2019 Corpus de texto de especialidad

    25/39

    TGTG

    TETE

    IndicatifIndicatif

    313.992313.992

    219.648219.648

    SubjonctifSubjonctif

    9.4379.437

    8.3158.315

    AmbiguesAmbiguesAmbiguesAmbiguesImperatif--IndicatifImperatif--IndicatifIndicatifIndicatifImperatifImperatifAmbiguesAmbiguesAmbiguesAmbiguesImperatif--SbjonctifImperatif--SbjonctifSbjonctifSbjonctifImperatif

    ImperatifConditionnelConditionnel

  • 7/25/2019 Corpus de texto de especialidad

    26/39

    115.917115.917115.917115.917

    120.258

    120.258120.258120.258

    29.614 (0,72%)29.614 (0,72%)29.614 (0,72%)29.614 (0,72%)

    41.202 (0,88%)41.202 (0,88%)41.202 (0,88%)

    41.202 (0,88%)9.3789.378

    7.6127.612

    1re personne1re personne2me personne2me personne3me personne

    3me personne

    TGTG36.243 (12,47%)36.243 (12,47%)4.525 (1,56%)4.525 (1,56%)249.989 (85,9 %)249.989 (85,9 %)

    TETE26.190 (11,61%)26.190 (11,61%)3.316 (1,47%)3.316 (1,47%)196.049 (86,9 %)196.049 (86,9 %)

    1

    singulier/pluriel1

    singulier/pluriel

    23.270/12.97323.270/12.973

    12.472/13.71812.472/13.718

  • 7/25/2019 Corpus de texto de especialidad

    27/39

    2

    singulier/ pluriel2

    singulier/ pluriel

    4.214/3114.214/311

    3.210/1063.210/106

    Total formes singTotal formes sing

    174.904 (63,08%)174.904 (63,08%)

    102.389 (36,92%)102.389 (36,92%)

    Total formes plur.Total formes plur.

    115.853 (48,48%)115.853 (48,48%)

    123.166 (51,52%)123.166 (51,52%)

    TGTG3.4693.469

    TETE3.5623.562

    passivepassiveactiveactive

    1

    sing/plur1

    sing/plur2

    sing/plur2

    sing/plur3

    sing/plur3

    sing/plur

    16/1716/170/00/01.892/1.5441.892/1.544

    0/00/01/0

  • 7/25/2019 Corpus de texto de especialidad

    28/39

    1/01.570/1.9911.570/1.991

    TotalTotal

    queque

    TGTG

    120.453120.453

    TETE

    105.222105.222

    114.204114.204

    97.39197.391

    cual, cualescual, cuales

    1.216

    1.216

    quien, quienesquien, quienes

    1.1031.103

    cuyo,-a, cuyos, -ascuyo,-a, cuyos, -as

    1.7431.743

    se impersonnelse impersonnel

    69.86769.867

    3.9483.948

    387387

    2.9732.973

  • 7/25/2019 Corpus de texto de especialidad

    29/39

    97.41897.418

  • 7/25/2019 Corpus de texto de especialidad

    30/39

    Total conjTotal conj

    ninioo

    peroperoque (completif)que (completif)porqueporque

    TGTG239.895239.895

    4.496

    4.49613.24013.24015.57415.57442.11642.1166.0286.028

    puesto quepuesto quede forma quede forma quea menos quea menos quesi biensi bienaun cuandoaun cuandotanto ms cuantotanto ms cuantoa menos quea menos quePor consiguiente

    Por consiguiente

    TG

  • 7/25/2019 Corpus de texto de especialidad

    31/39

    TG

    272272999933

    332122121717111133332121

    TotalTotal

    V type llamar,V type llamar,denominar + (det) Ndenominar + (det) NVentender + porVentender + por

    querer decirquerer decir

    Recibir el nombre deRecibir el nombre de

    es decires decir

    o seao sea

    esto esesto es

    TGTG3.0923.0922.6202.620

    272716816855

    50050085

  • 7/25/2019 Corpus de texto de especialidad

    32/39

    85180180

    TETE235.434

    235.434

    2.0872.08735.69035.6907.4127.41226.30526.3052.0922.092

    TETE

    863863334334209209587587173

    1739696209209400400

    TETE8.0678.0674.8584.858

    979719919964641.5521.552307307

    449449

  • 7/25/2019 Corpus de texto de especialidad

    33/39

    5. A modo de conclusin

    Partamos del principio de que las denominadas lenguas de especialidad forman partedel conjunto de la lengua como globalidad y en ella pueden constituir conjuntos

    nicamente virtuales. Si compartimos este principio, las lenguas de especialidad serannicamente variedades o estilos de la lengua como totalidad. Sera sobre la base delostextos producidos en las situaciones de comunicacin especializada que podramosextraer sus caractersticas discriminantes en relacin de contraste con las produccionesno especializadas. Estas caractersticas comprenden tanto recursos lxicos,comomorfolgicos, sintcticos y grficos.

  • 7/25/2019 Corpus de texto de especialidad

    34/39

    De todos los fenmenos que los analistas haban considerado discriminantes, en esteestudio emprico sobre un corpus de especialidad amplio hemos podido comprobar quesolamente algunos de estos rasgos aparecan con suficiente frecuencia enlos textosespecializados, pero otros no podan considerarse representativos por su

    falta defrecuencia. En contraste, se han podido observar otros fenmenos que nohabandescrito las obras sobre los lenguajes de especialidad.

    De entre los fenmenos no descritos podemos subrayar los siguientes:

    Nombres propios menos representativos en LE Predominio de N+Adj en LE Pronombres de 1

    persona singular y plural ms presentes en LG Distribucin complementaria de las formas del pronombre relativo (salvo que)

    Conjunciones complejas en LE Que completivo en LG Conjuncin o en LE Conjuncin pero, porque, ni en LG Marcadores metadiscursivos en LE, etc.

    Y en cambio los datos han confirmado que los siguientes rasgos aparecen comosignificativos de los textos de especialidad:

    Predominio de nombres (respecto a otras categoras; no ms que en LG) Empleo especial de categoras gramaticales, sobre todo en relacin al ver

    bo (y por

    tanto a los pronombres personales):

    Ausencia de la 2

    persona del singular y del plural Raramente, uso de la 1

    persona singular a favor de nosotros Uso considerable de la 3

    persona del singular, reforzada con el sujeto impersonal

    Predominio del presente de indicativo (respecto al tiempo pasado) Expansin adjetival de los nombres Nominalizacin de formas verbales Predominio de la voz pasiva Nosotros Uno

    Con estos resultados pensamos poder contribuir a la caracterizacin gramatical delostextos especializados y facilitar as su tratamiento automtico.

    4. Bibliografa

    Beaugrande, R. de; Dressler, W. (1997) Introduccin a la lingstica del texto.

  • 7/25/2019 Corpus de texto de especialidad

    35/39

    Barcelona, Ariel

  • 7/25/2019 Corpus de texto de especialidad

    36/39

    Cabr, M.T. (1998) VariacI pel tema. El discurs especialitzat o la variaci funcionaldeterminada per la temtica: noves perspectives. En: Caplletra, Revista Internacional deFilologa, Tardor, 1998, pp. 137-194.

    Cajolet-Laganire, H. and N. Maillet (1995). Caractrisation des textes te

    chniquesqubcois , Prsence francophone 47, pp. 113-147.

    Ciapuscio, G. (2003). Textos especializados y terminologa. Barcelona: IULA.

    Coulon, R. (1972). French as it is written by French sociologists ,Bulletinpdagogique des IUT18, pp. 11-25.

    Harris, Z. (1952) Discourse Anlisis. En: Language, 28, 1-30, pp. 474-494.

    Hoffmann, L. (1976). Kommunikationsmittel Fachsprache Eine Einfhrung, Ber

    lin:Sammlung Akademie Verlag.

    Kocourek, R. (1991). La langue franaise de la technique et de la science. Vers unelinguistique de la langue savante, Wiesbaden: Oscar Branstetter.

    L'Homme, M.C. (1993). Contribution l'analyse grammaticale de la langue despcialit : le mode, le temps et la personne du verbe dans quelques textes,scientifiquescrits vocation pdagogique. Qubec: Universit Laval.

    L'Homme,M.C. (1995). Formes verbales de temps et texte scientifique , Le langage

    et l'homme,31(2-3), pp. 107-123.

    Lauffler-Laurian, A.M. (1983) Typologie des discours scientifiques : deux approches.En : tudes de Linguistique Applique, 51

    Lauffler-Laurian, A.M. (1984) Vulgarisation scientifique: formulation, reformulation,traduction. Langue Franaise, 64, pp. 109-125

    Opitz, K. (1980).Language for Special Purposes. AnFachsprache 2(2), pp. 21-27.

    Sager, J.C.; Dungworth,D. (1980) English Special Languages. Wiesbaden, OscarBrandstetter Verlag.

    intractable presence,

  • 7/25/2019 Corpus de texto de especialidad

    37/39

  • 7/25/2019 Corpus de texto de especialidad

    38/39

  • 7/25/2019 Corpus de texto de especialidad

    39/39