corpus de texto de especialidad
TRANSCRIPT
-
7/25/2019 Corpus de texto de especialidad
1/39
Cabr, M. T. (2007). Constituir un corpus de textos de especialidad: condiciones yposibilidades. EnBallard, M.; Pineira-Tresmontant, C. (ed.). Les corpus en linguistique et en traductologie. Arras: ArtoisPresses Universit. 89-106. ISBN 978-2-84832-063-2
Constituir un corpus de textos de especialidad: condiciones y posibilidades
M. Teresa Cabr
Institut Universitari de Lingstica Aplicada
Universitat Pompeu Fabra (Barcelona)
No cabe duda de que el desarrollo de corpus textuales ha permitido a la lingsticadescriptiva dar un salto cualitativo muy importante. Este avance ha abierto a loslingistas la posibilidad de dar cuenta de forma ms adecuada del funcionamiento delaslenguas ya que los anlisis han podido basarse por primera vez en muestrasrepresentativas y abundantes de producciones lingsticas, no limitadas nisesgadassubjetivamente como suceda anteriormente. Adems de este argumento, la denominadaLingstica de corpus permite explorar exhaustivamente las producciones lingsticas y,
con ello, ofrece al lingista muestras de datos que mediante un anlisismanual nollegan a la misma profundidad.
En esta ponencia nos proponemos tres objetivos. En primer lugar, expondremos algunasde las caractersticas de los denominados lenguajes de especialidad, que son la fuentede los textos especializados. En segundo lugar, presentaremos brevemente el corpustextual especializado del Instituto Universitario de Lingstica Aplicada como muestra
de adaptacin a las condiciones mencionadas en el primer objetivo. Y en tercer lugar,mostraremos, a modo de ejemplo, un estudio sobre el contraste entre los textos deespecialidad y los textos no especializados a travs de sus caractersticas lingstico-gramaticales.
1. La constitucin de un corpus de especialidad: cuestiones y criterios
Ante el propsito de constituir un corpus textual de especialidad la primera cuestin que
se plantea es qu entendemos por texto especializado o cmo discriminamos los textosespecializados. Sin una respuesta clara a esta pregunta no podemos iniciar, obvi
-
7/25/2019 Corpus de texto de especialidad
2/39
amente,la seleccin del material.
1.1 Establecidos los criterios que permiten discriminar del universo de los textosproducidos por los especialistas en situaciones profesionales, debemos plantearnos qu
tipo de textos de especialidad debemos tener en cuenta para que el corpus resultesuficientemente equilibrado.
En tercer lugar, debemos plantearnos la cantidad de producciones que formarn parte deeste corpus si pretendemos o bien que sea lo suficientemente representativo de cadaespecialidad o bien que sea suficiente para poder analizar un tema determinadopreviamente. Cabe hacer pues en este punto una precisin previa a la constitucin del
corpus, y sobre todo a la decisin sobre su dimensin : para qu se constituye el corpusque vamos a elaborar? Qu finalidad pretendemos que cumpla este corpus ?A questudios lingsticos queremos que d lugar?
-
7/25/2019 Corpus de texto de especialidad
3/39
Y tras la resolucin de estas tres cuestiones ya podemos iniciar el proceso de trabajo,que, lgicamente, deber plantearse otras cuestiones ya de tipo ms tcnico:sea detcnica relativa a la lingstica, sea de tcnica informtica.
Finalmente, una vez constituido el corpus en formato digital, debemosentrar en laprogramacin de sus posibilidades de exploracin, posibilidades que deben haberseestablecido en la etapa preliminar de caracterizacin del corpus a elaborar.
Vayamos respondiendo paso a paso cada una de estas cuestiones.
a) Qu es un texto especializado? Y cmo reconocemos entre todos los textos
aquellos que son especializados?
Los textos especializados son las producciones lingsticas, orales o escritas, que seproducen en escenarios de comunicacin profesional y sirven exclusivamente a unafinalidad profesional. Se reconocen los escenarios profesionales por los interlocutoresque actan en la situacin, por el tratamiento de una temtica relativa al dominio odominios concernidos por la profesin y por la finalidad esencial de buscar lainformacin del receptor, aunque para ello se utilicen estrategias discursivas dis
tintas.
Analticamente los textos especializados se definen por tres tipos de condiciones:
Condiciones discursivas: las propias del escenario especializado de este tipo
de comunicacin
Condiciones cognitivas: el tema de qu tratan y la forma precisa de tratarlo Condiciones lingsticas: las condiciones textuales generales (precisin,concisin y sistematicidad, las dos ltimas en grados diversos segn lascondiciones discursivas), la forma textual macro y micro del texto, ysobretodo las unidades lxicas propias del dominio de que trata el texto.
b) Qu variables podemos considerar en un corpus textual especializado?
Los textos de especialidad no son homogneos, sino que se organizan en tipos distintosen funcin de los criterios de clasificacin que se tomen en consideracin. Los criter
iosque en nuestra opinin son los ms relevantes para organizar los textos de especialidad
-
7/25/2019 Corpus de texto de especialidad
4/39
en un corpus son los siguientes:
El tema
La perspectiva o dimensin disciplinar El nivel de especializacin Las fuentes El gnero textual La clase de texto por la estrategia discursiva Las lenguas En el caso de los plurilinges (bilinges, y trilinges, etc.), por la relacin
entre los textos de las lenguas del corpus.
Por el tema, distinguimos entre corpus unidisciplinares y pluridisciplinares. El
tema deun corpus puede abarcar un mbito completo o solo una perspectiva de un mbito. Un
-
7/25/2019 Corpus de texto de especialidad
5/39
ejemplo de este segundo caso podra ser el banco de derecho medioambientaldesarrollado por el grupo TERMISUL de la Universidad de Porto Alegre (Brasil).
Por el nivel de especializacin, un corpus puede incluir textos de un
solo nivel deespecialidad (por ejemplo: textos de artculos cientficos procedentes de revistashomogneas) o bientextos de distintos niveles deespecialidad1.
incluir estructuradamente
Por el canal de transferencia, los textos del corpus pueden proceder de un solo
tipo defuente o de fuentes diversas. La diversidad de las fuentes puede obedecer tambina unaamplia diversidad de criterios, el que aqu nos interesa es el criterio del canal detransmisin, por el cual los textos de un corpus pueden ser exclusivamente orales oescritos o audiovisuales, o bien incluir muestras de todas las posibilidades.
Por el gnero textual un corpus puede ser homogneo e incluir solamente textos de un
gnerorevistas cientficas) o bien comprenderestructuradamente textos de distintos gneros textuales.
(por ejemplo, abstracts de
Por el tipo de texto segn la estrategia discursiva, los corpus pueden ser heterogneos uhomogneos en cuanto a la clase textual (por ejemplo, un corpus homogneo incluirasolo textos argumentativos, o narrativos).
Segn el criterio de las lenguas, los corpus pueden ser monolinges, bilinges,trilinges, etc. Y si comprenden textos de ms de una lengua, estos pueden sercoincidentes solo en la temtica o bien comprender textos en una lengua y sucorrespondiente traduccin en la segunda o tercera lengua. En este ltimocaso sedenominan corpus paralelos.
c) Qu dimensiones debe tener un corpus especializado?
-
7/25/2019 Corpus de texto de especialidad
6/39
La respuesta a esta cuestin slo puede ser: depende del corpus que hayamos decididoelaborar en lo que se refiere a su finalidad. Para qu va a servir un corpus? Paraextraer datos que sean representativos del uso de una lengua en su conjunto? En este
caso deberemos constituir un tipo de corpus, que se ha denominado corpus dereferencia, que incluya una muestra representativa de la totalidad dela lengua,entendida en toda su variacin interna y externa. Pero si de lo que se trata es deconstituir un corpus para investigar sobre uno a distintos problemas, la dimensindelcorpus debe adecuarse a la resolucin de las finalidades que se propone. Por ejemplo, elcorpus que hay que constituir para analizar el uso de un pronombreen situacin
encltica ser evidentemente menor que el que necesitamos para extraer la terminologade un dominio de especialidad; y este ltimo podr ser menor al necesario para extraercolocaciones.
1.2 El proceso de constitucin del corpus
1 La pertenencia de un texto a un nivel de especialidad alto, medio
o bajo suele basarse en lascaractersticas de los destinatarios, el medio en qu aparecen y las finalidades del texto. As, un textoproducido por un especialista para estudiantes ser un texto de nivel medio de especialidad. Para msinformacin puede verse Cabr (1998) o Ciapuscio (2003).
-
7/25/2019 Corpus de texto de especialidad
7/39
La construccin efectiva una vez se han establecido sus caractersticas es un procesoque se distribuye en distintas fases:
a. Seleccin de fuentesb. Criterios de seleccin de los textos y decisin sobre si tomar el te
xto
completo o fragmentos del mismo2
c. Decisiones sobre la arquitectura de la based. Decisiones sobre la infraestructura de hardware y software (sistema de
gestin de corpus textuales)
e. Seleccin de las convenciones para la representacin de los textosf. Criterios, lenguaje y sistema de marcaje estructuralg. Criterios, lenguaje y sistema de marcaje lingstico
1.3 Herramientas de exploracin
Los textos de un corpus pueden procesarse en bruto o procesados lingsticamente. Siseopta por la segunda va, parece lgico que debemos contar con recursos y herramientasde tratamiento automtico de la informacin:
Herramientas de marcaje estructural y lingstico Diccionario inicial de procesamiento Sistema de anlisis morfolgico Sistema de lematizacin Sistema de desambiguacin Sistema de gestin de diccionarios Sistema de estructuracin sintctica (chuncker), etc.
1.4 Posibilidades de explotacin
las posibilidades de explotacin
Finalmente,lingstica de un corpus estncondicionadas por el tratamiento que los datos han recibido en la fase de tratamiento.Las posibilidades de aplicacin de los datos de corpus suelen materializarse en losmbitos siguientes:
En la ingeniera lingstica, para el desarrollo de herramientas y robots En la extraccin de informacin para fines investigadores, docentes,
industriales, editoriales, etc.
-
7/25/2019 Corpus de texto de especialidad
8/39
En la recuperacin de informacin en los servicios documentales y
bibliogrficos
La utilizacin primaria que los lingistas hacemos de los corpus de espec
ialidad seorientan fundamentalmente a:
La investigacin sobre discurso especializado, terminologa y fraseologa
especializadas
La elaboracin de diccionarios especializados
2 Esta decisin est condicionada por los estudios que desearemos hacer a travs del corpus. Para elanlisis textual (conectores, estructura informativa, gneros textuales, etc.) se requieren textos completos.
-
7/25/2019 Corpus de texto de especialidad
9/39
La enseanza de lenguas de especialidad o de lenguas para propsitos
especficos
Para la enseanza de lenguas de especialidad, los corpus ofrecen la posibilidad de
programar ms adecuadamente los contenidos (adecuacin a necesidades y grado deconocimientos de los estudiantes), de elaborar ejercicios y de alimentar sistemas deautoaprendizaje de lenguas.
En el campo de la documentacin, y concretamente para la gestin de informacin, loscorpus proveen de informacin para la construccin automtica o asistida de tesauros,para la indizacin automtica y para la elaboracin de sistemas de clasificacin dedocumentos o de refinamiento de las consultas orientadas a perfiles de necesidades de
usuario.
2. El corpus tcnico plurilinge del IULA
El Instituto Universitario de Lingstica Aplicada (IULA) es un centro delaUniversidad Pompeu Fabra, de Barcelona, dedicado a la investigacin y a la formacinde postgrado. Fue creado en 1993 y organizado desde su creacin por M
Teresa Cabr.El IULA se organiza en grupos de investigacin: Lxico, Terminologa y disc
ursoespecializado (Grupo IULATERM, que acogela Lingstica Computacional),Lexicografa (Grupo INFOLEX), Variacin lingstica (Grupo UVAL), Documentaciny edicin digital (Grupo DIGIDOC) y tres laboratorios: OBNEO (Observatorio deNeologa), LATEL (Laboratorio de Tecnologas Lingsticas) y el Laboratorio deLingstica Forense. Desde 1993 hasta la actualidad, el proyecto Corpus ha sido elproyecto de investigacin comn en el que han participado todos los miembros delIULA. Recopila textos escritos en cinco lenguas diferentes (cataln, castellano, ingls,francs y alemn) de las reas de especialidad de la economa, el derecho,el medioambiente, la medicina y la informtica El corpus comprende adems documentosparalelos, con el objetivo de facilitar estudios de traduccin A su vez, el corpusmultilinge del IULA cuenta con un subcorpus de lengua general, extrado de la prensade gran difusin y constituido como corpus contrastivo
El objetivo de este corpus es facilitar el anlisis de los datos lingsticos a fin depoder
establecer las leyes que rigen el comportamiento de cada lengua en cada rea. Susdestinatarios son los investigadores y todos los usuarios que requieran consulta
-
7/25/2019 Corpus de texto de especialidad
10/39
s sobrelos mbitos de especialidad tratados. De la explotacin del corpus se han derivadoestudios de carcter terminolgico, discursivo, morfolgico, sintctico, neolgicootraductolgico. Para facilitar la explotacin de los datos, el IULA ha desarrolladouna
serie de herramientas de exploracin. Una muestra de estas herramientasson unextractor automtico de neologa, un detector automtico de terminologa, un alineadorde textos, un alimentador de diccionarios, etc. De hecho, este corpuses el soporteprincipal de las actividades de investigacin y docencia de nuestro instituto.
La herramienta que permite acceder a los datos del corpus a travs deInternet esBwanaNet, que puede encontrarse en la pgina principal de la web del IULA (), en el apartado denominado Portal de recursos del IULA.
-
7/25/2019 Corpus de texto de especialidad
11/39
(AN)(OR)(MA)(PQ)(TE)
(PS)
(CB)(CF)(FS)
analticos,
(TI)(HU)(IC)(GN)(GS)Toni Valero
El corpus del IULA contiene textos escritos en cinco lenguas diferentes (cataln,castellano, ingls, francs y alemn) de las reas de especialidad de economa, derecho,medio ambiente, medicina e informtica, adems de documentos paralelos sobre estasmaterias. Cada una de las reas fue estructurada en diferentes subreas por unespecialista, a fin de que los textos pudieran recuperarse con mayor precisin temtica
Vase a continuacin cmo est estructurada el rea de la medicina:
Anatoma
OrganismosEnfermedadesProductos qumicos y frmacosTcnicas yequipamientosdiagnsticos y teraputicosPsiquiatra y sicologaCiencias biolgicasCiencias fsicasAntropologa, educacin, sociologa yfenmenos socialesTecnologa, industria, agriculturaHumanidadesInformacin cientficaGrupos nominalesPlanificacin y gestin sanitariaAsesor:
El procesamiento de los textos del corpus sigue los siguientes pasos:
a) Fase de seleccin de los textosLos especialistas en cada materia seleccionan aquellos textos que consideran pertinentesy los clasifican temticamente dentro de una estructuracin del dominio previamente
consensuada por especialistas de la materia.
b) Fase de anotacin y registro de la informacin del documento
-
7/25/2019 Corpus de texto de especialidad
12/39
Los documentos se marcan de acuerdo con el estndar SGML y siguiendo las directricesmarcadas por el Corpus Encoding Standard (CES) de la iniciativa EAGLES.Posteriormente se registra la informacin documental de los textos (autor, ttulo,edicin, pginas seleccionadas, subdominio al cual pertenece, idiomas en qu
e esemismo documento se encuentra en el corpus).
c) Fase de procesamiento lingsticoEl procesamiento lingstico de los documentos est automatizado y consta de unpreproceso, a travs del cual se tratan lingsticamente aquellas entidades que admitenuna deteccin automtica previa al anlisis morfolgico (fechas, nmeros, locuciones,nombres propios, abreviaturas), un anlisis morfolgico, mediante el cual se lematizantodas las palabras de los documentos y se les da una o ms etiquetas morfolgicas, d
eacuerdo con los etiquetarios morfosintcticos diseados en el IULA, y unaposteriordesambiguacin lingstica y estadstica, de forma que a cada palabra le acabecorrespondiendo un solo lema y una sola etiqueta.
-
7/25/2019 Corpus de texto de especialidad
13/39
d) Almacenamiento en una base de datos textualFinalmente, cuando ya cada palabra tiene el lema y la categora gramatical que lecorresponde, los textos se almacenan en una base de datos textual, que contienetoda lainformacin que se ha generado sobre el documento El resultado de todo el procesode
tratamiento de los textos puede consultarse actualmente en lnea en .
reaDerechoEconomaMedioambienteInformtica 655 000MedicinaTotal:
Cataln1 463 000 2 085 000 431 0001 776 000 1 091 000 274 0001 506 000 1 062 000 599 000
194 0002 619 000 4 077 000 1 555 000 27 0008 019 000 9 542 000 3 197 000 573 000
Total4 039 0003 246 000
3 826 000
Alemn16 00027 000429 000
Francs44 00078 000230 000
83 000198 000753 000
2 497 0008 476 00022084000
Espaol
Ingls
1 227 000 338 000
-
7/25/2019 Corpus de texto de especialidad
14/39
Cuadro 1 Nmero de palabras por lengua y mbito
El corpus de medicina incluye un subcorpus de genoma humano, elaborado por el grupo
Iulaterm, que contiene 945 000 palabras en cataln, 1 447 000 en espaol y 1 119 000en ingls. Los datos en relacin con el corpus paralelo de las parejas lingsticas mssignificativas cataln-espaol, cataln-ingls, espaol-ingls, se presentan en el cuadro2.
reaDerechoEconomaMedio ambienteInformticaMedicina
TotalCataln-espaol460 000600 000214 00028 000118 000420 000
Espaol-ingls57 000283 000
144 000300 000640 0001 424 000
Cataln-ingls12 000250 000213 000-40 000515 000
Cuadro 2 Nmero de palabras en corpus paralelos por mbito y parejas de lenguas
Finalmente, los datos del corpus de contraste se muestran en el cuadro 3.
reaGeneral
Cataln1 526 000
Espaol3 230 000
-
7/25/2019 Corpus de texto de especialidad
15/39
Total4 756 000
Cuadro 3 Nmero de palabras en el corpus de lengua general
La consulta del corpus del IULA se realiza va Internet a travs de BwanaNet, unainterfaz desarrollada en el IULA El Corpus Tcnico del IULA (CT-IULA) estindexado con un paquete de herramientas desarrolladas por el Institut fr MaschinelleSprachverarbeitung, de la Universidad de Stuttgart (Corpus Workbench) El IULAhadesarrollado la herramienta que permite la interrogacin del CT-IULA en lnea
(brangaene.upf.es/bwananet/index htm).
-
7/25/2019 Corpus de texto de especialidad
16/39
3. Una aplicacin de la lingstica de corpus : Contrastre gramatical entre
textos especializados y textos no especializados
los
llevando acabo un proyecto de
investigacin sobre
Gracias a este corpus se han podido realizar ms de veinte tesis de doctorado3.
Adems de las tesis, el corpus ha permitido desarrollar una base de conocimiento
(GENOMA) que puede verse en www.iula.upof.edu/genoma.lasActualmente se estcaractersticas especficas delos noespecializados. Presentamos a continuacin una breve sntesis del proyecto y algunosdesus resultados.
El proyecto ESPETEX, que forma parte de un proyecto ms amplio financiado por elMinisterio de Educacin y Cultura del gobierno espaol (TEXTERM-2. Fundamentos,estrategias y herramientas para el procesamiento y extraccin automticos d
e lainformacin especializada. N
REFERENCIA: BFF2003-02111) al que contribuyen unaveintena de investigadores y colaboradores, se propone dos objetivos:
textos especializados en relacin a
Comprobar a travs de un corpus suficientemente representativo si se confirmanlas caractersticas gramaticales que los manuales de lenguajes especializadosatribuyen a los textos de especialidad.
En caso de que no se confirmen en parte o totalmente, intentar encontrar yestablecer algunos de los factores gramaticales especficos que diferencian lostextos especializados.
Para llevar a cabo el proyecto hemos partido de la lista de caractersticas de lostextosespecializados expuesta en alguno de los dos manuales siguientes:
Kocourek, R. (1991). La langue franaise de la technique et de la science. Vers
une linguistique de la langue savante, Wiesbaden: Oscar Branstetter.
-
7/25/2019 Corpus de texto de especialidad
17/39
3 Las tesinas y tesis realizadas sobre la base de los datos del corpus son las siguientes: Araceli Alonso:Descripcin y anlisis de los sufijos nominalizadores en el rea del medio ambiente. Rosanna Folguer:
Adjectius en el discurs especialitzat: una primera descripci deis adjectius en els textos del genoma hum.Vanesa Vidal: Aproximacin al fenmeno de la combinatoria verbo-nominal en el discurso especializadoen Genoma Humano. Gabriel Quiroz: Las unidades sintagmticas extensas especializadas en ingls y enespaol: descripcin y clasificacin en un corpus de genoma. John Jairo Giraldo: Anlisis y descripcinde las siglas en el discurso especializado de Genoma humano y Medio ambiente. Iria da Cunha: Haciaun modelo lingstico de resumen automtico de artculos mdicos en espaol. Rolio Nazar:
Aproximacin cuantitativa al mapeo conceptual. Carles Teb: La representaciconceptual enterminologia: l'atribuci temtica en els bancs de dades terminolgiques. Ricardo Guantiva:Terminologa y variacin vertical: clasificacin de textos en niveles de especializacina partir del anlisisdel tipo y la densidad de las unidades terminolgicas. Ona Domnech: Textos especialitzats i variacivertical: la diversitat terminolgica com a factor discriminant del nivell d'especialitzaci d'un text.
-
7/25/2019 Corpus de texto de especialidad
18/39
Sager, J.C.; Dungworth,D. (1980) English Special Languages. Wiesbaden,
Oscar Brandstetter Verlag.
Estos manuales se han basado en corpus de pequea talla. En el proyecto ESPETEX. S
eha constituido un doble corpus: un primer corpus de textos especializados y un segundocorpus de textos de carcter general.
El Corpus de lengua general (prensa) consta de 5.002.121 palabras en 155 documentosdel Corpus de l'IULA.
El corpus de especialidad se compone de 5.018.193 palabras en 251 documentos delCorpus de l'IULA (Derecho, Economa, Informtica, Medio ambiente, Medicina:
1.000.000 palabras de cada dominio).Las caractersticas gramaticales no lxicas que los manuales atribuyen a los textos deespecialidad se distribuyen, siguiendo a Kocourek (1982, 1991), en cuatro grupos4:
1. Seleccin de las categoras gramaticales2. Complejidad de la estructura3. Condensacin sintctica4. Impersonalidad de la frase
En lo que se refiere a la seleccin de las categoras gramaticales se subrayan lossiguientes fenmenos:
Predominio de los nombres Empleo especial de categoras gramaticales, sobre todo en relacin al verbo (y
por tanto a los pronombres personales):
Ausencia de la 2
persona singular y plural Raramente, uso de la 1
persona singular a favor de nosotros
La ausencia de ciertas palabras o morfemas gramaticales de la morfologa
verbal:
Predominio de la 3
persona del singular Predominio del presente Indicativo Frecuencia de la 2
persona plural del imperativo Predominio de las frases declarativas El uso reduce frases interrogativas directas
Respecto a la complejidad estructural, se distinguen como especficos delos textos
-
7/25/2019 Corpus de texto de especialidad
19/39
especializados los siguientes rasgos gramaticales:
Escasa longitud de la frase Abundancia de sintagmas nominales Nominalizacin de los verbos
Frecuencia de expansiones de nombres y SN Abundancia de frases relativas
4 Otros autores, adems de Kocourek han realizado estudios sobre el tema. Entre ellos destacamos lossiguientes: Phal (1968), Vigner et Martin (1976), Kocourek (1982, 1991), Loffler-Laurian (1980, 1982,1983, 1985, 1986), D. Candel (1984), Hoffmann (1985) y L'Homme(2005)
-
7/25/2019 Corpus de texto de especialidad
20/39
Construcciones de participio y de infinitivo Diversidad de conjunciones circunstanciales Construcciones insertadas en la frase
En cuanto a la condensacin sintctica destacan los fenmenos siguientes:
Uso abundante de la pronominalizacin Uso de frases de infinitivo y participio Nominalizacin de formas verbales
Y, finalmente, la impersonalidad de la frase en los textos de especialidad se proyecta enlos siguientes fenmenos:
Pronombre de modestia: nosotros Uso del impersonal uno/una como sujeto del verbo
Giros impersonales tales como es + adjetivo (probable, cierto, sorprendente,
etc), resulta que, conviene que, se ha dicho que, etc.
Abundancia de la voz pasiva
Adems de todas estas caractersticas gramaticales, se han subrayado en el planotextual:
Falta de ciertos gneros (cartas, piezas teatrales, etc.) Abundancia de ciertos gneros: dependencia de dominio (derecho, medicina,
genmica, etc.)
Control de la estructuracin de la informacin (marcadores discursivos y meta-
discursivos, tablas, listas, etc.)
Y en el plano lxico:
La abundante presencia de terminologa La evitacin de unidades polismicas La tendencia a usar sistemticamente la misma unidad para un concepto
evitando as el uso de sinnimos
terminar, en el plano grfico,
Y, pararepresentaciones icnicas o unidades lxicas hbridas: comando-c, etc.
El anlisis realizado sobre nuestro doble corpus se ha limitado a lossiguientes
-
7/25/2019 Corpus de texto de especialidad
21/39
fenmenos:
la presencia de smbolos, frmulas,
Clases gramaticales: N, V, Adj, Adv, Prep, Conj Nombres propios y nombres comunes
Gnero y nmero de los nombres Nombre precedido de determinante definido Adjetivos calificativos Pronombres relativos Persona, modo y tiempo de los verbos Formas verbales no personales Preposiciones
-
7/25/2019 Corpus de texto de especialidad
22/39
Conjunciones
Dentro de los nombres y pronombres:
N + Adj N + SP Pronombres 1
, 2
, 3
persona singular y plural Forma impersonal se Pronombres relativos: que, quien(es), cuyo(s)
En el apartado de las formas verbales, se han analizado:
Tiempos: presente/pasado Persona: 1
, 2
, 3
Nombre: singular/plural Formes en 1
, 2
, 3
persona en activa/pasiva Modo indicativo/subjuntivo/imperativo/condicional
Se han observado adems algunas preposiciones, conjunciones simples y complejas,concretamente las siguientes :
Preposicin de Conjunciones coordinativas: y, o, ni, pero Conjunciones subordinadas: porque
Conjunciones subordinadas complejas: por consiguiente, puesto que, de formaque, a menos que, si bien, ni siquiera, aun cuando, tanto ms cuanto, a menosque
Algunos marcadores metadiscursivos Lema = aludir, definir, designar, llamar, sobreentender Lema = conocer, definir, entender + como Lema = entender + por Lema = querer + Lema = decir Lema = recibir + el nombre de es decir esto es o sea
Los resultados a los que hemos llegado se muestran en los siguientes cuadros:
-
7/25/2019 Corpus de texto de especialidad
23/39
TG
TG
TETE
Adj qualificat.Adj qualificat.
381.813381.813
430.576
430.576N+AdjN+Adj
N+SPN+SP
150.386 (38,07%)150.386 (38,07%)
225.856 (42,68%)225.856 (42,68%)
244.635 (61,93%)244.635 (61,93%)
303.469 (57,33%)303.469 (57,33%)
N+participeN+participe
----
TGTG
----
TETE
FormesFormespersonnelles
personnelles
Formes non
-
7/25/2019 Corpus de texto de especialidad
24/39
Formes nonpersonnellespersonnelles
497.278497.278
454.947454.947
187.252187.252
169.819169.819
TGTG
TETE
prsentprsent
287.983287.983
312.423312.423
pass
pass
148.318148.318
40.07940.079
-
7/25/2019 Corpus de texto de especialidad
25/39
TGTG
TETE
IndicatifIndicatif
313.992313.992
219.648219.648
SubjonctifSubjonctif
9.4379.437
8.3158.315
AmbiguesAmbiguesAmbiguesAmbiguesImperatif--IndicatifImperatif--IndicatifIndicatifIndicatifImperatifImperatifAmbiguesAmbiguesAmbiguesAmbiguesImperatif--SbjonctifImperatif--SbjonctifSbjonctifSbjonctifImperatif
ImperatifConditionnelConditionnel
-
7/25/2019 Corpus de texto de especialidad
26/39
115.917115.917115.917115.917
120.258
120.258120.258120.258
29.614 (0,72%)29.614 (0,72%)29.614 (0,72%)29.614 (0,72%)
41.202 (0,88%)41.202 (0,88%)41.202 (0,88%)
41.202 (0,88%)9.3789.378
7.6127.612
1re personne1re personne2me personne2me personne3me personne
3me personne
TGTG36.243 (12,47%)36.243 (12,47%)4.525 (1,56%)4.525 (1,56%)249.989 (85,9 %)249.989 (85,9 %)
TETE26.190 (11,61%)26.190 (11,61%)3.316 (1,47%)3.316 (1,47%)196.049 (86,9 %)196.049 (86,9 %)
1
singulier/pluriel1
singulier/pluriel
23.270/12.97323.270/12.973
12.472/13.71812.472/13.718
-
7/25/2019 Corpus de texto de especialidad
27/39
2
singulier/ pluriel2
singulier/ pluriel
4.214/3114.214/311
3.210/1063.210/106
Total formes singTotal formes sing
174.904 (63,08%)174.904 (63,08%)
102.389 (36,92%)102.389 (36,92%)
Total formes plur.Total formes plur.
115.853 (48,48%)115.853 (48,48%)
123.166 (51,52%)123.166 (51,52%)
TGTG3.4693.469
TETE3.5623.562
passivepassiveactiveactive
1
sing/plur1
sing/plur2
sing/plur2
sing/plur3
sing/plur3
sing/plur
16/1716/170/00/01.892/1.5441.892/1.544
0/00/01/0
-
7/25/2019 Corpus de texto de especialidad
28/39
1/01.570/1.9911.570/1.991
TotalTotal
queque
TGTG
120.453120.453
TETE
105.222105.222
114.204114.204
97.39197.391
cual, cualescual, cuales
1.216
1.216
quien, quienesquien, quienes
1.1031.103
cuyo,-a, cuyos, -ascuyo,-a, cuyos, -as
1.7431.743
se impersonnelse impersonnel
69.86769.867
3.9483.948
387387
2.9732.973
-
7/25/2019 Corpus de texto de especialidad
29/39
97.41897.418
-
7/25/2019 Corpus de texto de especialidad
30/39
Total conjTotal conj
ninioo
peroperoque (completif)que (completif)porqueporque
TGTG239.895239.895
4.496
4.49613.24013.24015.57415.57442.11642.1166.0286.028
puesto quepuesto quede forma quede forma quea menos quea menos quesi biensi bienaun cuandoaun cuandotanto ms cuantotanto ms cuantoa menos quea menos quePor consiguiente
Por consiguiente
TG
-
7/25/2019 Corpus de texto de especialidad
31/39
TG
272272999933
332122121717111133332121
TotalTotal
V type llamar,V type llamar,denominar + (det) Ndenominar + (det) NVentender + porVentender + por
querer decirquerer decir
Recibir el nombre deRecibir el nombre de
es decires decir
o seao sea
esto esesto es
TGTG3.0923.0922.6202.620
272716816855
50050085
-
7/25/2019 Corpus de texto de especialidad
32/39
85180180
TETE235.434
235.434
2.0872.08735.69035.6907.4127.41226.30526.3052.0922.092
TETE
863863334334209209587587173
1739696209209400400
TETE8.0678.0674.8584.858
979719919964641.5521.552307307
449449
-
7/25/2019 Corpus de texto de especialidad
33/39
5. A modo de conclusin
Partamos del principio de que las denominadas lenguas de especialidad forman partedel conjunto de la lengua como globalidad y en ella pueden constituir conjuntos
nicamente virtuales. Si compartimos este principio, las lenguas de especialidad serannicamente variedades o estilos de la lengua como totalidad. Sera sobre la base delostextos producidos en las situaciones de comunicacin especializada que podramosextraer sus caractersticas discriminantes en relacin de contraste con las produccionesno especializadas. Estas caractersticas comprenden tanto recursos lxicos,comomorfolgicos, sintcticos y grficos.
-
7/25/2019 Corpus de texto de especialidad
34/39
De todos los fenmenos que los analistas haban considerado discriminantes, en esteestudio emprico sobre un corpus de especialidad amplio hemos podido comprobar quesolamente algunos de estos rasgos aparecan con suficiente frecuencia enlos textosespecializados, pero otros no podan considerarse representativos por su
falta defrecuencia. En contraste, se han podido observar otros fenmenos que nohabandescrito las obras sobre los lenguajes de especialidad.
De entre los fenmenos no descritos podemos subrayar los siguientes:
Nombres propios menos representativos en LE Predominio de N+Adj en LE Pronombres de 1
persona singular y plural ms presentes en LG Distribucin complementaria de las formas del pronombre relativo (salvo que)
Conjunciones complejas en LE Que completivo en LG Conjuncin o en LE Conjuncin pero, porque, ni en LG Marcadores metadiscursivos en LE, etc.
Y en cambio los datos han confirmado que los siguientes rasgos aparecen comosignificativos de los textos de especialidad:
Predominio de nombres (respecto a otras categoras; no ms que en LG) Empleo especial de categoras gramaticales, sobre todo en relacin al ver
bo (y por
tanto a los pronombres personales):
Ausencia de la 2
persona del singular y del plural Raramente, uso de la 1
persona singular a favor de nosotros Uso considerable de la 3
persona del singular, reforzada con el sujeto impersonal
Predominio del presente de indicativo (respecto al tiempo pasado) Expansin adjetival de los nombres Nominalizacin de formas verbales Predominio de la voz pasiva Nosotros Uno
Con estos resultados pensamos poder contribuir a la caracterizacin gramatical delostextos especializados y facilitar as su tratamiento automtico.
4. Bibliografa
Beaugrande, R. de; Dressler, W. (1997) Introduccin a la lingstica del texto.
-
7/25/2019 Corpus de texto de especialidad
35/39
Barcelona, Ariel
-
7/25/2019 Corpus de texto de especialidad
36/39
Cabr, M.T. (1998) VariacI pel tema. El discurs especialitzat o la variaci funcionaldeterminada per la temtica: noves perspectives. En: Caplletra, Revista Internacional deFilologa, Tardor, 1998, pp. 137-194.
Cajolet-Laganire, H. and N. Maillet (1995). Caractrisation des textes te
chniquesqubcois , Prsence francophone 47, pp. 113-147.
Ciapuscio, G. (2003). Textos especializados y terminologa. Barcelona: IULA.
Coulon, R. (1972). French as it is written by French sociologists ,Bulletinpdagogique des IUT18, pp. 11-25.
Harris, Z. (1952) Discourse Anlisis. En: Language, 28, 1-30, pp. 474-494.
Hoffmann, L. (1976). Kommunikationsmittel Fachsprache Eine Einfhrung, Ber
lin:Sammlung Akademie Verlag.
Kocourek, R. (1991). La langue franaise de la technique et de la science. Vers unelinguistique de la langue savante, Wiesbaden: Oscar Branstetter.
L'Homme, M.C. (1993). Contribution l'analyse grammaticale de la langue despcialit : le mode, le temps et la personne du verbe dans quelques textes,scientifiquescrits vocation pdagogique. Qubec: Universit Laval.
L'Homme,M.C. (1995). Formes verbales de temps et texte scientifique , Le langage
et l'homme,31(2-3), pp. 107-123.
Lauffler-Laurian, A.M. (1983) Typologie des discours scientifiques : deux approches.En : tudes de Linguistique Applique, 51
Lauffler-Laurian, A.M. (1984) Vulgarisation scientifique: formulation, reformulation,traduction. Langue Franaise, 64, pp. 109-125
Opitz, K. (1980).Language for Special Purposes. AnFachsprache 2(2), pp. 21-27.
Sager, J.C.; Dungworth,D. (1980) English Special Languages. Wiesbaden, OscarBrandstetter Verlag.
intractable presence,
-
7/25/2019 Corpus de texto de especialidad
37/39
-
7/25/2019 Corpus de texto de especialidad
38/39
-
7/25/2019 Corpus de texto de especialidad
39/39