a05

20
44(75) 48-67 Revista Signos ISSN 0718-0934 © 2011 PUCV, Chile DOI: 10.4067/S0718-09342011000100004 Rogelio Nazar* [email protected] Universitat Pompeu Fabra España Resumen: Este artículo presenta una metodología para el análisis de la evolución de la terminología de un dominio especializado, medida en variación de frecuencia de uso, aparición y desaparición de los términos. Como ejemplo, el artículo describe los resultados de la aplicación de esta metodología a un corpus conformado por las actas de los congresos organizados por la Asociación Española de Lingüística Aplicada, entre los años 1983 y 2006. La metodología se resume en un algoritmo cuantitativo independiente de lengua que acepta como entrada un conjunto de ficheros de texto organizados por años y como salida selecciona términos de ese corpus calculando cómo se distribuyen sus frecuencias a lo largo del tiempo. Las propiedades geométricas de las curvas que representan las frecuencias de uso de esas unidades terminológicas permiten identificar automáticamente aquellas unidades que se ponen de moda en el dominio así como las que dejan de utilizarse. Metafóricamente, se trata de una radiografía de los cambios de paradigma que se van dando a lo largo de la historia del campo, pero también de una neología y una arqueología de su terminología, rescatando términos que sería difícil encontrar mediante inspección manual debido a la escala del corpus. El objetivo específico del artículo es proponer una alternativa a otros modelos existentes para el estudio de unidades en la escala temporal que se limitan a seguir la curva de distribución de frecuencias en el tiempo de unidades elegidas arbitrariamente por un usuario. La alternativa en este artículo ofrece una visión distinta porque es proceder del modo inverso, en lugar de introducir unidades léxicas para ver sus curvas, introducir las curvas para obtener las unidades. La utilidad de estos conjuntos de unidades puede variar en función de las necesidades. Por ejemplo, la creación de glosarios terminológicos de distintos tipos (en papel o en formato electrónico) puede requerir ya sea una nomenclatura que incluya sólo la terminología firmemente establecida en el campo o, en otros casos, incluir también las unidades neológicas o en desuso. Palabras Clave: Extracción de terminología, estadística de corpus, lingüística cuantitativa. Estudio diacrónico de la terminología especializada utilizando métodos cuantitativos: Ejemplos de aplicación a un corpus de artículos de lingüística aplicada 1 Diachronic study of specialized terminolgy using quantitative methods: Example with an application to a corpus of papers on Applied Linguistics Recibido: 24-III-2010 / Aceptado: 15-XI-2010

Upload: santiago-infante

Post on 12-Sep-2015

214 views

Category:

Documents


1 download

DESCRIPTION

h

TRANSCRIPT

  • 44(75) 48-67Revista Signos ISSN 0718-0934 2011 PUCV, ChileDOI: 10.4067/S0718-09342011000100004

    Rogelio Nazar*[email protected] Pompeu FabraEspaa

    Resumen: Este artculo presenta una metodologa para el anlisis de la evolucin de la terminologa de un dominio especializado, medida en variacin de frecuencia de uso, aparicin y desaparicin de los trminos. Como ejemplo, el artculo describe los resultados de la aplicacin de esta metodologa a un corpus conformado por las actas de los congresos organizados por la Asociacin Espaola de Lingstica Aplicada, entre los aos 1983 y 2006. La metodologa se resume en un algoritmo cuantitativo independiente de lengua que acepta como entrada un conjunto de ficheros de texto organizados por aos y como salida selecciona trminos de ese corpus calculando cmo se distribuyen sus frecuencias a lo largo del tiempo. Las propiedades geomtricas de las curvas que representan las frecuencias de uso de esas unidades terminolgicas permiten identificar automticamente aquellas unidades que se ponen de moda en el dominio as como las que dejan de utilizarse. Metafricamente, se trata de una radiografa de los cambios de paradigma que se van dando a lo largo de la historia del campo, pero tambin de una neologa y una arqueologa de su terminologa, rescatando trminos que sera difcil encontrar mediante inspeccin manual debido a la escala del corpus. El objetivo especfico del artculo es proponer una alternativa a otros modelos existentes para el estudio de unidades en la escala temporal que se limitan a seguir la curva de distribucin de frecuencias en el tiempo de unidades elegidas arbitrariamente por un usuario. La alternativa en este artculo ofrece una visin distinta porque es proceder del modo inverso, en lugar de introducir unidades lxicas para ver sus curvas, introducir las curvas para obtener las unidades. La utilidad de estos conjuntos de unidades puede variar en funcin de las necesidades. Por ejemplo, la creacin de glosarios terminolgicos de distintos tipos (en papel o en formato electrnico) puede requerir ya sea una nomenclatura que incluya slo la terminologa firmemente establecida en el campo o, en otros casos, incluir tambin las unidades neolgicas o en desuso.

    Palabras Clave: Extraccin de terminologa, estadstica de corpus, lingstica cuantitativa.

    Estudio diacrnico de la terminologa especializada utilizando mtodos cuantitativos: Ejemplos de

    aplicacin a un corpus de artculos de lingstica aplicada1

    Diachronic study of specialized terminolgy using quantitative methods: Example with an application to a corpus of papers on

    Applied Linguistics

    Recibido: 24-III-2010 / Aceptado: 15-XI-2010

  • Revista Signos 2011, 44(75) Rogelio Nazar

    49

    Abstract: This paper presents a methodology for analyzing the evolution of the terminology used in a specialized domain. Such terminology is measured according to its variation in the frequency of use, as well as the appearance and disappearance of the terms. As an example, the paper reports the results of the application of this methodology to a corpus made up of the 1983-2006 Spanish Association of Applied Linguistics proceedings. The methodology can be summarized in a quantitative and language-independent algorithm that accepts a set of text documents organized by years as input and offers a selection of terms as output by calculating their frequency distribution over time. The geometrical properties of the curves representing the frequency of use of the terminological units help to automatically identify those which come into use and those no longer in use. Metaphorically, the paper offers a kind of radiology of the paradigm shifts that occur in the history of the field as well as a neology and an archeology of its terminology, revealing terms that would be otherwise hard to find due to the scale of the corpus. The specific objective of this paper is to propose an alternative to other methods which only consider curves of frequency distribution of units in the time line arbitrarily selected by a user. This paper offers a new view because it is the reverse procedure: instead of introducing lexical units to study their frequency curves, the curves to obtain the units are introduced. The usefulness of these sets of units may vary according to the needs. For instance, the creation of glossaries of different types (hard copy or electronic format) may require a nomenclature that includes only the terminology firmly established in the literature or, in other cases, neologisms or terms no longer in use.

    Key Words: Terminology extraction, corpus statistics, quantitative linguistics.

    INTRODUCCIN

    En este artculo se presenta un estudio de evolucin en el tiempo de la terminologa de un dominio cientfico. El inters por la terminologa especializada (ver Seccin 1) se da tanto desde un punto de vista terico en lingstica como desde un punto de vista aplicado a la tarea terminogrfica. Al lingista no le interesar tanto el trmino en s sino el funcionamiento de la terminologa como sistema en el discurso. Al termingrafo, en cambio, le interesar el trmino para la compilacin de diccionarios terminolgicos que representan una ayuda vital para los traductores de textos de especialidad as como para las propuestas de normalizacin terminolgica, fundamentales para la especificidad en la designacin de conceptos y la claridad en la comunicacin entre especialistas.

    En los ltimos aos ha despertado gran inters la extraccin automtica de terminologa, como un recurso con el cual los terminlogos pueden no solo automatizar parte del proceso de compilacin de diccionarios sino adems justificar de manera emprica la decisin de incluir una u otra unidad terminolgica en la nomenclatura. Desde la vertiente aplicada, este trabajo puede interesar por ser un mtodo emprico y en gran medida

    automatizado para la seleccin de la nomenclatura del glosario de un mbito especializado, por lo tanto, podra ser clasificado dentro de la familia de algoritmos de extraccin de terminologa. Sin embargo, este sera un subproducto de la propuesta, ya que el objetivo principal est en el estudio de la evolucin de trminos en una muestra diacrnica. Esta evolucin se puede medir observando las tendencias de variacin en la frecuencia de uso de los trminos, que reflejarn los cambios de paradigma de la historia del campo. Lo fundamental de la propuesta, en comparacin con otros trabajos como el de Google Ngrams Viewer, tal como se presenta actualmente (Michel, Shen, Aiden, Veres, Gray, Google Books Team, Pickett, Hoiberg, Clancy, Norvig, Orwant, Pinker, Nowak & Aiden, 2010), es que en lugar de ofrecer la distribucin de unidades arbitrariamente seleccionadas por el usuario, lo que este sistema hace es el proceso inverso: obtener las unidades lxicas a partir de curvas de distribucin de frecuencias arbitrariamente introducidas.

    El dominio elegido para el experimento de extraccin de terminologa es la lingstica y la muestra elegida para el anlisis son los textos de las actas de congresos que public la Asociacin Espaola de

  • Revista Signos 2011, 44(75)

    50

    Lingstica Aplicada desde el ao 1983 hasta 2006, que se encuentran disponibles en formato digital2. Se reporta por tanto la aplicacin a este corpus de un algoritmo estadstico independiente de lengua que acepta como entrada un conjunto de ficheros de texto organizados por aos y como salida selecciona trminos del corpus calculando las propiedades geomtricas de las curvas que representan sus frecuencias de uso a lo largo del tiempo.

    La nocin de trmino en este caso est metodolgicamente sesgada por razones de conveniencia prctica. Un trmino es simplemente una palabra o una secuencia de palabras con una frecuencia especialmente informativa, es decir, que el criterio no es estrictamente terminolgico sino estadstico. La estrategia de extraccin de trminos consiste en asignar a una palabra o una secuencia de palabras un valor de terminologicidad basado en su rareza. La rareza de un trmino est dada por una frecuencia de aparicin relativamente alta en el corpus de especialidad (en este caso las actas de los congresos) y relativamente baja en un corpus de referencia del lenguaje general (en este caso prensa espaola). Tambin por conveniencia prctica, el corpus no es sometido a ningn tipo de procesamiento, como lematizacin, etiquetado morfosintctico o agrupacin de constituyentes sintcticos. Esta simplificacin obviamente se hace a expensas de un grado de error en la deteccin terminolgica, pero el resultado es suficiente a los fines prcticos de una primera descripcin de la evolucin de la terminologa del campo. De cualquier forma, se incluye tambin un experimento paralelo aplicando un filtro sintctico (generado estadsticamente) que permite cierta reduccin del ruido (ver Seccin 2.2.3).

    El objetivo del presente artculo no es, entonces, presentar un extractor terminolgico, y por esta razn no se persigue el mximo rendimiento posible en la precisin y cobertura de la seleccin de los trminos. El refinamiento en la seleccin de los trminos se deja como un proceso ulterior, que requerir seguramente la combinacin de distintas estrategias y la utilizacin de conocimiento lxico y sintctico de la lengua analizada. Por el contrario, el objetivo perseguido es el de apoyar el trabajo del terminlogo en la creacin de un glosario de especialidad con un fundamento emprico, que sirva como base slida para la decisin de incluir una u otra unidad lxica en la nomenclatura. En funcin del tipo de obra terminogrfica que se desee elaborar, pueden concebirse distintos perfiles

    de nomenclatura. Una obra en papel de tamao reducido requerir, tpicamente, una seleccin de la nomenclatura que incluya la terminologa ms firmemente establecida en la historia del campo. Una obra especializada en la neologa de un campo, en cambio, centrar la seleccin en las unidades ms recientes. En otros casos, como obras de mayor tamao o que no revisten dificultades para almacenar grandes cantidades de entradas como bases de datos o dems recursos electrnicos no encontrarn motivos para no incluir en su nomenclatura incluso aquellas unidades que han dejado de utilizarse en la disciplina.

    En lo que respecta a la seleccin del corpus de anlisis, las actas de los congresos de AESLA representan simplemente un ejemplo de aplicacin, como se ha advertido ya, y su seleccin es meramente arbitraria. En el caso de este artculo, se trata de una muestra representativa de un dominio cientfico (la lingstica aplicada) que cumple con el doble requisito de tener el tamao y la extensin a lo largo de una ventana temporal suficientes para llevar a cabo este tipo de anlisis cuantitativo.

    El artculo se organiza de la siguiente manera: la Seccin 1 presenta un panorama muy escueto de la bibliografa sobre terminologa diacrnica y extraccin automtica de terminologa, las reas en las que este trabajo se enmarca; la Seccin 2 contiene toda la investigacin desarrollada, desde el planteo de la hiptesis hasta su comprobacin emprica y, finalmente, la Seccin 3 presenta la discusin de los resultados y algunas lneas de trabajo futuro.

    1. Antecedentes

    Como se dijo en la Introduccin, el estudio de la terminologa especializada es un dominio de inters tanto para la teora lingstica como para la prctica terminogrfica. La terminologa como disciplina surge primero como prctica normativa en el seno de los organismos de estandarizacin (Wster, 1979; Arntz & Picht, 1989) y posteriormente como un campo de investigacin en lingstica (Sager, 1990; Cabr, 1999; Cabr & Estop, 2005). Desde el punto de vista lingstico, las unidades terminolgicas se consideran como parte de la lengua y son posibles por tanto de ser analizadas lingsticamente. Como prctica, la terminologa es mayoritariamente la creacin de glosarios, fundamentales para la tarea de los traductores de textos de especialidad as como para la tarea de normalizacin terminolgica.

  • Revista Signos 2011, 44(75) Rogelio Nazar

    51

    En la bibliografa sobre terminologa ocupa un lugar importante la teora y prctica de la extraccin de terminologa. Desde el punto de vista prctico, se trata de automatizar la tarea del terminlogo, pero esto conlleva necesariamente una definicin formal de lo que puede ser considerado un trmino, formalizacin necesaria para la implementacin informtica pero de importantes consecuencias tericas. El investigador, en este punto, se ve obligado a plantearse cmo determinar el estatus de los trminos. Se debe preguntar acerca de las condiciones necesarias y suficientes para que una palabra o cadena de palabras sea considerada un trmino o debe hablarse de distintos grados de terminologicidad? Desde la perspectiva de Cabr (1999), ninguna de las dos alternativas son procedentes, ya que se trata de advertir que ciertas unidades lxicas activan un valor de especialidad cuando aparecen en un contexto especializado como el de la literatura cientfica. De esta manera, una misma palabra puede tener un uso no especializado en la lengua cotidiana y a la vez funcionar como un trmino en la comunicacin entre especialistas.

    Desde diversos puntos de vista, la literatura sobre los sistemas de extraccin de terminologa es abundante y solo es posible sealar algunas referencias orientativas. Para una introduccin ms amplia, vase los trabajos de Kageura y Umino (1996) y los reunidos en Bourigault, Jacquemin y LHomme (2001), particularmente Cabr, Estop y Vivaldi (2001). Existen propuestas claramente orientadas a la incorporacin de conocimiento de la lengua analizada, como patrones morfolgicos o sintcticos (Ananiadou, 1994; Jacquemin, 1997). Por otro lado, existe una gran profusin de algoritmos estadsticos que calculan medidas como la asociacin entre los componentes de unidades polilxicas o la forma en que se distribuyen los trminos en los conjuntos de documentos (Sparck Jones, 1972; Daille, 1994; Pantel & Lin, 2001; Patry & Langlais, 2005), aunque en ambas vertientes se dan distintos grados de hibridacin entre conocimiento lingstico y estadstico, incluyendo tambin conocimiento ontolgico del dominio de especialidad (Maynard & Ananiadou, 2000; Vivaldi, 2001; Sheremetyeva, 2009).

    Lo que salta a la vista ante la gran cantidad de bibliografa sobre extraccin de terminologa es que los autores en general parten del supuesto tcito de que el algoritmo tiene que extraer los trminos a partir de un documento o de un corpus tratado como unidad. En este sentido, uno de los aportes de este artculo es el abordar una perspectiva ms amplia de manera tal que el algoritmo extractor no

    analice solo un documento sino una publicacin de referencia en el campo. Esto aporta a su vez el eje diacrnico, no tan frecuentemente utilizado en los estudios sobre terminologa en comparacin con los estudios de tipo sincrnico. Recientemente, algunos terminlogos como Temmerman (2000) o Dury & Picton (2008) han reaccionado contra esta tendencia reivindicando el eje diacrnico entre otros principios y criticando distintos fundamentos de lo que se conoce como la teora terminolgica tradicional. En la actualidad comienza a aceptarse la idea de un estudio diacrnico de la terminologa especializada como un espacio de saber diferenciado de otras aproximaciones histricas a los mbitos de especialidad como la sociologa de la ciencia (Merton, 1973), la filosofa de la ciencia (Lakatos, 1974) o la historia de la ciencia (Kuhn, 1962; Barona, 1994), aunque no por ello deberan ser considerados mbitos del saber totalmente desconectados, puesto que la historia de los trminos especializados es tambin parte de la historia de los conceptos de las diferentes disciplinas.

    Entre los antecedentes del estudio emprico de la diacrona en terminologa, cabe destacar, entre otros, los trabajos reunidos en el volumen preparado por Groult, Louis y Roger (1988) acerca de las migraciones de vocabulario cientfico entre diferentes ciencias, con los cambios de uso y resemantizacin que tales migraciones comportan. Otros autores, como Meyer y Mackintosh (2000), se interesan por los procesos de fluctuacin del significado de los trminos cientficos a lo largo del tiempo. Concretamente, se interesan por los casos en que se produce una desterminologizacin de las unidades que pasan de un uso especializado en la comunicacin entre especialistas a un uso no especializado en crculos ms amplios de la poblacin, tal como en el caso del trmino ingls bandwith (ancho de banda), que inicialmente tiene un sentido tcnico que hace referencia a la capacidad de un canal para transmitir informacin y pasa a ser utilizado de manera no especializada como la capacidad de un individuo para hacer frente a una carga de responsabilidades, como en la expresin Im out of bandwith (no me alcanza el ancho de banda) dicha por un empleado desbordado de trabajo. Algunas de estas unidades, incluso, acaban su transformacin reinfiltrndose en mbitos de especialidad (reterminologizndose), a veces tambin con nuevas cargas o connotaciones adquiridas durante su perodo de uso como palabra de lxico general.

    Posiblemente, el aspecto del estudio diacrnico de la terminologa especializada que haya generado

  • Revista Signos 2011, 44(75)

    52

    la mayor cantidad de trabajos sea el estudio de la neologa especializada, tal vez por influjo de los estudios sobre neologa en general (Boulanger, 1988; Cabr & Estop, 2009). Distintos autores (Rondeau, 1984; Humbley, 2003; Desmet, 2003) justifican una precisin terminolgica separando la neologa, que sera el estudio de las palabras nuevas en el lxico general, de la neonimia, que sera el estudio del nacimiento (o difusin) de nuevos trminos especializados. Pioneros en el anlisis de la neologa especializada, sin embargo, deben ser los trabajos del Office Qubcois de la Langue Franaise (Corbeil, 1988; Clestin & Bergeron, 2003) que, presionado por la necesidad de proteger la lengua francesa del influjo de la terminologa especializada en ingls, impuls el estudio y la normalizacin de la actividad neolgica. Respecto de estudios sobre neologa producida por el paso de terminologa especializada al uso en lengua general, Pozzi, Bentez y Morett (2008) presentan un estudio en prensa escrita mexicana inspirado en los criterios del Observatori de Neologia (2003) del Instituto Universitario de Lingstica Aplicada de la Universidad Pompeu Fabra. Examinaron manualmente un conjunto de artculos en un perodo de tres aos para identificar y posteriormente clasificar la terminologa encontrada segn distintas categoras de anlisis, entre ellas la categora gramatical, los procesos de formacin, la afijacin y tambin el nivel de especializacin, que sera el grado en que los significados de los trminos son conocidos por la poblacin general. El enfoque de Tartier (2003), finalmente, es el estudio diacrnico de los trminos dentro de los mismos mbitos de especialidad, tal como es el caso del presente artculo. Para ello lleva a cabo un anlisis sistemtico de un corpus especializado diacrnico de dimensiones importantes, aunque el estudio no est orientado en su caso al seguimiento de la evolucin de la terminologa en funcin de la frecuencia de uso en las distintas pocas, como en el presente artculo, sino en los cambios formales que experimentan los trminos a lo largo del tiempo, para lo cual se sirve de una medida de similitud ortogrfica (la distancia de edicin o distancia de Levenshtein) como medio para determinar cambios en la forma de las unidades terminolgicas tanto simples como sintagmticas.

    2. La investigacin

    2.1. Hiptesis

    Se formula la hiptesis de que un estudio que en principio podra circunscribirse a la terminologa,

    el anlisis del discurso especializado o la sociologa de la ciencia, puede ser reducido a un problema geomtrico si la pregunta de investigacin puede ser planteada de manera tambin geomtrica. Ms especficamente, segn esta hiptesis, las curvas que representan la distribucin de frecuencias de los trminos a lo largo del tiempo nos ofrecen una lectura de cun informativos son los trminos en funcin de su ciclo de vida.

    La pregunta que pretende responder esta hiptesis es si la distribucin de la frecuencia de uso de las unidades en el eje diacrnico puede aportar una informacin relevante a la hora de establecer la macroestructura de un diccionario terminolgico. Habr trminos cuya frecuencia de uso a lo largo del tiempo ser muy voltil, o tendr un pico concentrado en cierto perodo. Esos sern los trminos que se ponen de moda en cierto momento y luego se dejan de utilizar. Habr otros trminos cuya frecuencia de uso tiene una tendencia descendente, los trminos que caen en desuso. De la misma manera, habr trminos que comienzan a implantarse en los ltimos aos de la muestra, los neologismos de la disciplina. Y habr trminos cuya frecuencia de uso es relativamente constante. Estos ltimos trminos (y tambin los apellidos de los autores de la disciplina, tanto por sus propias publicaciones como por las referencias a ellos por parte de otros autores) representaran la terminologa nuclear o ms establecida en el campo, terminologa que pueden compartir autores de cualquier perodo dentro de la ventana temporal estudiada.

    2.2. Comprobacin emprica

    En esta seccin, la hiptesis presentada en el apartado 2.1. es sometida a una serie de pruebas empricas. Se explica por tanto cada uno de los pasos de los experimentos realizados y de los algoritmos utilizados. Los resultados se muestran solo parcialmente en este artculo por razones de espacio, sin embargo, los datos de los resultados en formato digital se pueden consultar en un servidor3.

    2.2.1. Preparacin del corpus

    La tarea de constitucin y preparacin del corpus ofrece cierta dificultad por la diversidad de formatos en los que dicha muestra se encuentra. La mayor parte del material est escaneado como imagen y no como texto, por lo tanto, esta porcin del corpus tiene que ser sometida a un proceso

  • Revista Signos 2011, 44(75) Rogelio Nazar

    53

    de reconocimiento ptico de caracteres. La poca definicin de la imagen, ms la deficiente calidad de impresin particularmente en las primeras ediciones, produce una tasa de error importante y la consecuente prdida de datos. En el caso del primer ao de la serie, casi un tercio de las pginas no pudo ser procesado debido a escasa resolucin. Este porcentaje se va reduciendo en las ediciones ms recientes. En el caso de los archivos que estn digitalizados como texto, cada edicin exige un tratamiento especfico ya que los textos se encuentran en formatos diversos. Una vez convertidos los datos a ficheros de texto plano, la preparacin del corpus finaliza con la ubicacin de cada edicin en un directorio que lleva por nombre el ao correspondiente, ya que este es el formato de entrada del algoritmo desarrollado para este estudio.

    2.2.2. Representacin de la distribucin de frecuencias

    El estudio diacrnico impone una serie de restricciones que por lo general no son tenidas en cuenta en la lingstica de corpus sincrnica y esto abarca medidas tan generales como la frecuencia de aparicin de las palabras. Como consecuencia de que en el ao 1983 AESLA editara menos cantidad de texto para poder estudiar la evolucin de la frecuencia de un trmino tenemos que corregir esta situacin utilizando frecuencias relativas al ao. Esta medida no resuelve el problema en verdad, ya que si las diferencias en tamao de las distintas particiones del corpus son muy grandes, entonces las probabilidades de aparicin de las palabras ya no sern las mismas. Una palabra tiene ms oportunidades de aparecer cuando la muestra es grande. A modo ilustrativo, la Figura 1 muestra las curvas correspondientes a unidades arbitrariamente

    elegidas (subordinada y colocaciones) para ver cmo evoluciona su frecuencia de aparicin a travs del tiempo. Las dos curvas se oponen porque la de la primera unidad tiende a ser utilizada cada vez menos mientras que el uso de la segunda describe un aumento. Esta grfica parece reflejar el cambio en el centro de gravedad en el debate lingstico desde temas sintcticos hacia el estudio de las colocaciones.

    Para poder implementar esta herramienta de representacin de frecuencias de uso de los trminos fue necesario indexar previamente el corpus con las frecuencias de aparicin de todas las palabras y tambin de todas las combinaciones o cadenas de palabras (enegramas) de hasta cinco componentes. Es decir que, por ejemplo, en este ndice tanto el trmino adjetivo como el trmino adjetivo calificativo pueden ser entradas. Existen algunas restricciones para la confeccin de este ndice, sin embargo, no aplican las mismas restricciones que se detallan en la Seccin 2.2.4.1. para la seleccin de la muestra de trminos a estudiar. En este ndice, en cambio, se registran todas las palabras, con excepcin de aquellas que: a) tengan una frecuencia absoluta total inferior a 3; b) sean miembros de una lista de exclusin; c) en el caso de los enegramas, que tengan como primer o ltimo componente un miembro de la lista de exclusin. La lista de exclusin es definida como la lista de las cien palabras ms frecuentes en un corpus de referencia de lengua general conformado principalmente por artculos de peridicos y de un tamao de dos millones de palabras. Las cien palabras ms frecuentes coinciden con el segmento menos informativo del vocabulario de una lengua, el de las llamadas palabras gramaticales, es decir, preposiciones, artculos, copulativas, etc. Por lo tanto, mientras trminos como lingstica o

    Figura 1. Frecuencia relativa de los trminos subordinada y colocaciones.

  • Revista Signos 2011, 44(75)

    54

    lingstica espaola sern indexados, la secuencia la lingstica espaola no lo ser porque empieza por la. Estas listas de exclusin se confeccionaron para las tres principales lenguas de las actas que son el castellano, el ingls y el francs.

    Con el objeto de disponer de un punto de referencia sobre la seleccin de las unidades terminolgicas a partir del corpus, la Figura 2 muestra (en escala logartmica) la distribucin de frecuencias de las entradas de un diccionario terminolgico del rea, el diccionario de lingstica del TermCat (1992) en todo el corpus de los textos de las actas de AESLA. En el caso de los adjetivos, que en el diccionario incluyen tambin la marca de flexin en femenino (como en el caso de sincrnico-a), se buscaron en el corpus y sumaron las frecuencias de ambas formas. En esta figura podemos observar que casi dos tercios de las entradas aparece en el corpus por lo menos una vez (la comprobacin no se hizo con respecto al ndice del corpus sino con los textos directamente, ya que en el ndice no se registran los hapax legomena y dis legomena) lo cual indica que se trata de una buena nomenclatura ya que refleja la terminologa que se encuentra realmente en uso en la lingstica aplicada.

    Para hacer una estimacin aproximada de la cobertura del mismo diccionario, se puede tomar como referencia el porcentaje de una muestra aleatoria de trminos tomados del corpus a los que corresponde tambin una entrada en el diccionario, porcentaje que en este caso alcanza el 32%. Es decir que, si bien la nomenclatura del diccionario est bien elegida en el sentido en que se reflejan unidades que estn realmente en uso, existe todava en el corpus una gran cantidad de trminos que an no han sido documentados.

    2.2.3. Seleccin de las unidades terminolgicas

    Como un paso necesario para el ordenamiento de las unidades terminolgicas, se debe hacer una seleccin de las unidades que conformarn la muestra sometida a anlisis. Mientras en la herramienta de consulta se incluyeron todas las palabras o secuencias de palabras del corpus, ahora queremos someter a estudio no todas las palabras sino aquellas que sean interesantes desde un punto de vista terminolgico. Es decir, aquellas que sean ms informativas o que se acercaran ms al conjunto de las unidades para ser tenidas en cuenta para la

    Figura 2. Frecuencias en las actas de AESLA de los 1.475 trminos que aparecen en un diccionario de lingstica del TermCat (eje vertical en escala logartimica).

  • Revista Signos 2011, 44(75) Rogelio Nazar

    55

    confeccin de un glosario del dominio. Esta muestra, como listado de formas candidatas a trmino, ser ordenada por los distintos coeficientes que se presentarn a continuacin.

    A partir del ndice obtenido en 2.2.2., se eliminaron todas las palabras y secuencias de palabras que son ms comunes en castellano, ingls y francs. Esto es posible mediante un modelo de esas lenguas elaborado a partir del mismo corpus de referencia de textos periodsticos tambin utilizado en la Seccin 2.2.2. Estas unidades son eliminadas porque son consideradas elementos de la lengua general y no del dominio de especialidad en cuestin. En el caso del castellano, que es la lengua de la mayor parte de los textos de las actas, el modelo fue elaborado a partir de los archivos del peridico El Pas4. Todas las unidades que presentan un uso continuado a lo largo del tiempo en el corpus de este peridico son eliminadas por considerarse unidades del lxico comn (ver Seccin 2.2.4.5 para los detalles sobre cmo calcular una frecuencia de uso continuo en el tiempo). El grado de error que ello conlleva se ve agravado en el caso de un dominio como la lingstica, donde existe una importante cantidad de trminos que tienen la misma forma de una palabra de la lengua general, como vocabulario, gramatical, hablante, verbo, lxico, oracin, etc. Debido a este motivo, las exclusiones no estn basadas en un sistema de reglas categricas sino ponderando la relacin entre las frecuencias de una unidad en ambos corpus, de manera tal que cuanto mayor sea la diferencia, mayor ser la terminologicidad de esa unidad.

    Como un experimento paralelo se implement adems un filtro sintctico para la seleccin de los trminos con el objetivo de reducir el grado de error en la seleccin de la nomenclatura, evaluada en trminos de precisin y cobertura. Sin entrar en los detalles, se puede describir como un algoritmo estadstico con aprendizaje supervisado, entrenado con un diccionario terminolgico del rea con el objeto de identificar las secuencias de categoras gramaticales que son frecuentes en las entradas de ese diccionario. En otras palabras, un modelo sintctico de las entradas, que luego permite segmentar un texto sometido a anlisis, identificando aquellas secuencias que podran ser terminolgicas segn dicho modelo sintctico. Obviamente no se trata de reconocer en un texto analizado las unidades que se encuentran ya en el diccionario (lo cual sera una tarea prcticamente trivial), sino de reconocer unidades en el texto con

    una estructura sintctica similar a las de las entradas del diccionario. As, por ejemplo, con este mtodo el algoritmo aprende que la categora sustantivo o las secuencias como sustantivo+adjetivo o sustantivo+de+sustantivo son muy frecuentes en las entradas del diccionario y, por lo tanto, si encuentra esas secuencias en el texto las privilegiar como candidatos a trmino.

    En la pgina web que ofrece los resultados del presente artculo (ver Nota 3) se incorpora tambin el resultado de la muestra de candidatos a trmino que ha sido obtenida con el filtro sintctico despus de haber entrenado el algoritmo con el mismo diccionario terminolgico del rea utilizado en la Seccin 2.2.2. Despus de aplicar el filtro sintctico a una muestra de 3.000 unidades que haban sido previamente elegidas con el mtodo presentado en esta seccin, esta cantidad se reduce a un tercio (debe tenerse en cuenta que la mayora de las unidades en ingls son automticamente eliminadas en esta instancia). Con el objeto de estimar la precisin, un examen manual de 100 unidades seleccionadas aleatoriamente a partir de este ltimo muestreo de unidades sintcticamente aptas revela que por lo menos 58 de ellas tendran un estatus terminolgico indudable, como enunciador, dgrafo o fonema. El resto de las unidades est conformado por vocabulario utilizado en la disciplina pero que difcilmente podra ser admitido como entradas en un diccionario terminolgico del rea, como objetividad, pedaggico, cuestionario o imitacin. Determinar el estatus de algunas de estas formas es, sin embargo, sumamente difcil, incluso para un especialista. Los contextos en los que los distintos autores utilizan estas expresiones son para ello una ayuda vital. Gracias a los contextos podemos advertir que una expresin como imitacin no es utilizada en un sentido distinto al del lenguaje comn, con lo cual podemos rechazarla como candidata a trmino. Para hacer una estimacin de la cobertura se seleccion una lista de 1.000 trminos que estn presentes tanto en el diccionario como en el corpus y se compar esta lista con los 1.000 que haban sido seleccionados como sintcticamente aptos: la coincidencia fue del 22%, algo baja en relacin a la cobertura del mismo diccionario del TermCat, estimada en un 32% en la Seccin 2.2.2.

    En el resto de los experimentos presentados a continuacin todas las unidades son sometidas a anlisis y no solo aquellas que pasaron por este ltimo filtro sintctico.

  • Revista Signos 2011, 44(75)

    56

    2.2.4. Ordenamiento de las unidades

    El objetivo del trabajo descrito en esta seccin es el ordenamiento de las unidades encontradas en el corpus de acuerdo con una determinada ponderacin, una forma de descubrir unidades a partir del corpus que no podran haber sido halladas por medio del examen manual del corpus o la introspeccin de un hablante de la lengua.

    Observar la curva de distribucin de frecuencias de un trmino puede ser interesante e informativo, sin embargo, esto no tiene el mismo valor cientfico que un instrumento que nos permite ir ms all de la seleccin de trminos que haga un usuario. En otras palabras, es ms interesante un algoritmo que nos permite no ya buscar un trmino sino descubrir, a partir del corpus, aquellas unidades cuya curva de distribucin de frecuencias tiene un perfil particular. Esta diferencia entre, por un lado, comprobar (una distribucin de frecuencias a partir de una unidad terminolgica propuesta por un usuario) y, por otro lado, descubrir (las unidades terminolgicas por medio de su curva de distribucin) representa una de las diferencias ms importantes entre los mtodos cualitativos y cuantitativos en la investigacin lingstica.

    La mayora de los coeficientes para ordenar las unidades del corpus que se presentan en esta seccin se organizan en un sistema de oposiciones, de manera tal que uno representara lo contrario del

    otro (por ejemplo, fugacidad frente a continuidad). Esto, sin embargo, no debe llevar a creer que en estos casos se trata del mismo coeficiente invertido, ya que no son necesariamente lo mismo que un orden inverso de los elementos de la lista.

    2.2.4.1. Frecuencia relativa

    Desde el punto de vista terminlogico, la frecuencia de uso de los trminos no es un criterio suficiente para decidir si a una unidad debera corresponderle una entrada en un diccionario especializado.

    En este sentido, las siguientes secciones aportan distintos coeficientes que pueden informar mejor esta decisin. De cualquier forma, y si bien no es un criterio suficiente, la frecuencia no deja de ser un factor importante, ya que un diccionario tiene que incluir los trminos que ms se utilizan.

    La Tabla 1 presenta las 30 formas ms frecuentes en el corpus, segn frecuencia relativa ya que se debe compensar las diferencias anuales en la cantidad de texto editado, de manera tal que una palabra no parezca ms frecuente solamente porque aparece mucho en un solo ao o en un perodo de tiempo.

    2.2.4.2. Fugacidad/Continuidad

    Uno de los criterios ms importantes para evaluar la pertinencia de una unidad terminolgica es observar si el uso de un trmino es continuo

    Tabla 1. Las treinta formas ms frecuentes en todo el corpus.

    n Unidad Frec. Rel.1 Aprendizaje 0,020143162 Lingstico 0,010504083 Vocabulario 0,008148384 Corpus 0,00551455 Oral 0,004797726 Verbo 0,004037347 Lxico 0,003817778 Hablante 0,003654939 Conceptual 0,0036173810 Lingsticos 0,0035382911 Aula 0,0035206412 Verbos 0,0034998913 Discourse 0,0032989814 Linguistics 0,0032630315 Oracin 0,00321024

    n Unidad Frec. Rel.16 Adjetivo 0,0031251617 Oraciones 0,0030416118 Linguistic 0,0030207919 Gramatical 0,0029043220 Lingsticas 0,002809121 Grammar 0,0027627122 Hablantes 0,0026962923 Lexical 0,0022744224 Contextos 0,0022633225 Materna 0,0022329726 Gramaticales 0,0021005827 Comunicativa 0,0020789428 Interaccin 0,0020711229 Learners 0,0020597830 Textual 0,00205978

  • Revista Signos 2011, 44(75) Rogelio Nazar

    57

    o si aparece de manera fugaz en la historia de la disciplina. Es de suponer que si su uso es continuo, se trata de la terminologa central, aquella que se ha consolidado en el campo y es comn a la mayora de los autores. Por eso, segn las caractersticas de un diccionario (bsicamente la cantidad de entradas) puede ser ms interesante capturar solo aquella porcin de la terminologa mejor establecida. Estos trminos tendrn una presencia continua a lo largo del tiempo y con variaciones interanuales menos pronunciadas. Cuando los trminos son fugaces, es decir, tienen una frecuencia importante en un ao y muy baja o nula en el resto de los aos, se trata de trminos que en cierta forma representan las modas, el signo de cada tiempo o bien el tema al que se dedica cada edicin, y su presencia en el diccionario de especialidad quedara sujeta al criterio del terminlogo y las caractersticas del proyecto terminogrfico. La Tabla 2 muestra algunos de estos ejemplos con una presencia prcticamente exclusiva en alguno de los aos.

    En el caso de los trminos que se utilizan en ms de

    un ao pero que tienen una tendencia ascendente o descendente en el uso, este artculo dedica una seccin especial (2.2.4.8.) para su estudio y modelado. El que se presenta all es un algoritmo ms adecuado para la deteccin de neologismos y arcasmos. El trmino arcasmo es utilizado en un sentido tcnico en este contexto para referir al subconjunto de unidades dentro de la muestra que presenta una tendencia a la baja en el uso. Lo mismo puede decirse del uso del trmino neologismo, ya que puede referir a palabras que no son nuevas en la lengua general pero que comienzan a tener una vigencia o un sentido tcnico especfico en la disciplina.

    No existe una nica manera de calcular la continuidad de un trmino en el tiempo. La que se muestra en las Ecuaciones 1 y 2 est motivada bsicamente por su simplicidad. Dado un vector V que representa el vocabulario de la muestra y un vector T que registra la frecuencia de cada unidad i de ese vocabulario en cada ao j, la Ecuacin 1 expresa que el coeficiente de continuidad (cont) de un trmino Vi ser mayor

    Tabla 2. Ejemplos de formas utilizadas en un solo ao.

    Ao Trminos1983 Aculturacin; asimetra interlingual; delimitacin tonal; desviacin referencial;

    equivalencia interlingstica; hiper generalizacin; interferencia lxica; negacin transferida; neurofuncional; nexo de subordinacin; permutacin; oraciones atributivas; oraciones intransitivas; realizaciones translmicas; tonemicidad; translemas; translmico; verbo subordinado; vernacular.

    1984 Agramaticalidad; automaticidad; autosegmentacin; biculturalismo; disimetra; dislocacin; disociacin; encabalgamiento; experimentadores; inmiscusin; materializacin; oraciones coordinadas; reciprocidad inherente; significacin partitiva; tematizacin lxica; unilinges.

    1993 Adjetivos participios; apdosis; aprendizaje receptivo; clasemas aspectuales; codas compuestas; contextos narrativos; descripciones definidas; enfoques comunicativos; enunciado asertivo; enunciados contextuales; ergatividad lxica; gramaticalizado; ilocucionario; indeterminacin; interindividualmente; lxicos mitigadores; metodologa comunicativa; micro ordenador; patrones fonticos; postestructuralismo; proto agente; univocidad.

    2006 Alumnado de origen inmigrante; alumnado extranjero inmigrante; alumnado inmigrante; anticausativa; argumentatividad; basados en corpus; bilingismo cclico; corpus anotado; corpus etiquetado; corpus paralelos; deontolgico; dialectologa hispanoamericana; dgrafo contextual; etiquetado del corpus; interaccin conversacional; literacidad; mediador lingstico; mediadores interculturales; mtrica fenomenolgica; minimalista; minimizadores; no palabra; ontologa terminolgica; pausas comunicativas; preinterpretacin; procesabilidad; pronombre resumptivo; reconocedor; reformulacin explicativa; relexificacin; sordera fonolgica; superestrato; supraoracionales; sustantivos postverbales; terminografa; trilingismo;

  • Revista Signos 2011, 44(75)

    58

    segn la cantidad de veces en que la diferencia de frecuencia entre un ao y el siguiente sea inferior a un parmetro arbitrario k.

    (1)

    La Figura 3 refleja las curvas de distribucin de frecuencias de dos unidades que recibieron un alto puntaje por el coeficiente cont, y son en efecto curvas de frecuencia relativamente continuas en el tiempo. La Tabla 3, por su parte, ofrece otros ejemplos de formas cuyas curvas de frecuencia muestran una forma similarmente constante. Como en el caso de los dems coeficientes, estos listados no siempre contienen unidades terminolgicas. Se aprecian numerosas palabras de la lengua general muy utilizadas en el corpus y nombres propios, entre los que destaca el de Halliday, por las constantes referencias que hacen los lingistas espaoles a este autor.

    2.2.4.5. Concentracin /Dispersin

    En la lnea de la seccin anterior, el valor opuesto a la concentracin podra ser otra vez la continuidad. Sin embargo, podemos definir tambin

    dos comportamientos opuestos que seran la concentracin de los trminos en un perodo de aos frente a una aparicin espordica o discontinua. Si bien son opuestos, los dos coeficientes estn emparentados con el rango (la diferencia entre el mayor y menor valor en una muestra), ya que nos hablan de la volatilidad de un trmino o de su capacidad de cambiar su frecuencia de uso en el tiempo. Sin embargo, estos coeficientes no miden lo mismo, ya que una unidad puede tener un rango muy alto y adems tener poca volatilidad, es decir, puede tratarse de un trmino que en un perodo se utilizaba muy poco pero una vez que se instal en la comunidad mantuvo una presencia estable en el tiempo. La concentracin y la dispersin de los trminos nos ayudarn a encontrar justamente lo contrario, es decir, los trminos que no han conseguido todava estabilizarse en la disciplina.

    Dados una unidad Vi y, por un lado, max(ti) que es su frecuencia relativa mxima en una particin j del corpus y, por otro lado, la variable Zi definida en la Ecuacin 2 como la cantidad de veces en que en una particin del corpus la unidad tiene una

    Figura 3. Distribucin de frecuencias de las unidades aprendizaje y lxico.

    Tabla 3. Las 40 formas con uso ms constante en las actas.

    Adjetivo, AESLA; aprendizaje; aula; comunicativa; conceptual; contrastivo; entonacin; estructuracin; funcional; gramatical; gramaticales; hablada; hablante; hablantes; Halliday; interaccin; lexical; lxico; lingistas; linguistic; lingsticas; lingstico; lingsticos; linguistics; Longman; materna; metodologa; motivacin; nativos; oracin; oraciones; oral; pronombres; pronunciacin; secuencia; sociolingstica; variables; verbales; vocabulario

  • Revista Signos 2011, 44(75) Rogelio Nazar

    59

    Figura 4. Distribucin de frecuencias de Drae, una forma con alta concentracin.

    frecuencia inferior al parmetro arbitrario k, la Ecuacin 3 define la concentracin (conc) como la multiplicacin de estos dos valores y del coeficiente de continuidad introducido en la Ecuacin 1. Este ltimo coeficiente es el que informa el grado de aglutinacin en el tiempo de las apariciones de un trmino.

    (2)

    (3)

    La forma Drae (Figura 4) obtiene una de las ponderaciones ms altas segn este coeficiente por

    su concentracin en el ao 1992, coincidente con la vigsimo primera edicin del DRAE. Utilizando las variables ya introducidas, la Ecuacin 4 define la dispersin de forma similar a la concentracin pero dejando de lado el valor cont(Vi), correspondiente a la continuidad del trmino.

    La Figura 5 muestra la curva correspondiente a la forma predicciones, que es una de las que obtienen mayor ponderacin, lo cual puede ser reflejo de que este mbito cientfico no se caracteriza por elaborar teoras con poder predictivo.

    (4)

    Figura 5. Distribucin de frecuencias de la palabra predicciones con una alta dispersin.

    conc(Vi) = max(ti) . Zi . cont(Vi )

    conc(Vi) = max(ti) . Zi . cont(Vi )

  • Revista Signos 2011, 44(75)

    60

    Tabla 4. Las 15 unidades con mayor concentracin en el corpus.

    Tabla 5. Las 15 unidades con mayor dispersin en el corpus.

    n Unidad Concentracin1 Corpus 0,0129112 Grammar 0,0063673 Syllabus 0,0005494 Psicolingstica 0,0003865 Lingua 0,0003096 Drae 0,0003027 Aplicadas 0,0002768 Discursivos 0,0002599 Electrnico 0,00020110 Asigna 0,00013811 Uned 0,00011012 Wordsmith 0,00010013 Explorar 0,00010014 Actante 0,00000015 Codificar 0,000000

    n Unidad Dispersin1 Paralanguage 0,000184602 Predicciones 0,000068893 Posteriori 0,000045034 Correspondido 0,000041005 Racismo 0,000028946 Skimming 0,000025297 Especia 0,000018518 Copiar 0,000016559 Motiva 0,0000165510 Progra 0,0000165511 Zapatos 0,0000161312 Documenta 0,0000161313 Macro 0,0000133514 Gramma 0,0000128615 Valverde 0,00001000

    Las Tablas 4 y 5 muestran las unidades que obtienen mayor ponderacin de concentracin y de dispersin, es decir, formas que tienen un comportamiento opuesto. Mientras las unidades de la Tabla 4 concentran su uso en un perodo de tiempo relativamente corto, en la Tabla 5 aparecen aquellas unidades cuyas apariciones, en lugar de concentrarse, se reparten de manera ms heterognea en la lnea del tiempo. Debido a que estos coeficientes se aplicaron a toda la muestra y no solo las unidades seleccionadas por el filtro sintctico de la Seccin 2.2.3., se debi excluir manualmente de las Tablas 4 y 5 algunos artefactos producidos probablemente por errores de tipeo bastante frecuentes (como lingistica, lexico y termino, los tres escritos sin acento) o bien de segmentacin de palabras durante el reconocimiento de ptico de caracteres (como cons, univer, inter o apli). Es preciso notar que es en la Tabla 4 donde se concentran las unidades ms significativas desde el punto de vista terminolgico, ya que, al contrario de una distribucin dispersa, una distribucin concentrada es ms improbable que sea debida al azar. En la Tabla 5, en cambio, abundan los ejemplos de formas no terminolgicas, como correspondido o zapato. Es decir, que en este caso el coeficiente de dispersin podra funcionar como un factor penalizador a la hora de admitir o rechazar la inclusin de una determinada unidad en un diccionario terminolgico.

    2.2.4.6. Tendencia ascendente/Tendencia descendente

    En la historia de una disciplina cientfica se aprecian distintas tendencias ascendentes o descendentes en la frecuencia de uso de un trmino, lo cual refleja la evolucin de esta ciencia y la puesta en vigor o cada en desuso de diferentes conceptos. Parte de este comportamiento ya se observ en la Seccin 2.2.4.4., en la que seleccionamos trminos cuyas apariciones se concentran en un solo ao. Lo que queremos estudiar y modelar en esta seccin es ahora la seleccin de los trminos que tienen curvas ascendentes y descendentes. Estos perfiles de la distribucin de los trminos nos pueden informar acerca de la inclusin o exclusin de un determinado trmino en funcin de las caractersticas del diccionario que se proyecte. Un diccionario de mayor cobertura incluir tanto los trminos que se ponen de moda como los que dejan de usarse. Uno de nomenclatura reducida, debido a condicionamientos materiales por ejemplo, se centrar en una nomenclatura estrictamente sincrnica.

    La metodologa para la extraccin de arcasmos (en el sentido tcnico ya explicitado) y neologismos consiste en plantear una curva modelo de la frecuencia de unos y otros y a partir de entonces calcular la similitud que tienen con ellos las curvas

  • Revista Signos 2011, 44(75) Rogelio Nazar

    61

    de frecuencias de cada uno de los trminos de la muestra. En el caso de los arcasmos, utilizamos la Ecuacin 5 para definir este arcasmo ideal, funcin que es representada en la Figura 6. Para calcular la similitud que tienen cada uno de los trminos con este arcasmo ideal utilizamos la distancia euclideana. La Ecuacin 7 define la distancia euclideana entre dos vectores X e Y. Para poder llevar a cabo esta comparacin entre curvas previamente tenemos que normalizar los valores (Ecuacin 8), es decir, llevar los trminos de distinta frecuencia a la misma escala. La Figura 7 muestra la curva de frecuencias de la forma generativa, que es una de las que muestra mayor similitud con el arcasmo ideal, y la Tabla 6 muestra las 20 formas con mayor similitud a este ideal. Entre las formas cada vez menos

    usadas destacan los trminos relacionados con el generativismo o el nombre de Noam Chomsky, aunque, de nuevo, otras palabras resultan menos significativas, como adulta, delimitacin, pasiva y posiblemente su distribucin de frecuencias en forma descendente se deba simplemente al azar.

    (5)

    (6)

    (7)

    Figura 6. Distribucin de frecuencias de un arcasmo ideal.

    Tabla 6. Las 20 formas cuya curva de distribucin de frecuencias se parece ms a la del arcasmo ideal.

    Palatal; Nemser; generativa; lingista; subordinada; intransitiva; maximalista; insercin; delimitacin; lexicalizacin; translmicas; vocativo; Noam Chomsky; interlingual; adjetival; adulta; pasiva; adverbiales

  • Revista Signos 2011, 44(75)

    62

    Figura 7. Distribucin de frecuencias de la forma generativa.

    Figura 8. Representacin del neologismo ideal.

    En el caso de los neologismos, el procedimiento es similar al utilizado originalmente para la extraccin de neologa en lengua general a partir de archivos de prensa (Nazar & Vidal, 2008). Para la extensin temporal de este corpus, el neologismo ideal est definido en la Ecuacin 8 y su representacin en la Figura 8. El procedimiento de normalizacin y clculo de similitud es el mismo que en el caso de los arcasmos.

    (8)

    La Tabla 7 presenta la lista de los 20 trminos

    cuya curva de distribucin de frecuencias ofrece la mayor similitud con la del neologismo ideal. La gran mayora de los trminos con frecuencia de uso ascendente son trminos en ingls, lo cual refleja la tendencia a la internacionalizacin que se produce en los ltimos aos en las comunicaciones de AESLA, y tal es as que las palabras en castellano recin comienzan a aparecer alrededor del puesto nmero 300 de la lista de neologismos. Entre estas palabras encontramos neologismos ya conocidos como Internet o emails, nombres de algunos autores que se han visto favorecidos con un aumento importante en la cantidad de citaciones, como el de Joaquim Llisterri, y tambin formas entre

  • Revista Signos 2011, 44(75) Rogelio Nazar

    63

    Figura 9. Distribucin de frecuencias del trmino padecedor.

    Tabla 7. Las 20 formas cuya curva de distribucin de frecuencias se parece ms a la del neologismo ideal.

    2.2.4.7. Similitud

    El clculo de similitud de los trminos consiste en comparar la curva de distribucin de frecuencias con cada uno con la de los dems, de manera tal que se pueda elegir, para cada trmino del corpus, aquel trmino que tenga la curva de distribucin de frecuencia ms similar. En muchos casos se producen apareamientos de trminos que tienen una distribucin similar debido al azar, por lo tanto no son significativos. Sin embargo, muchos de los apareamientos son motivados por la relacin

    conceptual entre los trminos, como en el caso de subjuntivo-indicativo o figurative-metaphorically (Tabla 8). Se producen, adems, frecuentes apareamientos de las distintas formas flexivas de un mismo trmino. No pasa de ser un fenmeno curioso, consecuencia de no haber llevado a cabo un procedimiento de lematizacin de los textos, por lo cual para el sistema las distintas formas flexivas

    las cuales encontramos trminos provenientes de la jerga de teoras lingsticas ms recientes, como anotacin, gramaticalizacin o padecedor (este ltimo representado en la Figura 9). En algunos casos, como inmigracin, no se trata de trminos de la disciplina sino de temas o referentes que han cobrado importancia en los estudios lingsticos de los ltimos aos.

    Conceptual metaphor; franais; Llisterri; pronominal subjects; padecedor; phraseology; ong; richness; synaesthesia; perales; consejera; lexical grammar; Cascadilla; argumentative; directness; mitigation; lexical grammar model; Pragglejaz; ecuatoriana; phraseological units;

    son unidades distintas. Recuerda al experimento de reconocimiento de sinnimos presentado por Grefenstette (1994) en el que apareaba pseudosinnimos, que eran palabras cuya ortografa l haba alterado intencionalmente para evaluar si el sistema poda reconocerlas como sinnimos. El mtodo que utiliz Grefenstette (1994), sin embargo, es diferente al de este artculo ya que en su caso consiste en comparar vectores de coocurrencia, es decir, que reconoce la similitud entre palabras porque estas aparecen en contextos parecidos y no por similitud en la distribucin en la serie temporal.

  • Revista Signos 2011, 44(75)

    64

    Conclusiones y trabajo futuro

    Este artculo ha presentado un enfoque estadstico para el estudio diacrnico de la terminologa especializada, y ha mostrado y evaluado una serie de coeficientes que pueden ser de utilidad a los terminlogos a la hora de generar material de partida para la nomenclatura de un glosario a partir de un corpus diacrnico. Las posibilidades que se abren a partir de este punto son muchas y variadas. Sera sumamente til llegar a estructurar, adems de un glosario, la forma en que se relacionan los trminos entre s para formar el mapa conceptual entero de la disciplina como resultado de un anlisis cuantitativo. En esta lnea el presente artculo ha querido proponer un anlisis complementario a estudios sincrnicos (Nazar, 2010) en los que se utiliza grafos de coocurrencia que representan las relaciones entre trminos como nodos que incrementan su interconexin en la medida en que estos trminos coocurren en una ventana de contexto (en una misma oracin, prrafo o documento). Sin embargo, estas vas de investigacin ya trascenderan el tema del presente artculo, en el que se intenta promover una visin holstica para superar el acuerdo tcito

    acerca de que la extraccin de terminologa es el vaciado de unidades terminolgicas a partir del documento o del corpus especializado tomado como unidad. Se trata de pasar entonces de una terminologa orientada hacia el documento a una terminologa orientada hacia el dominio de especialidad en su conjunto.

    Lneas de trabajo futuro se abren en distintas direcciones. Una posibilidad es el estudio comparativo de un campo similar utilizando datos de otras organizaciones que dispongan de actas en formato digital. En este sentido, el corpus liberado por el N-gramsViewer de Google (Michel et al., 2010) representa una posibilidad sumamente interesante. Otra posibilidad puede ser replicar el experimento en el mismo campo pero en distintos pases, el mismo campo en distintas lenguas (abriendo una va ms para la extraccin de terminologa bilinge) y diferentes dominios de especialidad en diferentes lenguas que dispongan de corpus, aprovechando la facilidad de reutilizacin de un algoritmo que no necesita conocimiento de lengua.

    Tabla 8. Ejemplos de parejas de formas con mayor similitud en las curvas de distribucin de frecuencias.

    Trmino Trmino ms similar Coef. SimilitudLingusticos Lingusticas 0,9120035Subjuntivo Indicativo 0,8220303Figurative Metaphorically 0,7935322Analtica Analtico 0,6615516Lexemas Lexema 0,6029185Fonemas Fonema 0,5883786Collocations Collocation 0,5726545Sema Semas 0,5193972Lingustica Lingusticos 0,5090957Informantes Informante 0,5029455

  • Revista Signos 2011, 44(75) Rogelio Nazar

    65

    REFERENCIAS BIBLIOGRFICAS

    Ananiadou, S. (1994). A methodology for automatic term recognition. Ponencia presentada en el 15th International Conference on Computational Linguistics, Kyoto, Japn.

    Arntz, R. & Picht, H. (1989). Introduccin a la terminologa. Madrid: Fundacin Germn Snchez Ruiprez.

    Barona, J. (1994). Ciencia e historia: Debates y tendencias en la historiografa de la ciencia. Madrid: Godella, Seminari dEstudis sobre la Cincia.

    Boulanger, J. (1988). Levolution du concept de nologie de la linguistique aux industries de la langue. En C. de Schaetzen (Comp.), Terminologie diachronique, actes de colloque organis Bruxelles les 25 et 26 mars (pp. 193-211). Bruselas: Centre de terminologie de Bruxelles-Institut Libre Marie Haps.

    Bourigault, D., Jacquemin, C. & LHomme, M. C. (2001). Recent advances in computational terminology. Amsterdam: John Benjamins.

    Cabr, M. T. (1999). La terminologa: Representacin y comunicacin. Barcelona: Institut Universitari de Lingstica Aplicada.

    Cabr, M. T., Estop, R. & Vivaldi., J. (2001). Automatic term detection: A review of current systems. En D. Bourigault, C. Jacquemin & M. C. LHomme (Eds.), Recent Advances in Computational Terminology (pp. 1-28). Amsterdam: John Benjamins.

    Cabr, M. T.; Domnech, M.; Estop, R.; Freixa, J. & Sol, E. (2003). LObservatoire de nologie: conception, mthodologie, rsultats et nouveaux travaux. En Linnovation lexicale (pp.125-147). Paris: Honor Champion

    Cabr, M. T. & Estop, R. (2005). Unidades de conocimiento especializado, caracterizacin y tipologa. En T. Cabr & C. Bach (Eds.), Coneixement, llenguatge i discurs especialitzat (pp. 69-94). Barcelona: Institut Universitari de Lingstica Aplicada.

    Cabr, M. T. & Estop, R. (2009). Les paraules noves. Criteris per detectar i mesurar els neologismes. Vic/Barcelona: Eumo Editorial/Universitat Pompeu Fabra.

    Clestin, T. & Bergeron, M. (2003). Le phnomne de la nologie technique et scientifique au Qubec- bilan et perspectives. Colloquio Internazionale: La neologia scientifica e tecnica: Bilancio e prospettive. Accademia di Romania, Roma, Italia.

    Corbeil, J. (1988). Quinze ans de politique terminologique au Qubec. En C. de Schaetzen (Comp.), Terminologie diachronique, actes de colloque organis Bruxelles les 25 et 26 mars (pp. 186-192). Bruselas: Centre de terminologie de Bruxelles Institut Libre Marie Haps.

    Daille, B. (1994). Approche mixte pour lextraction automatique de terminologie: Statistiques Lexicales et filtres linguistiques. Tesis doctoral, Universidad Paris 7, Pars, Francia.

    Desmet, I. (2003). volutions thoriques et mthodologiques dans la recherche en nologie scientifique et technique. Colloquio Internazionale: La neologia scientifica e tecnica: Bilancio e prospettive. Accademia di Romania, Roma, Italia.

    Dury, A. & Picton, A. (2009). Terminologie et diachronie: Vers une rconciliation thorique et mthodologique? Revue Franaise de Linguistique Applique, 2, 14.

    Grefenstette, G. (1994). Explorations in automatic thesaurus discovery. Norwell, MA: Kluwer Acad.

    Groult, M., Louis, P. & Roger, J. (1988). Transfert de vocabulaire dans les sciences. Paris: ditions du

  • Revista Signos 2011, 44(75)

    66

    Centre National de la Recherche Scientifique.

    Humbley, J. (2003). La nologie en terminologie. En J. F. Sablayrolles (Ed.), LInnovation Lexicale (pp. 260-278). Paris: Champion.

    Jacquemin, C. (1997). Variation terminologique: Reconnaissance et acquisition automatiques de termes et de leurs variantes en corpus. Mmoire dHabilitation Diriger des Recherches en Informatique Fondamentale, Universit de Nantes, Francia.

    Kageura, K. & Umino, B. (1996). Methods of automatic term recognition. Terminology, 3(2), 259-290.

    Kuhn, T. (1962). La estructura de las revoluciones cientficas. Madrid: Fondo de Cultura Econmica.

    Lakatos, I. (1974). Historia de la ciencia y sus reconstrucciones racionales. Madrid: Tecnos.

    Maynard, D. & Ananiadou, S. (2000). TRUCKS: A model for automatic multi-word term recognition. Journal of Natural Language Processing, 8(1), 101-125.

    Merton, R. (1973). The sociology of science: Theoretical and empirical investigations. Chicago: University of Chicago Press.

    Meyer, I. & Mackintosh, K. (2000). Ltirement du sens terminologique: Aperu du phnomne de la dterminologisation. En H. Bjoint & P. Thoiron (Eds.), Le Sens en Terminologie (pp. 198-217). Lyon: Presses Universitaires de Lyon.

    Michel J. B., Shen, Y. K., Aiden, A. P., Veres, A., Gray, M. K., Google Books Team, Pickett, J. P., Hoiberg, D., Clancy, D., Norvig, P., Orwant, J., Pinker, S., Nowak, M. A. & Aiden, E. L. (2010). Quantitative analysis of culture using millions of digitized books science. Science, 331(6014), 176-182.

    Nazar, R. (2010). A quantitative approach to concept analysis. Tesis doctoral, Universidad Pompeu Fabra, Barcelona, Espaa.

    Nazar, R. & Vidal, V. (2008). Aproximacin cuantitativa a la neologa. Ponencia presentada en el I Congreso Internacional de Neologa en las Lenguas Romnicas, Universidad Pompeu Fabra, Barcelona, Espaa.

    Pantel, P. & Lin, D. (2001). A statistical corpus-based term extractor. Ponencia presentada en el 14th Biennial Conference of the Canadian Society on Computational Studies of Intelligence, Londres, Inglaterra.

    Patry, A. & Langlais, P. (2005). Corpus-based terminology extraction. Ponencia presentada en el 7th International Conference on Terminology and Knowledge Engineering, Copenhagen, Dinamarca.

    Pozzi, M.; Bentez, V.; Morett, S. (2008). Neologismos cientficos y tcnicos en la prensa mexicana. Actas del XI Simposio Iberoamericano de Terminologa. Lima: RITerm.

    Rondeau, G. (1984). Introduction la terminologie. Qubec: Gatan Morin.

    Sager, J. (1990). A practical course in terminology processing. Amsterdam/Philadelphia: John Benjamins.

    Sheremetyeva, S. (2009). On extracting multiword NP terminology for MT. Ponencia presentada en el EAMT Conference, Barcelona, Espaa.

    Sparck Jones, K. (1972). A statistical interpretation of term specificity and its application in retrieval. Journal of Documentation, 28(1), 11-21.

    Tartier, A. (2003). A method for observing terminological evolution. En G. Angelova, K. Bontcheva, R. Mitkov & N. Nikolov (Eds.), Proceedings of Recent Advances in Natural Language Processing (pp. 467-471). Bulgary: Borovets.

  • Revista Signos 2011, 44(75) Rogelio Nazar

    67

    Temmerman, R. (2000). Towards new ways of terminology description: The socio-cognitive approach. Amsterdam: John Benjamins.

    TermCat (1992). Diccionari de Lingstica. Barcelona: Fundaci Barcelona.

    Vivaldi, J. (2001). Extraccin de candidatos a trmino mediante combinacin de estrategias heterogneas. Barcelona: IULA, Srie Tesis 9.

    Wster, E. (1979). Introduccin a la Teora General de la Terminologa y a la Lexicografa Terminolgica. Barcelona: IULA, Srie Monografies 1.

    NOTAS

    1.-Este artculo es una versin extendida de la comunicacin Evolucin de la terminologa lingstica en las Actas de Congresos de AESLA entre 1983 y 2006, presentada en el XXVIII Congreso Internacional de AESLA, en la Universidad de Vigo del 15 al 17 de abril de 2010.

    2.-http://www.aesla.uji.es/publicaciones

    3.- http://melot.upf.edu/aesla2010/ (con acceso octubre 2010)

    4.-http://www.elpais.es (con acceso octubre 2010)

    * Este artculo ha sido posible gracias al financiamiento del proyecto RICOTERM3 (Ministerio de Educacin y Ciencia: HUM2007-65966-C02-01/FILO. Investigadora principal: Dra. Merc Lorente). Querra agradecer adems a AESLA por facilitar los archivos de las actas de los congresos y al TermCat por facilitar la versin electrnica del diccionario utilizado.