introducción al procesamiento del lenguaje natural -...

Post on 16-Mar-2020

9 Views

Category:

Documents

0 Downloads

Preview:

Click to see full reader

TRANSCRIPT

Lingüística computacionalIntroducción al procesamiento del lenguaje natural

Jorge Mauricio MOLINA MEJIAFacultad de Comunicaciones – Pregrado en letras: Filología hispánica

09 de enero de 2016

Facultad de Comunicaciones – UdeA Lingüística computacional 09/02/2016 1 / 24

Plan

1 Introducción

2 ¿Qué es la lingüística computacional ?

3 Terminología

4 Campos de utilización de la Lingüística computacional

5 Ejemplo de análisis 1

6 Ejemplo de análisis 2

7 Alcances y problemas en la LC

8 Conclusión y perspectivas

Facultad de Comunicaciones – UdeA Lingüística computacional 09/02/2016 2 / 24

Plan

1 Introducción

2 ¿Qué es la lingüística computacional ?

3 Terminología

4 Campos de utilización de la Lingüísticacomputacional

5 Ejemplo de análisis 1

6 Ejemplo de análisis 2

7 Alcances y problemas en la LC

8 Conclusión y perspectivas

Facultad de Comunicaciones – UdeA Lingüística computacional 09/02/2016 3 / 24

Procesar el lenguaje naturalLingüística computacional (LC)

Representación figurada de la LC en la IA (Lavocat, 2013).

Facultad de Comunicaciones – UdeA Lingüística computacional 09/02/2016 4 / 24

Procesar el lenguaje natural

Algunas generalidades

La lingüística computacional es una ciencia interdisciplinaria (lingüística e informática) rela-tivamente reciente.

La lingüística computacional se interesa en el tratamiento informático de las lenguas natu-rales, utilizando para ello las potencialidades de los computadores.

La lingüística computacional se interesa tanto en el tratamiento de la lengua escrita como dela lengua hablada.

Los tratamientos informáticos pueden ser de tipo automático o manual.

Facultad de Comunicaciones – UdeA Lingüística computacional 09/02/2016 5 / 24

Procesar el lenguaje natural

Algunas generalidades

La lingüística computacional es una ciencia interdisciplinaria (lingüística e informática) rela-tivamente reciente.

La lingüística computacional se interesa en el tratamiento informático de las lenguas natu-rales, utilizando para ello las potencialidades de los computadores.

La lingüística computacional se interesa tanto en el tratamiento de la lengua escrita como dela lengua hablada.

Los tratamientos informáticos pueden ser de tipo automático o manual.

Facultad de Comunicaciones – UdeA Lingüística computacional 09/02/2016 5 / 24

Procesar el lenguaje natural

Algunas generalidades

La lingüística computacional es una ciencia interdisciplinaria (lingüística e informática) rela-tivamente reciente.

La lingüística computacional se interesa en el tratamiento informático de las lenguas natu-rales, utilizando para ello las potencialidades de los computadores.

La lingüística computacional se interesa tanto en el tratamiento de la lengua escrita como dela lengua hablada.

Los tratamientos informáticos pueden ser de tipo automático o manual.

Facultad de Comunicaciones – UdeA Lingüística computacional 09/02/2016 5 / 24

Procesar el lenguaje natural

Algunas generalidades

La lingüística computacional es una ciencia interdisciplinaria (lingüística e informática) rela-tivamente reciente.

La lingüística computacional se interesa en el tratamiento informático de las lenguas natu-rales, utilizando para ello las potencialidades de los computadores.

La lingüística computacional se interesa tanto en el tratamiento de la lengua escrita como dela lengua hablada.

Los tratamientos informáticos pueden ser de tipo automático o manual.

Facultad de Comunicaciones – UdeA Lingüística computacional 09/02/2016 5 / 24

Plan

1 Introducción

2 ¿Qué es la lingüística computacional ?

3 Terminología

4 Campos de utilización de la Lingüísticacomputacional

5 Ejemplo de análisis 1

6 Ejemplo de análisis 2

7 Alcances y problemas en la LC

8 Conclusión y perspectivas

Facultad de Comunicaciones – UdeA Lingüística computacional 09/02/2016 6 / 24

¿Qué es la lingüística computacional ?Definición de un campo

Lingüística computacional o lingüística informática

"[...] estudio de los sistemas de computación utilizados para la comprensión y la generaciónde las lenguas naturales" (Grishman, 1986, citado en Moreno Sandoval, 1998).

"[...] es un área de conocimiento interdisciplinario en que confluyen la Lingüística Teóricay Aplicada, la Informática, la Inteligencia Artificial y la Ciencia Cognitiva. Más aún, coneste término a menudo se hace referencia a todo tipo de procesos informáticos que seaplican a los datos lingüísticos, puesto que el objetivo último de la lingüística computacionales la modelización del comportamiento lingüístico del hablante y del oyente, es decir, laconstrucción de programas informáticos que simulen los procesos que tienen lugar enlos individuos cuando estos se comunican" (Martí Antonin & Castellón Masalles, 2000).

Objeto de la LC

"[...] los tratamientos automáticos de las lenguas tienen como objeto los datos lingüísticos(textos), expresados en un lenguaje (natural), y que para poder procesar automáticamentedichos datos, se debe ser capaz de explicitar las reglas del lenguaje, de representarlos en for-malismos operatorios y calculables y de implementarlos con la ayuda de programas" (Fuchs,1993).

Facultad de Comunicaciones – UdeA Lingüística computacional 09/02/2016 7 / 24

¿Qué es la lingüística computacional ?Definición de un campo

Lingüística computacional o lingüística informática

"[...] estudio de los sistemas de computación utilizados para la comprensión y la generaciónde las lenguas naturales" (Grishman, 1986, citado en Moreno Sandoval, 1998).

"[...] es un área de conocimiento interdisciplinario en que confluyen la Lingüística Teóricay Aplicada, la Informática, la Inteligencia Artificial y la Ciencia Cognitiva. Más aún, coneste término a menudo se hace referencia a todo tipo de procesos informáticos que seaplican a los datos lingüísticos, puesto que el objetivo último de la lingüística computacionales la modelización del comportamiento lingüístico del hablante y del oyente, es decir, laconstrucción de programas informáticos que simulen los procesos que tienen lugar enlos individuos cuando estos se comunican" (Martí Antonin & Castellón Masalles, 2000).

Objeto de la LC

"[...] los tratamientos automáticos de las lenguas tienen como objeto los datos lingüísticos(textos), expresados en un lenguaje (natural), y que para poder procesar automáticamentedichos datos, se debe ser capaz de explicitar las reglas del lenguaje, de representarlos en for-malismos operatorios y calculables y de implementarlos con la ayuda de programas" (Fuchs,1993).

Facultad de Comunicaciones – UdeA Lingüística computacional 09/02/2016 7 / 24

¿Qué es la lingüística computacional ?Definición de un campo

Lingüística computacional o lingüística informática

"[...] estudio de los sistemas de computación utilizados para la comprensión y la generaciónde las lenguas naturales" (Grishman, 1986, citado en Moreno Sandoval, 1998).

"[...] es un área de conocimiento interdisciplinario en que confluyen la Lingüística Teóricay Aplicada, la Informática, la Inteligencia Artificial y la Ciencia Cognitiva. Más aún, coneste término a menudo se hace referencia a todo tipo de procesos informáticos que seaplican a los datos lingüísticos, puesto que el objetivo último de la lingüística computacionales la modelización del comportamiento lingüístico del hablante y del oyente, es decir, laconstrucción de programas informáticos que simulen los procesos que tienen lugar enlos individuos cuando estos se comunican" (Martí Antonin & Castellón Masalles, 2000).

Objeto de la LC

"[...] los tratamientos automáticos de las lenguas tienen como objeto los datos lingüísticos(textos), expresados en un lenguaje (natural), y que para poder procesar automáticamentedichos datos, se debe ser capaz de explicitar las reglas del lenguaje, de representarlos en for-malismos operatorios y calculables y de implementarlos con la ayuda de programas" (Fuchs,1993).

Facultad de Comunicaciones – UdeA Lingüística computacional 09/02/2016 7 / 24

Esquema que define el procesamiento automático del lenguaje (Antoniadis,2008)

Facultad de Comunicaciones – UdeA Lingüística computacional 09/02/2016 8 / 24

Plan

1 Introducción

2 ¿Qué es la lingüística computacional ?

3 Terminología

4 Campos de utilización de la Lingüísticacomputacional

5 Ejemplo de análisis 1

6 Ejemplo de análisis 2

7 Alcances y problemas en la LC

8 Conclusión y perspectivas

Facultad de Comunicaciones – UdeA Lingüística computacional 09/02/2016 9 / 24

Algo de terminología

Términos

Lingüística computacional

Lingüística informática

Procesamiento del lenguaje natural

Ingeniería lingüística

Tecnologías del lenguaje

Ciencias afines

Lingüística teórica y aplicada

Informática

Inteligencia artificial

Ciencia cognitiva

Facultad de Comunicaciones – UdeA Lingüística computacional 09/02/2016 10 / 24

Algo de terminología

Términos

Lingüística computacional

Lingüística informática

Procesamiento del lenguaje natural

Ingeniería lingüística

Tecnologías del lenguaje

Ciencias afines

Lingüística teórica y aplicada

Informática

Inteligencia artificial

Ciencia cognitiva

Facultad de Comunicaciones – UdeA Lingüística computacional 09/02/2016 10 / 24

Algo de terminología

Términos

Lingüística computacional

Lingüística informática

Procesamiento del lenguaje natural

Ingeniería lingüística

Tecnologías del lenguaje

Ciencias afines

Lingüística teórica y aplicada

Informática

Inteligencia artificial

Ciencia cognitiva

Facultad de Comunicaciones – UdeA Lingüística computacional 09/02/2016 10 / 24

Algo de terminología

Términos

Lingüística computacional

Lingüística informática

Procesamiento del lenguaje natural

Ingeniería lingüística

Tecnologías del lenguaje

Ciencias afines

Lingüística teórica y aplicada

Informática

Inteligencia artificial

Ciencia cognitiva

Facultad de Comunicaciones – UdeA Lingüística computacional 09/02/2016 10 / 24

Plan

1 Introducción

2 ¿Qué es la lingüística computacional ?

3 Terminología

4 Campos de utilización de la Lingüísticacomputacional

5 Ejemplo de análisis 1

6 Ejemplo de análisis 2

7 Alcances y problemas en la LC

8 Conclusión y perspectivas

Facultad de Comunicaciones – UdeA Lingüística computacional 09/02/2016 11 / 24

Campos de utilización de la Lingüística computacional

Tecnologías del lenguaje (Martí Antonin et al., 2003)

Recursos de ayuda a la ediciónLa verificación ortográficaLa verificación sintácticaLa verificación estilística

El procesamiento de corpusCorpus escritosCorpus orales

Hipertexto

La traducción automáticaLas interfaces en lenguaje natural

El tratamiento lingüísticoArquitecturas sencillas y avanzadas en la tecnología de interfaces

Recuperación y extracción de informaciónLas tecnologías del habla

La síntesis del hablaEl reconocimiento del hablaLos sistemas de diálogo

Facultad de Comunicaciones – UdeA Lingüística computacional 09/02/2016 12 / 24

Campos de utilización de la Lingüística computacional

Tecnologías del lenguaje (Martí Antonin et al., 2003)

Recursos de ayuda a la ediciónLa verificación ortográficaLa verificación sintácticaLa verificación estilística

El procesamiento de corpusCorpus escritosCorpus orales

Hipertexto

La traducción automáticaLas interfaces en lenguaje natural

El tratamiento lingüísticoArquitecturas sencillas y avanzadas en la tecnología de interfaces

Recuperación y extracción de informaciónLas tecnologías del habla

La síntesis del hablaEl reconocimiento del hablaLos sistemas de diálogo

Facultad de Comunicaciones – UdeA Lingüística computacional 09/02/2016 12 / 24

Campos de utilización de la Lingüística computacional

Tecnologías del lenguaje (Martí Antonin et al., 2003)

Recursos de ayuda a la ediciónLa verificación ortográficaLa verificación sintácticaLa verificación estilística

El procesamiento de corpusCorpus escritosCorpus orales

Hipertexto

La traducción automáticaLas interfaces en lenguaje natural

El tratamiento lingüísticoArquitecturas sencillas y avanzadas en la tecnología de interfaces

Recuperación y extracción de informaciónLas tecnologías del habla

La síntesis del hablaEl reconocimiento del hablaLos sistemas de diálogo

Facultad de Comunicaciones – UdeA Lingüística computacional 09/02/2016 12 / 24

Campos de utilización de la Lingüística computacional

Tecnologías del lenguaje (Martí Antonin et al., 2003)

Recursos de ayuda a la ediciónLa verificación ortográficaLa verificación sintácticaLa verificación estilística

El procesamiento de corpusCorpus escritosCorpus orales

Hipertexto

La traducción automática

Las interfaces en lenguaje naturalEl tratamiento lingüísticoArquitecturas sencillas y avanzadas en la tecnología de interfaces

Recuperación y extracción de informaciónLas tecnologías del habla

La síntesis del hablaEl reconocimiento del hablaLos sistemas de diálogo

Facultad de Comunicaciones – UdeA Lingüística computacional 09/02/2016 12 / 24

Campos de utilización de la Lingüística computacional

Tecnologías del lenguaje (Martí Antonin et al., 2003)

Recursos de ayuda a la ediciónLa verificación ortográficaLa verificación sintácticaLa verificación estilística

El procesamiento de corpusCorpus escritosCorpus orales

Hipertexto

La traducción automáticaLas interfaces en lenguaje natural

El tratamiento lingüísticoArquitecturas sencillas y avanzadas en la tecnología de interfaces

Recuperación y extracción de informaciónLas tecnologías del habla

La síntesis del hablaEl reconocimiento del hablaLos sistemas de diálogo

Facultad de Comunicaciones – UdeA Lingüística computacional 09/02/2016 12 / 24

Campos de utilización de la Lingüística computacional

Tecnologías del lenguaje (Martí Antonin et al., 2003)

Recursos de ayuda a la ediciónLa verificación ortográficaLa verificación sintácticaLa verificación estilística

El procesamiento de corpusCorpus escritosCorpus orales

Hipertexto

La traducción automáticaLas interfaces en lenguaje natural

El tratamiento lingüísticoArquitecturas sencillas y avanzadas en la tecnología de interfaces

Recuperación y extracción de información

Las tecnologías del hablaLa síntesis del hablaEl reconocimiento del hablaLos sistemas de diálogo

Facultad de Comunicaciones – UdeA Lingüística computacional 09/02/2016 12 / 24

Campos de utilización de la Lingüística computacional

Tecnologías del lenguaje (Martí Antonin et al., 2003)

Recursos de ayuda a la ediciónLa verificación ortográficaLa verificación sintácticaLa verificación estilística

El procesamiento de corpusCorpus escritosCorpus orales

Hipertexto

La traducción automáticaLas interfaces en lenguaje natural

El tratamiento lingüísticoArquitecturas sencillas y avanzadas en la tecnología de interfaces

Recuperación y extracción de informaciónLas tecnologías del habla

La síntesis del hablaEl reconocimiento del hablaLos sistemas de diálogo

Facultad de Comunicaciones – UdeA Lingüística computacional 09/02/2016 12 / 24

Plan

1 Introducción

2 ¿Qué es la lingüística computacional ?

3 Terminología

4 Campos de utilización de la Lingüísticacomputacional

5 Ejemplo de análisis 1

6 Ejemplo de análisis 2

7 Alcances y problemas en la LC

8 Conclusión y perspectivas

Facultad de Comunicaciones – UdeA Lingüística computacional 09/02/2016 13 / 24

Proceso de análisis (Martí Antonin et al., 2003)

Facultad de Comunicaciones – UdeA Lingüística computacional 09/02/2016 14 / 24

Plan

1 Introducción

2 ¿Qué es la lingüística computacional ?

3 Terminología

4 Campos de utilización de la Lingüísticacomputacional

5 Ejemplo de análisis 1

6 Ejemplo de análisis 2

7 Alcances y problemas en la LC

8 Conclusión y perspectivas

Facultad de Comunicaciones – UdeA Lingüística computacional 09/02/2016 15 / 24

Ejemplo de análisis ELiTe-[FLE]2 (Molina Mejia, 2015)

Facultad de Comunicaciones – UdeA Lingüística computacional 09/02/2016 16 / 24

Plan

1 Introducción

2 ¿Qué es la lingüística computacional ?

3 Terminología

4 Campos de utilización de la Lingüísticacomputacional

5 Ejemplo de análisis 1

6 Ejemplo de análisis 2

7 Alcances y problemas en la LC

8 Conclusión y perspectivas

Facultad de Comunicaciones – UdeA Lingüística computacional 09/02/2016 17 / 24

Alcances y limitaciones en la LC

AlcancesManejo de grandes masas de datos en tiempos reducidos.

Posibilidad de manejar los datos para realizar aplicaciones en la Red.

Los datos obtenidos a través del procesamiento del lenguaje pueden aplicarse en diversoscampos del conocimiento.

Limitaciones

Los sistemas mejor dotados sólo pueden llegar (en el mejor de los casos) a un nivel decertitud del 98% al 99%, por el momento el 100% es utópico.

Problemas de detección debidos a la ambigüedad del lenguaje.

Facultad de Comunicaciones – UdeA Lingüística computacional 09/02/2016 18 / 24

Alcances y limitaciones en la LC

AlcancesManejo de grandes masas de datos en tiempos reducidos.

Posibilidad de manejar los datos para realizar aplicaciones en la Red.

Los datos obtenidos a través del procesamiento del lenguaje pueden aplicarse en diversoscampos del conocimiento.

Limitaciones

Los sistemas mejor dotados sólo pueden llegar (en el mejor de los casos) a un nivel decertitud del 98% al 99%, por el momento el 100% es utópico.

Problemas de detección debidos a la ambigüedad del lenguaje.

Facultad de Comunicaciones – UdeA Lingüística computacional 09/02/2016 18 / 24

Errores de tratamiento

Facultad de Comunicaciones – UdeA Lingüística computacional 09/02/2016 19 / 24

Ambigüedad lingüística

Ambigüedad morfológica

O = La pequeña viola la forma.[O ambigmorfo] – (Det(La) ; N(La) ; Pron(La) ; N(pequeña) ; Adj(pequeña) ; N(viola) ; V(viola) ;Det(la) ; N(la) ; Pron(la) ; N(forma) ; V(forma)).

Ambigüedad sintáctica

O = La pequeña viola la forma.[O ambigsint1] – (SN Det(La) N(pequeña)) (SV V(viola)) (SN Det(la) N(forma)).[O ambigsint2] – (SN Det(La) Adj(pequeña) N(viola)) (CI Pron(la)) (SV V(forma)).

Posibles soluciones

Métodos estadísticos (cadenas de Markov).

Métodos lingüísticos (análisis manual).

Facultad de Comunicaciones – UdeA Lingüística computacional 09/02/2016 20 / 24

Ambigüedad lingüística

Ambigüedad morfológica

O = La pequeña viola la forma.[O ambigmorfo] – (Det(La) ; N(La) ; Pron(La) ; N(pequeña) ; Adj(pequeña) ; N(viola) ; V(viola) ;Det(la) ; N(la) ; Pron(la) ; N(forma) ; V(forma)).

Ambigüedad sintáctica

O = La pequeña viola la forma.[O ambigsint1] – (SN Det(La) N(pequeña)) (SV V(viola)) (SN Det(la) N(forma)).[O ambigsint2] – (SN Det(La) Adj(pequeña) N(viola)) (CI Pron(la)) (SV V(forma)).

Posibles soluciones

Métodos estadísticos (cadenas de Markov).

Métodos lingüísticos (análisis manual).

Facultad de Comunicaciones – UdeA Lingüística computacional 09/02/2016 20 / 24

Ambigüedad lingüística

Ambigüedad morfológica

O = La pequeña viola la forma.[O ambigmorfo] – (Det(La) ; N(La) ; Pron(La) ; N(pequeña) ; Adj(pequeña) ; N(viola) ; V(viola) ;Det(la) ; N(la) ; Pron(la) ; N(forma) ; V(forma)).

Ambigüedad sintáctica

O = La pequeña viola la forma.[O ambigsint1] – (SN Det(La) N(pequeña)) (SV V(viola)) (SN Det(la) N(forma)).[O ambigsint2] – (SN Det(La) Adj(pequeña) N(viola)) (CI Pron(la)) (SV V(forma)).

Posibles soluciones

Métodos estadísticos (cadenas de Markov).

Métodos lingüísticos (análisis manual).

Facultad de Comunicaciones – UdeA Lingüística computacional 09/02/2016 20 / 24

Plan

1 Introducción

2 ¿Qué es la lingüística computacional ?

3 Terminología

4 Campos de utilización de la Lingüísticacomputacional

5 Ejemplo de análisis 1

6 Ejemplo de análisis 2

7 Alcances y problemas en la LC

8 Conclusión y perspectivas

Facultad de Comunicaciones – UdeA Lingüística computacional 09/02/2016 21 / 24

Conclusión y perspectivas

Conclusión

La lingüística computacional nos ha permitido, a través del procesamiento del lenguaje na-tural, la realización de aplicaciones informáticas que nos permiten el análisis de ese propiolenguaje.

Las técnicas de procesamiento han ido mejorando con el tiempo, hoy en día disponemos demejores analizadores morfo-sintácticos, de mejores instrumentos de anotación y etiquetaje.

Perspectivas

¿Qué podemos obtener como aspectos positivos del procesamiento del lenguaje natural ?

¿Que elementos de análisis podemos realizar basados en la lingüística computacional ?

¿Cómo consideran ustedes que puede utilizarse toda esta información en un proyecto delingüística o de literatura de los diferentes cursos de la carrera de filología ?

Facultad de Comunicaciones – UdeA Lingüística computacional 09/02/2016 22 / 24

Conclusión y perspectivas

Conclusión

La lingüística computacional nos ha permitido, a través del procesamiento del lenguaje na-tural, la realización de aplicaciones informáticas que nos permiten el análisis de ese propiolenguaje.

Las técnicas de procesamiento han ido mejorando con el tiempo, hoy en día disponemos demejores analizadores morfo-sintácticos, de mejores instrumentos de anotación y etiquetaje.

Perspectivas

¿Qué podemos obtener como aspectos positivos del procesamiento del lenguaje natural ?

¿Que elementos de análisis podemos realizar basados en la lingüística computacional ?

¿Cómo consideran ustedes que puede utilizarse toda esta información en un proyecto delingüística o de literatura de los diferentes cursos de la carrera de filología ?

Facultad de Comunicaciones – UdeA Lingüística computacional 09/02/2016 22 / 24

Bibliografía

Antoniadis, G. (2008). Du TAL et son apport aux systèmes d’apprentissage des langues :Contributions. Habilitation à diriger des recherches. Université Stendhal - Grenoble 3 : Gre-noble.

Fuchs, C. (1993). Linguistique et Traitements Automatiques des Langues. Hachette Supé-rieur : París.

Martí, M. A. & Llisterri, J. (2002). Tratamiento del lenguaje natural. Edicions Universitat deBarcelona : Barcelona.

Martí Antonin, M. A. & Castellón Masalles, I. (2000). Lingüística computacional. EdicionsUniversitat de Barcelona : Barcelona.

Martí Antonin, M. A. et al. (2003). Tecnologías del lenguaje. Editorial UOC : Barcelona.

Molina Mejia, J. M. (2015). ELiTe-[FLE]2 : Un environnement d’ALAO fondé sur la linguistiquetextuelle, pour la formation linguistique des futurs enseignants de FLE en Colombie. Thèsede Doctorat. Soutenue le 06 Novembre 2015, 442 pp. Université Grenoble Alpes : Grenoble.

Moreno Sandoval, A. (1998). Lingüística computacional. Editorial Síntesis : Madrid.

Facultad de Comunicaciones – UdeA Lingüística computacional 09/02/2016 23 / 24

Lingüística computacionalIntroducción al procesamiento del lenguaje natural

Jorge Mauricio MOLINA MEJIAFacultad de Comunicaciones – Pregrado en letras: Filología hispánica

09 de enero de 2016

Facultad de Comunicaciones – UdeA Lingüística computacional 09/02/2016 24 / 24

top related