corpus del quechua

13
Creación de corpus oral y Creación de corpus oral y escrito en la lengua quechua escrito en la lengua quechua (Qhishwa simita chaninchasun) (Qhishwa simita chaninchasun) 1

Upload: adolfo

Post on 20-Jul-2015

602 views

Category:

Education


4 download

TRANSCRIPT

Creación de corpus oral y Creación de corpus oral y escrito en la lengua quechuaescrito en la lengua quechua

(Qhishwa simita chaninchasun)(Qhishwa simita chaninchasun)1

2

1. Objetivos1. Objetivos

• Elaborar un corpus digital escrito del quechua con 50 millones de palabras considerando su representatividad y equilibrio.

• Implementar el etiquetado y marcarje gramatical, semántico, sintáctico y pragmático.

• Grabar, transcribir y organizar un corpus oral del quechua teniendo presente las variantes dialectales y los registros.

• Poner a disposición de los investigadores nacionales e internacionales un corpus de referencia del quechua.

3

2. Descripción del proyecto2. Descripción del proyecto

El proyecto se desarrollará durante dos años, que comprenderá la recolección, el procesamiento, organización del corpus

El proyecto está orientado a construir un corpus de referencia digital en quechua con 50 millones de palabra en la lengua escrita y 10 millones de la lengua oral en quechua. Los datos serán tomados del lenguaje natural considerando los dialectos que existen en el quechua, distribuidos de la siguiente manera (Torero, 1974):

Dialectos del quechuaDialectos del quechua

4

Q- I

Q-II

QHISHWA CORPORA

5

Uso de Recursos / Costes

02 años

Concepción

Recopilacióntextosescritos yorales

Marcado, etiquetaje, Recursos informáticos.

Producto: Corpus

3. Metodología:3. Metodología:

tiempo

Esfuerzo

6

1. Planificación y organización de actividades

3. Asignación de responsabilidades

5. Lectura del marco teórico.

FASE IConcepción del proyecto

4. ACTIVIDADES: Tareas y subtareas4. ACTIVIDADES: Tareas y subtareas

7

•TEXTOS ESCRITOS:•Localización de los textos, según zonas geográficas y países.•Recopilar un conjunto de textos de documentos escritos: libros, informes u otros documentos.•Digitalización de los textos•Almacenamiento los textos en archivos clasificados según géneros/ temas•Corrección informática y manual de los textos

•TEXTOS ORALES•Localización de las zonas geográficas y países•Grabación en lugares de destino•Transcripción automática del corpus•Ficha técnica•Corrección manual de la transcripción

FASE II:Recopilación y organización de textos en

contextos naturales.

8

1. Marcaje estructural y etiquetaje2. Preproceso (detección de fechas, números, locuciones, nombres

propios...) 3. Análisis y marcaje morfológicos de acuerdo con los etiquetarios

morfológicos4. Desambiguación lingüística y/o estadística5. Las inferencias (analizadores automáticos), 6. Las anotaciones (actos de habla: información, opinión, aliento, etc.)7. Las colocaciones (para Baker resulta útil porque ayuda a resumir las

relaciones más importantes entre las palabras),8. Los análisis posicionales (dependiendo de los géneros textuales), 9. Los coreferentes, 10. La estructura de la información (Mann y Thompson) 11. Los programas de concordancia12. Análisis léxico (para el examen de los rasgos lingüísticos como los

patrones de nominalización, la atribución, la modalidad, etc.), 13. Los marcados sintácticos y semánticos (Leech y Fligelstone, 1992)

FASE III

El procesamiento informático de la estructura del corpus oral y escrito

9

10

Recursos del ProyectoRecursos del Proyecto

Humanos

Informática y software

Equip

os

Materiales

Finacieros

Oficin

a/ c

entr

o

de p

roce

sam

ient

o

11

RECURSOS HUMANOS:RECURSOS HUMANOS:Coordinador del Proyecto - ResponsabilidadesCoordinador del Proyecto - Responsabilidades

– Integrar los esfuerzos de los miembros del equipo para alcanzar los objetivos del proyecto

– Definir la metodología de trabajo– Proveer recursos– Evaluar progresos– Establecer medidas correctivas

12

Equipo de ProyectoEquipo de Proyecto

• Grupo de personas lideradas por el Coordinador del proyecto.

• Representan áreas de trabajo funcional y roles específicos:

• Coordinador de la construcción del corpus escrito• Coordinador de la construcción del corpus oral• 03 digitadores• 02 informáticos • Un especialista en lingüística del corpus• Un lingüista quechua

13

Corpus oral y escrito del quechua Corpus oral y escrito del quechua CORPORAQHICHWA

Registrarse

- Adolfo Zárate Pérez paruwasqan