slides presentazione lemlat lisbona presentazione lemlat lisbona.pdf · o l i s s i p o (omnis...
TRANSCRIPT
O L I S S I P O(Omnis Latinitatis Instrumentum Secundum Scholarum Instructionis Propositum Ordinatum)
OLISSIPO è un progetto comune di ricerca inserito negli accordi scientificitra il Consiglio Nazionale delle Ricerche (CNR) e il Gabinete de RelaçõesInternacionais da Ciência E Ensino Superior (GRICES).
OLISSIPO è uno strumento per l’estrazione e l’analisi statistica di un vocabolario di base del latino
3
pulsanti scelta funzioni
1 2 3 4 5 6 7 8
• 1 - seleziona il testo: serve per scegliere il testo da analizzare;• 2 - analisi: per effettuare le elaborazioni del testo scelto;• 3 - risultati: per visualizzare i risultati dell’elaborazione;• 4 - ricerca per forma: per effettuare ricerche nel testo utilizzando la forma;• 5 - ricerca per lemma: per effettuare ricerche nel testo utilizzando il lemma;• 6 - statistiche: visualizza le semplici statistiche fornite dal programma;• 7 - lessico: serve per modificare le informazioni contenute nella base di dati;• 8 - vocabolario basico: serve per aggiornare il vocabolario basico .
4
finestra analisi• Consulta un formario costituito dacirca 1800 entrate corrispondenti allalista di lemmi compresi in Habesteinet al. (1970) e a quelli con più disessanta occorrenze presenti nellostudio statistico di Delatte et al.(1981).• è possibile scegliere un proprioformario• si possono visualizzare i risultatisullo schermo per un primo controllo• si può utilizzare il programma dietichettatura morfologica LEMLATin modalità interattiva.
10
Progetto CHLT
• Finanziato dalla CE e dalla NSF USA• Fine: sviluppo di strumenti computazionali per la
gestione e la fruizione di dati linguistici relativiall’eredità culturale europea (digital libraries)
• Workpackage 5.– ILC – CNR, Pisa– Fine: analizzatore morfologico del latino– Mezzo: analizzatore LEMLAT; sviluppo di nuove
funzioni
12
La base lessicale di LEMLAT
• Dizionari collazionati– Georges– Gradenwitz– Oxford Latin Dictionary
• Numero di entrate:– 64218 LES
(parte invariabile di una forma flessa)
15
Cosa bisogna fare
• Aggiungere sull’output– Nuove informazioni morfologiche
aquai• LEMLAT: aqu-ai (forma segm.), aqua (lemma), n1 (COD LEM)• CHLT LEMLAT: aqua (lemma)
Common, Noun, I Decl., Gen., Sing., Fem.
– Nuove informazioni stilistiche e storico-linguisticheaquai• CHLT LEMLAT: aqua (lemma)
Common, Noun, I Decl., Gen., Sing., Fem., Poetic., Arch.
16
Come facciamo• Segmentazione della parola• Codifica degli elementi costitutivi della parola (LES, SM,
SF) come portatori delle informazioni morfologiche• Esempio
– Input: rosam– Segmentazione: ros-am– LES: ros n1, (femminile)– SF: am N1 acc., sing.– Output:
rosa (lemma);nome comune, I decl., acc., sing., femm.
17
Posizioni dei codici e attributi====== ==================Code P ATTRIBUTE====== ==================1 PoS2 Type3 Flexive Category4 Mood5 Tense6 Case7 Gender8 Number9 Person10 Degree
18
Terza posizione: valori e codici= ===================== ===================== =P ATTRIBUTE VALUE C= ===================== ===================== =3 Flexive Category I decl. A II decl. B III decl. C IV decl. D V decl. E I conjug. F II conjug. G III conjug. H IV conjug. L Conjug e/i M Exceptional Conjug. N No Flexive Category -
19
Esempi di codifica di SFa n1 NcA--bfs-- ros-aa n1 NcA--bms-- pirat-aa n1 NcA--nfs-- ros-aa n1 NcA--nms-- pirat-aa n1 NcA--vfs-- ros-aa n1 NcA--vms-- pirat-aa n1e NcA--bfs-- plastic-aa n1e NcA--bms-- poet-aa n1e NcA--nfs-- plastic-aa n1e NcA--nms-- poet-aa n1e NcA--vfs-- plastic-aa n1e NcA--vms-- poet-aabus n1e NcA--bfp-- de-abusabus n1e NcA--dfp-- de-abus
22
Prospettive
• Disambiguatore sintattico delle omografie(LECTIO)
• Latin Lexical Database• Analizzatore della struttura metrica• Modulo in una postazione filologica
multimodulare per edizioni critiche digitali• Famiglie morfologiche e semantiche• …
23
Lectio (2003-2005)
Centro de Estudos Clássicos (Univ. de Lisboa) – Istituto diLinguistica Computazionale (CNR-Pisa)
Financiamento: FCT, Programa AlfaData de início: 1 de Fevereiro de 2003
24
Lematizador automático da língua latina anexo a uma base dedados contendo informação lexical e outra.
Extracção e disponibilização de listagens de vocabulário básico apartir de qualquer texto latino.
Módulo de estatísticas por categoria morfológica configurável peloutilizador.
Visualização do texto e possibilidade de pesquisa de ocorrênciaspor forma ou por sequência de caracteres, com busca de palavra/lema no texto.
Gerador de concordâncias de configuração a definir pelo utilizador.
Corpus de referência de autores hispânicos mediolatinos de interessepara o actual território português
25
Os princípios básicos serão:
1. Multifuncionalidade. A aplicação destinar-se-á tanto àinvestigação, como ao ensino/aprendizagem (docentes ediscentes).
2. Modularidade. Mediante os módulos pretendidos assim seadaptará às necessidades de cada utilizador.
3. Sistema aberto. O utilizador poderá configurar os níveis deinformação proporcionados pela aplicação de acordocom as suas necessidades.
26
Resultado Final:
Ferramenta assumidamente aberta, com a qual o utilizador possaelaborar as suas próprias análises textuais e estatísticas dos textos,reformular ou mesmo reconstituir a base de dados lexicais proposta,estabelecer os seus próprios elementos extra-linguísticos e ampliar ocorpus de referência.