dal corpus al treebank alcune applicazioni ai persiani di eschilo federico boschetti dal corpus al...

24
Dal Dal corpus corpus al al treebank treebank Alcune applicazioni Alcune applicazioni ai ai Persiani Persiani di Eschilo di Eschilo Federico Boschetti Federico Boschetti [email protected] 1/24 Introduzione Lemmatizzazio ne e POS Treebanks - Crossing edges - Secondary edges Ricerca di strutture Estensioni Treebanks e filologia - Varianti e interpretazioni 3-tier Parallelizzaz ione Conclusioni

Upload: eleonora-bellini

Post on 01-May-2015

231 views

Category:

Documents


0 download

TRANSCRIPT

  • Slide 1
  • Dal corpus al treebank Alcune applicazioni ai Persiani di Eschilo Federico Boschetti Dal corpus al treebank Alcune applicazioni ai Persiani di Eschilo Federico Boschetti [email protected] 1/24 Introduzione Lemmatizzazione e POS Treebanks - Crossing edges - Secondary edges Ricerca di strutture Estensioni Treebanks e filologia - Varianti e interpretazioni 3-tier Parallelizzazione Conclusioni
  • Slide 2
  • Il corpus non lemmatizzato I corpora pi completi a disposizione del filologo classico (TLG, PHI, PoetidItalia...) solitamente non sono lemmatizzati Le forme che cadono sotto lo stesso lemma possono essere cercate tramite caratteri jolly o regular expressions pi complesse, formulate valutando il rapporto fra precision (solo ci che pertinente) e recall (tutto ci che pertinente) amor*( carattere jolly per interrogare Poeti d'Italia in Lingua latina) /e?lu.*/ (regular expression per interrogare il TLG con Diogenes) 2/24 Introduzione Lemmatizzazione e POS Treebanks - Crossing edges - Secondary edges Ricerca di strutture Estensioni Treebanks e filologia - Varianti e interpretazioni 3-tier Parallelizzazione Conclusioni
  • Slide 3
  • Lemmatizzazione e POS I corpora redatti dal Centre Informatique de Philosophie et Lettres (C.I.P.L.) di Liegi sono lemmatizzati: ad ogni forma del testo associato il lemma corrispondente del LSJ A ciascuna forma associata la parte del discorso (Part Of Speech) corrispondente Il lavoro sui Persiani di Eschilo stato realizzato estendendo il corpus gentilmente concesso dal C.I.P.L. 3/24 Introduzione Lemmatizzazione e POS Treebanks - Crossing edges - Secondary edges Ricerca di strutture Estensioni Treebanks e filologia - Varianti e interpretazioni 3-tier Parallelizzazione Conclusioni
  • Slide 4
  • Composizione e derivazione La lemmatizzazione favorisce l'applicazione di algoritmi combinatori per la ricerca sistematica di cooccorrenze di due o pi parole La lemmatizzazione unita all'analisi metrica permette ad esempio la ricerca semiautomatica di formule (omeriche) La lemmatizzazione non efficace se si interessati a unit lessicali inferiori alla parola Con l'aiuto del DELG si proceduto ad integrare la lemmatizzazione con informazioni pertinenti alla composizione e alla derivazione C: +F: >C: - C: +F: ~B: C: +F: ~B: >C: - C: +B: 4/24 Introduzione Lemmatizzazione e POS Treebanks - Crossing edges - Secondary edges Ricerca di strutture Estensioni Treebanks e filologia - Varianti e interpretazioni 3-tier Parallelizzazione Conclusioni
  • Slide 5
  • I tratti morfologici A ciascuna forma sono stati associati i tratti morfologici pertinenti alla sua categoria grammaticale: Nome e pronome: num., gen., caso Aggettivo: num., gen., caso, grado Verbo: tempo, modo, diatesi, pers., num. 5/24 Introduzione Lemmatizzazione e POS Treebanks - Crossing edges - Secondary edges Ricerca di strutture Estensioni Treebanks e filologia - Varianti e interpretazioni 3-tier Parallelizzazione Conclusioni
  • Slide 6
  • Sintassi: dal luogo notevole alla base di dati Gli studi specialistici sulla sintassi di un autore sono generalmente focalizzati su luoghi notevoli oggetto di discussione critica (per Eschilo si pu fare riferimento all'ottimo lavoro di G. Matino) La redazione di corpora e la conseguente corpus analysis sono focalizzate invece sulla registrazione sistematica e (idealmente) esaustiva dei fenomeni (sintattici) presenti nel testo 6/24 Introduzione Lemmatizzazione e POS Treebanks - Crossing edges - Secondary edges Ricerca di strutture Estensioni Treebanks e filologia - Varianti e interpretazioni 3-tier Parallelizzazione Conclusioni
  • Slide 7
  • Codifica della sintassi Esistono numerosi modelli formali per codificare la sintassi 7/24 Introduzione Lemmatizzazione e POS Treebanks - Crossing edges - Secondary edges Ricerca di strutture Estensioni Treebanks e filologia - Varianti e interpretazioni 3-tier Parallelizzazione Conclusioni
  • Slide 8
  • La scelta di TigerSearch Implementazione in Java (garanzia di portabilit) e sviluppo di APIs open source Codifica Unicode e implementazione di Input methods per le lingue orientali e le lingue classiche Input/Output in formato XML (esportazione dei grafici in formato SVG) Associazione di ciascuna unit testuale (parola, sintagma, periodo) ad un identificatore univoco Possibilit di estendere i livelli di analisi previsti (lemmatizzazione, POS, t ratti morfologici) con nuovi livelli di analisi (struttura metrica, sottocategorizzazione semantica, etc.) Possibilit di creare proprie etichette dei costituenti e delle funzioni sintattiche Modello di rappresentazione che permette crossing edges e secondary edges, molto adegua to per la rappresentazione di figure sintattiche Linguaggio di interrogazione del treebank molto espressivo 8/24 Introduzione Lemmatizzazione e POS Treebanks - Crossing edges - Secondary edges Ricerca di strutture Estensioni Treebanks e filologia - Varianti e interpretazioni 3-tier Parallelizzazione Conclusioni
  • Slide 9
  • La struttura del treebank Un treebank una collezione di grafi aciclici orientati che rappresentano la struttura di ciascun periodo sintattico In TigerSearch i nodi terminali sono costituiti dalle parole (associate a lemma, POS, etc.) I nodi non terminali rappresentano costituenti sintattici di livello superiore (ad es. NP [Noun Phrase], S [Sentence], etc.) Gli archi che uniscono i vari nodi possono essere etichettati per esprimere la funzione che il nodo subordinato assolve nei confronti del nodo sovraordinato (ad es. SB [Subject], etc.) 9/24 Introduzione Lemmatizzazione e POS Treebanks - Crossing edges - Secondary edges Ricerca di strutture Estensioni Treebanks e filologia - Varianti e interpretazioni 3-tier Parallelizzazione Conclusioni
  • Slide 10
  • Crossing edges Il modello di rappresentazione consente la sovrapposizione di archi nell'albero della struttura sintattica 10/24 Introduzione Lemmatizzazione e POS Treebanks - Crossing edges - Secondary edges Ricerca di strutture Estensioni Treebanks e filologia - Varianti e interpretazioni 3-tier Parallelizzazione Conclusioni Pers. 347
  • Slide 11
  • Secondary edges Il modello di rappresentazione consente la presenza di archi secondari in caso di componenti condivisi 11/24 Introduzione Lemmatizzazione e POS Treebanks - Crossing edges - Secondary edges Ricerca di strutture Estensioni Treebanks e filologia - Varianti e interpretazioni 3-tier Parallelizzazione Conclusioni Pers. 299
  • Slide 12
  • Dalla ricerca di parole alla ricerca di strutture Il Tiger Query Language consente non soltanto la ricerca di parole (o metaparole, quali lemmi, POS, etc.) e sequenze di parole Permette soprattutto la ricerca di strutture complesse, indipendentemente dalle parole (o metaparole) effettive presenti nella struttura E' possibile in questo modo raggiungere livelli di astrazione piuttosto elevati Ricerca di tutte le strutture SOV oppure SVO Ricerca di sintagmi preposizionali dove la preposizione si trova in seconda posizione 12/24 Introduzione Lemmatizzazione e POS Treebanks - Crossing edges - Secondary edges Ricerca di strutture Estensioni Treebanks e filologia - Varianti e interpretazioni 3-tier Parallelizzazione Conclusioni
  • Slide 13 [word=""]cerca una Noun Phrase che contenga la parola [cat="S"] >SB #xcerca i nodi che fungono da soggetto #s >SB #subj &cerca i periodi dove il complemento oggetto (#s >OA #obj | #s >OC #obj) & oppure una oggettiva precedano il soggetto #obj.* #subj 13/24 Introduzione Lemmatizzazione e POS Treebanks - Crossing edges - Secondary edges Ricerca di strutture Estensioni Treebanks e filologia - Varianti e interpretazioni 3-tier Parallelizzazione Conclusioni">
  • Esempi di interrogazione [word=""]cerca la parola [pos="ptc"]cerca le particelle [lemma=/.*/]cerca tutte le parole il cui lemma comincia per zeta [morph="N\.m\.sg"]cerca sostantivi, aggettivi, pronomi o participi al nominativo maschile singolare [cat="NP"] > [word=""]cerca una Noun Phrase che contenga la parola [cat="S"] >SB #xcerca i nodi che fungono da soggetto #s >SB #subj &cerca i periodi dove il complemento oggetto (#s >OA #obj | #s >OC #obj) & oppure una oggettiva precedano il soggetto #obj.* #subj 13/24 Introduzione Lemmatizzazione e POS Treebanks - Crossing edges - Secondary edges Ricerca di strutture Estensioni Treebanks e filologia - Varianti e interpretazioni 3-tier Parallelizzazione Conclusioni
  • Slide 14
  • Studio della metatassi Il Tiger Query Language si presta a formulare stringhe di interrogazione per la ricerca di figure sintattiche quali l'iperbato il chiasmo il parallelismo lasindeto il polisindeto, etc. 14/24 Introduzione Lemmatizzazione e POS Treebanks - Crossing edges - Secondary edges Ricerca di strutture Estensioni Treebanks e filologia - Varianti e interpretazioni 3-tier Parallelizzazione Conclusioni
  • Slide 15
  • Estendibilit delle features TigerSearch consente la creazione di nuove features, oltre al lemma e alla part of speech Ad ogni parola stata associata la struttura metrica (nel contesto del verso) e una (molto blanda) categorizzazione semantica (ad es.: concreto