europeana newspapers lft infoday bolioli

15
Ricerca semantica: annotazioni manuali e automatiche per l'Archivio storico de La Stampa Andrea Bolioli 27 ottobre 2014, Bolzano - Bozen 1

Upload: europeana-newspapers

Post on 10-Jul-2015

118 views

Category:

Education


0 download

TRANSCRIPT

Page 1: Europeana Newspapers LFT Infoday Bolioli

Ricerca semantica:

annotazioni manuali e automatiche

per l'Archivio storico de La Stampa

Andrea Bolioli

27 ottobre 2014, Bolzano - Bozen

1

Page 2: Europeana Newspapers LFT Infoday Bolioli

Ovvero, dalle pagine alle infografiche

Come si costruisce un motore di ricerca semantico per un archivio storico ?

Trasformando i contenuti testuali in dati analizzabili.

Page 3: Europeana Newspapers LFT Infoday Bolioli

Dietro le quinte del processo (making of)

Microfilm Copia digitale e OCR Indicizzazione full text

Annnotazione semantica e infografiche

1 2 3

Page 4: Europeana Newspapers LFT Infoday Bolioli

Cosa abbiamo ottenuto ? Alcuni numeri

4.800.000 Articoli annotati automaticamente dal 1910 al 2005

113.000 Nomi di persona riconosciuti (PER con freq > 10)

10.200 Nomi di entità geopolitiche (GPE con freq > 10)

6.500 Nomi di organizzazioni (ORG con freq > 10)

1.020 Autori degli articoli (Author con freq > 10)

Page 6: Europeana Newspapers LFT Infoday Bolioli

Dietro le quinte: la dashboard

Fig: facet, annotazioni, tag

Page 7: Europeana Newspapers LFT Infoday Bolioli

Dietro le quinte: la dashboard

Fig: citazioni delle persone in prima pagina

Page 8: Europeana Newspapers LFT Infoday Bolioli

Dietro le quinte: la dashboard

Fig: citazioni delle persone in tutte le pagine

Page 9: Europeana Newspapers LFT Infoday Bolioli

Come abbiamo fatto ?

Selezione dei corpora di training e test: selezionare un campione significativo partendo da 12 milioni di articoli dal 1867 al 2005 Annotazione manuale dei corpora: interfaccia web collaborativa per annotare velocemente Analisi degli errori di OCR: report e statistiche Annotazione automatica: classificatori automatici SVM (Support Vector Machine) e a regole linguistiche (pattern matching) Verifiche di accuratezza dei risultati e correzioni

Page 10: Europeana Newspapers LFT Infoday Bolioli

Quali difficoltà abbiamo incontrato ?

Errori di OCR: la quantità di errori di OCR è considerevole. Abbiamo annotato circa 16000 errori (e correzioni) in 900 articoli.

Alcuni esempi: dustin hoflman, hoftman, holfman, hollman, hotfman, hotlman (dustin hoffmann) , pohtica (politica), poh (poli), de (dc) , pei (pci), doc um e nto (documento) , re- latore (relatore) Fig: distribuzione dei tipi di errore per

anno

Page 11: Europeana Newspapers LFT Infoday Bolioli

Difficoltà ? Dimensioni ed estensione temporale

12 milioni di articoli e un periodo temporale di quasi 150 anni. Non esistevano casi analoghi in Italia di analisi semantica di testi su un intervallo così ampio. Es. delle citazioni di "Verdi" : persona, via, piazza, scuola, nave, teatro, orchestra, ecc.

Fig: distribuzione delle citazioni di alcuni personaggi storici

Page 12: Europeana Newspapers LFT Infoday Bolioli

Che cosa è utile per un archivio digitale ?

Annotazione automatica, validazione degli esperti, annotazione manuale in crowdsourcing (per correggere gli errori di OCR e annotare le entità rilevanti). Integrazione di thesauri e ontologie (concetti, sinonimi e altre relazioni semantiche), espansione delle queries (ad es. scuola media <-> scuola secondaria di primo grado; edificio religioso del 700 -> Basilica di Superga), ricerca multilingue e cross-lingue. Esplorazione visuale e infografiche (grafi, grafici, timelines)

Page 13: Europeana Newspapers LFT Infoday Bolioli

Che cosa è utile per un archivio digitale ?

Usabilità, accessibilità, semplicità

Page 14: Europeana Newspapers LFT Infoday Bolioli

Che cosa è (utile per) un archivio ?

"L'archivio è anche ciò che fa sì che tutte queste cose dette non si accumulino all'infinito in una moltitudine amorfa, non si iscrivano in una linearità senza fratture, e non scompaiano solo per casuali accidentualità esterne; ma che si raggruppino in figure distinte, si compongano le une con le altre secondo molteplici rapporti, si conservino o si attenuino secondo regolarità specifiche."

Michel Foucault (1969) L'archeologia del sapere / Die Archäologie des Wissens

"Aber das Archiv ist auch das, was bewirkt, daß all diese gesagten Dinge sich nicht bis ins Unendliche in einer amorphen Vielzahl anhäufen, auch nicht allein schon bei zufälligen äußeren Umständen verschwinden.[…]"

Page 15: Europeana Newspapers LFT Infoday Bolioli

Grazie per l'attenzione !

Per maggiori informazioni:

Andrea Bolioli

[email protected] [email protected]

@CrossLib @CELI_NLP

15