europeana newspapers lft infoday rossi
TRANSCRIPT
1 Torino, 27/10/2014
La ricerca semantica
nella Biblioteca dell’Informazione
Giornalistica piemontese
Patrizia Rossi
Web, Multimedia e Cultura
2
i progetti
La Regione Piemonte ha sostenuto diversi progetti finalizzati
alla creazione di oggetti e contenuti digitali, con particolare
attenzione alla valorizzazione dei giornali periodici locali.
(I periodici della Provincia di Cuneo, «La Nuova Periferia» di Settimo,
l’edizione piemontese de «L’Unità» dal 1945 al 1957, l’Archivio Storico
de «La Stampa»)
IL CONTESTO
3
Biblioteca Digitale Piemontese
La BDP si connota come “teca” locale della Biblioteca
Digitale Italiana – progetto coordinato a livello nazionale dal
Ministero per i Beni e le Attività Culturali - di cui utilizza
strumenti e standard, interpretandone i paradigmi di
riferimento nel contesto regionale piemontese.
IL CONTESTO
4
Biblioteca Digitale
dell’Informazione Giornalistica
Un tassello fondamentale della BDP è la Biblioteca Digitale
dell'Informazione Giornalistica (BDIG) il cui obiettivo è
rendere fruibili le edizioni degli archivi storici dei giornali
piemontesi al fine di valorizzarli, conservarli e metterli a
disposizione del pubblico
IL CONTESTO
5
Archivio storico «La Stampa»
Il progetto, realizzato in collaborazione con la Società
Editrice La Stampa, la Compagnia di San Paolo e la
Fondazione CRT, costituisce il primo nucleo della BDIG, e
mette in linea, per la libera consultazione, tutte le edizioni
del quotidiano dal 1867 al 2005, con circa 12 milioni di
articoli, comprese le edizioni locali e gli inserti settimanali.
IL CONTESTO
6
il motore di ricerca
Utilizza strumenti di navigazione tra le notizie basati sull’estrazione
semantica di entità nominali tramite la tecnologia semantica del
riconoscimento dei nomi (Named Entity Recognition)
BDIG – ARCHIVIO LA STAMPA
7
le entità NER definite
• Autori (AUT)
• Persone (PER)
• Entità geopolitiche (GPE)
• Organizzazioni (ORG)
BDIG – ARCHIVIO LA STAMPA
8
la generazione dei file NER
• definizione dei dizionari per ogni entità NER
• elaborazione ed estrazione delle entità dai singoli articoli
• generazione dei file NER
• per ogni singolo articolo è presente un file NER con le entità estratte
riconosciute nell’articolo stesso
• per ogni edizione è presente un file NER che racchiude tutte le entità
estratte dalle pagine di quella edizione
• il motore di ricerca utilizza il file NER relativo all’edizione
BDIG – ARCHIVIO LA STAMPA
9
front-end di consultazione
BDIG – ARCHIVIO LA STAMPA
• Tre livelli di ricerca: libera (like
google), per data e avanzata
• Filtro dei risultati ottenuti per
testata di interesse
• Tiene traccia degli articoli più
letti del giorno, della settimana
e del mese
• Permette di effettuare la stampa
di una pagina del giornale (A2,
A3, A4)
• Permette di acquisire il testo dell’articolo di interesse o di una intera pagina di
giornale
10
Archivio Storico dei Periodici Piemontesi
È il prossimo tassello della BDIG, progettato in ottica di
riuso, sia applicativo sia del dato digitale dei progetti già
realizzati, ottenendo così una significativa economia rispetto
a soluzioni di realizzazione ex-novo.
(l’infrastruttura software dell’archivio storico de «La Stampa» ed i
contenuti già disponibili della Biblioteca Digitale)
BDIG – IL NUOVO PORTALE
11
i punti di forza • fruizione gratuita
• gestione (caricamento, indicizzazione, pubblicazione, ricerca e
visualizzazione) dei due formati costituiti dai periodici digitalizzati
dal cartaceo (periodici cartacei) e dai periodici in PDF nativo
(periodici PDF)
• una sola interfaccia di consultazione ed un solo motore di
ricerca, intelligente, che consentirà di eseguire le ricerche sui due
macro indici costituiti dai due diversi formati in archivio, e
presenterà i risultati ottenuti in maniera uniforme
• due diversi visualizzatori per la consultazione della notizia di
interesse, a seconda del formato presente in archivio. Il sistema
selezionerà in automatico il visualizzatore adeguato in maniera
totalmente invisibile all’utilizzatore
BDIG – IL NUOVO PORTALE
12
le linee guida
Fondamentale è la definizione delle regole e degli
standard (Linee guida) definite dal CSI-Piemonte per la
digitalizzazione dei periodici, che descrivono nel dettaglio
le modalità di digitalizzazione e i conseguenti flussi di
lavorazione, differenti rispetto al formato del materiale
disponibile in archivio.
(cartaceo, microfilm, immagine, PDF con testo ricercabile)
BDIG – IL NUOVO PORTALE
13
il futuro
La realizzazione dell’ASPP apre la strada alla realizzazione
dell’Archivio Storico dell’Editoria Piemontese (ASEP), un
archivio federato dell’Archivio Storico dei Periodici
Piemontesi e dell’Archivio Storico “La Stampa”, con lo
sviluppo di un motore trasversale in grado di ricercare in
entrambi gli archivi e restituire le notizie trovate di potenziale
interesse all’utente
LE PROSPETTIVE FUTURE
14
GRAZIE
Patrizia Rossi
CSI-Piemonte
Direzione Soluzioni Applicative
Area Web, Multimedia e Cultura