europeana newspapers lft infoday rossi

14

Click here to load reader

Upload: europeana-newspapers

Post on 10-Jul-2015

118 views

Category:

Education


2 download

TRANSCRIPT

Page 1: Europeana Newspapers LFT Infoday Rossi

1 Torino, 27/10/2014

La ricerca semantica

nella Biblioteca dell’Informazione

Giornalistica piemontese

Patrizia Rossi

Web, Multimedia e Cultura

Page 2: Europeana Newspapers LFT Infoday Rossi

2

i progetti

La Regione Piemonte ha sostenuto diversi progetti finalizzati

alla creazione di oggetti e contenuti digitali, con particolare

attenzione alla valorizzazione dei giornali periodici locali.

(I periodici della Provincia di Cuneo, «La Nuova Periferia» di Settimo,

l’edizione piemontese de «L’Unità» dal 1945 al 1957, l’Archivio Storico

de «La Stampa»)

IL CONTESTO

Page 3: Europeana Newspapers LFT Infoday Rossi

3

Biblioteca Digitale Piemontese

La BDP si connota come “teca” locale della Biblioteca

Digitale Italiana – progetto coordinato a livello nazionale dal

Ministero per i Beni e le Attività Culturali - di cui utilizza

strumenti e standard, interpretandone i paradigmi di

riferimento nel contesto regionale piemontese.

IL CONTESTO

Page 4: Europeana Newspapers LFT Infoday Rossi

4

Biblioteca Digitale

dell’Informazione Giornalistica

Un tassello fondamentale della BDP è la Biblioteca Digitale

dell'Informazione Giornalistica (BDIG) il cui obiettivo è

rendere fruibili le edizioni degli archivi storici dei giornali

piemontesi al fine di valorizzarli, conservarli e metterli a

disposizione del pubblico

IL CONTESTO

Page 5: Europeana Newspapers LFT Infoday Rossi

5

Archivio storico «La Stampa»

Il progetto, realizzato in collaborazione con la Società

Editrice La Stampa, la Compagnia di San Paolo e la

Fondazione CRT, costituisce il primo nucleo della BDIG, e

mette in linea, per la libera consultazione, tutte le edizioni

del quotidiano dal 1867 al 2005, con circa 12 milioni di

articoli, comprese le edizioni locali e gli inserti settimanali.

IL CONTESTO

Page 6: Europeana Newspapers LFT Infoday Rossi

6

il motore di ricerca

Utilizza strumenti di navigazione tra le notizie basati sull’estrazione

semantica di entità nominali tramite la tecnologia semantica del

riconoscimento dei nomi (Named Entity Recognition)

BDIG – ARCHIVIO LA STAMPA

Page 7: Europeana Newspapers LFT Infoday Rossi

7

le entità NER definite

• Autori (AUT)

• Persone (PER)

• Entità geopolitiche (GPE)

• Organizzazioni (ORG)

BDIG – ARCHIVIO LA STAMPA

Page 8: Europeana Newspapers LFT Infoday Rossi

8

la generazione dei file NER

• definizione dei dizionari per ogni entità NER

• elaborazione ed estrazione delle entità dai singoli articoli

• generazione dei file NER

• per ogni singolo articolo è presente un file NER con le entità estratte

riconosciute nell’articolo stesso

• per ogni edizione è presente un file NER che racchiude tutte le entità

estratte dalle pagine di quella edizione

• il motore di ricerca utilizza il file NER relativo all’edizione

BDIG – ARCHIVIO LA STAMPA

Page 9: Europeana Newspapers LFT Infoday Rossi

9

front-end di consultazione

BDIG – ARCHIVIO LA STAMPA

• Tre livelli di ricerca: libera (like

google), per data e avanzata

• Filtro dei risultati ottenuti per

testata di interesse

• Tiene traccia degli articoli più

letti del giorno, della settimana

e del mese

• Permette di effettuare la stampa

di una pagina del giornale (A2,

A3, A4)

• Permette di acquisire il testo dell’articolo di interesse o di una intera pagina di

giornale

Page 10: Europeana Newspapers LFT Infoday Rossi

10

Archivio Storico dei Periodici Piemontesi

È il prossimo tassello della BDIG, progettato in ottica di

riuso, sia applicativo sia del dato digitale dei progetti già

realizzati, ottenendo così una significativa economia rispetto

a soluzioni di realizzazione ex-novo.

(l’infrastruttura software dell’archivio storico de «La Stampa» ed i

contenuti già disponibili della Biblioteca Digitale)

BDIG – IL NUOVO PORTALE

Page 11: Europeana Newspapers LFT Infoday Rossi

11

i punti di forza • fruizione gratuita

• gestione (caricamento, indicizzazione, pubblicazione, ricerca e

visualizzazione) dei due formati costituiti dai periodici digitalizzati

dal cartaceo (periodici cartacei) e dai periodici in PDF nativo

(periodici PDF)

• una sola interfaccia di consultazione ed un solo motore di

ricerca, intelligente, che consentirà di eseguire le ricerche sui due

macro indici costituiti dai due diversi formati in archivio, e

presenterà i risultati ottenuti in maniera uniforme

• due diversi visualizzatori per la consultazione della notizia di

interesse, a seconda del formato presente in archivio. Il sistema

selezionerà in automatico il visualizzatore adeguato in maniera

totalmente invisibile all’utilizzatore

BDIG – IL NUOVO PORTALE

Page 12: Europeana Newspapers LFT Infoday Rossi

12

le linee guida

Fondamentale è la definizione delle regole e degli

standard (Linee guida) definite dal CSI-Piemonte per la

digitalizzazione dei periodici, che descrivono nel dettaglio

le modalità di digitalizzazione e i conseguenti flussi di

lavorazione, differenti rispetto al formato del materiale

disponibile in archivio.

(cartaceo, microfilm, immagine, PDF con testo ricercabile)

BDIG – IL NUOVO PORTALE

Page 13: Europeana Newspapers LFT Infoday Rossi

13

il futuro

La realizzazione dell’ASPP apre la strada alla realizzazione

dell’Archivio Storico dell’Editoria Piemontese (ASEP), un

archivio federato dell’Archivio Storico dei Periodici

Piemontesi e dell’Archivio Storico “La Stampa”, con lo

sviluppo di un motore trasversale in grado di ricercare in

entrambi gli archivi e restituire le notizie trovate di potenziale

interesse all’utente

LE PROSPETTIVE FUTURE

Page 14: Europeana Newspapers LFT Infoday Rossi

14

GRAZIE

Patrizia Rossi

CSI-Piemonte

Direzione Soluzioni Applicative

Area Web, Multimedia e Cultura

[email protected]