g.bruno_gli archivi nel web of data

31
ANAI ASSOCIAZIONE NAZIONALE ARCHIVISTICA ITALIANA IN COLLABORAZIONE CON MUSEIMPRESA L’ARCHIVISTA D’IMPRESA CORSO DI FORMAZIONE – MODULO AVANZATO LE SFIDE DEL DIGITALE MILANO, 10-11 SETTEMBRE 2013 Gli archivi nel Web of Data Giovanni Bruno [[email protected]]

Upload: giovanni-bruno

Post on 10-Jun-2015

234 views

Category:

Education


0 download

DESCRIPTION

L’archivista d’impresa Anai – Museimpresa Corso di formazione – Modulo avanzato Le sfide del digitale Milano, 10-11 settembre 2013

TRANSCRIPT

Page 1: G.Bruno_Gli archivi nel Web of Data

A N A I – A S S O C I A Z I O N E N A Z I O N A L E A R C H I V I S T I C A I T A L I A N A

I N C O L L A B O R A Z I O N E C O N M U S E I M P R E S A

L’ARCHIVISTA D’IMPRESA C O R S O D I F O R M A Z I O N E – M O D U L O A V A N Z A T O

L E S F I D E D E L D I G I T A L E M I L A N O , 1 0 - 1 1 S E T T E M B R E 2 0 1 3

Gli archivi nel Web of Data Giovanni Bruno [[email protected]]

Page 2: G.Bruno_Gli archivi nel Web of Data

Sommario

Le tecnologie Linked Data rappresentano una straordinaria opportunità per il mondo degli archivi storici e, più in generale, per l’intero settore dei beni e delle istituzioni culturali

LOD: cosa sono

LOD: come funzionano

LOD: a cosa servono

2

Milano, 11 settembre 2013 Giovanni Bruno, Gli archivi nel Web of Data

Page 3: G.Bruno_Gli archivi nel Web of Data

LOD: cosa sono

Web of Data

Dagli Open Data ai LOD

Il contesto

Five stars

3

Milano, 11 settembre 2013 Giovanni Bruno, Gli archivi nel Web of Data

Fonte: http://lod-cloud.net/ Last updated: 2011-09-19

Page 4: G.Bruno_Gli archivi nel Web of Data

Il Web of Data

The Semantic Web isn't just about putting data on the web. It is about making links, so that a person or machine can explore the web of data. With linked data, when you have some of it, you can find other, related, data. Tim Berners-Lee, 2006-07-27, http://www.w3.org/DesignIssues/LinkedData.html

Web of Document Web of Data

Milano, 11 settembre 2013 Giovanni Bruno, Gli archivi nel Web of Data

4

Page 5: G.Bruno_Gli archivi nel Web of Data

LinkedOpenData

Milano, 11 settembre 2013 Giovanni Bruno, Gli archivi nel Web of Data

5

Trasparenza: Open Data

Interoperabilità: Linked Data

Linked Open Data

Page 6: G.Bruno_Gli archivi nel Web of Data

Un po’ di storia: 2009

Milano, 11 settembre 2013 Giovanni Bruno, Gli archivi nel Web of Data

6

TED Conference

Tim Berners Lee

Raw Data Now !

Open Government

Barack Obama

L'apertura rafforzerà la nostra democrazia e promuoverà l'efficienza e l'efficacia dell'amministrazione

Page 7: G.Bruno_Gli archivi nel Web of Data

Strategie: 2013

Milano, 11 settembre 2013 Giovanni Bruno, Gli archivi nel Web of Data

7

UK: Open Data White Paper (dati.gov.uk)

Non più solo Open Data ma Linked Open Data (LOD)

Re-usable machine-readable data

Open Data Institute (theodi.org)

USA: New Open Data Policy

Accessibili (non-proprietary formats)

Documentati

Riusabili

Completi (with the finest possible level of granularity)

Tempestivi

Project Open Data (https://github.com/project-open-data)

Page 8: G.Bruno_Gli archivi nel Web of Data

Five Stars

Milano, 11 settembre 2013 Giovanni Bruno, Gli archivi nel Web of Data

8

Page 9: G.Bruno_Gli archivi nel Web of Data

LOD: come si usano

La cassetta degli attrezzi

RDF

Ontologie

Endpoint SPARQL

9

Milano, 11 settembre 2013 Giovanni Bruno, Gli archivi nel Web of Data

Page 10: G.Bruno_Gli archivi nel Web of Data

La cassetta degli attrezzi

Milano, 11 settembre 2013 Giovanni Bruno, Gli archivi nel Web of Data

10

RDF (Resource Description Framework) per la rappresentazione dei dati

OWL (Web Ontology Language) per la definizione di vocabolari e ontologie

SPARQL (SPARQL Protocol and RDF Query Language) per l’interrogazione di repository Linked Data accessibile ad un Endpoint

Page 11: G.Bruno_Gli archivi nel Web of Data

RDF: Resource Description Framework

Milano, 11 settembre 2013 Giovanni Bruno, Gli archivi nel Web of Data

11

RDF è lo strumento base proposto dal W3C per la codifica, lo scambio e il riutilizzo di metadati strutturati

RDF è un “data model”, cioè un modello per rappresentare dati, che può essere serializzato in diversi formati (RDF/XML, N3, NTriple, etc.)

il data model RDF è strutturato in triple, che costituiscono un’unità informativa minima

ogni tripla si articola in soggetto (subject), relazione (predicate) e oggetto (object)

Page 12: G.Bruno_Gli archivi nel Web of Data

Un esempio: il deputato Romano Prodi

Milano, 11 settembre 2013 Giovanni Bruno, Gli archivi nel Web of Data

12

<http://dati.camera.it/ocd/persona.rdf/p50197> rdf:type foaf:Person ; rdfs:label "ROMANO PRODI"^^xsd:string ;

ocd:rif_mandatoCamera <http://dati.camera.it/ocd/mandatoCamera.rdf/mc15_50197_20060421> , <http://dati.camera.it/ocd/mandatoCamera.rdf/mc13_50197_19960427> ;

ocd:rif_membroGoverno <http://dati.camera.it/ocd/membroGoverno.rdf/mg50197_3_31_14_19781125> , <http://dati.camera.it/ocd/membroGoverno.rdf/mg50197_1_50_1_19960517> , <http://dati.camera.it/ocd/membroGoverno.rdf/mg50197_1_60_1_20060517> , <http://dati.camera.it/ocd/membroGoverno.rdf/mg50197_3_60_170_20080507> , <http://dati.camera.it/ocd/membroGoverno.rdf/mg50197_3_60_49_20080117> ;

ocd:rif_presidenteConsiglioMinistri <http://dati.camera.it/ocd/presidenteConsiglioMinistri.rdf/pcm50197_19960517> , <http://dati.camera.it/ocd/presidenteConsiglioMinistri.rdf/pcm50197_20060517> ;

Page 13: G.Bruno_Gli archivi nel Web of Data

Una risorsa collegata

Milano, 11 settembre 2013 Giovanni Bruno, Gli archivi nel Web of Data

13

http://dati.camera.it/ocd/attocamera.rdf/ac07_2581 rdf:type ocd:atto ; rdfs:label "Legge-quadro per l'artigianato"^^xsd:string ; ocd:rif_governo <http://dati.camera.it/ocd/governo.rdf/g31> ; ocd:rif_leg <http://dati.camera.it/ocd/legislatura.rdf/repubblica_07> ; ocd:primo_firmatario <http://dati.camera.it/ocd/persona.rdf/p50197> ; ocd:altro_firmatario <http://dati.camera.it/ocd/persona.rdf/p5400> ,

<http://dati.camera.it/ocd/persona.rdf/p4410> , <http://dati.camera.it/ocd/persona.rdf/p300746> , <http://dati.camera.it/ocd/persona.rdf/p300740> ; ocd:iniziativa "Governo" ;

dc:contributor "PANDOLFI Filippo Maria, MINISTRO DEL TESORO (IV Governo Andreotti)" , "MORLINO Tommaso, MINISTRO DEL BILANCIO E DELLA PROGRAMMAZIONE ECONOMICA (IV Governo Andreotti)" , "SCOTTI Vincenzo, MINISTRO DEL LAVORO E DELLA PREVIDENZA SOCIALE (IV Governo Andreotti)" , "BONIFACIO Francesco Paolo, MINISTRO DI GRAZIA E GIUSTIZIA (IV Governo Andreotti)" ;

dc:creator "PRODI Romano, MINISTRO DELL'INDUSTRIA, COMMERCIO E ARTIGIANATO (IV Governo Andreotti)" ;

dc:date "19781206" ; dc:identifier "2581" ; dc:relation <http://www.camera.it/_dati/leg07/lavori/stampati/pdf/25810001.pdf> ;

Page 14: G.Bruno_Gli archivi nel Web of Data

Il grafo

Milano, 11 settembre 2013 Giovanni Bruno, Gli archivi nel Web of Data

14

Page 15: G.Bruno_Gli archivi nel Web of Data

Ontologia

Milano, 11 settembre 2013 Giovanni Bruno, Gli archivi nel Web of Data

15

è una rappresentazione formale, condivisa ed esplicita di una concettualizzazione di un dominio di interesse

descrive le classi, i concetti che afferiscono ad uno specifico dominio informativo, e le proprietà, le relazioni che li legano

OWL è il linguaggio utilizzato per «scrivere» un’ontologia

Page 16: G.Bruno_Gli archivi nel Web of Data

OCD: Ontologia Camera dei deputati

Milano, 11 settembre 2013 Giovanni Bruno, Gli archivi nel Web of Data

16

• proprietà OCD per la descrizione specifica del dominio • dublin core e dublincore terms per la descrizione dei metadati più comuni come il titolo,

la descrizione, le date, i riferimenti bibliografici; • bio ontology per la descrizione degli eventi biografici dei deputati • foaf per la descrizione delle persone

Page 17: G.Bruno_Gli archivi nel Web of Data

I love reuse

Milano, 11 settembre 2013 Giovanni Bruno, Gli archivi nel Web of Data

17

FOAF (The Friend of a Friend project) è un vocabolario per mettere in collegamento le persone

DC (Dublin Core) è una vocabolario utile per descrivere qualsiasi materiale digitale

Skos (simple knowledge organization system) è un linguaggio basato su RDF creato per rappresentare glossari, classificazioni, tassonomie e qualsiasi tipo di vocabolario strutturato

GN (GeoNames) è un database geografico open con oltre 10 milioni di nomi di luogo, disponibili in formato rdf

Page 18: G.Bruno_Gli archivi nel Web of Data

L’accesso ai LOD: Endpoint SPARQL

Milano, 11 settembre 2013 Giovanni Bruno, Gli archivi nel Web of Data

18

Disponibilità e accessibilità verificare che la URI sia raggiungibile online

un indirizzo http://.. non è una URI utile se questo non punta a qualcosa di reale verificare che l’accesso alla URI sia compatibile con le specifiche W3C sul

content negotiation relative al formato RDF l’utente che utilizza un browser web deve poter accedere ad una risorsa HTML; chi invece usa un client diverso e richiede un JSON deve poter accedere al formato JSON (e così via)

fornire un endpoint SPARQL per l’accesso alle proprie risorse per consentire agli altri partecipanti alla Linked Open Data Cloud di analizzare i dati pubblicati e di creare owl:sameAs verso le proprie risorse è indispensabile fornire un punto di accesso che consenta l’utilizzo di query ed API standard

Link Your Data utilizzare proprietà di tipo owl:sameAs anche verso dbpedia.org

considerando dbpedia.org come cuore de facto della Linked Open Data cloud, linkare le proprie risorse verso di essa significa acquisire link indiretti verso una indefinita molteplicità di altre risorse presenti oggi ed in futuro online

Page 20: G.Bruno_Gli archivi nel Web of Data

LOD: a cosa servono

Lod in action

LODLAM

Reload

Un nuovo paradigma di condivisione

20

Milano, 11 settembre 2013 Giovanni Bruno, Gli archivi nel Web of Data

Fonte: Review of the evidence for the value of the "linked data" approach. Final report to JISC, Curtis & Cartwright

Page 21: G.Bruno_Gli archivi nel Web of Data

#trasparenza #efficienza #interoperabilità

Milano, 11 settembre 2013 Giovanni Bruno, Gli archivi nel Web of Data

21

Pubblicare un nuovo dataset significa pubblicare una nuova informazione (tripla) per un certo numero di entità

Avere a disposizione le risorse per il riuso interno: un nuovo paradigma di comunicazione tra applicazioni intranet

Acquisire indipendenza dal software di creazione dei dati che si traduce in libertà di sviluppo e aggiornamento del software

Acquisire una nuova capacità di verifica della congruità delle informazioni attraverso il confronto con altre fonti pubbliche e arricchimento di dati locali

Risparmiare in termini di gestione software, di manutenzione delle basi dati e nel loro popolamento

Page 22: G.Bruno_Gli archivi nel Web of Data

LOD in action: il Portale storico della Camera

Milano, 11 settembre 2013 Giovanni Bruno, Gli archivi nel Web of Data

22

storia.camera.it | dati.camera.it

Page 23: G.Bruno_Gli archivi nel Web of Data

LOD in action: progetti in corso

Milano, 11 settembre 2013 Giovanni Bruno, Gli archivi nel Web of Data

23

VIAF: The Virtual International Authority File VIAF is a joint project of 20 national libraries, implemented and

hosted by OCLC. The project's goal is to lower the cost and increase the utility of library authority files by matching and linking the authority files of national libraries, and then making that information available on the Web

British National Bibliography (BNB) British National Bibliography (BNB) published as Linked Data by the

British Library, linked to external sources including VIAF, LCSH, Lexvo, GeoNames. Current release of approximately 2.8 million descriptions (89,733,617 triples) of books (including monographs published over time) and serials published in the UK over the last 60 years

Library of Congress Subject Headings

Page 24: G.Bruno_Gli archivi nel Web of Data

LODLAM

Milano, 11 settembre 2013 Giovanni Bruno, Gli archivi nel Web of Data

24

W3C - Library Linked Data Incubator Group, Final Report (2011) Avviare quanto prima la pubblicazione dei primi datasets

senza inseguire la completezza, in quanto il modello Linked Data è predisposto per un accrescimento continuo

Promuovere la ricerca nell’ambito della applicazioni che si possono sviluppare sui dataset “culturali”

Sviluppare politiche di mantenimento delle URI e dei vocabolari definiti all’interno del proprio dominio di interesse

Favorire il mapping con linked data già pubblicati nella comunità dei beni culturali

Applicare l’esperienza maturata sulla conservazione a lungo termine delle risorse tradizionali ai Linked Data datasets

Page 25: G.Bruno_Gli archivi nel Web of Data

Il panorama europeo

Milano, 11 settembre 2013 Giovanni Bruno, Gli archivi nel Web of Data

25

Europeana Linked Open Data data.europeana.eu currently contains open metadata on 2.4 million texts, images, videos and

sounds gathered by Europeana. Europeana Data Model

Bibliothèque nationale de France data.bnf.fr gathers data from the different databases of the Bibliothèque nationale de France, so as

to create Web pages about Works and Authors, together with a RDF view on the extracted data. There are about 2.000.000 RDF triples

British Museum Semantic Web Collection Online It provides access to the same collection data available through the Museum’s web presented

Collection Online. The data has also been organised using the CIDOC-CRM (Conceptual Reference Model)

Culturaitalia dati.culturaitalia.it rende accessibili i dati di: Accademia S. Cecelia, Progetto ArtPast, Digibess,

ICCU, Internet Culturale, Michael Italia, Polo Museale Fiorentino, Regione Marche e Anagrafe delle Biblioteche Italiane, oltre al Thesaurus PICO, strutturati secondo il CIDOC - Conceptual Reference Model nell’implementazione Erlangen CRM / OWL

Archives Hub Linked Data A sample dataset of descriptions of archive collections held on the Archives Hub. The Hub Linked

Data provides a perspective on the people, organisations, subjects and places connected with the archives that are described. External links are provided to other datasets, such as the Virtual International Authority File and Library of Congress Subject Headings

Page 26: G.Bruno_Gli archivi nel Web of Data

Il progetto Reload

Milano, 11 settembre 2013 Giovanni Bruno, Gli archivi nel Web of Data

26

ReLoad (Repository for Linked Open Archival Data) progetto realizzato dall’Archivio Centrale dello Stato, dall’Istituto per

i Beni culturali dell’Emilia-Romagna e da regesta.exe con l’obiettivo di sperimentare le metodologie del semantic web e le tecnologie standard per i linked open data (LOD) per favorire la condivisione di informazioni archivistiche provenienti da una molteplicità di fonti

Risorse ISAD(G) Ontology

EAC-CPF Ontology

OAD (Ontology of Archival Description)

OCSA (Ontology of Cultural Organizations’ Services and Access)

http://labs.regesta.com/ProgettoReload

Page 27: G.Bruno_Gli archivi nel Web of Data

Per sapere di più su Reload

Condivisione di risorse archivistiche di dettaglio

Risorse per la migrazione dei dati inventariali verso i LOD

Sperimentazione di strumenti automatici e semi-automatici per il linking dei dati, l’enrichment semantico, l’estrazione di informazioni

27

Milano, 11 settembre 2013 Giovanni Bruno, Gli archivi nel Web of Data

http://summit2013.lodlam.net/

Page 28: G.Bruno_Gli archivi nel Web of Data

Tecnologico Organizzativo

Milano, 11 settembre 2013 Giovanni Bruno, Gli archivi nel Web of Data

Concorrenza di fonti molteplici

Informazioni granulari

Risorse distribuite

Ricchezza di voci plurali

Capacità di ascolto

Decentramento

28

Un nuovo paradigma di condivisione

Page 29: G.Bruno_Gli archivi nel Web of Data

Conclusioni

Milano, 11 settembre 2013 Giovanni Bruno, Gli archivi nel Web of Data

29

Per vincere la sfida lanciata dal Web of Data, o almeno per combattere questa battaglia, è necessario che il mondo dei beni culturali e quello degli archivi, in particolare, assuma un ruolo di protagonista nel mercato digitale, riesca a portare nel nuovo Web che si sta strutturando i contenuti di qualità che dentro queste istituzioni vengono prodotte. Per riuscire a svolgere un ruolo attivo e consapevole l’unica strada praticabile consiste nell’utilizzare quegli strumenti per quello che sono e per quello che fanno. Imparare a muoversi in questo ecosistema, acquisire quelle capacità per corrispondere ai criteri e ai parametri sui quali si determinano le nuove gerarchie di autorevolezza e reputazione sul Web: Reperibilità delle informazioni Velocità di aggiornamento Integrazione delle fonti

Page 30: G.Bruno_Gli archivi nel Web of Data

Non solo Google!

L’evoluzione di questo nuovo paradigma può aprire la strada ad un nuovo protagonismo delle istituzioni culturali e degli archivi, che per vocazione e competenza consolidata praticano da sempre gli strumenti di organizzazione della conoscenza

Grazie!

30

Milano, 11 settembre 2013 Giovanni Bruno, Gli archivi nel Web of Data

Page 31: G.Bruno_Gli archivi nel Web of Data

Riferimenti

Milano, 11 settembre 2013 Giovanni Bruno, Gli archivi nel Web of Data

31 Tim-Berners-Lee, “Linked Data”,

http://www.w3.org/DesignIssues/LinkedData.html, W3C, Cool URIs for the Semantic Web – 3 Dicembre

2008, http://www.w3.org/TR/cooluris/ Christian Bizer, Tom Heath and Tim Berners-Lee

(2009) Linked Data - The Story So Far. International Journal on Semantic Web and Information Systems, Vol. 5(3), Pages 1-22. DOI: 10.4018/jswis.2009081901 http://tomheath.com/papers/bizer-heath-berners-lee-ijswis-linked-data.pdf

W3C Incubator Group Report 25 October 2011, Library Linked Data Incubator Group Final Report http://www.w3.org/2005/Incubator/lld/XGR-lld-20111025/

Open definition, “Defining the Open in Open Data, Open Content and Open Services”, http://opendefinition.org/okd/

W3C, “W3C Semantic Web”, http://www.w3.org/2001/sw/

W3C, SKOS Simple Knowledge Organization System - Home Page, http://www.w3.org/2004/02/skos/

HMGovernment, “Data.gov.uk, Opening up Government – Linked Data”, http://data.gov.uk/linked-data

HMGovernment, Open Data White Paper - Unleashing the Potential, june 2012 (http://data.gov.uk/sites/default/files/Open_data_White_Paper.pdf)

DBpedia, http://dbpedia.org/About. LinkedGeoData, http://linkedgeodata.org/ OpenStreetMap – The free Wiki World Map,

http://www.openstreetmap.org/ GeoNames, http://www.geonames.org/ Regione Piemonte, http://www.dati.piemonte.it/rdf-

data.html Camera dei deputati, http://dati.camera.it/it/ Governo Italiano, “dati.gov.it – i dati aperti della

PA”, http://www.dati.gov.it/ DigitPA, SPCData, http://spcdata.digitpa.gov.it DigitPA, SPCData, Linee guida sull'interoperabilità

semantica attraverso Linked Open Data http://spcdata.digitpa.gov.it/lineeguida.html#isod

DigitPA, SPCData, Linee Guida Nazionali Per La Valorizzazione Del Patrimonio Informativo Pubblico (Secondo Semestre 2013) http://spcdata.digitpa.gov.it/lineeguida.html#pipod

Linked Open Data - data.europeana.eu,

http://pro.europeana.eu/linked-open-data dati.culturaitalia.it, http://dati.culturaitalia.it/ ReLoad

Project http://labs.regesta.com/progettoReload/