big data e tecnologie semantiche - utilizzare i linked data come driver d'integrazione di dati

40
Big Data e tecnologie semantiche - Utilizzare i Linked Data come driver d'integrazione di dati Giuseppe Futia Nexa Center for Internet and Society, Politecnico di Torino (DAUIN) 27 July 2016

Upload: giuseppefutia

Post on 12-Apr-2017

107 views

Category:

Internet


0 download

TRANSCRIPT

Page 1: Big Data e tecnologie semantiche - Utilizzare i Linked data come driver d'integrazione di dati

Big Data e tecnologie semantiche - Utilizzare i Linked Data come driver d'integrazione di dati

Giuseppe FutiaNexa Center for Internet and Society, Politecnico di Torino (DAUIN)

27 July 2016

Page 2: Big Data e tecnologie semantiche - Utilizzare i Linked data come driver d'integrazione di dati

Outline

• Information management challenges and Big Data

• Linked Data framework (explained with examples)

• Linked Data approach for Big Data community

• The impact of Big Structured Data

Page 3: Big Data e tecnologie semantiche - Utilizzare i Linked data come driver d'integrazione di dati

Enterprise/Research Information Management Challenges

• Disparate data sources and data silos

• Data sources with similar/inconsistent information

• Most of the knowledge is hidden in texts (unstructured data)

• Difficult to integrate and analyse structured and unstructured data

Page 4: Big Data e tecnologie semantiche - Utilizzare i Linked data come driver d'integrazione di dati

The 3 V’s of Big Data

• Velocity

• Volume

• Variety

Page 5: Big Data e tecnologie semantiche - Utilizzare i Linked data come driver d'integrazione di dati

The 3 V’s of Big Data

• Velocity

• Volume

• Variety (Veracity and Value)

Page 6: Big Data e tecnologie semantiche - Utilizzare i Linked data come driver d'integrazione di dati

From Big Linked Data toLinked Big Data

Page 7: Big Data e tecnologie semantiche - Utilizzare i Linked data come driver d'integrazione di dati

Big Linked Data

Page 8: Big Data e tecnologie semantiche - Utilizzare i Linked data come driver d'integrazione di dati

Linked Data Cloud Diagram (2014)

Big Linked Data

Page 9: Big Data e tecnologie semantiche - Utilizzare i Linked data come driver d'integrazione di dati

Linked Data Vision (W3C)• Extend principles of the Web from documents to data

• Data should be accessed using the general Web architecture (e.g., URIs, HTTP, …)

• Data should be linked each other just as documents

• Creation of a common framework that allows:– Data to be shared and reused across applications– Data to be processed automatically– New relationships between pieces of data to be

inferred

Page 10: Big Data e tecnologie semantiche - Utilizzare i Linked data come driver d'integrazione di dati

Resource Description Framework • Everything is a triple – Subject (resource), Predicate

(relation), Object (resource or literal)

•The Resource Description Framework (RDF) graph is a collection of triples predicate subject object

Page 11: Big Data e tecnologie semantiche - Utilizzare i Linked data come driver d'integrazione di dati

SPARQL

11

• SQL-like query language for RDF data

• Simple protocol for querying remote databases over HTTP

• Query types– select: query data by complex graph pattern– ask: whether a query returns results (result is true/false)– describe: returns all triples about a particular resource– construct: create new triples based on query results

Page 12: Big Data e tecnologie semantiche - Utilizzare i Linked data come driver d'integrazione di dati

Nexa projects

Page 13: Big Data e tecnologie semantiche - Utilizzare i Linked data come driver d'integrazione di dati

Contratti pubblici

Page 14: Big Data e tecnologie semantiche - Utilizzare i Linked data come driver d'integrazione di dati

Le PEC dei comuni italiani con più di 100 mila abitanti che pubblicano contratti con anomalie

Page 15: Big Data e tecnologie semantiche - Utilizzare i Linked data come driver d'integrazione di dati

?

Page 16: Big Data e tecnologie semantiche - Utilizzare i Linked data come driver d'integrazione di dati
Page 17: Big Data e tecnologie semantiche - Utilizzare i Linked data come driver d'integrazione di dati
Page 18: Big Data e tecnologie semantiche - Utilizzare i Linked data come driver d'integrazione di dati
Page 19: Big Data e tecnologie semantiche - Utilizzare i Linked data come driver d'integrazione di dati
Page 20: Big Data e tecnologie semantiche - Utilizzare i Linked data come driver d'integrazione di dati
Page 21: Big Data e tecnologie semantiche - Utilizzare i Linked data come driver d'integrazione di dati
Page 22: Big Data e tecnologie semantiche - Utilizzare i Linked data come driver d'integrazione di dati
Page 23: Big Data e tecnologie semantiche - Utilizzare i Linked data come driver d'integrazione di dati
Page 24: Big Data e tecnologie semantiche - Utilizzare i Linked data come driver d'integrazione di dati
Page 25: Big Data e tecnologie semantiche - Utilizzare i Linked data come driver d'integrazione di dati
Page 26: Big Data e tecnologie semantiche - Utilizzare i Linked data come driver d'integrazione di dati

TellMeFirstA Knowledge Discovery Application

Page 27: Big Data e tecnologie semantiche - Utilizzare i Linked data come driver d'integrazione di dati

TellMeFirst Architecture http://tellmefirst.polito.it

Page 28: Big Data e tecnologie semantiche - Utilizzare i Linked data come driver d'integrazione di dati

“The final work of legendary director Stanley Kubrick, who died within a week of completing the edit, is based upon a novel by Arthur Schnitzler. Tom Cruise and Nicole Kidman play William and Alice Harford, a physician and a gallery manager who are wealthy, successful, and travel in a sophisticated social circle.”

Page 29: Big Data e tecnologie semantiche - Utilizzare i Linked data come driver d'integrazione di dati
Page 30: Big Data e tecnologie semantiche - Utilizzare i Linked data come driver d'integrazione di dati

Linked Big Data

Page 31: Big Data e tecnologie semantiche - Utilizzare i Linked data come driver d'integrazione di dati

Linked Data approach adopted by the Big Data community

• RDF data model for Variety– Flexible, easy to evolve data model– Efficiently integrate structured and unstructured data

• Enrich Big Data with metadata and semantics–More powerful analytics on top of it–Discover implicit links and relationships

• Interlink Big Data sets–Information interchange across a value chain

Page 32: Big Data e tecnologie semantiche - Utilizzare i Linked data come driver d'integrazione di dati

Semantic technologies for Big Data

Page 33: Big Data e tecnologie semantiche - Utilizzare i Linked data come driver d'integrazione di dati

Blazegraph and DASL• Blazegraph is a high performance graph database platform

that supports RDF/SPARQL APIs

• In 2016 Blazegraph introduced a programming environment called DASL

• DASL supports the development of graph algorithms within the Apache Spark ecosystem specifically optimised for GPUs

• Complex graph analytic environments, especially where relationships are unknown in advance

Page 34: Big Data e tecnologie semantiche - Utilizzare i Linked data come driver d'integrazione di dati

EP-SPARQL• Event processing provides on-the-fly analysis of event

streams, but cannot combine streams with background knowledge and cannot performing reasoning tasks

• Semantic tools can effectively handle background knowledge and perform reasoning tasks, but cannot deal with rapidly changing data provided by event streams

• Event Processing SPARQL (EP-SPARQL) as a new language for complex event and stream reasoning

Page 35: Big Data e tecnologie semantiche - Utilizzare i Linked data come driver d'integrazione di dati

The impact of Big Structured Data

Page 36: Big Data e tecnologie semantiche - Utilizzare i Linked data come driver d'integrazione di dati

Google Knowledge Graph Freebase-to-Wikidata transition

Page 37: Big Data e tecnologie semantiche - Utilizzare i Linked data come driver d'integrazione di dati

Facebook’s Social Graph(in 2013)

The Graph API is the primary way to get (our) data in and out

of Facebook's social graph

Page 38: Big Data e tecnologie semantiche - Utilizzare i Linked data come driver d'integrazione di dati

Facebook Web is progressively smarter than the Web of data…

Page 39: Big Data e tecnologie semantiche - Utilizzare i Linked data come driver d'integrazione di dati

Open source, libre contents, and linked data as a framework to build an open linked big data graph

Page 40: Big Data e tecnologie semantiche - Utilizzare i Linked data come driver d'integrazione di dati

Grazie!

[email protected]

Repository GitHubhttps://github.com/giuseppefutia/