wm unit1.6-slides-semantic web-final
DESCRIPTION
PhD Web Mining Course (unit 6) at Universidad Autonoma de Madrid Spain. The talk provides an overview of the SW, from the main motivation and idea, to the paths taken towards its realisation. It describes tools, representation languages and applications. The slides aim to provide a list of useful references for educational purposes.TRANSCRIPT
Miriam Fernández, [email protected] Knowledge Media Institute, The Open University, UK
Universidad Autónoma de Madrid
Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones
Escuela Politécnica Superior
Web Mining
Mining semi-structured data
The Semantic Web: From words to meanings
1
The Semantic Web: From words to meanings
Web Mining Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones
Escuela Politécnica Superior, Universidad Autónoma de Madrid
• 1. Introduction • Unstructured data vs. structured data • Data vs. information vs. knowledge • Motivation
• 2. The Semantic Web • What is the Semantic Web? • The Semantic Web weapons: ontologies & representation languages • The Semantic Web tools: ontology editors & triple stores
2
The Semantic Web: From words to meanings
Web Mining Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones
Escuela Politécnica Superior, Universidad Autónoma de Madrid
• 3. Two paths towards the Sematic Web vision • Metadata embedded in HTML • Linked Data
-‐ An example • 4. Sematic Web applications
• Search engines • Recommendations • Open government • Institutions
-‐ The Open University -‐ BBC
3
The Semantic Web: From words to meanings
Web Mining Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones
Escuela Politécnica Superior, Universidad Autónoma de Madrid
• 1. Introduction • Unstructured data vs. structured data • Data vs. information vs. knowledge • Motivation
• 2. The Semantic Web • What is the Semantic Web? • The Semantic Web weapons: ontologies & representation languages • The Semantic Web tools: ontology editors & triple stores
4
The Semantic Web: From words to meanings
Web Mining Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones
Escuela Politécnica Superior, Universidad Autónoma de Madrid
What is … ?
5
The Semantic Web: From words to meanings
Web Mining Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones
Escuela Politécnica Superior, Universidad Autónoma de Madrid
What is … ?
Flexible structure (e.g. tags, taxonomies)
Rigid structure: well defined vocabularies and representation
(e.g. databases)
No structure (e.g. free text)
6
The Semantic Web: From words to meanings
Web Mining Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones
Escuela Politécnica Superior, Universidad Autónoma de Madrid
What is … ?
Iván in Italy!
Syntactic interpretation
Semantic interpretation
A picture!
7
The Semantic Web: From words to meanings
Web Mining Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones
Escuela Politécnica Superior, Universidad Autónoma de Madrid
Why do we need to add structure? THE CHALLENGE
Syntactic interpretation
Semantic interpretation
A picture!
Is this a person, an object, a place? I don’t understand anything! L
Find the way machines can extract & interpret knowledge!
8
The Semantic Web: From words to meanings
Web Mining Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones
Escuela Politécnica Superior, Universidad Autónoma de Madrid
Why is this important? We have entered the Zettabyte era! (a billion terabytes) http://www.emc.com/collateral/demos/microsites/emc-digital-universe-2011/index.htm
9
The Semantic Web: From words to meanings
Web Mining Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones
Escuela Politécnica Superior, Universidad Autónoma de Madrid
Why is this important?
• Information overwhelming • We need mechanisms to support
-‐ better information search -‐ better information integration -‐ automatic knowledge extraction
• User generated content is generally unstructured • Machines can not understand such content!
10
The Semantic Web: From words to meanings
Web Mining Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones
Escuela Politécnica Superior, Universidad Autónoma de Madrid
Why is this important?
Many pages later I still didn’t find what I was looking for! L The search engine didn’t understood my query
11
The Semantic Web: From words to meanings
Web Mining Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones
Escuela Politécnica Superior, Universidad Autónoma de Madrid
Why is this important?
Moving to England… looking for a place to live
Available houses
Crime reports in different areas
Amenities
Far too much distributed and unrelated information
12
The Semantic Web: From words to meanings
Web Mining Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones
Escuela Politécnica Superior, Universidad Autónoma de Madrid
• 1. Introduction • Unstructured data vs. structured data • Data vs. information vs. knowledge • Why is this important?
• 2. The Semantic Web • What is the Semantic Web? • The Semantic Web weapons: ontologies & representation
languages • The Semantic Web tools: ontology editors & triple stores
13
The Semantic Web: From words to meanings
Web Mining Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones
Escuela Politécnica Superior, Universidad Autónoma de Madrid
The Semantic Web “I have a dream for the Web in which computers become capable of analysing all the data on the Web”
"The Semantic Web is an extension of the current Web in which information is given well-defined meaning, better enabling computers and people to work in cooperation."
Tim Berners-Lee, James Hendler, Ora Lassila, The Semantic Web, Scientific American, May 2001
“The Semantic Web is a vision: the idea of having data on the web defined and linked in a way that it can be used by machines not just for display purposes, but for automation, integration and reuse of data across various applications”
http://www.w3.org/2001/sw
14
The Semantic Web: From words to meanings
Web Mining Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones
Escuela Politécnica Superior, Universidad Autónoma de Madrid
The Semantic Web
Structured
Unstructured
From the Web of human understandable content The Web of documents and links
To the Web of machine understandable content The Web of objects and relations
15
The Semantic Web: From words to meanings
Web Mining Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones
Escuela Politécnica Superior, Universidad Autónoma de Madrid
The Semantic Web weapons: ONTOLOGIES
An ontology is a formal, explicit specification of a shared conceptualization
Formal: machine-readable Explicit: concepts, properties, relations, functions, constraints, axioms are explicitly defined Shared: consensual knowledge Conceptualization: abstract model and simplified vide of some phenomenon in the world that we want to represent
16
The Semantic Web: From words to meanings
Web Mining Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones
Escuela Politécnica Superior, Universidad Autónoma de Madrid
The Semantic Web weapons: ONTOLOGIES
How to model the world of Pizzas?
Classes Properties Individuals
ontology knowledge base
Restrictions
Cuatrro Formaggi
hasCountryOrigin
Italy
h>p://owl.cs.manchester.ac.uk/tutorials/protegeowltutorial/resources/ProtegeOWLTutorialP4_v1_3.pdf
17
The Semantic Web: From words to meanings
Web Mining Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones
Escuela Politécnica Superior, Universidad Autónoma de Madrid
The Semantic Web weapons: REPRESENTATION AND QUERY LANGUAGES
Assigning unambiguous names (URI)
Expressing and linking data, including metadata (RDF)
Querying data (SPARQL)
Capturing ontologies (OWL)
18
The Semantic Web: From words to meanings
Web Mining Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones
Escuela Politécnica Superior, Universidad Autónoma de Madrid
RDF (Resource Description Framework) • RDF identifies things using Web identifiers (URIs), and describes
resources with properties and property values. • The triple representation (subject, predicate, object)
<?xml version="1.0"?> <rdf:RDF
xmlns:rdf="h>p://www.w3.org/1999/02/22-‐rdf-‐syntax-‐ns#" Xmlns:epsp=h>p://www.ir.ii.uam.es/personnel#> <rdf:DescripYon
rdf:about="h>p://www.ir.ii.uam.es/personnel/IvanCantador"> <epsp:name>Ivan</epsp:name> <epsp:lastname>Cantador</epsp:lastname> <epsp:naYonality>Spanish</epsp:naYonality> <rdf:type>Assistant Professor</rdf:type>
</rdf:DescripYon> </rdf:RDF>
h>p://www.ir.ii.uam.es/ personnel/IvanCantador
h>p://www.ir.ii.uam.es/personnel/name
Ivan
19
The Semantic Web: From words to meanings
Web Mining Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones
Escuela Politécnica Superior, Universidad Autónoma de Madrid
RDFS (RDF Schema)
• RDFS provides the framework to describe classes and properties. It allows the creation of hierarchies <?xml version="1.0"?> <rdf:RDF
xmlns:rdf="h>p://www.w3.org/1999/02/22-‐rdf-‐syntax-‐ns#" xmlns:rdfs="h>p://www.w3.org/2000/01/rdf-‐schema#" xml:base=” h>p://www.eps.uam.es# <rdfs:Class rdf:ID=”Professor" /> <rdfs:Class rdf:ID=”Assistant Professor">
<rdfs:subClassOf rdf:resource=”#Professor"/> </rdfs:Class> <rdf:Property rdf:ID=“teachesSubject”>
<rdfs:Domain rdf:resource=“#Professor"/> <rdfs:Range rdf:resource=“#Subject"/>
</rdf:Property> </rdf:RDF>
20
The Semantic Web: From words to meanings
Web Mining Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones
Escuela Politécnica Superior, Universidad Autónoma de Madrid
OWL (Web Ontology Language) • OWL is a stronger language with greater machine interpretability than
RDF/RDFS (reasoning support) • OWL Little / OWL DL / OWL Full
<?xml version="1.0"?> <rdf:RDF
xmlns:rdf="h>p://www.w3.org/1999/02/22-‐rdf-‐syntax-‐ns#" xmlns:rdfs=h>p://www.w3.org/2000/01/rdf-‐schema# xmlns:owl = "h>p://www.w3.org/2002/07/owl#" xml:base=“h>p://www.eps.uam.es# <owl:Class rdf:ID=”Professor”>
<owl:restricYon> <owl:onProperty rdf:resource=“#hasAcademicTitle"/>
<owl:hasValue> PhD^^h>p://www.w3.org/2001/XMLSchema#string</owl:hasValue> <owl:restricYon>
</owl:Class> </rdf:RDF>
Value constraints: owl:allValuesFrom owl:someValuesFrom owl:hasValue Cardinality constraints: owl:cardinality owl:minCardinality owl:maxCardinality ….
Ivan has a PhD -‐> therefore Ivan can be professor!
21
The Semantic Web: From words to meanings
Web Mining Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones
Escuela Politécnica Superior, Universidad Autónoma de Madrid
SPARQL (SPARQL Protocol and RDF Query Language) • SPARQL is a query language for RDF
• Based on the triple representation (subject, predicate, object) • SPARQL 1.1 is W3C Recommendation since 21st March 2013
PREFIX epsp: <h>p://www.eps.uam.es> <rdf:RDF
xmlns:rdf="h>p://www.w3.org/1999/02/22-‐rdf-‐syntax-‐ns#" SELECT ?x ?name WHERE { ?x rdf:type epsp:Assistant Professor. ?x epsp:name ?name. ?x epsp:naYonality “Spanish”}
SPARQL allows the construcYon of very powerful queries -‐ Filtering elements -‐ Querying named graphs -‐ Ordering by/ disYnct / reduced / offset / limit -‐ Count / sum / avg / min / max / GroupConcat
Can you Google this?
22
The Semantic Web: From words to meanings
Web Mining Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones
Escuela Politécnica Superior, Universidad Autónoma de Madrid
The Semantic Web tools: ONTOLOGY EDITORS
• An ontology editor lets the creation or manipulation of ontologies
h>p://en.wikipedia.org/wiki/Ontology_editor
23
The Semantic Web: From words to meanings
Web Mining Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones
Escuela Politécnica Superior, Universidad Autónoma de Madrid
The Semantic Web tools: TRIPLE STORES • A triple store lets persistent storage of RDF data and querying via
SPARQL
h>p://www.garshol.priv.no/blog/231.html
24
The Semantic Web: From words to meanings
Web Mining Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones
Escuela Politécnica Superior, Universidad Autónoma de Madrid
• 3. Two paths towards the Sematic Web vision • Metadata embedded in HTML • Linked Data
-‐ An example • 4. Sematic Web applications
• Search engines • Recommendations • Open government • Institutions
-‐ The Open University -‐ BBC
25
The Semantic Web: From words to meanings
Web Mining Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones
Escuela Politécnica Superior, Universidad Autónoma de Madrid
Two paths towards the SW vision: ADDING DATA TO THE WEB
• Metadata embedded in HTML • Microformats • RDFa • Schema.org • HTML5
• Linked Data • Publish the data online in a standard, web enabled representation
(RDF) • Make the data web addressable (URI) • Link with other data
26
The Semantic Web: From words to meanings
Web Mining Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones
Escuela Politécnica Superior, Universidad Autónoma de Madrid
• 3. Two paths towards the Sematic Web vision • Metadata embedded in HTML • Linked Data
-‐ An example • 4. Sematic Web applications
• Search engines • Social Networks • Open government • Institutions
-‐ The Open University -‐ BBC
27
The Semantic Web: From words to meanings
Web Mining Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones
Escuela Politécnica Superior, Universidad Autónoma de Madrid
Microformats • Microformats use existing HTML attributes to embed structured data
types in an HTML document • Expressive power is limited as microformats are only designed to pre-
defined vocabularies • No interlinking between entities <div class="vcard"> <a class="fn org url" href="h>p://www.eps.uam.es/">EPS</a> <div class="adr"> <span class="street-‐address">Francisco Tomas y Valiente</span > <span class="locality">Madrid</span>, <span class="postal-‐code">28049</span> <span class="country-‐name">Spain</span > </div> </div>
h>p://microformats.org
28
The Semantic Web: From words to meanings
Web Mining Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones
Escuela Politécnica Superior, Universidad Autónoma de Madrid
RDFa (Resource Description Framework in Attributes)
• W3C standard for embedding RDF data in HTML documents • A set of new HTML attributes ands specs of how to use them
• RDFa is just a syntax, the publisher has to choose the vocabulary • RDFa is domain independent
<html> <body vocab="h>p://xmlns.com/foaf/0.1/"> ... <h2 property=”name”>Ivan Cantador</h2> <p><span property=”gender">undefined</span></p> ... </body> </html>
h>p://www.w3.org/TR/xhtml-‐rdfa-‐primer
Web standard since June 2012 h>p://www.w3.org/TR/rdfa-‐core/
29
The Semantic Web: From words to meanings
Web Mining Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones
Escuela Politécnica Superior, Universidad Autónoma de Madrid
RDFa (Resource Description Framework in Attributes)
• Used by Facebook! … among others ;) • RDF vocabulary to be used in conjunction with RDFa
<html xmlns:og="h>p://opengraphprotocol.org/schema/">
<head>
<Ytle>The Rock (1996)</Ytle>
<meta property="og:Ytle" content="The Rock" />
<meta property="og:type" content="movie" />
<meta property="og:url" content="h>p://www.imdb.com/Ytle/>0117500/" />
<meta property="og:image" content="h>p://ia.media-‐imdb.com/images/rock.jpg" /> …
</head> ...
</html>
30
The Semantic Web: From words to meanings
Web Mining Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones
Escuela Politécnica Superior, Universidad Autónoma de Madrid
HTML5 (microdata)
• HTML introduces inline elements (text-level semantics) to describe specific type of information
<div itemscope itemtype="h>p://data-‐vocabulary.org/Person"> My name is <span itemprop="name">Ivan</span>
Here is my home page: <a href="h>p://arantxa.ii.uam.es/~cantador/"
itemprop="url">h>p://arantxa.ii.uam.es/~cantador/</a> I live in Madrid, and work as an <span itemprop="Ytle">Assistant
Professor</span> at <span itemprop="affiliaYon">UAM</span>. </div>
h>p://dev.w3.org/html5/md-‐LC/#encoding-‐microdata
• Itemid • Itemprop • Itemref • Itemscope • itemtype
31
The Semantic Web: From words to meanings
Web Mining Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones
Escuela Politécnica Superior, Universidad Autónoma de Madrid
Schema.org • Provides a collection of vocabularies, a long with the microdata
format, that are recognised by the major search engine providers (de facto standard) <div itemscope itemtype=h>p://schema.org/Movie> <h1 itemprop="name">Pirates of the Carribean: On Stranger Tides (2011)</h1> Director:
<div itemprop="director" itemscope itemtype="h>p://schema.org/Person"> <span itemprop="name">Rob Marshall</span>
</div>
32
The Semantic Web: From words to meanings
Web Mining Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones
Escuela Politécnica Superior, Universidad Autónoma de Madrid
• 3. Two paths towards the Sematic Web vision • Metadata embedded in HTML • Linked Data
-‐ An example • 4. Sematic Web applications
• Search engines • Recommendations • Open government • Institutions
-‐ The Open University -‐ BBC
33
The Semantic Web: From words to meanings
Web Mining Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones
Escuela Politécnica Superior, Universidad Autónoma de Madrid
Linked Data Linked Open Data (September 2011)
34
The Semantic Web: From words to meanings
Web Mining Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones
Escuela Politécnica Superior, Universidad Autónoma de Madrid
Linked Data: WHAT IS IT ABOUT?
• The Web as one huge interconnected data graph • A Web of interlinked objects
• Objects described in a standard, web enabled representation (RDF) • Each RDF document describes the characteristics of a single object,
and links to related objects • Each object has a unique web address (URI) • Objects are linked with other objects
-‐ Important: links to the same objects in different datasets (sameAs) • Guidelines for proper configuration of web servers to serve such
documents • Vocabularies should be reused!
35
The Semantic Web: From words to meanings
Web Mining Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones
Escuela Politécnica Superior, Universidad Autónoma de Madrid
Linked Data: WE TALK ABOUT OBJECTS
Wikipedia
The DBpedia ontology, http://dbpedia.org
36
The Semantic Web: From words to meanings
Web Mining Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones
Escuela Politécnica Superior, Universidad Autónoma de Madrid
Linked Data: OBJECTS ARE LINKED!
Moving to England… looking for a place to leave
Available houses Crime reports Amenities
A unique information space
Data Mashups
37
The Semantic Web: From words to meanings
Web Mining Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones
Escuela Politécnica Superior, Universidad Autónoma de Madrid
Linked Data • Advantages:
• No change to the publishing of the HTML documents • Data can be published by third party (e.g. DBpedia) • Data is interlinked
• Disadvantages: • Web servers need to be configured to properly handle URIs that identify
concepts instead of documents • Search engines need to be extended to crawl Linked Data • Suitable vocabularies/ontologies are not always available • Data is not always easy to obtain • Data is not always linked to relevant data • Data is not always linked to HTML documents
-‐ Web mining: OBTAINING, STRUCTURING AND LINKING DATA
38
The Semantic Web: From words to meanings
Web Mining Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones
Escuela Politécnica Superior, Universidad Autónoma de Madrid
Methodological guidelines for publishing Linked Data
h>p://delicias.dia.fi.upm.es/wiki/images/f/f6/04_MGLD.pdf
39
The Semantic Web: From words to meanings
Web Mining Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones
Escuela Politécnica Superior, Universidad Autónoma de Madrid
Vocabularies / Schemas / Ontologies
• Search for suitable vocabularies • Reuse (if they exist) • Build new vocabularies based on existing ones (if they do not exist)
40
The Semantic Web: From words to meanings
Web Mining Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones
Escuela Politécnica Superior, Universidad Autónoma de Madrid
Obtaining and structuring data
• From unstructured, semi-structured and structured data sources
Natural Language Processing (NLP) • Entity extractors • Relation extractors
TextRunner http://openie.cs.washington.edu YAGO: A Core of Semantic Knowledge Unifying WordNet and Wikipedia, Suchanek et al., WWW 2007.
Textual documents Spreadsheets
NOR2O http://oeg-dev.dia.fi.upm.es/nor2o/#download Cvs2rdf4LOD http://logd.tw.rpi.edu/technology/csv2rdf4lod MappingMaster http://protege.cim3.net/cgi-bin/wiki.pl?MappingMaster
41
The Semantic Web: From words to meanings
Web Mining Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones
Escuela Politécnica Superior, Universidad Autónoma de Madrid
Obtaining and structuring data
DataBases
Whole subarea of research within the SW community RDB2RDF h>p://www.w3.org/2001/sw/rdb2rdf ultrawrap h>p://capsenta.com/ultrawrap RDBToOnto h>p://www.tao-‐project.eu/ researchanddevelopment/ demosanddownloads/RDBToOnto.html
WebAPis
Bizer et al. The RDF Book Mashups: From Web APIs to a Web of Data h>p://www.dvi.uni-‐kl.de/~grimnes/ 2007/06/SFSW07Papers/6.pdf
WebForms
Madhavan et al. Google's Deep-‐Web Crawl. VLDB 2008 h>p://www.cs.cornell.edu/~lucja/ publicaYons/i03.pdf
Bringing the Deep Web to the Surface!
42
The Semantic Web: From words to meanings
Web Mining Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones
Escuela Politécnica Superior, Universidad Autónoma de Madrid
Obtaining and structuring data
HTML Tables
Cafarella et al. WebTables: Exploring the Power of Tables on the Web. VLDB 2008
And many other semi-‐structured data XML, UML, BibText, Tags, … ConverterToRDF h>p://www.w3.org/wiki/ConverterToRdf
Google Refine h>ps://code.google.com/p/google-‐refine And its extension RDF Refine h>p://refine.deri.ie
Other useful tools to obtain and structure data
Google Fusion Tables h>p://support.google.com/fusiontables
43
The Semantic Web: From words to meanings
Web Mining Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones
Escuela Politécnica Superior, Universidad Autónoma de Madrid
Linking Data
• 1. Identify suitable datasets as linking targets
• 2. Discover relationships between data items
Data Hub ckan.net
Geonames
DBpedia
http://sws.geonames.org/
6355233
http://mydataset/Madrid
http://dbpedia.org/
resource/Madrid
owl:sameAs owl:sameAs
Silk Framework: h>p://wifo5-‐03.informaYk.uni-‐mannheim.de/bizer/silk Limes: h>p://aksw.org/Projects/LIMES.html
h>p://delicias.dia.fi.upm.es/wiki/images/f/f6/04_MGLD.pdf
44
The Semantic Web: From words to meanings
Web Mining Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones
Escuela Politécnica Superior, Universidad Autónoma de Madrid
Linking Data to HTML Documents: THE ANNOTATORS
• The annotators extract entities (classes / individuals) and relations from the text and link them to object URIs
45
The Semantic Web: From words to meanings
Web Mining Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones
Escuela Politécnica Superior, Universidad Autónoma de Madrid
• 3. Two paths towards the Sematic Web vision • Metadata embedded in HTML • Linked Data
-‐ An example • 4. Sematic Web applications
• Search engines • Recommendations • Open government • Institutions
-‐ The Open University -‐ BBC
46
The Semantic Web: From words to meanings
Web Mining Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones
Escuela Politécnica Superior, Universidad Autónoma de Madrid
Obtaining, structuring and linking data: AN EXAMPLE
Any material about C++?... Ufff... Where to start?!
One unique information
space
BEFORE LINKED DATA
AFTER LINKED DATA
47
The Semantic Web: From words to meanings
Web Mining Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones
Escuela Politécnica Superior, Universidad Autónoma de Madrid
Obtaining, structuring and linking data: AN EXAMPLE
Use of Linked Data 1. Select and extract educational
information from various sources 2. Reuse well-known vocabularies to
describe and structure the previously extracted data
3. Link the educational material under a common categorization scheme
Fernandez et al. (2011) Linking Data Across UniversiYes: An Integrated Video Lectures Dataset, 10th InternaYonal SemanYc Web Conference (ISWC 2011), Bonn
48
The Semantic Web: From words to meanings
Web Mining Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones
Escuela Politécnica Superior, Universidad Autónoma de Madrid
Specification: SELECTING & ANALYSING DATA • VideoLectures.net
Web scrapper Study the structure of HTML pages and use a HTML parser to extract the data of interest
49
The Semantic Web: From words to meanings
Web Mining Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones
Escuela Politécnica Superior, Universidad Autónoma de Madrid
Specification: SELECTING & ANALYSING DATA
• YouTube University Channels <entry gd:etag='W/"DkADSH47eCp7ImA9WhZWFEg."'> <id>tag:youtube.com,2008:video:zZCaHSW88Ts</id> <published>2011-02-18T11:41:08.000Z</published> <updated>2011-05-15T10:19:39.000Z</updated> <category scheme='http://gdata.youtube.com/schemas/2007/categories.cat' term='Education' label='Education'/> <category scheme='http://gdata.youtube.com/schemas/2007/keywords.cat' term='Dr Barry Cooper'/> <title>Intro to Professional Practice (Children & Families)</title> <author> … </author> <media:description … </media:description> <media:keywords>…</media:keywords> <media:thumbnail …/> <yt:duration seconds='399'/> <content …'/>
YouTube API: select the the fields of interest
50
The Semantic Web: From words to meanings
Web Mining Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones
Escuela Politécnica Superior, Universidad Autónoma de Madrid
Specification: SELECTING & ANALYSING DATA
• OU Podcasts (data.open.ac.uk)
Already structured data: SPARQL query
51
The Semantic Web: From words to meanings
Web Mining Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones
Escuela Politécnica Superior, Universidad Autónoma de Madrid
Modeling: REUSING VOCABULARIES
• Dublin Core • http://dublincore.org/documents/dcmi-terms (dcterms)
• FOAF • http://xmlns.com/foaf/spec (foaf)
• The W3C ontology for media resources • http://www.w3.org/TR/mediaont-10 (ma)
• The Media Vocabulary • http://payswarm.com/vocabs/media (media)
• The Nice Tag Ontology • http://ns.inria.fr/nicetag/2010/09/09/voc.html (nt)
Vocabularies selected to describe the data
I describe tags
We describe media resources
I describe people and relations
I describe educational
material
52
The Semantic Web: From words to meanings
Web Mining Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones
Escuela Politécnica Superior, Universidad Autónoma de Madrid
Modeling: REUSING VOCABULARIES
The selected base URI is: http://linkeduniversities.org 1. VideoLectures objects are represented as media:Recording,
authors are represented as foaf:Person 2. The video title is duplicated in the properties rdfs:label &
dcterms:title
4. The set of tags and categories associated to a video is represented by the nt:isRelatedTo property
5. The assigned classification in the unified search space is represented by the dcterms:subject property
53
The Semantic Web: From words to meanings
Web Mining Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones
Escuela Politécnica Superior, Universidad Autónoma de Madrid
RDF generation: CREATING OBJECTS
http://linkeduniversities.org/video/CarnegieMellonU/youtube/B135229F3706D215
rdf:type media:Recording media:download http://www.youtube.com/watch?v=TOTuStPIeFc&feature=youtube_gdata_player dcterms:title CMU Football Engineering Summer 2008 Video rdfs:label CMU Football Engineering Summer 2008 Video dcterms:description Football […]Summer 2008 Video
foaf:thumbnail http://i.ytimg.com/vi/TOTuStPIeFc/3.jpg media:duration 155 dcterms:isPart http://linkeduniversities.org/video/CarnegieMellonU/youtube/playlist/B135229F37
ma:publisher http://linkeduniversities.org/video/CarnegieMellonU/youtube/user/footballtracking dcterms:published 2011-06-03T23:23:53.262Z
nt:isRelatedTo http://linkeduniversities.org/video/CarnegieMellonU/tag/sports nt:isRelatedTo http://linkeduniversities.org/video/CarnegieMellonU/tag/football dcterms:subject http://dmoz.org/Sports/Football/Rugby_Union dcterms:subject http://linkeduniversities.org/video/CarnegieMellonU/dmoz/Sports/Football/Rugby_Union
Type Provenance ID
54
The Semantic Web: From words to meanings
Web Mining Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones
Escuela Politécnica Superior, Universidad Autónoma de Madrid
Links Generation: SELECTING THE LINKING POINTS • A common categorization scheme:
1. The International Press Telecommunications Council (IPTC) http://www.iptc.org/site/NewsCodes/
2. Library of Congress Subject Headings http://id.loc.gov/authorities/about.html
3. The Open Directory Project (DMOZ) http://www.dmoz.org/rdf.html
4. DBpedia Categories http://dbpedia.org/About
55
The Semantic Web: From words to meanings
Web Mining Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones
Escuela Politécnica Superior, Universidad Autónoma de Madrid
Links Generation: EXPLOITING THE ANNOTATORS (1) Extract the information from the video lecture
(2) Generate an textual document (3) Provide the document to the Textwise classification service
Reference/Knowledge_Management (id=495), weight=0.71
(4) Obtain the ODP document classification
56
The Semantic Web: From words to meanings
Web Mining Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones
Escuela Politécnica Superior, Universidad Autónoma de Madrid
PUBLICATION • New LD educational dataset
• More than 14,000 video lectures from 27 institutions
57
The Semantic Web: From words to meanings
Web Mining Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones
Escuela Politécnica Superior, Universidad Autónoma de Madrid
• 3. Two paths towards the Sematic Web vision • Metadata embedded in HTML • Linked Data
-‐ An example • 4. Sematic Web applications
• Search engines • Recommendations • Open government • Institutions
-‐ The Open University -‐ BBC
58
The Semantic Web: From words to meanings
Web Mining Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones
Escuela Politécnica Superior, Universidad Autónoma de Madrid
Search engines: BETTER DATA VISUALISATION
• 2007 Yahoo! Presented Search Monkey
• 2009 Google announced Rich Snippets
If search engines could understand the data inside the HTML pages they would display such data in better ways: pictures, dates, prices, ratings, etc.
59
The Semantic Web: From words to meanings
Web Mining Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones
Escuela Politécnica Superior, Universidad Autónoma de Madrid
Search engines: BETTER CONTENT RETRIEVAL
2012 Google announced Knowledge Graph http://googleblog.blogspot.co.uk/2012/05/ introducing-knowledge-graph-things-not.html
60
The Semantic Web: From words to meanings
Web Mining Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones
Escuela Politécnica Superior, Universidad Autónoma de Madrid
Search engines: NOT ALL IS ABOUT DOCUMENTS • Search engines oriented to concept-search vs. document search
FreeBase: In July 2010 Google bought Metaweb, the company behind freebase
Powerset: Bought by Microsoft in 2008
Wolfram Alpha: Active since 2009
61
The Semantic Web: From words to meanings
Web Mining Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones
Escuela Politécnica Superior, Universidad Autónoma de Madrid
• 3. Two paths towards the Sematic Web vision • Metadata embedded in HTML • Linked Data
-‐ An example • 4. Sematic Web applications
• Search engines • Recommendations • Open government • Institutions
-‐ The Open University -‐ BBC
62
The Semantic Web: From words to meanings
Web Mining Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones
Escuela Politécnica Superior, Universidad Autónoma de Madrid
Recommendations: FACEBOOK GRAPH SEARCH Links among people, places, music, and other objects can lead to better content recommendation
63
The Semantic Web: From words to meanings
Web Mining Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones
Escuela Politécnica Superior, Universidad Autónoma de Madrid
• 3. Two paths towards the Sematic Web vision • Metadata embedded in HTML • Linked Data
-‐ An example • 4. Sematic Web applications
• Search engines • Recommendations • Open government • Institutions
-‐ The Open University -‐ BBC
64
The Semantic Web: From words to meanings
Web Mining Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones
Escuela Politécnica Superior, Universidad Autónoma de Madrid
Open Government • Open government
• Data.gov • Data.gov.uk • Many others…
Research Funding Explorer
• Linking data lets more complex queries and deeper data analysis
• Organizations can now easily link to public government data
• Favour transparency
65
The Semantic Web: From words to meanings
Web Mining Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones
Escuela Politécnica Superior, Universidad Autónoma de Madrid
• 3. Two paths towards the Sematic Web vision • Metadata embedded in HTML • Linked Data
-‐ An example • 4. Sematic Web applications
• Search engines • Recommendations • Open government • Institutions
-‐ The Open University -‐ BBC
66
The Semantic Web: From words to meanings
Web Mining Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones
Escuela Politécnica Superior, Universidad Autónoma de Madrid
Exposed as linked data, our data interlink with each other and the external world: become part of the “global data space” on the Web
OU public data sit in different systems – hard to discover, obtain, integrate by users
OU public data sit in different systems – hard to discover, obtain, integrate by users
Exposed as linked data, our data interlink with each other and the external world: become part of the “global data space” on the Web
The Open University
ORO
Archive of Course Material
Library’s Catalogue Of Digital Content
OpenLearn Content
A/V Material Podcasts iTunesU
Data from Research Outputs
DBLP
RAE
data.gov.uk
67
The Semantic Web: From words to meanings
Web Mining Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones
Escuela Politécnica Superior, Universidad Autónoma de Madrid
The Open University • The OU has been the first University to expose its data as linked data:
http://data.open.ac.uk • Now widely recognized as a critical step forward for the HE sector in
the UK (and worldwide) • Favor transparency and reuse of data, both externally and internally • Reduces cost of dealing with our own public data: integration and reuse by
design • Enable both new kinds of applications, and to make the ones that are already
feasible more cost effective
68
The Semantic Web: From words to meanings
Web Mining Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones
Escuela Politécnica Superior, Universidad Autónoma de Madrid
The Open University • Linking Open Learn with relevant Podcasts
69
The Semantic Web: From words to meanings
Web Mining Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones
Escuela Politécnica Superior, Universidad Autónoma de Madrid
The Open University • Exploring research communities
70
The Semantic Web: From words to meanings
Web Mining Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones
Escuela Politécnica Superior, Universidad Autónoma de Madrid
• 3. Two paths towards the Sematic Web vision • Metadata embedded in HTML • Linked Data
-‐ An example • 4. Sematic Web applications
• Search engines • Recommendations • Open government • Institutions
-‐ The Open University -‐ BBC
71
The Semantic Web: From words to meanings
Web Mining Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones
Escuela Politécnica Superior, Universidad Autónoma de Madrid
BBC: British Broadcasting Corporation
• Historically when developing websites… • Hand-crafted customized sites • Only some programs could be covered
-‐ Shame considering they broadcast between 1,000 and 1,500 programs/day
• All those sites were developed in isolation - Often not maintained - Often not persistent
Using Linked Data to build Websites more productively http://www.slideshare.net/metade/linked-data-on-the-bbc
72
The Semantic Web: From words to meanings
Web Mining Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones
Escuela Politécnica Superior, Universidad Autónoma de Madrid
BBC: British Broadcasting Corporation
• The Linked Data Website construction model Domain-driven design • Identify the domain objects
and relations • Check the domain model with
users • Design your schema • Design your URIs • Define data you need to build
each of your pages • Automatically build up your
HTML pages by querying these data and applying CSS layouts
73
The Semantic Web: From words to meanings
Web Mining Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones
Escuela Politécnica Superior, Universidad Autónoma de Madrid
BBC: British Broadcasting Corporation
• Starting with the WorldCup 2010… and now… • Programs • Music • Artists • Animal life • …..
74
The Semantic Web: From words to meanings
Web Mining Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones
Escuela Politécnica Superior, Universidad Autónoma de Madrid
Thx! J
• Questions, doubts?