wm unit1.6-slides-semantic web-final

75
Miriam Fernández, [email protected] Knowledge Media Institute, The Open University, UK Universidad Autónoma de Madrid Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones Escuela Politécnica Superior Web Mining Mining semi-structured data The Semantic Web: From words to meanings

Upload: miriamfs

Post on 03-Nov-2014

733 views

Category:

Education


4 download

DESCRIPTION

PhD Web Mining Course (unit 6) at Universidad Autonoma de Madrid Spain. The talk provides an overview of the SW, from the main motivation and idea, to the paths taken towards its realisation. It describes tools, representation languages and applications. The slides aim to provide a list of useful references for educational purposes.

TRANSCRIPT

Page 1: Wm unit1.6-slides-semantic web-final

Miriam Fernández, [email protected] Knowledge Media Institute, The Open University, UK

Universidad Autónoma de Madrid

Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones

Escuela Politécnica Superior

Web Mining  

Mining semi-structured data  

The Semantic Web: From words to meanings

Page 2: Wm unit1.6-slides-semantic web-final

1  

The Semantic Web: From words to meanings

Web Mining Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones

Escuela Politécnica Superior, Universidad Autónoma de Madrid

•  1. Introduction •  Unstructured data vs. structured data •  Data vs. information vs. knowledge •  Motivation

•  2. The Semantic Web •  What is the Semantic Web? •  The Semantic Web weapons: ontologies & representation languages •  The Semantic Web tools: ontology editors & triple stores

Page 3: Wm unit1.6-slides-semantic web-final

2  

The Semantic Web: From words to meanings

Web Mining Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones

Escuela Politécnica Superior, Universidad Autónoma de Madrid

•  3. Two paths towards the Sematic Web vision •  Metadata embedded in HTML •  Linked Data

-­‐  An example •  4. Sematic Web applications

•  Search engines •  Recommendations •  Open government •  Institutions

-­‐  The Open University -­‐  BBC

Page 4: Wm unit1.6-slides-semantic web-final

3  

The Semantic Web: From words to meanings

Web Mining Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones

Escuela Politécnica Superior, Universidad Autónoma de Madrid

•  1. Introduction •  Unstructured data vs. structured data •  Data vs. information vs. knowledge •  Motivation

•  2. The Semantic Web •  What is the Semantic Web? •  The Semantic Web weapons: ontologies & representation languages •  The Semantic Web tools: ontology editors & triple stores

Page 5: Wm unit1.6-slides-semantic web-final

4  

The Semantic Web: From words to meanings

Web Mining Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones

Escuela Politécnica Superior, Universidad Autónoma de Madrid

What is … ?

Page 6: Wm unit1.6-slides-semantic web-final

5  

The Semantic Web: From words to meanings

Web Mining Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones

Escuela Politécnica Superior, Universidad Autónoma de Madrid

What is … ?

Flexible structure (e.g. tags, taxonomies)

Rigid structure: well defined vocabularies and representation

(e.g. databases)

No structure (e.g. free text)

Page 7: Wm unit1.6-slides-semantic web-final

6  

The Semantic Web: From words to meanings

Web Mining Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones

Escuela Politécnica Superior, Universidad Autónoma de Madrid

What is … ?

Iván in Italy!

Syntactic interpretation

Semantic interpretation

A picture!

Page 8: Wm unit1.6-slides-semantic web-final

7  

The Semantic Web: From words to meanings

Web Mining Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones

Escuela Politécnica Superior, Universidad Autónoma de Madrid

Why do we need to add structure? THE CHALLENGE

Syntactic interpretation

Semantic interpretation

A picture!

Is this a person, an object, a place? I don’t understand anything! L

Find the way machines can extract & interpret knowledge!

Page 9: Wm unit1.6-slides-semantic web-final

8  

The Semantic Web: From words to meanings

Web Mining Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones

Escuela Politécnica Superior, Universidad Autónoma de Madrid

Why is this important? We have entered the Zettabyte era! (a billion terabytes) http://www.emc.com/collateral/demos/microsites/emc-digital-universe-2011/index.htm

Page 10: Wm unit1.6-slides-semantic web-final

9  

The Semantic Web: From words to meanings

Web Mining Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones

Escuela Politécnica Superior, Universidad Autónoma de Madrid

Why is this important?

•  Information overwhelming •  We need mechanisms to support

-­‐  better information search -­‐  better information integration -­‐  automatic knowledge extraction

•  User generated content is generally unstructured •  Machines can not understand such content!

Page 11: Wm unit1.6-slides-semantic web-final

10  

The Semantic Web: From words to meanings

Web Mining Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones

Escuela Politécnica Superior, Universidad Autónoma de Madrid

Why is this important?

Many pages later I still didn’t find what I was looking for! L The search engine didn’t understood my query

Page 12: Wm unit1.6-slides-semantic web-final

11  

The Semantic Web: From words to meanings

Web Mining Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones

Escuela Politécnica Superior, Universidad Autónoma de Madrid

Why is this important?

Moving to England… looking for a place to live

Available houses

Crime reports in different areas

Amenities

Far too much distributed and unrelated information

Page 13: Wm unit1.6-slides-semantic web-final

12  

The Semantic Web: From words to meanings

Web Mining Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones

Escuela Politécnica Superior, Universidad Autónoma de Madrid

•  1. Introduction •  Unstructured data vs. structured data •  Data vs. information vs. knowledge •  Why is this important?

•  2. The Semantic Web •  What is the Semantic Web? •  The Semantic Web weapons: ontologies & representation

languages •  The Semantic Web tools: ontology editors & triple stores

Page 14: Wm unit1.6-slides-semantic web-final

13  

The Semantic Web: From words to meanings

Web Mining Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones

Escuela Politécnica Superior, Universidad Autónoma de Madrid

The Semantic Web “I have a dream for the Web in which computers become capable of analysing all the data on the Web”

"The Semantic Web is an extension of the current Web in which information is given well-defined meaning, better enabling computers and people to work in cooperation."

Tim Berners-Lee, James Hendler, Ora Lassila, The Semantic Web, Scientific American, May 2001

“The Semantic Web is a vision: the idea of having data on the web defined and linked in a way that it can be used by machines not just for display purposes, but for automation, integration and reuse of data across various applications”

http://www.w3.org/2001/sw

Page 15: Wm unit1.6-slides-semantic web-final

14  

The Semantic Web: From words to meanings

Web Mining Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones

Escuela Politécnica Superior, Universidad Autónoma de Madrid

The Semantic Web

Structured

Unstructured

From the Web of human understandable content The Web of documents and links

To the Web of machine understandable content The Web of objects and relations

Page 16: Wm unit1.6-slides-semantic web-final

15  

The Semantic Web: From words to meanings

Web Mining Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones

Escuela Politécnica Superior, Universidad Autónoma de Madrid

The Semantic Web weapons: ONTOLOGIES

An ontology is a formal, explicit specification of a shared conceptualization

Formal: machine-readable Explicit: concepts, properties, relations, functions, constraints, axioms are explicitly defined Shared: consensual knowledge Conceptualization: abstract model and simplified vide of some phenomenon in the world that we want to represent

Page 17: Wm unit1.6-slides-semantic web-final

16  

The Semantic Web: From words to meanings

Web Mining Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones

Escuela Politécnica Superior, Universidad Autónoma de Madrid

The Semantic Web weapons: ONTOLOGIES

How to model the world of Pizzas?

Classes Properties Individuals

ontology knowledge base

Restrictions

Cuatrro  Formaggi  

hasCountryOrigin  

Italy  

h>p://owl.cs.manchester.ac.uk/tutorials/protegeowltutorial/resources/ProtegeOWLTutorialP4_v1_3.pdf    

Page 18: Wm unit1.6-slides-semantic web-final

17  

The Semantic Web: From words to meanings

Web Mining Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones

Escuela Politécnica Superior, Universidad Autónoma de Madrid

The Semantic Web weapons: REPRESENTATION AND QUERY LANGUAGES

Assigning unambiguous names (URI)

Expressing and linking data, including metadata (RDF)

Querying data (SPARQL)

Capturing ontologies (OWL)

Page 19: Wm unit1.6-slides-semantic web-final

18  

The Semantic Web: From words to meanings

Web Mining Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones

Escuela Politécnica Superior, Universidad Autónoma de Madrid

RDF (Resource Description Framework) •  RDF identifies things using Web identifiers (URIs), and describes

resources with properties and property values. •  The triple representation (subject, predicate, object)

<?xml  version="1.0"?>  <rdf:RDF  

xmlns:rdf="h>p://www.w3.org/1999/02/22-­‐rdf-­‐syntax-­‐ns#"  Xmlns:epsp=h>p://www.ir.ii.uam.es/personnel#>  <rdf:DescripYon  

   rdf:about="h>p://www.ir.ii.uam.es/personnel/IvanCantador">      <epsp:name>Ivan</epsp:name>      <epsp:lastname>Cantador</epsp:lastname>      <epsp:naYonality>Spanish</epsp:naYonality>      <rdf:type>Assistant  Professor</rdf:type>  

</rdf:DescripYon>  </rdf:RDF>  

h>p://www.ir.ii.uam.es/  personnel/IvanCantador  

h>p://www.ir.ii.uam.es/personnel/name  

Ivan  

Page 20: Wm unit1.6-slides-semantic web-final

19  

The Semantic Web: From words to meanings

Web Mining Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones

Escuela Politécnica Superior, Universidad Autónoma de Madrid

RDFS (RDF Schema)

•  RDFS provides the framework to describe classes and properties. It allows the creation of hierarchies <?xml  version="1.0"?>    <rdf:RDF  

xmlns:rdf="h>p://www.w3.org/1999/02/22-­‐rdf-­‐syntax-­‐ns#"  xmlns:rdfs="h>p://www.w3.org/2000/01/rdf-­‐schema#"  xml:base=”  h>p://www.eps.uam.es#  <rdfs:Class  rdf:ID=”Professor"  />  <rdfs:Class  rdf:ID=”Assistant  Professor">  

     <rdfs:subClassOf  rdf:resource=”#Professor"/>  </rdfs:Class>  <rdf:Property  rdf:ID=“teachesSubject”>    

 <rdfs:Domain  rdf:resource=“#Professor"/>    <rdfs:Range  rdf:resource=“#Subject"/>  

</rdf:Property>    </rdf:RDF>  

Page 21: Wm unit1.6-slides-semantic web-final

20  

The Semantic Web: From words to meanings

Web Mining Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones

Escuela Politécnica Superior, Universidad Autónoma de Madrid

OWL (Web Ontology Language) •  OWL is a stronger language with greater machine interpretability than

RDF/RDFS (reasoning support) •  OWL Little / OWL DL / OWL Full

<?xml  version="1.0"?>  <rdf:RDF  

xmlns:rdf="h>p://www.w3.org/1999/02/22-­‐rdf-­‐syntax-­‐ns#"  xmlns:rdfs=h>p://www.w3.org/2000/01/rdf-­‐schema#  xmlns:owl  =  "h>p://www.w3.org/2002/07/owl#"  xml:base=“h>p://www.eps.uam.es#    <owl:Class  rdf:ID=”Professor”>  

 <owl:restricYon>                                <owl:onProperty  rdf:resource=“#hasAcademicTitle"/>  

             <owl:hasValue>  PhD^^h>p://www.w3.org/2001/XMLSchema#string</owl:hasValue>      <owl:restricYon>  

</owl:Class>  </rdf:RDF>  

Value  constraints:  owl:allValuesFrom  owl:someValuesFrom  owl:hasValue    Cardinality  constraints:  owl:cardinality  owl:minCardinality  owl:maxCardinality  ….  

Ivan  has  a  PhD  -­‐>  therefore  Ivan  can  be  professor!  

Page 22: Wm unit1.6-slides-semantic web-final

21  

The Semantic Web: From words to meanings

Web Mining Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones

Escuela Politécnica Superior, Universidad Autónoma de Madrid

SPARQL (SPARQL Protocol and RDF Query Language) •  SPARQL is a query language for RDF

•  Based on the triple representation (subject, predicate, object) •  SPARQL 1.1 is W3C Recommendation since 21st March 2013

PREFIX  epsp:  <h>p://www.eps.uam.es>  <rdf:RDF  

xmlns:rdf="h>p://www.w3.org/1999/02/22-­‐rdf-­‐syntax-­‐ns#"  SELECT  ?x  ?name  WHERE    {    ?x  rdf:type  epsp:Assistant  Professor.          ?x  epsp:name  ?name.          ?x  epsp:naYonality  “Spanish”}  

SPARQL  allows  the  construcYon  of  very  powerful  queries  -­‐  Filtering  elements  -­‐  Querying  named  graphs  -­‐  Ordering  by/  disYnct  /  reduced  /  offset  /  limit  -­‐  Count  /  sum  /  avg  /  min  /  max  /  GroupConcat  

Can  you  Google  this?  

Page 23: Wm unit1.6-slides-semantic web-final

22  

The Semantic Web: From words to meanings

Web Mining Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones

Escuela Politécnica Superior, Universidad Autónoma de Madrid

The Semantic Web tools: ONTOLOGY EDITORS

•  An ontology editor lets the creation or manipulation of ontologies

h>p://en.wikipedia.org/wiki/Ontology_editor    

Page 24: Wm unit1.6-slides-semantic web-final

23  

The Semantic Web: From words to meanings

Web Mining Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones

Escuela Politécnica Superior, Universidad Autónoma de Madrid

The Semantic Web tools: TRIPLE STORES •  A triple store lets persistent storage of RDF data and querying via

SPARQL

h>p://www.garshol.priv.no/blog/231.html    

Page 25: Wm unit1.6-slides-semantic web-final

24  

The Semantic Web: From words to meanings

Web Mining Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones

Escuela Politécnica Superior, Universidad Autónoma de Madrid

•  3. Two paths towards the Sematic Web vision •  Metadata embedded in HTML •  Linked Data

-­‐  An example •  4. Sematic Web applications

•  Search engines •  Recommendations •  Open government •  Institutions

-­‐  The Open University -­‐  BBC

Page 26: Wm unit1.6-slides-semantic web-final

25  

The Semantic Web: From words to meanings

Web Mining Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones

Escuela Politécnica Superior, Universidad Autónoma de Madrid

Two paths towards the SW vision: ADDING DATA TO THE WEB

•  Metadata embedded in HTML •  Microformats •  RDFa •  Schema.org •  HTML5

•  Linked Data •  Publish the data online in a standard, web enabled representation

(RDF) •  Make the data web addressable (URI) •  Link with other data

Page 27: Wm unit1.6-slides-semantic web-final

26  

The Semantic Web: From words to meanings

Web Mining Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones

Escuela Politécnica Superior, Universidad Autónoma de Madrid

•  3. Two paths towards the Sematic Web vision •  Metadata embedded in HTML •  Linked Data

-­‐  An example •  4. Sematic Web applications

•  Search engines •  Social Networks •  Open government •  Institutions

-­‐  The Open University -­‐  BBC

Page 28: Wm unit1.6-slides-semantic web-final

27  

The Semantic Web: From words to meanings

Web Mining Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones

Escuela Politécnica Superior, Universidad Autónoma de Madrid

Microformats •  Microformats use existing HTML attributes to embed structured data

types in an HTML document •  Expressive power is limited as microformats are only designed to pre-

defined vocabularies •  No interlinking between entities <div  class="vcard">      <a  class="fn  org  url"  href="h>p://www.eps.uam.es/">EPS</a>      <div  class="adr">                  <span  class="street-­‐address">Francisco  Tomas  y  Valiente</span  >                  <span  class="locality">Madrid</span>,                      <span  class="postal-­‐code">28049</span>                <span  class="country-­‐name">Spain</span  >    </div>  </div>  

h>p://microformats.org    

Page 29: Wm unit1.6-slides-semantic web-final

28  

The Semantic Web: From words to meanings

Web Mining Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones

Escuela Politécnica Superior, Universidad Autónoma de Madrid

RDFa (Resource Description Framework in Attributes)

•  W3C standard for embedding RDF data in HTML documents •  A set of new HTML attributes ands specs of how to use them

•  RDFa is just a syntax, the publisher has to choose the vocabulary •  RDFa is domain independent

<html>  <body  vocab="h>p://xmlns.com/foaf/0.1/">      ...      <h2  property=”name”>Ivan  Cantador</h2>      <p><span  property=”gender">undefined</span></p>      ...  </body>  </html>  

h>p://www.w3.org/TR/xhtml-­‐rdfa-­‐primer    

Web  standard  since  June  2012  h>p://www.w3.org/TR/rdfa-­‐core/  

Page 30: Wm unit1.6-slides-semantic web-final

29  

The Semantic Web: From words to meanings

Web Mining Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones

Escuela Politécnica Superior, Universidad Autónoma de Madrid

RDFa (Resource Description Framework in Attributes)

•  Used by Facebook! … among others ;) •  RDF vocabulary to be used in conjunction with RDFa

<html  xmlns:og="h>p://opengraphprotocol.org/schema/">    

<head>    

 <Ytle>The  Rock  (1996)</Ytle>    

 <meta  property="og:Ytle"  content="The  Rock"  />    

 <meta  property="og:type"  content="movie"  />    

 <meta  property="og:url"  content="h>p://www.imdb.com/Ytle/>0117500/"  />    

 <meta  property="og:image"  content="h>p://ia.media-­‐imdb.com/images/rock.jpg"  />  …  

</head>  ...    

</html>    

Page 31: Wm unit1.6-slides-semantic web-final

30  

The Semantic Web: From words to meanings

Web Mining Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones

Escuela Politécnica Superior, Universidad Autónoma de Madrid

HTML5 (microdata)

•  HTML introduces inline elements (text-level semantics) to describe specific type of information

<div  itemscope  itemtype="h>p://data-­‐vocabulary.org/Person">          My  name  is  <span  itemprop="name">Ivan</span>    

 Here  is  my  home  page:        <a  href="h>p://arantxa.ii.uam.es/~cantador/"        

 itemprop="url">h>p://arantxa.ii.uam.es/~cantador/</a>        I  live  in  Madrid,  and  work  as  an  <span  itemprop="Ytle">Assistant  

 Professor</span>      at  <span  itemprop="affiliaYon">UAM</span>.  </div>  

h>p://dev.w3.org/html5/md-­‐LC/#encoding-­‐microdata    

•  Itemid  •  Itemprop  •  Itemref  •  Itemscope  •  itemtype  

Page 32: Wm unit1.6-slides-semantic web-final

31  

The Semantic Web: From words to meanings

Web Mining Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones

Escuela Politécnica Superior, Universidad Autónoma de Madrid

Schema.org •  Provides a collection of vocabularies, a long with the microdata

format, that are recognised by the major search engine providers (de facto standard) <div  itemscope  itemtype=h>p://schema.org/Movie>    <h1  itemprop="name">Pirates  of  the  Carribean:  On  Stranger  Tides  (2011)</h1>  Director:  

 <div  itemprop="director"  itemscope  itemtype="h>p://schema.org/Person">  <span  itemprop="name">Rob  Marshall</span>  

</div>  

Page 33: Wm unit1.6-slides-semantic web-final

32  

The Semantic Web: From words to meanings

Web Mining Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones

Escuela Politécnica Superior, Universidad Autónoma de Madrid

•  3. Two paths towards the Sematic Web vision •  Metadata embedded in HTML •  Linked Data

-­‐  An example •  4. Sematic Web applications

•  Search engines •  Recommendations •  Open government •  Institutions

-­‐  The Open University -­‐  BBC

Page 34: Wm unit1.6-slides-semantic web-final

33  

The Semantic Web: From words to meanings

Web Mining Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones

Escuela Politécnica Superior, Universidad Autónoma de Madrid

Linked Data Linked Open Data (September 2011)  

Page 35: Wm unit1.6-slides-semantic web-final

34  

The Semantic Web: From words to meanings

Web Mining Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones

Escuela Politécnica Superior, Universidad Autónoma de Madrid

Linked Data: WHAT IS IT ABOUT?

•  The Web as one huge interconnected data graph •  A Web of interlinked objects

•  Objects described in a standard, web enabled representation (RDF) •  Each RDF document describes the characteristics of a single object,

and links to related objects •  Each object has a unique web address (URI) •  Objects are linked with other objects

-­‐  Important: links to the same objects in different datasets (sameAs) •  Guidelines for proper configuration of web servers to serve such

documents •  Vocabularies should be reused!

Page 36: Wm unit1.6-slides-semantic web-final

35  

The Semantic Web: From words to meanings

Web Mining Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones

Escuela Politécnica Superior, Universidad Autónoma de Madrid

Linked Data: WE TALK ABOUT OBJECTS

Wikipedia

The DBpedia ontology, http://dbpedia.org

Page 37: Wm unit1.6-slides-semantic web-final

36  

The Semantic Web: From words to meanings

Web Mining Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones

Escuela Politécnica Superior, Universidad Autónoma de Madrid

Linked Data: OBJECTS ARE LINKED!

Moving to England… looking for a place to leave

Available houses Crime reports Amenities

A unique information space

Data  Mashups  

Page 38: Wm unit1.6-slides-semantic web-final

37  

The Semantic Web: From words to meanings

Web Mining Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones

Escuela Politécnica Superior, Universidad Autónoma de Madrid

Linked Data •  Advantages:

•  No change to the publishing of the HTML documents •  Data can be published by third party (e.g. DBpedia) •  Data is interlinked

•  Disadvantages: •  Web servers need to be configured to properly handle URIs that identify

concepts instead of documents •  Search engines need to be extended to crawl Linked Data •  Suitable vocabularies/ontologies are not always available •  Data is not always easy to obtain •  Data is not always linked to relevant data •  Data is not always linked to HTML documents

-­‐  Web mining: OBTAINING, STRUCTURING AND LINKING DATA

Page 39: Wm unit1.6-slides-semantic web-final

38  

The Semantic Web: From words to meanings

Web Mining Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones

Escuela Politécnica Superior, Universidad Autónoma de Madrid

Methodological guidelines for publishing Linked Data

h>p://delicias.dia.fi.upm.es/wiki/images/f/f6/04_MGLD.pdf    

Page 40: Wm unit1.6-slides-semantic web-final

39  

The Semantic Web: From words to meanings

Web Mining Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones

Escuela Politécnica Superior, Universidad Autónoma de Madrid

Vocabularies / Schemas / Ontologies

•  Search for suitable vocabularies •  Reuse (if they exist) •  Build new vocabularies based on existing ones (if they do not exist)

Page 41: Wm unit1.6-slides-semantic web-final

40  

The Semantic Web: From words to meanings

Web Mining Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones

Escuela Politécnica Superior, Universidad Autónoma de Madrid

Obtaining and structuring data

•  From unstructured, semi-structured and structured data sources

Natural Language Processing (NLP) •  Entity extractors •  Relation extractors

TextRunner http://openie.cs.washington.edu YAGO: A Core of Semantic Knowledge Unifying WordNet and Wikipedia, Suchanek et al., WWW 2007.

Textual  documents   Spreadsheets  

NOR2O http://oeg-dev.dia.fi.upm.es/nor2o/#download Cvs2rdf4LOD http://logd.tw.rpi.edu/technology/csv2rdf4lod MappingMaster http://protege.cim3.net/cgi-bin/wiki.pl?MappingMaster

Page 42: Wm unit1.6-slides-semantic web-final

41  

The Semantic Web: From words to meanings

Web Mining Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones

Escuela Politécnica Superior, Universidad Autónoma de Madrid

Obtaining and structuring data

DataBases  

Whole  subarea  of  research  within  the  SW  community    RDB2RDF  h>p://www.w3.org/2001/sw/rdb2rdf    ultrawrap  h>p://capsenta.com/ultrawrap      RDBToOnto  h>p://www.tao-­‐project.eu/  researchanddevelopment/  demosanddownloads/RDBToOnto.html    

WebAPis  

Bizer  et  al.  The  RDF  Book  Mashups:  From  Web  APIs  to  a  Web  of  Data  h>p://www.dvi.uni-­‐kl.de/~grimnes/  2007/06/SFSW07Papers/6.pdf  

WebForms  

Madhavan  et  al.  Google's  Deep-­‐Web  Crawl.  VLDB  2008  h>p://www.cs.cornell.edu/~lucja/  publicaYons/i03.pdf  

Bringing  the  Deep  Web  to  the  Surface!  

Page 43: Wm unit1.6-slides-semantic web-final

42  

The Semantic Web: From words to meanings

Web Mining Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones

Escuela Politécnica Superior, Universidad Autónoma de Madrid

Obtaining and structuring data

HTML  Tables  

Cafarella  et  al.  WebTables:  Exploring  the  Power  of  Tables  on  the  Web.  VLDB  2008  

And  many  other  semi-­‐structured  data  XML,  UML,  BibText,  Tags,  …    ConverterToRDF  h>p://www.w3.org/wiki/ConverterToRdf    

Google  Refine  h>ps://code.google.com/p/google-­‐refine    And  its  extension  RDF  Refine    h>p://refine.deri.ie    

Other useful tools to obtain and structure data

Google  Fusion  Tables  h>p://support.google.com/fusiontables    

Page 44: Wm unit1.6-slides-semantic web-final

43  

The Semantic Web: From words to meanings

Web Mining Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones

Escuela Politécnica Superior, Universidad Autónoma de Madrid

Linking Data

•  1. Identify suitable datasets as linking targets

•  2. Discover relationships between data items

Data  Hub  ckan.net  

Geonames  

DBpedia  

http://sws.geonames.org/

6355233

http://mydataset/Madrid

http://dbpedia.org/

resource/Madrid

owl:sameAs  owl:sameAs  

Silk  Framework:  h>p://wifo5-­‐03.informaYk.uni-­‐mannheim.de/bizer/silk    Limes:  h>p://aksw.org/Projects/LIMES.html    

h>p://delicias.dia.fi.upm.es/wiki/images/f/f6/04_MGLD.pdf    

Page 45: Wm unit1.6-slides-semantic web-final

44  

The Semantic Web: From words to meanings

Web Mining Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones

Escuela Politécnica Superior, Universidad Autónoma de Madrid

Linking Data to HTML Documents: THE ANNOTATORS

•  The annotators extract entities (classes / individuals) and relations from the text and link them to object URIs

Page 46: Wm unit1.6-slides-semantic web-final

45  

The Semantic Web: From words to meanings

Web Mining Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones

Escuela Politécnica Superior, Universidad Autónoma de Madrid

•  3. Two paths towards the Sematic Web vision •  Metadata embedded in HTML •  Linked Data

-­‐  An example •  4. Sematic Web applications

•  Search engines •  Recommendations •  Open government •  Institutions

-­‐  The Open University -­‐  BBC

Page 47: Wm unit1.6-slides-semantic web-final

46  

The Semantic Web: From words to meanings

Web Mining Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones

Escuela Politécnica Superior, Universidad Autónoma de Madrid

Obtaining, structuring and linking data: AN EXAMPLE

Any material about C++?... Ufff... Where to start?!

One unique information

space

BEFORE LINKED DATA

AFTER LINKED DATA

Page 48: Wm unit1.6-slides-semantic web-final

47  

The Semantic Web: From words to meanings

Web Mining Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones

Escuela Politécnica Superior, Universidad Autónoma de Madrid

Obtaining, structuring and linking data: AN EXAMPLE

Use of Linked Data 1.  Select and extract educational

information from various sources 2.  Reuse well-known vocabularies to

describe and structure the previously extracted data

3.  Link the educational material under a common categorization scheme

 

Fernandez  et  al.    (2011)  Linking  Data  Across  UniversiYes:  An  Integrated  Video  Lectures  Dataset,  10th  InternaYonal  SemanYc  Web  Conference  (ISWC  2011),  Bonn  

Page 49: Wm unit1.6-slides-semantic web-final

48  

The Semantic Web: From words to meanings

Web Mining Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones

Escuela Politécnica Superior, Universidad Autónoma de Madrid

Specification: SELECTING & ANALYSING DATA •  VideoLectures.net

Web scrapper Study the structure of HTML pages and use a HTML parser to extract the data of interest

Page 50: Wm unit1.6-slides-semantic web-final

49  

The Semantic Web: From words to meanings

Web Mining Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones

Escuela Politécnica Superior, Universidad Autónoma de Madrid

Specification: SELECTING & ANALYSING DATA

•  YouTube University Channels <entry gd:etag='W/"DkADSH47eCp7ImA9WhZWFEg."'> <id>tag:youtube.com,2008:video:zZCaHSW88Ts</id> <published>2011-02-18T11:41:08.000Z</published> <updated>2011-05-15T10:19:39.000Z</updated> <category scheme='http://gdata.youtube.com/schemas/2007/categories.cat' term='Education' label='Education'/> <category scheme='http://gdata.youtube.com/schemas/2007/keywords.cat' term='Dr Barry Cooper'/> <title>Intro to Professional Practice (Children & Families)</title> <author> … </author> <media:description … </media:description> <media:keywords>…</media:keywords> <media:thumbnail …/> <yt:duration seconds='399'/> <content …'/>

YouTube API: select the the fields of interest

Page 51: Wm unit1.6-slides-semantic web-final

50  

The Semantic Web: From words to meanings

Web Mining Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones

Escuela Politécnica Superior, Universidad Autónoma de Madrid

Specification: SELECTING & ANALYSING DATA

•  OU Podcasts (data.open.ac.uk)

Already structured data: SPARQL query

Page 52: Wm unit1.6-slides-semantic web-final

51  

The Semantic Web: From words to meanings

Web Mining Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones

Escuela Politécnica Superior, Universidad Autónoma de Madrid

Modeling: REUSING VOCABULARIES

•  Dublin Core •  http://dublincore.org/documents/dcmi-terms (dcterms)

•  FOAF •  http://xmlns.com/foaf/spec (foaf)

•  The W3C ontology for media resources •  http://www.w3.org/TR/mediaont-10 (ma)

•  The Media Vocabulary •  http://payswarm.com/vocabs/media (media)

•  The Nice Tag Ontology •  http://ns.inria.fr/nicetag/2010/09/09/voc.html (nt)

Vocabularies selected to describe the data

I describe tags

We describe media resources

I describe people and relations

I describe educational

material

Page 53: Wm unit1.6-slides-semantic web-final

52  

The Semantic Web: From words to meanings

Web Mining Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones

Escuela Politécnica Superior, Universidad Autónoma de Madrid

Modeling: REUSING VOCABULARIES

The selected base URI is: http://linkeduniversities.org 1.  VideoLectures objects are represented as media:Recording,

authors are represented as foaf:Person 2.  The video title is duplicated in the properties rdfs:label &

dcterms:title

4.  The set of tags and categories associated to a video is represented by the nt:isRelatedTo property

5.  The assigned classification in the unified search space is represented by the dcterms:subject property

Page 54: Wm unit1.6-slides-semantic web-final

53  

The Semantic Web: From words to meanings

Web Mining Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones

Escuela Politécnica Superior, Universidad Autónoma de Madrid

RDF generation: CREATING OBJECTS

http://linkeduniversities.org/video/CarnegieMellonU/youtube/B135229F3706D215

rdf:type media:Recording media:download http://www.youtube.com/watch?v=TOTuStPIeFc&feature=youtube_gdata_player dcterms:title CMU Football Engineering Summer 2008 Video rdfs:label CMU Football Engineering Summer 2008 Video dcterms:description Football […]Summer 2008 Video

foaf:thumbnail http://i.ytimg.com/vi/TOTuStPIeFc/3.jpg media:duration 155 dcterms:isPart http://linkeduniversities.org/video/CarnegieMellonU/youtube/playlist/B135229F37

ma:publisher http://linkeduniversities.org/video/CarnegieMellonU/youtube/user/footballtracking dcterms:published 2011-06-03T23:23:53.262Z

nt:isRelatedTo http://linkeduniversities.org/video/CarnegieMellonU/tag/sports nt:isRelatedTo http://linkeduniversities.org/video/CarnegieMellonU/tag/football dcterms:subject http://dmoz.org/Sports/Football/Rugby_Union dcterms:subject http://linkeduniversities.org/video/CarnegieMellonU/dmoz/Sports/Football/Rugby_Union

Type   Provenance   ID  

Page 55: Wm unit1.6-slides-semantic web-final

54  

The Semantic Web: From words to meanings

Web Mining Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones

Escuela Politécnica Superior, Universidad Autónoma de Madrid

Links Generation: SELECTING THE LINKING POINTS •  A common categorization scheme:

1.  The International Press Telecommunications Council (IPTC) http://www.iptc.org/site/NewsCodes/

2.  Library of Congress Subject Headings http://id.loc.gov/authorities/about.html

3.  The Open Directory Project (DMOZ) http://www.dmoz.org/rdf.html

4.  DBpedia Categories http://dbpedia.org/About

Page 56: Wm unit1.6-slides-semantic web-final

55  

The Semantic Web: From words to meanings

Web Mining Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones

Escuela Politécnica Superior, Universidad Autónoma de Madrid

Links Generation: EXPLOITING THE ANNOTATORS (1) Extract the information from the video lecture

(2) Generate an textual document (3) Provide the document to the Textwise classification service

Reference/Knowledge_Management (id=495), weight=0.71

(4) Obtain the ODP document classification

Page 57: Wm unit1.6-slides-semantic web-final

56  

The Semantic Web: From words to meanings

Web Mining Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones

Escuela Politécnica Superior, Universidad Autónoma de Madrid

PUBLICATION •  New LD educational dataset

•  More than 14,000 video lectures from 27 institutions

Page 58: Wm unit1.6-slides-semantic web-final

57  

The Semantic Web: From words to meanings

Web Mining Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones

Escuela Politécnica Superior, Universidad Autónoma de Madrid

•  3. Two paths towards the Sematic Web vision •  Metadata embedded in HTML •  Linked Data

-­‐  An example •  4. Sematic Web applications

•  Search engines •  Recommendations •  Open government •  Institutions

-­‐  The Open University -­‐  BBC

Page 59: Wm unit1.6-slides-semantic web-final

58  

The Semantic Web: From words to meanings

Web Mining Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones

Escuela Politécnica Superior, Universidad Autónoma de Madrid

Search engines: BETTER DATA VISUALISATION

•  2007 Yahoo! Presented Search Monkey

•  2009 Google announced Rich Snippets

If search engines could understand the data inside the HTML pages they would display such data in better ways: pictures, dates, prices, ratings, etc.

Page 60: Wm unit1.6-slides-semantic web-final

59  

The Semantic Web: From words to meanings

Web Mining Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones

Escuela Politécnica Superior, Universidad Autónoma de Madrid

Search engines: BETTER CONTENT RETRIEVAL

2012 Google announced Knowledge Graph http://googleblog.blogspot.co.uk/2012/05/ introducing-knowledge-graph-things-not.html

Page 61: Wm unit1.6-slides-semantic web-final

60  

The Semantic Web: From words to meanings

Web Mining Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones

Escuela Politécnica Superior, Universidad Autónoma de Madrid

Search engines: NOT ALL IS ABOUT DOCUMENTS •  Search engines oriented to concept-search vs. document search

FreeBase: In July 2010 Google bought Metaweb, the company behind freebase

Powerset: Bought by Microsoft in 2008

Wolfram Alpha: Active since 2009

Page 62: Wm unit1.6-slides-semantic web-final

61  

The Semantic Web: From words to meanings

Web Mining Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones

Escuela Politécnica Superior, Universidad Autónoma de Madrid

•  3. Two paths towards the Sematic Web vision •  Metadata embedded in HTML •  Linked Data

-­‐  An example •  4. Sematic Web applications

•  Search engines •  Recommendations •  Open government •  Institutions

-­‐  The Open University -­‐  BBC

Page 63: Wm unit1.6-slides-semantic web-final

62  

The Semantic Web: From words to meanings

Web Mining Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones

Escuela Politécnica Superior, Universidad Autónoma de Madrid

Recommendations: FACEBOOK GRAPH SEARCH Links among people, places, music, and other objects can lead to better content recommendation

Page 64: Wm unit1.6-slides-semantic web-final

63  

The Semantic Web: From words to meanings

Web Mining Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones

Escuela Politécnica Superior, Universidad Autónoma de Madrid

•  3. Two paths towards the Sematic Web vision •  Metadata embedded in HTML •  Linked Data

-­‐  An example •  4. Sematic Web applications

•  Search engines •  Recommendations •  Open government •  Institutions

-­‐  The Open University -­‐  BBC

Page 65: Wm unit1.6-slides-semantic web-final

64  

The Semantic Web: From words to meanings

Web Mining Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones

Escuela Politécnica Superior, Universidad Autónoma de Madrid

Open Government •  Open government

•  Data.gov •  Data.gov.uk •  Many others…

Research Funding Explorer

•  Linking data lets more complex queries and deeper data analysis

•  Organizations can now easily link to public government data

•  Favour transparency

Page 66: Wm unit1.6-slides-semantic web-final

65  

The Semantic Web: From words to meanings

Web Mining Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones

Escuela Politécnica Superior, Universidad Autónoma de Madrid

•  3. Two paths towards the Sematic Web vision •  Metadata embedded in HTML •  Linked Data

-­‐  An example •  4. Sematic Web applications

•  Search engines •  Recommendations •  Open government •  Institutions

-­‐  The Open University -­‐  BBC

Page 67: Wm unit1.6-slides-semantic web-final

66  

The Semantic Web: From words to meanings

Web Mining Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones

Escuela Politécnica Superior, Universidad Autónoma de Madrid

Exposed as linked data, our data interlink with each other and the external world: become part of the “global data space” on the Web

OU public data sit in different systems – hard to discover, obtain, integrate by users

OU public data sit in different systems – hard to discover, obtain, integrate by users

Exposed as linked data, our data interlink with each other and the external world: become part of the “global data space” on the Web

The Open University

ORO  

Archive  of    Course    Material  

Library’s  Catalogue  Of  Digital    Content  

OpenLearn  Content  

A/V  Material  Podcasts  iTunesU  

Data  from    Research    Outputs  

DBLP  

RAE  

data.gov.uk  

Page 68: Wm unit1.6-slides-semantic web-final

67  

The Semantic Web: From words to meanings

Web Mining Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones

Escuela Politécnica Superior, Universidad Autónoma de Madrid

The Open University •  The OU has been the first University to expose its data as linked data:

http://data.open.ac.uk •  Now widely recognized as a critical step forward for the HE sector in

the UK (and worldwide) •  Favor transparency and reuse of data, both externally and internally •  Reduces cost of dealing with our own public data: integration and reuse by

design •  Enable both new kinds of applications, and to make the ones that are already

feasible more cost effective

Page 69: Wm unit1.6-slides-semantic web-final

68  

The Semantic Web: From words to meanings

Web Mining Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones

Escuela Politécnica Superior, Universidad Autónoma de Madrid

The Open University •  Linking Open Learn with relevant Podcasts

Page 70: Wm unit1.6-slides-semantic web-final

69  

The Semantic Web: From words to meanings

Web Mining Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones

Escuela Politécnica Superior, Universidad Autónoma de Madrid

The Open University •  Exploring research communities

Page 71: Wm unit1.6-slides-semantic web-final

70  

The Semantic Web: From words to meanings

Web Mining Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones

Escuela Politécnica Superior, Universidad Autónoma de Madrid

•  3. Two paths towards the Sematic Web vision •  Metadata embedded in HTML •  Linked Data

-­‐  An example •  4. Sematic Web applications

•  Search engines •  Recommendations •  Open government •  Institutions

-­‐  The Open University -­‐  BBC

Page 72: Wm unit1.6-slides-semantic web-final

71  

The Semantic Web: From words to meanings

Web Mining Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones

Escuela Politécnica Superior, Universidad Autónoma de Madrid

BBC: British Broadcasting Corporation

•  Historically when developing websites… •  Hand-crafted customized sites •  Only some programs could be covered

-­‐  Shame considering they broadcast between 1,000 and 1,500 programs/day

•  All those sites were developed in isolation -  Often not maintained -  Often not persistent

Using Linked Data to build Websites more productively http://www.slideshare.net/metade/linked-data-on-the-bbc

Page 73: Wm unit1.6-slides-semantic web-final

72  

The Semantic Web: From words to meanings

Web Mining Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones

Escuela Politécnica Superior, Universidad Autónoma de Madrid

BBC: British Broadcasting Corporation

•  The Linked Data Website construction model Domain-driven design •  Identify the domain objects

and relations •  Check the domain model with

users •  Design your schema •  Design your URIs •  Define data you need to build

each of your pages •  Automatically build up your

HTML pages by querying these data and applying CSS layouts

Page 74: Wm unit1.6-slides-semantic web-final

73  

The Semantic Web: From words to meanings

Web Mining Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones

Escuela Politécnica Superior, Universidad Autónoma de Madrid

BBC: British Broadcasting Corporation

•  Starting with the WorldCup 2010… and now… •  Programs •  Music •  Artists •  Animal life •  …..

Page 75: Wm unit1.6-slides-semantic web-final

74  

The Semantic Web: From words to meanings

Web Mining Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones

Escuela Politécnica Superior, Universidad Autónoma de Madrid

Thx! J

•  Questions, doubts?