von stanbol nach marmotta - newmedialab · 2016. 12. 1. · head of knowledge and media...

28
Von Stanbol nach Marmotta Content Enhancement und Smarte Annotationen für die Medienindustrie Dr. Sebastian Schaffert

Upload: others

Post on 17-Sep-2020

7 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Von Stanbol nach Marmotta - NewMediaLab · 2016. 12. 1. · Head of Knowledge and Media Technologies Salzburg Research Forschungsgesellschaft m.b.H. Jakob-Haringer-Straße 5/III |

Von Stanbol nach Marmotta Content Enhancement und Smarte Annotationen für die Medienindustrie

Dr. Sebastian Schaffert

Page 2: Von Stanbol nach Marmotta - NewMediaLab · 2016. 12. 1. · Head of Knowledge and Media Technologies Salzburg Research Forschungsgesellschaft m.b.H. Jakob-Haringer-Straße 5/III |

© 21.06.2013 Dr. Sebastian Schaffert 2

“When you can measure what you are speaking

about and express it in numbers, you know

something about it, but when you cannot measure

it, your knowledge is of a meagre and

unsatisfactory kind” - Lord Kelvin

Page 3: Von Stanbol nach Marmotta - NewMediaLab · 2016. 12. 1. · Head of Knowledge and Media Technologies Salzburg Research Forschungsgesellschaft m.b.H. Jakob-Haringer-Straße 5/III |

©

(Medien-)Inhalte sind wertvoll!

Art: Golfball

Farbe: weiß

Kategorie: Sport - Golf

Zustand: gebraucht

Durchmesser: 43mm

Preis: $0,50

21.06.2013 Dr. Sebastian Schaffert 3

Quelle: School of Data, http://schoolofdata.org/handbook/courses/what-is-data/

Page 4: Von Stanbol nach Marmotta - NewMediaLab · 2016. 12. 1. · Head of Knowledge and Media Technologies Salzburg Research Forschungsgesellschaft m.b.H. Jakob-Haringer-Straße 5/III |

©

(Medien-)Inhalte sind wertvoll!

Art: Golfball

Farbe: weiß

Kategorie: Sport - Golf

Zustand: gebraucht

Durchmesser: 43mm

Preis: $0,50

21.06.2013 Dr. Sebastian Schaffert 4

Quelle: School of Data, http://schoolofdata.org/handbook/courses/what-is-data/

leider sind die wertvollen

Informationen vor Maschinen

versteckt!

Page 5: Von Stanbol nach Marmotta - NewMediaLab · 2016. 12. 1. · Head of Knowledge and Media Technologies Salzburg Research Forschungsgesellschaft m.b.H. Jakob-Haringer-Straße 5/III |

©

Versteckte Werte ...

04/12/07

So sieht eine Webseite in natürlicher Sprache für eine Maschine aus ...

Folie von James Hendler (Univ. Maryland)

Das S

em

antisch

e W

eb

Dr. Sebastian Schaffert

Page 6: Von Stanbol nach Marmotta - NewMediaLab · 2016. 12. 1. · Head of Knowledge and Media Technologies Salzburg Research Forschungsgesellschaft m.b.H. Jakob-Haringer-Straße 5/III |

©

Versteckte Werte ...

04/12/07

Mit XML (o.ä.) versuchen wir, dem Text durch Tags „Bedeutung“ hinzuzufügen

Folie von James Hendler (Univ. Maryland)

CV

name

education

work

private

< >

< >

< >

< >

< >

Das S

em

antisch

e W

eb

Dr. Sebastian Schaffert

Page 7: Von Stanbol nach Marmotta - NewMediaLab · 2016. 12. 1. · Head of Knowledge and Media Technologies Salzburg Research Forschungsgesellschaft m.b.H. Jakob-Haringer-Straße 5/III |

©

Versteckte Werte ...

04/12/07

Aber für die Maschine sehen die Tags in etwa so aus:

Folie von James Hendler (Univ. Maryland)

CV

name

education

work

private

< >

< >

< >

< >

< >

< >

< >

<>

<>

<>

Das S

em

antisch

e W

eb

Dr. Sebastian Schaffert

Page 8: Von Stanbol nach Marmotta - NewMediaLab · 2016. 12. 1. · Head of Knowledge and Media Technologies Salzburg Research Forschungsgesellschaft m.b.H. Jakob-Haringer-Straße 5/III |

©

Strukturierte Informationen

21.06.2013 8

Structured content refers to information or content that

has been broken down and classified using metadata.

Dr. Sebastian Schaffert

Broken down into discrete concepts

Classified as real-world things and relationships

Metadata a structure readable by robots and people

Folie von Mike Atherton, BBC

Wikipedia

Page 9: Von Stanbol nach Marmotta - NewMediaLab · 2016. 12. 1. · Head of Knowledge and Media Technologies Salzburg Research Forschungsgesellschaft m.b.H. Jakob-Haringer-Straße 5/III |

©

Warum?

manage content at scale

meaningful navigation

expose long-tail content

reuse content assets

bridge across subjects

improve findability

support social sharing

improve SEO

design for all devices

robot friendly

21.06.2013 Dr. Sebastian Schaffert 9

Folie von Mike Atherton, BBC

Page 10: Von Stanbol nach Marmotta - NewMediaLab · 2016. 12. 1. · Head of Knowledge and Media Technologies Salzburg Research Forschungsgesellschaft m.b.H. Jakob-Haringer-Straße 5/III |

©

Die 7 Informationsgesetze

1. Information is (Infinitely) Shareable

2. The Value of Information Increases with Use

3. Information is Perishable

4. The Value of Information Increases with Accuracy

5. The Value of Information Increases in Combination

6. More Is Not Necessarily Better

7. Information is Self-propagating

21.06.2013 10

Daniel Moody, Peter Walsh: Measuring the Value of Information: An Asset Valuation Approach. In: European

Conference on Information Systems (ECIS’99), Copenhagen Business School, Frederiksberg, Denmark, June 1999.

Dr. Sebastian Schaffert

Page 11: Von Stanbol nach Marmotta - NewMediaLab · 2016. 12. 1. · Head of Knowledge and Media Technologies Salzburg Research Forschungsgesellschaft m.b.H. Jakob-Haringer-Straße 5/III |

© 21.06.2013 11

Leider sind die meisten Informationen

unstrukturiert, weil das Strukturieren mit

sehr viel (Hand-)Arbeit verbunden ist …

Dr. Sebastian Schaffert

Page 12: Von Stanbol nach Marmotta - NewMediaLab · 2016. 12. 1. · Head of Knowledge and Media Technologies Salzburg Research Forschungsgesellschaft m.b.H. Jakob-Haringer-Straße 5/III |

© 21.06.2013 12

Demo:

Ein Prozess, wie man basierend auf Open Source Software

Bedeutung aus unstrukturierten Inhalten gewinnen kann!

Dr. Sebastian Schaffert

Page 13: Von Stanbol nach Marmotta - NewMediaLab · 2016. 12. 1. · Head of Knowledge and Media Technologies Salzburg Research Forschungsgesellschaft m.b.H. Jakob-Haringer-Straße 5/III |

©

Beispielszenario: IKS Blog

21.06.2013 13 Dr. Sebastian Schaffert

Page 14: Von Stanbol nach Marmotta - NewMediaLab · 2016. 12. 1. · Head of Knowledge and Media Technologies Salzburg Research Forschungsgesellschaft m.b.H. Jakob-Haringer-Straße 5/III |

©

Prozess: von Marmotta nach Stanbol und zurück

21.06.2013 14

Provide Background Knowledge

Extract & Link Facts

Provide Data

Make Sense of Data

unstructured

content

actionable

knowledge

Dr. Sebastian Schaffert

what?

how?

public datasets

(GeoNames,

DBPedia, …)

domain

thesaurus

legacy systems

(CRM, ERP, ...)

RSS feeds

(blogs, news, …)

office

documents

HTML/Web

pages (Intranet,

Website, ...)

Linked Data

SPARQL Query

data

management

semantic

search

meaningful

navigation

data analytics

Page 15: Von Stanbol nach Marmotta - NewMediaLab · 2016. 12. 1. · Head of Knowledge and Media Technologies Salzburg Research Forschungsgesellschaft m.b.H. Jakob-Haringer-Straße 5/III |

©

Hintergrundwissen bereitstellen

Ziel: Domänenwissen maschinenlesbar bereitstellen, um

Informationen darauf basierend zu analysieren und zu

verknüpfen

Beispiele:

Domänenthesaurus (z.B. Produkte, Abteilungen, Themen, …)

Öffentliche Datensätze (z.B. Geodaten, Enzyklopädie, andere

Datenbanken)

Andere Datenquellen (ERP, CRM, Telefonverzeichnis, ...)

21.06.2013 Titel Vorname Nachname 15

Page 16: Von Stanbol nach Marmotta - NewMediaLab · 2016. 12. 1. · Head of Knowledge and Media Technologies Salzburg Research Forschungsgesellschaft m.b.H. Jakob-Haringer-Straße 5/III |

©

Hintergrundwissen bereitstellen: Werkzeuge

Thesaurus-Manager: SKOSjs

21.06.2013 Titel Vorname Nachname 16

Page 17: Von Stanbol nach Marmotta - NewMediaLab · 2016. 12. 1. · Head of Knowledge and Media Technologies Salzburg Research Forschungsgesellschaft m.b.H. Jakob-Haringer-Straße 5/III |

©

Hintergrundwissen bereitstellen: Werkzeuge

Datenaufbereitung: OpenRefine

21.06.2013 Titel Vorname Nachname 17

Page 18: Von Stanbol nach Marmotta - NewMediaLab · 2016. 12. 1. · Head of Knowledge and Media Technologies Salzburg Research Forschungsgesellschaft m.b.H. Jakob-Haringer-Straße 5/III |

©

Fakten extrahieren und verknüpfen

Ziel: Fakten in unstrukturierten Inhalten erkennen und mit

Hintergrundwissen verknüpfen

Beispiele:

Orte im Text mit Geoinformationen (z.B. GeoNames)

Produkte im Text mit Firmenthesaurus oder Produktdatenbank

Personen im Text mit CRM-System oder Addressbuch

21.06.2013 Titel Vorname Nachname 18

Page 19: Von Stanbol nach Marmotta - NewMediaLab · 2016. 12. 1. · Head of Knowledge and Media Technologies Salzburg Research Forschungsgesellschaft m.b.H. Jakob-Haringer-Straße 5/III |

©

Fakten extrahieren und verknüpfen

21.06.2013 Titel Vorname Nachname 19

Page 20: Von Stanbol nach Marmotta - NewMediaLab · 2016. 12. 1. · Head of Knowledge and Media Technologies Salzburg Research Forschungsgesellschaft m.b.H. Jakob-Haringer-Straße 5/III |

©

Daten bereitstellen

Ziel: Daten in einheitlichem Datenmodell anderen

Anwendungen zur Weiterverarbeitung zur Verfügung

stellen

Technologien:

Linked Data / RDF

SPARQL Anfragesprache

21.06.2013 Titel Vorname Nachname 20

Page 21: Von Stanbol nach Marmotta - NewMediaLab · 2016. 12. 1. · Head of Knowledge and Media Technologies Salzburg Research Forschungsgesellschaft m.b.H. Jakob-Haringer-Straße 5/III |

©

Daten bereitstellen: Linked Data

21.06.2013 Titel Vorname Nachname 21

Page 22: Von Stanbol nach Marmotta - NewMediaLab · 2016. 12. 1. · Head of Knowledge and Media Technologies Salzburg Research Forschungsgesellschaft m.b.H. Jakob-Haringer-Straße 5/III |

©

Daten bereitstellen: SPARQL

21.06.2013 Titel Vorname Nachname 22

Page 23: Von Stanbol nach Marmotta - NewMediaLab · 2016. 12. 1. · Head of Knowledge and Media Technologies Salzburg Research Forschungsgesellschaft m.b.H. Jakob-Haringer-Straße 5/III |

©

Nutzen stiften

Ziel: aus den Daten neues Wissen gewinnen und daraus

Handlungen ableiten.

Beispiel:

Semantische Suche

Datenanalyse

Wiederverwendung von Inhalten

21.06.2013 Titel Vorname Nachname 23

Page 24: Von Stanbol nach Marmotta - NewMediaLab · 2016. 12. 1. · Head of Knowledge and Media Technologies Salzburg Research Forschungsgesellschaft m.b.H. Jakob-Haringer-Straße 5/III |

©

Nutzen stiften: Semantische Suche

21.06.2013 Titel Vorname Nachname 24

Page 25: Von Stanbol nach Marmotta - NewMediaLab · 2016. 12. 1. · Head of Knowledge and Media Technologies Salzburg Research Forschungsgesellschaft m.b.H. Jakob-Haringer-Straße 5/III |

©

Nutzen stiften: Datenanalyse

21.06.2013 Titel Vorname Nachname 25

Page 26: Von Stanbol nach Marmotta - NewMediaLab · 2016. 12. 1. · Head of Knowledge and Media Technologies Salzburg Research Forschungsgesellschaft m.b.H. Jakob-Haringer-Straße 5/III |

©

Vielen Dank!

21.06.2013 26 Dr. Sebastian Schaffert

Page 27: Von Stanbol nach Marmotta - NewMediaLab · 2016. 12. 1. · Head of Knowledge and Media Technologies Salzburg Research Forschungsgesellschaft m.b.H. Jakob-Haringer-Straße 5/III |

©

Kontakt

Forschungsfragen:

[email protected]

Umsetzung, Wartung, Support:

[email protected]

21.06.2013 Titel Vorname Nachname 27

Page 28: Von Stanbol nach Marmotta - NewMediaLab · 2016. 12. 1. · Head of Knowledge and Media Technologies Salzburg Research Forschungsgesellschaft m.b.H. Jakob-Haringer-Straße 5/III |

© © Salzburg Research Forschungsgesellschaft 2012. No reproduction without written permission. Certified in accordance with ISO 9001:2008

Thanks for your Attention!

Dr. Sebastian Schaffert

Head of Knowledge and Media Technologies

Salzburg Research Forschungsgesellschaft m.b.H.

Jakob-Haringer-Straße 5/III | Salzburg, Austria

Tel. +43 662 2288-423| Fax +43 662 2288-222

[email protected]