mgrani trier-faktenextraktion

35
Faktenextraktion aus Forschungspublikationen mittels semantischer Technologien und Crowdsourcing Erste Ergebnisse aus dem Forschungsprojekt CODE – Commercially Empowered Linked Open Data Ecosystems for Research Michael Granitzer University of Passau 1 FP 7 Strep No. 296150

Upload: michaelgranitzer

Post on 04-Aug-2015

176 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Mgrani trier-faktenextraktion

Faktenextraktion aus Forschungspublikationen mittels semantischer Technologien und Crowdsourcing

Erste Ergebnisse aus dem Forschungsprojekt CODE – Commercially Empowered Linked Open Data Ecosystems for Research

Michael GranitzerUniversity of Passau

1FP 7 Strep No. 296150

Page 2: Mgrani trier-faktenextraktion

nani gigantum humeris insidentes

Wir stehen auf den Schultern von Giganten– Forschung basiert auf

Erkenntnissen aus der Vergangenheit

– Wurzel unserer Zivilisation

2

Page 3: Mgrani trier-faktenextraktion

Aber wir ertrinken in einer Flut von Dokumenten

mit widersprüchlichen Fakten mit fehlenden Daten mit geringer Vergleichbarkeit Metastudien sind schwer

durchzuführen Einige Beispiele

– “Improvements that don’t add up”Armstrong et. al. 2009

– “Why most research results are false”Ioannidis, 2005

3

Welche Lösungsmöglichkeiten stehenim Raum?

Page 4: Mgrani trier-faktenextraktion

Lösungsansatz in CODE

Explizierung wissenschaftlicher Fakten aus unterschiedlichen Quellen unter Anwendung semantischer Technologien– Überführung unstrukturierter und semi-strukturierter

Forschungsdatenquelle in semantische Form– Publikation dieser Forschungsdatenquellen als offene Daten– Entwicklung/Anpassung von Analyse- und Visualisierungswerkzeugen– Integration einer breiten Benutzerbasis zur Qualitätssicherung

(Crowdsourcing)

Fokus auf– Empirischen Beobachtungen– Linked Open Data als gemeinsame Beschreibungsprache– Informatik und Biomedizin als erster Anwendungsfall

4

Page 5: Mgrani trier-faktenextraktion

Allgemeiner WorkflowÜberblick

5

Linked ScienceData Warehouse; Offene Standards

Extraktion Integration/Aggregation

Analyse & Organisation

Kollaboration &

Crowdsourcing

Visual Analytics &Kollaborative AnalyseText,

Linked (Open) DataExperimente

Crowdsourcing & Kollaboration über Web-Technologien

und Datenmarktplätzen

Page 6: Mgrani trier-faktenextraktion

Inhalte dieses Vortrags

Extraktion von Fakten aus Forschungspublikationen– Strukturanalyse von PDFs– Automatische Annotation von PDFs

Semantische Integration– Disambiguierung von extrahierter Entitäten/Fakten– Semantisches Format zur Repräsentation von Fakten– Web-basierte Zugriff mittels RDF/SPARQL

(Visuelle) Analyse– Abfrage von Fakten– Visuelle Analyse

Crowdsourcing & Teilen von Forschungsdaten– Überblick

6

Disclaimer – Work in progress:

Ansätze und erste Ergebnisse

nach 10 Monaten

Page 7: Mgrani trier-faktenextraktion

EXTRAKTION VON FAKTEN AUSFORSCHUNGSPUBLIKATIONEN

7

Page 8: Mgrani trier-faktenextraktion

Extraktion von Fakten aus PublikationenÜberblick

Extraktion struktureller Elemente– Tabellen, Abbildungen (Kapitel und Unterkapitel)– Extraktion von Fakten aus Tabellen

Extraktion von Fakten aus Texten– Named Entity Recognition (e.g. algorithms, data sets, genes,

significance levels etc.)– Relationen Extraktion (e.g. Medikament A senkt Blutdruck um B)

Semi-automatische Ansätze zur Qualitätskontrolle durch den Benutzer– User in the Loop

8

Page 9: Mgrani trier-faktenextraktion

Extraktion von Fakten aus PublikationenEin motivierendes Beispiel

9

Dimensionen/EntitätenMessgröße

Fakten

Page 10: Mgrani trier-faktenextraktion

Extraktion von Fakten aus PublikationenAnsatz zur Extraktion

Hauptformat: PDF– Optimiert für die Darstellung, jedoch schwierig zu analysieren– Z.B. “Ä” besteht aus dem Zeichen “A” und zwei Punkten– Metadaten Qualität in PDFs unzuverlässig– Robuste, frei verfügbare Tools zur PDF Analyse existieren nicht.

Ansatz – Divide and Conquer– Extraktion struktureller Blöcke in PDFs auf Basis der Layout Information– Klassifikation der Blöcke

• e.g. Title, Haupttext, Abstract, Referenzen

– Klassifikation/Extraktion der Inhalte in Blöcken• Klassifikation von Strukturen (z.B. Tabellen)• Extraktion von Namen, Entitäten, Adressen etc.

10

Page 11: Mgrani trier-faktenextraktion

Extraktion von Fakten aus PublikationenAnsatz zur Extraktion

Extraktion struktureller Blöcke– Verwendung unterschiedlicher, Layout bezogener Merkmale

• Zeichengröße, Zeichensatz, Position (absolut, relativ)

– Anwendung verschiedener Clustering Algorithmen• Clustering: Gegeben eine Menge von Objekten finde jene Gruppen von

Objekten bei denen die “Ähnlichkeit” innerhalb der Gruppe maximal und zwischen Gruppen minimal wird.

• Cluster = Block• Fehler Backtracking über sukzessives zusammenfassen und teilen

– Clustering Stack• Merge: Zeichen Wörter• Split: Wort Wörter (Fehlerbehandlung)• Merge: Wörter Zeilen • Split: Zeile Zeilen (Fehlerbehandlung• Merge: Zeilen Blöcken• Split: Block Blöcken (Fehlerbehandlung)

11

Page 12: Mgrani trier-faktenextraktion

Extraktion von Fakten aus PublikationenAnsatz zur Extraktion

Klassifikation von Textblöcken

Überwachte Lernverfahren: Maximum Entropy Klassifikatoren– Vorgabe von Trainingsdaten, i.e. Zuordnung von Klassen zu

Blöcken– Lernen eines entsprechenden Modells und Anwendung auf

nicht klassifizierte Blöcke– Merkmale: Wortstatistiken (z.B. f. Namen), Layout,

Formatierung, Heuristiken (e.g. e-Mail)

Beispiele für Blöcke– Titel, Abstract, Haupttext, Autorblock, Bibliographiedaten– Tabellen/Tabellenüberschriften– Abbildung/Abbildungsüberschriften

12R. Kern, K. Jack, M. Granitzer, and M. Hristakeva, “TeamBeam - Meta-Data Extraction from Scientific Literature,” DLib Magazine, vol. 18, no. 7/8, 2012.

Page 13: Mgrani trier-faktenextraktion

Extraktion von Fakten aus PublikationenAnsatz zur Extraktion

Extraktion von Entitäten innerhalb der Blöcke– Blocktyp als Selektionskriterium

(e.g. Autorblock wird weiter zerlegt)– Named Entity Recongition mittels überwachter Lernverfahren– Maximum Entropy Klassifikatoren mit Beam Search

Ermittlung der Lesereihenfolge der Blöcke– Oben/Unten und Links/Rechts der Haupttexte, Überschriften, Abstract– Interessant für Information Retrieval Anwendungen

Offene Punkte– Relations- bzw. Prädikatextraktion– Open Information Extraction – Lernen von Modellen ohne Vorgabe von

Trainingsdaten – Modellgenerierung durch den Benutzer/die Benutzerin– Benutzer Feedback

• Explizit: Akzeptieren oder verwerfen v. Annotationen• Implizit: Analyse der Nutzung (z.B. für Navigation)

13R. Kern, K. Jack, M. Granitzer, and M. Hristakeva, “TeamBeam - Meta-Data Extraction from Scientific Literature,” DLib Magazine, vol. 18, no. 7/8, 2012.

Page 14: Mgrani trier-faktenextraktion

Extraktion von Fakten aus PublikationenOnline Demonstrator - http://knowminer.at:8080/code-demo

14

Page 15: Mgrani trier-faktenextraktion

SEMANTISCHE INTEGRATION

15

Page 16: Mgrani trier-faktenextraktion

Semantische IntegrationZielsetzung

Extraktion liefert natürlich sprachlichen Textteilen, nicht jedoch deren Bedeutung– Mehrdeutigkeiten: Synonyme, Homonyme

• Z.B. H1N1, Vogelgrippe, Grippe

– Keine Verknüpfung zu entsprechenden Thesauri/Wissensbasen– Fehlendes gemeinsames Format

Ansatz: Nutzung von Linked Open Data und Semantic Web Technologien– Überführung extrahierter Fakten in ein einheitliches, offenes Format

• Mit Fokus auf Tabellen

– Disambiguierung von Entitäten und Fakten durch Verknüpfung von Phrasen mit vorhandenen Wissensbasen (in der LOD Cloud)

– Semi-automatische Ansätze – Genauigkeit automatischer Analyseverfahren nicht hinreichend.

16

Page 17: Mgrani trier-faktenextraktion

Semantische IntegrationWas ist Linked Open Data?

Das Web der Daten – Grundprinzipien

1. URI‘s zur Identifikation von Dingen

2. HTTP als Lookup von Informationen zu Dingen

3. Verwende maschinen-lesbare Formate zur Beschreibung von Dingen(i.e. RDF – Resource Description Framework)

4. Die Beschreibung von Dingen enthält Links zu anderen Dingen

Aktuelle mehrere Milliarden Tripel aus unterschiedlichen Domänen– Bibliographische Daten (e.g. DBLP, PubMed)– Biomedizinische Daten

• Gene-Ontology, Drug-Bank, Diseases etc.

– Allgemeinwissen - DBPedia– Öffentliche Daten (e.g. Census, EU Förderprogramme)

17

Page 18: Mgrani trier-faktenextraktion

Semantische IntegrationLinked Open Data

Drei Funktionen im Projekt1. Integration und Disambiguierung durch Verknüpfung semi-strukturierter

Inhalte mit Konzepten der LOD

2. Vereinheitlichung und Publikation von Forschungsdaten unter Nutzung statistischer Vokabularien

3. Als web-basierte Datenquelle für (offene) Forschungsdaten (od. deren Anreicherung)

Linked Data als weltweite Datenbank „virtuelle“ Forschungsumgebungen

18

Page 19: Mgrani trier-faktenextraktion

Semantische IntegrationLinked Open Data - Funktion 1: Disambiguierung

Beispiel

19

http://dbpedia.org/page/F1_score

http://dbpedia.org/page/Orthography

Bedeutung durch eindeutige Benennung

Page 20: Mgrani trier-faktenextraktion

Semantische IntegrationLinked Open Data - Funktion 1: Disambiguierung

Herausforderungen– Qualität abhängig von der Domäne und Größe der Wissensbasis– Abhängig vom Kontext

• Disambiguierung im Text: natürlich-sprachliche Beschreibung als Kontext

• Disambiguierung in Tabelle: Relationen Struktur als Voraussetzung– Qualität und Art der zugrunde liegenden Wissensbasis

• Entitäts-zentriert: Thesaurus, Ontologie• Dokument-zentriert: Vorkommnisse in anderen Dokumenten

Eigenschaften von Linked Data– Sehr große Wissensbasis (Milliarden von Einträgen)– Hohe Anzahl unterschiedlicher Domänen– Stark variierende Qualität– Offene, nicht-vollständige Wissensbasis

20

Page 21: Mgrani trier-faktenextraktion

Semantische IntegrationLinked Open Data - Funktion 2: Disambiguierung

Ansatz und aktueller Status– Semi-automatische Annotation mittels maschineller Lernverfahren

• Benutzer erhält Vorschläge zu Annotation• Akzeptiert/verwirft VorschlägeAdaption der Disambiguierung

– Unterschiedliche Modelle pro Domäne – Automatische Konstruktion von Wissensbasen unter Verwendung

• Regelbasierter Auswahlverfahren (e.g. spezif. Schemata wie SKOS)• Statistischer Verfahren zur Identifikation von qualitative hochwertigen

Konzepten Erste Ergebnisse im Bereich Biomedizinischer Daten

21

Qualität der Wissensbasisals größtes Problem

Page 22: Mgrani trier-faktenextraktion

Semantische IntegrationLinked Open Data - Funktion 2: Einheitliches Format

22

Dimensionen/EntitätenMessgröße

Fakten

Wie werden Fakten repräsentiert?- Eine Beobachtung besteht aus

- Messgröße/abh. Variable: Beschreibung der Wirkung- Dimension/Stellgröße/Unabh. Variable: Beschreibung der Ursache- Fakten: Messwert der Messung

Überführung der statistischen Tabellen in ein „normalisiertes“ Format

Page 23: Mgrani trier-faktenextraktion

Semantische IntegrationLinked Open Data - Funktion 2: Einheitliches Format

23

Method Features Cosine JaccardANDD-Raw Unigram 0.956 0.952TFIDF Unigram 0.884 0.874Binary Unigram 0.861 0.852SpotSigs Unigram 0.953 0.952ANDD-Raw Trigram 0.936 0.91TFIDF Trigram 0.875 0.873Binary Trigram 0.869 0.867SpotSigs Trigram NA NA

Normalisierung

Beobachtungen

Schema- Name- Einheit- Ausprägung

Nominal Nominal [0;1] [0;1]

Zusätzliche Tabelle

Datensatz Method Features Cosine JaccardQuelle 1 ANDD-Raw Unigram 0.956 0.952Quelle 1 TFIDF Unigram 0.884 0.874Quelle 1 Binary Unigram 0.861 0.852Quelle 1 SpotSigs Unigram 0.953 0.952Quelle 1 ANDD-Raw Trigram 0.936 0.91Quelle 1 TFIDF Trigram 0.875 0.873Quelle 1 Binary Trigram 0.869 0.867Quelle 1 SpotSigs Trigram NA NAQuelle 2 ANDD-Raw NA 0.674 0.7Quelle 2 TFIDF NA 0.625 0.626Quelle 2 Binary NA 0.622 0.622Quelle 2 SpotSigs NA 0.257 0.258

Hinzufügen v. Tabellen in gleiche Repräsentation

Quelle der Tabellen: H. Hajishirzi, W. Yih, and A. Kolcz, “Adaptive near-duplicate detection via similarity learning,” in Proceeding of the 33rd international ACM SIGIR conference on Research and development in information retrieval, 2010, pp. 419–426.

Page 24: Mgrani trier-faktenextraktion

Semantische IntegrationLinked Open Data - Funktion 2: Einheitliches Format

RDF Data Cube Vokabular– W3C Vorschlag zur Repräsentation statistischer Daten in RDF– Definition der Struktur

• Dimensionen & Dimensions-hierarchien

• Messgrößen

– Angabe von Beobachtungen Vorteile von RDF

– Verknüpfungen zu beliebigen RDFEndpoints möglich

– Zusammenhänge zwischen Datensätzen erkennbar

– Wiederverwendbarkeit des Formats Nachteile von RDF

– Overhead bei Anfragen– Standardtechnologien sind neu zu entwickeln (z.B. Data Warehouses)

24http://www.w3.org/TR/vocab-data-cube/#ref_qb_measureType

Page 25: Mgrani trier-faktenextraktion

Semantische IntegrationLinked Open Data - Funktion 2: Einheitliches Format

Beisipiel

25

Datensatz Beschreibung

code:mydataset a qb:DataSet; rdfs:isDefinedBy <http://www.dummy.de/>; rdfs:label “NER Vergleiche"; qb:structure code:dsd_ner.

Datensatz Struktur

code:dsd_ner a qb:DataStructureDefinition;qb:component [ qb:dimension code:Methode];qb:component [ qb:measure code:Cosine;

qb:conept <http://dbpedia.org/page/Cosine_similarity> ];qb:component [ qb:measure code:Jaccard ];

Datenpunkte

code:obs1 a qb:Observation; code:Methode [ rdfs:label “TFIDF" ]; code:Cosine [ rdfs:label "0.625" ]; code:Jaccard [ rdfs:label "0.622" ]; qb:dataSet code:mydatase.

Linked Data

Page 26: Mgrani trier-faktenextraktion

Semantische IntegrationLinked Open Data - Funktion 2: Einheitliches Format

26

Semantisches Microformat zur Auszeichnung statistischer Tabellen

API für den Upload von Excel und CSV Dateien

Grafische Benutzeroberfläche zur Normalisierung von Tabellen– Selektion und Spezifikation von

Dimensionen– Selektion und Spezifikation von

Maßzahlen– Selektion und Spezifikation von

Beobachtungen

Page 27: Mgrani trier-faktenextraktion

Semantische IntegrationLinked Open Data - Funktion 3: Forschungsdatenbank

27

Integration vieler unterschiedlicher Datenquellen– Publikationen– Evaluierungs- und Experimentumgebungen

• TPC-H Consortium (Internationels Datenbank Benchmarking Konsortium)

• TIRA Benchmarking Umgebung für Information Retrieval (Uni Weimar)

Bereitstellen eines SPARQL Endpoints für RDF Data Cubes– Ziel ist die Schaffung eines (verteilten) Repositories wissenschaftlicher

Primärdaten

Uni-PassauSPARQLEndpoint

Page 28: Mgrani trier-faktenextraktion

(VISUELLE) ANALYSE

28

Page 29: Mgrani trier-faktenextraktion

Visuelle AnalyseSuche nach Daten und Fakten (für nicht Informatiker)

Herausforderung– RDF Zugriff erfolgt meist über deklarative Abfragesprachen (SPARQL)– Keine Nutzungsmöglichkeit ohne Informatikstudium!

Zielsetzung– „Google-ähnlicher“ Zugriff auf Linked Open Data im Allgemeinen und

Cubes im Speziellen– Prototyp unter http://code.know-center.tugraz.at/search

29

Page 30: Mgrani trier-faktenextraktion

Visuelle AnalyseWeb basierte, interaktive Visualisierung von RDF Cubes

Ziel: Visuelle Analyse integrierter Daten soll in web-basierten Umgebungen einfach möglich sein– RDF-basierte Beschreibungen möglicher Visualisierungen für einen

gegebenen Datencube• Verbindet Visualisierung und RDF Data Cubes• Kein technische Wissen vorausgesetzt, lediglich statistisches Wissen• Interaktive Analyse (Visual Analytics)

– HTML 5 als technologische Grundlage Erster Testprototyp unter http://code.know-center.tugraz.at/vis

30

Page 31: Mgrani trier-faktenextraktion

KOLLABORATION & CROWDSOURCING

31

Page 32: Mgrani trier-faktenextraktion

Metadaten f. Provenance/Herkunft essentiell für Qualität undVertrauen in die Daten– Woher kommen die Daten?– Von wem wurden die Daten integriert, annotiert, bearbeitet?

Teilen aggregierter Datensätze und der Annotationsmodelle– Direkte Verwendung der Ergebnisse anderer Forscher-

gruppen in der eigenen Arbeit– Verwendung von Annotationsmodellen auf eigenen Daten

Teilen der visuellen Analyse– Kollaborative Analyse der Visualisierung– Zugriff auf den Visualisierung zugrunde liegenden

Rohdaten

CrowdsourcingTeilen von Forschungsdaten

32

Page 33: Mgrani trier-faktenextraktion

CrowdsourcingWarum sollten Nutzer annotieren, integrierern etc.?

Offener Marktplatzkonzept für Forschungsdaten Forschungsdaten stellen eine wertvolle Informationsquelle dar. Ähnlich

dem Open Source Model sollte diese entsprechenden Verwertungsrechten unterliegen.

Untersuchung verschiedener Modelle nach Fertigstellung der Dienste geplant

Erhöhte Möglichkeiten für Forscher und Forschungsinstitutionen 33

Page 34: Mgrani trier-faktenextraktion

Zusammenfassung

34

Linked ScienceData Warehouse; Offene Standards

Extraktion Integration/Aggregation

Analyse & Organisation

Teilen & Crowdsourcin

g

Visual Analytics &Kollaborative AnalyseText,

Linked (Open) DataExperimente

Crowdsourcing & Re-Use

Page 35: Mgrani trier-faktenextraktion

Find us, join us, ask us, help us

http://code-research.eu/http://www.facebook.com/CODEresearchEU

#CODEresearchEU

integrate

extract & visualise organise

crowdsource