mgrani trier-faktenextraktion
TRANSCRIPT
Faktenextraktion aus Forschungspublikationen mittels semantischer Technologien und Crowdsourcing
Erste Ergebnisse aus dem Forschungsprojekt CODE – Commercially Empowered Linked Open Data Ecosystems for Research
Michael GranitzerUniversity of Passau
1FP 7 Strep No. 296150
nani gigantum humeris insidentes
Wir stehen auf den Schultern von Giganten– Forschung basiert auf
Erkenntnissen aus der Vergangenheit
– Wurzel unserer Zivilisation
2
Aber wir ertrinken in einer Flut von Dokumenten
mit widersprüchlichen Fakten mit fehlenden Daten mit geringer Vergleichbarkeit Metastudien sind schwer
durchzuführen Einige Beispiele
– “Improvements that don’t add up”Armstrong et. al. 2009
– “Why most research results are false”Ioannidis, 2005
3
Welche Lösungsmöglichkeiten stehenim Raum?
Lösungsansatz in CODE
Explizierung wissenschaftlicher Fakten aus unterschiedlichen Quellen unter Anwendung semantischer Technologien– Überführung unstrukturierter und semi-strukturierter
Forschungsdatenquelle in semantische Form– Publikation dieser Forschungsdatenquellen als offene Daten– Entwicklung/Anpassung von Analyse- und Visualisierungswerkzeugen– Integration einer breiten Benutzerbasis zur Qualitätssicherung
(Crowdsourcing)
Fokus auf– Empirischen Beobachtungen– Linked Open Data als gemeinsame Beschreibungsprache– Informatik und Biomedizin als erster Anwendungsfall
4
Allgemeiner WorkflowÜberblick
5
Linked ScienceData Warehouse; Offene Standards
Extraktion Integration/Aggregation
Analyse & Organisation
Kollaboration &
Crowdsourcing
Visual Analytics &Kollaborative AnalyseText,
Linked (Open) DataExperimente
Crowdsourcing & Kollaboration über Web-Technologien
und Datenmarktplätzen
Inhalte dieses Vortrags
Extraktion von Fakten aus Forschungspublikationen– Strukturanalyse von PDFs– Automatische Annotation von PDFs
Semantische Integration– Disambiguierung von extrahierter Entitäten/Fakten– Semantisches Format zur Repräsentation von Fakten– Web-basierte Zugriff mittels RDF/SPARQL
(Visuelle) Analyse– Abfrage von Fakten– Visuelle Analyse
Crowdsourcing & Teilen von Forschungsdaten– Überblick
6
Disclaimer – Work in progress:
Ansätze und erste Ergebnisse
nach 10 Monaten
Extraktion von Fakten aus PublikationenÜberblick
Extraktion struktureller Elemente– Tabellen, Abbildungen (Kapitel und Unterkapitel)– Extraktion von Fakten aus Tabellen
Extraktion von Fakten aus Texten– Named Entity Recognition (e.g. algorithms, data sets, genes,
significance levels etc.)– Relationen Extraktion (e.g. Medikament A senkt Blutdruck um B)
Semi-automatische Ansätze zur Qualitätskontrolle durch den Benutzer– User in the Loop
8
Extraktion von Fakten aus PublikationenEin motivierendes Beispiel
9
Dimensionen/EntitätenMessgröße
Fakten
Extraktion von Fakten aus PublikationenAnsatz zur Extraktion
Hauptformat: PDF– Optimiert für die Darstellung, jedoch schwierig zu analysieren– Z.B. “Ä” besteht aus dem Zeichen “A” und zwei Punkten– Metadaten Qualität in PDFs unzuverlässig– Robuste, frei verfügbare Tools zur PDF Analyse existieren nicht.
Ansatz – Divide and Conquer– Extraktion struktureller Blöcke in PDFs auf Basis der Layout Information– Klassifikation der Blöcke
• e.g. Title, Haupttext, Abstract, Referenzen
– Klassifikation/Extraktion der Inhalte in Blöcken• Klassifikation von Strukturen (z.B. Tabellen)• Extraktion von Namen, Entitäten, Adressen etc.
10
Extraktion von Fakten aus PublikationenAnsatz zur Extraktion
Extraktion struktureller Blöcke– Verwendung unterschiedlicher, Layout bezogener Merkmale
• Zeichengröße, Zeichensatz, Position (absolut, relativ)
– Anwendung verschiedener Clustering Algorithmen• Clustering: Gegeben eine Menge von Objekten finde jene Gruppen von
Objekten bei denen die “Ähnlichkeit” innerhalb der Gruppe maximal und zwischen Gruppen minimal wird.
• Cluster = Block• Fehler Backtracking über sukzessives zusammenfassen und teilen
– Clustering Stack• Merge: Zeichen Wörter• Split: Wort Wörter (Fehlerbehandlung)• Merge: Wörter Zeilen • Split: Zeile Zeilen (Fehlerbehandlung• Merge: Zeilen Blöcken• Split: Block Blöcken (Fehlerbehandlung)
11
Extraktion von Fakten aus PublikationenAnsatz zur Extraktion
Klassifikation von Textblöcken
Überwachte Lernverfahren: Maximum Entropy Klassifikatoren– Vorgabe von Trainingsdaten, i.e. Zuordnung von Klassen zu
Blöcken– Lernen eines entsprechenden Modells und Anwendung auf
nicht klassifizierte Blöcke– Merkmale: Wortstatistiken (z.B. f. Namen), Layout,
Formatierung, Heuristiken (e.g. e-Mail)
Beispiele für Blöcke– Titel, Abstract, Haupttext, Autorblock, Bibliographiedaten– Tabellen/Tabellenüberschriften– Abbildung/Abbildungsüberschriften
12R. Kern, K. Jack, M. Granitzer, and M. Hristakeva, “TeamBeam - Meta-Data Extraction from Scientific Literature,” DLib Magazine, vol. 18, no. 7/8, 2012.
Extraktion von Fakten aus PublikationenAnsatz zur Extraktion
Extraktion von Entitäten innerhalb der Blöcke– Blocktyp als Selektionskriterium
(e.g. Autorblock wird weiter zerlegt)– Named Entity Recongition mittels überwachter Lernverfahren– Maximum Entropy Klassifikatoren mit Beam Search
Ermittlung der Lesereihenfolge der Blöcke– Oben/Unten und Links/Rechts der Haupttexte, Überschriften, Abstract– Interessant für Information Retrieval Anwendungen
Offene Punkte– Relations- bzw. Prädikatextraktion– Open Information Extraction – Lernen von Modellen ohne Vorgabe von
Trainingsdaten – Modellgenerierung durch den Benutzer/die Benutzerin– Benutzer Feedback
• Explizit: Akzeptieren oder verwerfen v. Annotationen• Implizit: Analyse der Nutzung (z.B. für Navigation)
13R. Kern, K. Jack, M. Granitzer, and M. Hristakeva, “TeamBeam - Meta-Data Extraction from Scientific Literature,” DLib Magazine, vol. 18, no. 7/8, 2012.
Extraktion von Fakten aus PublikationenOnline Demonstrator - http://knowminer.at:8080/code-demo
14
Semantische IntegrationZielsetzung
Extraktion liefert natürlich sprachlichen Textteilen, nicht jedoch deren Bedeutung– Mehrdeutigkeiten: Synonyme, Homonyme
• Z.B. H1N1, Vogelgrippe, Grippe
– Keine Verknüpfung zu entsprechenden Thesauri/Wissensbasen– Fehlendes gemeinsames Format
Ansatz: Nutzung von Linked Open Data und Semantic Web Technologien– Überführung extrahierter Fakten in ein einheitliches, offenes Format
• Mit Fokus auf Tabellen
– Disambiguierung von Entitäten und Fakten durch Verknüpfung von Phrasen mit vorhandenen Wissensbasen (in der LOD Cloud)
– Semi-automatische Ansätze – Genauigkeit automatischer Analyseverfahren nicht hinreichend.
16
Semantische IntegrationWas ist Linked Open Data?
Das Web der Daten – Grundprinzipien
1. URI‘s zur Identifikation von Dingen
2. HTTP als Lookup von Informationen zu Dingen
3. Verwende maschinen-lesbare Formate zur Beschreibung von Dingen(i.e. RDF – Resource Description Framework)
4. Die Beschreibung von Dingen enthält Links zu anderen Dingen
Aktuelle mehrere Milliarden Tripel aus unterschiedlichen Domänen– Bibliographische Daten (e.g. DBLP, PubMed)– Biomedizinische Daten
• Gene-Ontology, Drug-Bank, Diseases etc.
– Allgemeinwissen - DBPedia– Öffentliche Daten (e.g. Census, EU Förderprogramme)
17
Semantische IntegrationLinked Open Data
Drei Funktionen im Projekt1. Integration und Disambiguierung durch Verknüpfung semi-strukturierter
Inhalte mit Konzepten der LOD
2. Vereinheitlichung und Publikation von Forschungsdaten unter Nutzung statistischer Vokabularien
3. Als web-basierte Datenquelle für (offene) Forschungsdaten (od. deren Anreicherung)
Linked Data als weltweite Datenbank „virtuelle“ Forschungsumgebungen
18
Semantische IntegrationLinked Open Data - Funktion 1: Disambiguierung
Beispiel
19
http://dbpedia.org/page/F1_score
http://dbpedia.org/page/Orthography
Bedeutung durch eindeutige Benennung
Semantische IntegrationLinked Open Data - Funktion 1: Disambiguierung
Herausforderungen– Qualität abhängig von der Domäne und Größe der Wissensbasis– Abhängig vom Kontext
• Disambiguierung im Text: natürlich-sprachliche Beschreibung als Kontext
• Disambiguierung in Tabelle: Relationen Struktur als Voraussetzung– Qualität und Art der zugrunde liegenden Wissensbasis
• Entitäts-zentriert: Thesaurus, Ontologie• Dokument-zentriert: Vorkommnisse in anderen Dokumenten
Eigenschaften von Linked Data– Sehr große Wissensbasis (Milliarden von Einträgen)– Hohe Anzahl unterschiedlicher Domänen– Stark variierende Qualität– Offene, nicht-vollständige Wissensbasis
20
Semantische IntegrationLinked Open Data - Funktion 2: Disambiguierung
Ansatz und aktueller Status– Semi-automatische Annotation mittels maschineller Lernverfahren
• Benutzer erhält Vorschläge zu Annotation• Akzeptiert/verwirft VorschlägeAdaption der Disambiguierung
– Unterschiedliche Modelle pro Domäne – Automatische Konstruktion von Wissensbasen unter Verwendung
• Regelbasierter Auswahlverfahren (e.g. spezif. Schemata wie SKOS)• Statistischer Verfahren zur Identifikation von qualitative hochwertigen
Konzepten Erste Ergebnisse im Bereich Biomedizinischer Daten
21
Qualität der Wissensbasisals größtes Problem
Semantische IntegrationLinked Open Data - Funktion 2: Einheitliches Format
22
Dimensionen/EntitätenMessgröße
Fakten
Wie werden Fakten repräsentiert?- Eine Beobachtung besteht aus
- Messgröße/abh. Variable: Beschreibung der Wirkung- Dimension/Stellgröße/Unabh. Variable: Beschreibung der Ursache- Fakten: Messwert der Messung
Überführung der statistischen Tabellen in ein „normalisiertes“ Format
Semantische IntegrationLinked Open Data - Funktion 2: Einheitliches Format
23
Method Features Cosine JaccardANDD-Raw Unigram 0.956 0.952TFIDF Unigram 0.884 0.874Binary Unigram 0.861 0.852SpotSigs Unigram 0.953 0.952ANDD-Raw Trigram 0.936 0.91TFIDF Trigram 0.875 0.873Binary Trigram 0.869 0.867SpotSigs Trigram NA NA
Normalisierung
Beobachtungen
Schema- Name- Einheit- Ausprägung
Nominal Nominal [0;1] [0;1]
Zusätzliche Tabelle
Datensatz Method Features Cosine JaccardQuelle 1 ANDD-Raw Unigram 0.956 0.952Quelle 1 TFIDF Unigram 0.884 0.874Quelle 1 Binary Unigram 0.861 0.852Quelle 1 SpotSigs Unigram 0.953 0.952Quelle 1 ANDD-Raw Trigram 0.936 0.91Quelle 1 TFIDF Trigram 0.875 0.873Quelle 1 Binary Trigram 0.869 0.867Quelle 1 SpotSigs Trigram NA NAQuelle 2 ANDD-Raw NA 0.674 0.7Quelle 2 TFIDF NA 0.625 0.626Quelle 2 Binary NA 0.622 0.622Quelle 2 SpotSigs NA 0.257 0.258
Hinzufügen v. Tabellen in gleiche Repräsentation
Quelle der Tabellen: H. Hajishirzi, W. Yih, and A. Kolcz, “Adaptive near-duplicate detection via similarity learning,” in Proceeding of the 33rd international ACM SIGIR conference on Research and development in information retrieval, 2010, pp. 419–426.
Semantische IntegrationLinked Open Data - Funktion 2: Einheitliches Format
RDF Data Cube Vokabular– W3C Vorschlag zur Repräsentation statistischer Daten in RDF– Definition der Struktur
• Dimensionen & Dimensions-hierarchien
• Messgrößen
– Angabe von Beobachtungen Vorteile von RDF
– Verknüpfungen zu beliebigen RDFEndpoints möglich
– Zusammenhänge zwischen Datensätzen erkennbar
– Wiederverwendbarkeit des Formats Nachteile von RDF
– Overhead bei Anfragen– Standardtechnologien sind neu zu entwickeln (z.B. Data Warehouses)
24http://www.w3.org/TR/vocab-data-cube/#ref_qb_measureType
Semantische IntegrationLinked Open Data - Funktion 2: Einheitliches Format
Beisipiel
25
Datensatz Beschreibung
code:mydataset a qb:DataSet; rdfs:isDefinedBy <http://www.dummy.de/>; rdfs:label “NER Vergleiche"; qb:structure code:dsd_ner.
Datensatz Struktur
code:dsd_ner a qb:DataStructureDefinition;qb:component [ qb:dimension code:Methode];qb:component [ qb:measure code:Cosine;
qb:conept <http://dbpedia.org/page/Cosine_similarity> ];qb:component [ qb:measure code:Jaccard ];
Datenpunkte
code:obs1 a qb:Observation; code:Methode [ rdfs:label “TFIDF" ]; code:Cosine [ rdfs:label "0.625" ]; code:Jaccard [ rdfs:label "0.622" ]; qb:dataSet code:mydatase.
Linked Data
Semantische IntegrationLinked Open Data - Funktion 2: Einheitliches Format
26
Semantisches Microformat zur Auszeichnung statistischer Tabellen
API für den Upload von Excel und CSV Dateien
Grafische Benutzeroberfläche zur Normalisierung von Tabellen– Selektion und Spezifikation von
Dimensionen– Selektion und Spezifikation von
Maßzahlen– Selektion und Spezifikation von
Beobachtungen
Semantische IntegrationLinked Open Data - Funktion 3: Forschungsdatenbank
27
Integration vieler unterschiedlicher Datenquellen– Publikationen– Evaluierungs- und Experimentumgebungen
• TPC-H Consortium (Internationels Datenbank Benchmarking Konsortium)
• TIRA Benchmarking Umgebung für Information Retrieval (Uni Weimar)
Bereitstellen eines SPARQL Endpoints für RDF Data Cubes– Ziel ist die Schaffung eines (verteilten) Repositories wissenschaftlicher
Primärdaten
Uni-PassauSPARQLEndpoint
Visuelle AnalyseSuche nach Daten und Fakten (für nicht Informatiker)
Herausforderung– RDF Zugriff erfolgt meist über deklarative Abfragesprachen (SPARQL)– Keine Nutzungsmöglichkeit ohne Informatikstudium!
Zielsetzung– „Google-ähnlicher“ Zugriff auf Linked Open Data im Allgemeinen und
Cubes im Speziellen– Prototyp unter http://code.know-center.tugraz.at/search
29
Visuelle AnalyseWeb basierte, interaktive Visualisierung von RDF Cubes
Ziel: Visuelle Analyse integrierter Daten soll in web-basierten Umgebungen einfach möglich sein– RDF-basierte Beschreibungen möglicher Visualisierungen für einen
gegebenen Datencube• Verbindet Visualisierung und RDF Data Cubes• Kein technische Wissen vorausgesetzt, lediglich statistisches Wissen• Interaktive Analyse (Visual Analytics)
– HTML 5 als technologische Grundlage Erster Testprototyp unter http://code.know-center.tugraz.at/vis
30
Metadaten f. Provenance/Herkunft essentiell für Qualität undVertrauen in die Daten– Woher kommen die Daten?– Von wem wurden die Daten integriert, annotiert, bearbeitet?
Teilen aggregierter Datensätze und der Annotationsmodelle– Direkte Verwendung der Ergebnisse anderer Forscher-
gruppen in der eigenen Arbeit– Verwendung von Annotationsmodellen auf eigenen Daten
Teilen der visuellen Analyse– Kollaborative Analyse der Visualisierung– Zugriff auf den Visualisierung zugrunde liegenden
Rohdaten
CrowdsourcingTeilen von Forschungsdaten
32
CrowdsourcingWarum sollten Nutzer annotieren, integrierern etc.?
Offener Marktplatzkonzept für Forschungsdaten Forschungsdaten stellen eine wertvolle Informationsquelle dar. Ähnlich
dem Open Source Model sollte diese entsprechenden Verwertungsrechten unterliegen.
Untersuchung verschiedener Modelle nach Fertigstellung der Dienste geplant
Erhöhte Möglichkeiten für Forscher und Forschungsinstitutionen 33
Zusammenfassung
34
Linked ScienceData Warehouse; Offene Standards
Extraktion Integration/Aggregation
Analyse & Organisation
Teilen & Crowdsourcin
g
Visual Analytics &Kollaborative AnalyseText,
Linked (Open) DataExperimente
Crowdsourcing & Re-Use
Find us, join us, ask us, help us
http://code-research.eu/http://www.facebook.com/CODEresearchEU
#CODEresearchEU
integrate
extract & visualise organise
crowdsource