ANALYSE VON PATENTDATEN MITTELS WORKFLOWS UND BIG-DATA-TECHNOLOGIEN
Dr. Hidir Aras, FIZ Karlsruhe, 9.11.2018, DGI-Praxistagung 2018
ANALYSE VON PATENTDATEN MITTELS WORKFLOWS UND BIG-DATA-TECHNOLOGIEN
Einführung
TDMLab
- Systemarchitektur
- KNIME, Search & Analytics
- Skalierbare Services für TDM
- Beispiele
Fazit
EINFÜHRUNG
▪ Patentinformationen
▪ Patent Search & Retrieval
▪ Big Data, Komplexität, die 3 V‘s (Volume, Variety, Velocity)
▪ Unterschiedliche Anforderungen, Use Cases und Expertise je nach Branche
▪ Anwendertypen
TDMLAB – PROJEKT
DGI-Praxistagung 20184
▪ Drittmittelprojekt, gefördert vom BMBF, 2J Laufzeit
▪ Ziele:
▪ Big-Data-Plattform zur Abfrage, Analyse und Visualisierung von Patentinformationen
▪ Virtuelle Laborumgebung für Text- und Data-Mining (TDM), Erlernen/Erproben neuer Methoden
▪ Schwerpunkte:
▪ Patentanalyse / TDM
▪ Skalierbarkeit
▪ Scientific Workflows
TDMLAB – SYSTEMARCHITEKTUR
DGI-Praxistagung 20185
▪ Data-Ingest aus unterschiedlichen Quellen
▪ Big Data Processing & Analytics mit Hadoop,
Spark
▪ Integration unterschiedlicher Workflows in
KNIME
▪ Suche über Search-API
▪ Data-Pipelines
▪ Visuelle Interaktion / Reporting
TDMLAB – INTEGRATION DER FIZ SEARCH-API
DGI-Praxistagung 20186
• Zugang zu qualitativ hochwertigen, granular strukturierten
wissenschaftlichen Literatur- und Patentdatenbanken über ein RESTful API
• Suchfunktionalität vergleichbar umfangreich wie auf STN (chemische
Struktursuche, Textsuche, Codes)
• Anwendungsszenarien:
• Search, Retrieval und Alerting Anwendungen aus in-house Systemen
• Text- und Datamining Anwendungen (KNIME) und Analyse Tools
FIZ Karlsruhe Custom Nodes
TDMLAB - ERWEITERUNG DER KNIME ANALYTICS PLATTFORM
7
▪ KNIME provides tools (nodes) for processing data, e.g. ETL (Extract Transform Load) and analysis
▪ FIZ developed specific KNIME nodes for e.g. searching, annotating and structuring of patents
BEISPIEL: WORKFLOW ZUR TEXTANALYSE
8
ANALYZESEARCH VISUALIZE
PreProcessing-Workflow:
DGI-Praxistagung 2018
TDMLAB - SEARCH & ANALYTICS (1)
9
• KNIME
• Generic Nodes
• Custom Nodes
• ElasticSearch: Aggregations, Significant Terms, Graphs
• Anwendung auf annotierte Daten
TDMLAB - SEARCH & ANALYTICS (2)
Run scalable process Query Results Visualize Results
▪ Configure, deploy and run scalable services from KNIME
• Skalierbare Analyseprozesse:
• Annotationen
• Patentanalyse mittels ML/TDM-Verfahren
− Trendanalyse, Patent Landscapes, Technologieanalyse (Whitespots, Hotspots)
− etc
• Eingesetzte TDM-Methoden - Beispiele:
• Clustering, Topic Extraction
• Entity Extraction und Linking
• Deep Learning (DL) z.B. Word Embeddings
TDMLAB – SKALIERBARE ANALYSEPROZESSE UND METHODEN
DGI-Praxistagung 201812
Automatische Strukturierung des Patenttextes und Extraktion relevanter Informationen:
▪ Schneller Zugriff auf Patentsektionen und Segmente der Description, der Claims
▪ Effiziente und präzise Suche
▪ Ausnutzung für weitere TDM-Tasks wie z.B.
Term Extraction, Trendanalyse etc.
13
TDMLAB – STRUKTURIERUNG UND ANNOTATION DER VOLLTEXTE
DGI-Praxistagung 2018
Meta-data
Claims
Abstract
DescriptionTitle
TDMLAB – ANNOTATIONEN: “ENHANCING THE VALUE OF PATENT RECORDS”
DGI-Praxistagung 201814
▪ Keyterm Extraction: Extraktion relevanter Phrasen mittels linguistischen und statistischen Methoden
▪ Numeric Analyzer: Erkennung und Normalisierung numerischer Werte physikalischer und
chemischer Größen
▪ Claim Structure Analyzer: Analyse der hierarchischen Struktur der Claims
▪ Description Text Segmentation: Segmentierung des Textes der Detailed Description
Table #Documents
Life Science Patents 3.159.043
CSR Annotations 1.106.713
KT Annotations 2.294.634
OSCAR4 Annotations 1.583.454
Patseg Annotations 1.764.374
Annotation Statistics:
Patent Entity Knowledge BaseEntityPatent
InchiKey:
BEISPIEL: CHEMICAL ENTITY ANNOTATION & LINKING
15
▪ Annotation chemischer Entitäten in Patenttexten, z.B. Description, Claims und automatische Verlinkung ▪ Graph-basierte Exploration
DGI-Praxistagung 2018
BEISPIEL: BIG DATA ANALYTICS ZUR TRENDANALYSE
16
Analyse und Erkennung technologischer Trends mittels Machine Learning (Topic Detection, Clustering)
Run TDM workflow on Hadoop for 30,000
Patents
Area: Textiles and Papers
Topic Extraction
Query: textiles, papers,...
Hadoop
BEISPIEL: BIG DATA ANALYTICS ZUR TECHNOLOGIEANALYSE (1)
1. Anfrage zum Thema „Information Security“ über IPC/CPC-Codes z.B.− H04L0009 (secret or secure communication)− H04W0012-00 (Security arrangements: access security or fraud detection;
Authentication: verifying user identity or authorization; Protecting privacy oranonymity)
− H04H0060-23 (using cryptography: encryption, authentication or key distribution)
2. Retrieval der Ergebnisdokumente3. Analyse der Domäne
Relevante Fragen zur Patentanalyse:− Welche Erkenntnisse erhält man aus den analysierten Patenten?− Welche Trends sind in der Domäne “Information Security” erkennbar? − Welche technologischen Schwerpunkte sind ersichtlich?
Ergebnisse
Domänenspezifische Suchanfrage
Analyse
DGI-Praxistagung 201817
BEISPIEL: BIG DATA ANALYTICS ZUR TECHNOLOGIEANALYSE (2)
▪ Task:
▪ Entdecke neue Technologiefelder in den Inventions
▪ Definition einer “Technology Area” bzw. “Technical Field”:
▪ Repräsentiert den Technologiebereich zu dem eine Erfindung gehört
▪ Spiegelt den Anfang des Textes im Main Claim wider
▪ Das Segment erlaubt die Exploration nach relevanten Dokumenten
DGI-Praxistagung 201818
Patent DocumentsPatSeg
Technology Hotspots Map
Technological Area Hotspots
Extract “Technical Field” segments
Extract significant terms andphrases
▪ Create Co-occurrence network graph
▪ Apply “Community Detection Algorithm” fordetermining the final topics
Retrieve patent documents
BEISPIEL: BIG DATA ANALYTICS ZUR TECHNOLOGIEANALYSE (3)
Visualisierung der “Technology
Hotspots” für die Information
Security Domäne
DGI-Praxistagung 201819
FAZIT
DGI-Praxistagung 201820
▪ In Patenten ist wertvolles Wissen vorhanden, das sonst nirgends publiziert wurde
▪ Auch außerhalb der klassischen IP-Welt haben Patentinformationen daher einen
besonderen Wert, den es auszuschöpfen gilt
▪ Big-Data Technologien und neue maschinelle Lernverfahren wie Deep Learning helfen bei
der semantischen Erschließung und Verknüpfung mit externen Wissensquellen
▪ Workflows und APIs erlauben die Integration spezifischer Lösungen zur Patentanalyse in
„in-house“ Umgebungen
▪ Data Science Umgebungen erlauben hierbei das Erlernen und Erproben neuer Methoden
und das Anwenden existierender Modelle auf eigen Problemfälle
These documents are intended for presentation purposes only.
Copyright lies with FIZ Karlsruhe.
Any distribution or use of these documents or part thereof is
subject to FIZ Karlsruhe's express approval.
© FIZ Karlsruhe – Leibniz-Institut für Informationsinfrastruktur GmbH
© FIZ Karlsruhe 2018Leibniz-Institut für Informationsinfrastruktur GmbH
www.fiz-karlsruhe.de
Contact
VIELEN DANK!
Dr. Hidir ArasProjektleiter TDMBereich IT, Entwicklung und angewandte Forschung
+49-7247 808-306