anwendungen maschinellen lernens: projekte & abschlussarbeiten · markus gulmann....

78
Anwendungen Maschinellen Lernens: Projekte & Abschlussarbeiten Stefan Edelkamp

Upload: others

Post on 07-May-2020

3 views

Category:

Documents


1 download

TRANSCRIPT

Anwendungen Maschinellen Lernens: Projekte & Abschlussarbeiten

Stefan Edelkamp

Projekte (Auswahl)

iMonitor: intelligentes IT-Monitoring durch KI-Ereignisverarbeitung

http://www.imonitor-project.de/startseite/welcome.html

The specific and ultimate goal of the REMPARK project is to develop a Personal Health System for management of Parkinson's Disease

http://www.rempark.eu/

The main project objective behind FLOURplus is to exploit the full baking potential of flour in the baking process. The bakery production process can be fully adapted to the varying natural flour properties in real time and in a simple way.

http://www.flourplus.eu

Abschlussarbeiten (Auswahl)

● Zhihao Tang. Monte-Carlo Search for Multiple Sequence Alignment. (Supervisor, Reviewer: Stefan Kurtz), 2015

● Paul Wichern. Solution of Packing Problems in Additive Manufacturing. (Supervisor, Reviewer: Gabriel Zachmann), 2014.

● Simon Frerichs. Choice, Evaluation and Implementation of an Suitable Algorithm on Netflow Data for Defending Distributed-Denial-of-Service-Attacks. (Reviewer, Supervisor Carsten Bormann), 2014.

● Christoph Greulich. Agent-based Intermodal Navigation in Dynamic Environments. (Supervisor, Reviewer: Klaus-Dieter Thoben), 2013.

● Dominik Elsbroek. Monitoring Network Traffic With IPFIX to Detect Well-Known IPv6 Attacks. (Reviewer, Supervision: Carsten Bormann), 2012.

● Marten Wirsik. Statistical Pattern Matching and Machine Learning for Analyzing Computer Networks (Reviewer, Supervision: Carsten Bormann), 2012.

● Tim Federholzner. Randomization and Partial Observability in General Game Playing (Supervisor, Reviewer: Karsten Höscher), 2011.

● David Zastrau. Accelerated Machine Learning Algorithms on the GPU (Supervisor, Reviewer: Lutz Frommberger), 2011.

● Ali Shabani. Improved Inference of Street Maps on Basis of Open-Street-Map Raw Data (Supervisor, Reviewer: Gerrit Kalkbrenner), 2010.

● Cengizhan Yücel. Solving One- and Two-Player Games on the Graphics Card with Perfect Hash Functions (Supervisor, Reviewer: Jan Vahrenhold), 2010.

● Mark Kellershoff. Abstraction & Planning for Program Model Checking (addtitional Reviewer: Bernhard Steffen), 2008.

● Damian Sulewski. Parallel Software Model Checking in StEAM (Supervisor, Reviewer: Bernhard Steffen), 2007.

● Björn Borowsky. Optimal Metric Planning with Presburger Automata (Supervisor, Reviewer: Thomas Schwentick), 2007.

● Kenneth Kahl. Machine Learning Algorithms for the Strategic Game Hex (Supervisor, Reviewer: Lars Hildebrand), 2007.

● Björn Scholz. Automatic Inference of Road Maps based on GPS Traces (Supervisor, Reviewer: Petra Mutzel), 2006.

Abschlussarbeiten (tbc) Kai Hillman. Darstellung und Analyse eines Konzeptes zur digitalen Beweissicherung (BA)

Philipp Nguyen. NFC-Sicherheitanalyse mit Smartphones -- Sicherheitsanalyse von Android-Applikationen mit NFC-Funktionalität (BA)

Axel Auffarth. Modeling of Security Aspects in Software Architectures (MA)

Timo Reimerdes. Sicherheit und Privatsphähre in Sozialen Netzwerken (DA)

Markus Gulmann. Sicherheitsanalyse ausgewählter Systemservices des mobilen Betriebssystems Android, (BA)

Aleksej Michalik: Einsatz neuronaler Netze zur Erkennung von Schadsoftware (BA)

Bastian Breit. Sicherheitsaspekte von Android und mobilen Verkaufsportale (DA)

Dimitri Hellmann. Angriffsszenarien ausgehend von Android-Anwendungen (DA)

Bernd Samieske. Entwicklung eines erweiterbaren onologiebasierten Asset-Management (DA)

Stefan Klement: Security Aspects of the Google Android Platform (DA)

Malte Humann: Auswirkungen von Sensoreigenschaften auf die Angriffserkennung mittels Sensorfusion (DA)

Abschlussarbeit: Gestenerkennung (Daniel Kohlsdorf)

● TZI-Absolvent erhält Contact Förderpreis für Abschlussarbeit

● Er entwickelte ein Verfahren, das die Erkennung von Gesten in der Mensch-Computer-Interaktion, wie beispielsweise bei einer Wii, verbessert, und dieses auch international publiziert. Der Preis ist mit 4.000 Euro dotiert.

● Für seine Promotion ist Kohlsdorf an die renommierte Georgia Tech. zum Wearable Computing Pionier Thad Starner gegangen

● Der hoffnungsvolle Nachwuchswissenschaftler aus der Arbeitsgruppe Künstliche Intelligenz kam bereits während des Studium auf wissenschaftliche Veröffentlichungen.

Gesture Recognition

● Shake-to-Shuffle vs. Walking ● Touchpad vs. Mouse

Symbolic Aggregate approXimation (SAX)

IiSAX: Indexing and Mining Terabyte Sized Time Series, by Shieh & Keogh

http://www.cs.ucr.edu/~eamonn/iSAX/iSAX.html

MA Zhihao Tang: MCTS4MSA

● TSPTW, PDP, VRP ● PTSP

● Container Packing

● Inspection

● AGCT−TG

● A−CTCG−

MSA

Optimal MSA: Let A be the set of all MSAs that can be generated by a set of sequences S = {s1,…, sn}. The optimal MSA O for S wrt. evaluation F is an alignm. with F(O) = opt { F(X) | X in A }

MSA Problem: Given a set of sequences S = {s1, ..., sn] compute an optimal MSA O of S

(Pair) Alignment

Evaluation Functions

Pairwise Sum

F(A) = F(a1,...,an) =

∑0<i<n∑i<j<n+1 F(ai,aj).

General Scores

Affine Gap Costs

Opening + |Gap|*Extension

MSA Search Tree

● Hirschberg's Algor.● Dynamic

Programming● IDDP

● Frontier Search● External Search● Partial Expansion

MCTS 4 1P

Nested Monte Carlo Search (Cazenave)

Algorithm (~UCT) defined in terms of Moves and Rollouts and L

Nested Rollout Policy Adaptation (Rosin)

Algorithm defined in terms of Adapt and Rollout, N and L

Beam NRPA(level,policy)

if level = 0 then seq := Rollout(policy) return (eval(seq),seq,policy)Beam := (inf,{},policy)for N iterations do newBeam := {} for all (v,s,p) in Beam do insert (v,s,p) in newBeam tempBeam := BeamNRPA(level-1,p) for all (v',s',p') in tempBeam do p' := Adapt(p,s') insert (v',s',p') in newBeam Beam := B best beams in newBeamreturn Beam

B B

N

(v,s,p)

Learning Curve 1ped

Posterior Optimization

Aktuelle Masterarbeit

● Fritz Jacob: Ereignis-basierte Analyse von Mediendateien mit Methoden des maschinellen Lernens

Ereignisszeitreihe

Scoring

Fingerprints

Akzeptierte Fälle

Aktuellste Arbeit (Motivation KIVA, GCom)

● Denis Golubev: Effiziente Bewegungsplanung für ein und mehrere Agenten

● https://www.youtube.com/channel/UCHhXrhMGNOrXDR2MG_ehwWA

Aktuelle Dissertation

● Claas Ahlrich: Development and Evaluation of AI-based Parkinson’s Disease Related Motor Symptom Detection Algorithms

[Extra Folien]

Grundlage iMonitor(Dissertation Carsten Elfers)

Die Angriffserkennung in Datenströmen und liegt im Schnittfeld von Forschungen in den Disziplinen Rechnernetze und Künstliche Intelligenz. Dabei werden Ereignismeldungen von mehreren Programmen zur Datenstromanalyse, den sogenannten Sensoren, intelligent korreliert, Hypothesen gebildet und Gefahrenspotentiale aufgezeigt.

Alleinstellungsmerkmal iMonitor

Das Alleinstellungsmerkmal ist die tolerante Mustererkennung bei der Analyse der Ereignisse. Dabei wird taxonomisches Hintergrundwissen z.B. über die Struktur von Angriffstypen zur Definition von Ähnlichkeitsbeziehungen herangezogen, um aus exemplarisch als Angriff vorab erkannten und nach Signifikanz und Gefährlichkeit eingestuften Ereignissen, verwandte Ergeignisse abzuleiten und Hypothesen über zum Teil mehrstufige Angriffe abzuleiten.

Hintergrundwissen

Das Hintergrundwissen ist als Ontologie abgelegt und wird über eine Schnittstellensprache SPARQL (in Anlehnung an die Datenbankabfragesprache SQL) vom Lernverfahren in seinem Schlussfolgerungsmechanismus mehrfach angefragt. CRFs fallen in die Klasse graphischer (probabilisitschen) Modelle mit gerichteten Abhängigkeitsgraphen,

Die Einbeziehung von Hintergrundwissen ist zentral, da die Information über Angriffe punktuell ist und über ein in der Taxonomie verankertes Ähnlichkeitsmaß auf verwandte Angriffe bei der Hypothesenbildung ausgeweitet werden kann.

MLAls maschinelles Lernverfahren wurden vorab Conditional Random Fields (CRFs), eine Teilklasse graphischer (probabilistischer) Modelle, eingesetzt und mit der obige Expressivität angereichert. Man kann sich die exponentiellen Modelle als temporal erweiterete Hidden Markov Modelle vorstellen, die einen Schluss über zeitlich weiter entfernte Evidenzen ermöglichen.

In iMonitor wurde aus Effizienzgründen auf probabilistischen Schluss verzichtet und ein schlankere Analyse für den toleranten Regelschluss implementiert (→ Carsten Elfers, Neusta)

FIDES - Projektziele• Erweiterung von SIEM um intelligente Korrelationsverfahren

– Qualität der Algorithmen – Anreicherung des strukturierten Wissens

• Überwachung und Zusammenführung verschiedener Datenquellen (wie z.B. Snort/IDS, Firewall-Logs, Honeypots, …)

• Frühwarnung – Erkennung von Angriffen nach ersten Angriffsschritten

• Assistenz

• Reduktion von Fehlalarmen

Mehrwert

Korrelationsar-chitektur

● Mehrere Datenquellen • Redundanzen berücksichtigen

• Semantische Normalisierung● Assistenz

• Angriffs-Modellierung anhand von normalisierten Eventströmen

● Intelligente Korrelation• Variationen von Angriffen über

semantische Verwandtschaft detektieren

● Reduktion der Ereignisse auf die Wesentlichen • Bewertung durch annotierte und

daraus abstrahierten Regeln

ArchitekturWissensbasis

Vorverarbeitung

= snort

= 192.168.0.11

= 192.168.0.12

= ET EXPLOIT MS04-007

Aufarbeitung

Abgleich– Matching von

vordefinierten (und abstrakten) Mustern

Beispiel eines Musters

IF(Classification sameAs AttemptedKnowledgeGainClassification)

AND(Source-IP part-of InternalAddressRange)

ANDNOT

(Source-IP is-a AdministratorPC)

MusterabstraktionSignatur/Muster:IF Classification = AttemptedAdminClassification …

Einkommendes EreignisClassification = AttemptedUserClassification …

Abstraktion-> Signatur trifft Muster besser

Hypothesen-Pool

• Analysiere Permutationen der Ereignis

• „Survival of the fittest“ Hypothesen

• Fitness = W‘keit von normalen Verhalten gegenüber gefährlichem

Interpretation• Conditional Random

Field bestimmt W‘keit eines Angriffs

• Nutze Beispiele, um die Zuverlässigkeit der Sensoren Muster zu trainieren.

fides und herkömmliche SIEM-Systeme

● Ontologische Schlüsse• Breites Spektrum des

modellierbaren Wissens● Abstraktion der Regeln

• Für jedes Event gibt es immer eine Bewertung

● Probabilistische Inferenz• Liste der wahrscheinlichsten

Hypothesen

• Verwendung der Inferenz-ergebnisse auch in den Regeln

• Lernfähigkeit ermöglicht eine einfache Adaption an die Domäne

● Keine Ontologie• Wissen ist statisch und

Anwendungsabhängig● Statische Regelmenge

• Regeln werden nicht abstrahiert sondern nur auf exakte Erfüllung geprüft

● Statische Inferenz• Keine wahrscheinlichen

Angriffe, sondern nur „Regel-matches“

• Adaption nur durch erheblichen Modellierungsaufwand möglich

fides - Annotationswerkzeug

fides - Dashboard

Ausblick Leitwarte - Industrie 4.0

Anomalieerkennung(Malte Humann)

Viele Systeme, die heutzutage eingesetzt werden, arbeiten mit Signaturanalyse, da die Anomalieerkennung mit Schwellwertanalyse von praktischer Einsetzbarkeit noch weit entfernt war. Manchmal gab es eine Mischform bei der Methoden, die schwellwertgesteuerte Signaturanalyse, eingesetzt.

Ziele der Zeitreihenanalyse● kompakte Beschreibung einer historischen Zeitreihe● Vorhersage von künftigen Zeitreihenwerten

(Prognose) auf der Basis der Kenntnis ihrer bisherigen Werte

● Erkennung von Veränderungen in Zeitreihen (Monitoring in der Medizin bei chirurgischen Eingriffen, Veränderung der globalen Vegetationsphänologie durch anthropogene Klimaänderungen)

● Eliminierung von seriellen oder saisonalen Abhängigkeiten oder Trends in Zeitreihen (Saisonbereinigung), um einfache Parameter wie Mittelwerte verlässlich zu schätzen

Beispiel: ausgehender Traffic

ETS (Error, Trend, Seasonal) ohne Muster (R)

Muster finden: Power Spectral Density Estimation

Seasonal-Trend Decomposition Procedure Based on Loess (STL)

Ohne Trend und Ausreißer

Muster finden: PSDE ohne Trend und Ausreißer

Aberrant Behavior Detection (RRDtool)

Holt-Winters (R) mit Muster

Holt-Winters (R) mit Muster + Ausreißer entfernt

Trend + durchschnittliches Muster

Trend + durchschnittliches Muster

Beispiel: CPU Auslastung

Holt-Winters (R) mit Muster

Add-On: String-Matching Algorithmen

/home/edelkamp/iMonitor-files/strings/aho-corasick

/home/edelkamp/iMonitor-files/strings/bdds/home/edelkamp/iMonitor-files/strings/huffman

/home/edelkamp/iMonitor-files/strings/msa/home/edelkamp/iMonitor-files/strings/mst

Zeichenkettenanalyse für Zeitreihen

● Editierdistanz● Mehrfachsequenz-Alignierung● Approximative Zeichenkettensuche● Bellmann-Ford Algorithmus● Wertiteration● Das Optimalitätsprinzip nach Bellmann

Wissenschaftliche Verwertung

● Carsten Elfers DissertationEvent Correlation Using Conditional Exponential Models with Tolerant Pattern Matching Applied to Incident Detection

● Papiere● Kai­Oliver Detken, Carsten Elfers, Marcel Jahnke, and Malte Humann, Stefan Edelkamp. Intelligentes Monitoring der IT ­ Sicherheit durch den Einsatz von SIEM. Conference on Security (DACH), Sankt Augustin, 2015.

● Kai­Oliver Detken, Stefan Edelkamp, Carsten Elfers, Malte Humann, Thomas Rix. Intelligent monitoring with background knowledge. IEEE International Conference on Intelligent Data Acquisition and Advanced Computing Systems: Technology and Applications (IDAACS). Warsaw, 2015.  

Draft

● Parameter-Free Time Series Analysis with Application to Anomaly Detection in Computer Networks

Malte Human, Stefan Edelkamp

TZI, Bremen, Germany

Nachbereitung

● Auswertung der Analyse auf Benchmark und TZI-Daten● Java-Implementierung● Anbindung der Zeitreihenanalyse an das iMonitor

Werkzeug● Auswertung erfolgreich ● Video beschreibt funktionierdes Tool● Anträge: ZIM 2, KMU innovativ● Vorlage: “Leitwarte”, Partner: HanseWasser

Big Data Analytics

● Riesiges Forschungsfeld● Forensik großer Datenmengen● Automatische Wissensakquisation● Ontologische Datenbanken● Semantic Full Text Search (a la Brokkoli)● Datenstrukturen: Sax/iSax

● Rel. Work Planning 4 Penetration Testing

Fazit

● Intensive Zusammenarbeit mit den Firmen großer Gewinn. ● ZIM für universitäre Prozesse aufwändig (Stundenzettel, keine

Reisemittel)● Hoffen auf Zusammenarbeit mit HanseWasser

und Stadtwerke Essen● Resultat: Funktionierendes Tool, siehe Video● Lightweight-”FIDES”; breitere Sensoranbindung und schlankerer

Oberfläche.● Wissenstransfer: Malte Humann ist Mitarbeiter bei DekoIT● Dank an die professionelle Projektleitung!

64

Development of process tools and database

FP7 Capacities, SME-2013-2 Research for SME Associationswww.flourplus.eu

Overall Schedule

6/25/15 09:40:36 AM

T 4.2; Data Inclusion and Optimization (4M)

T 4.3; Algorithm and Interface Development

T 4.4; Assembling of FlourPlus System

T 4.1; Prototype web server und interface (8M)

Tasks in WP4

AI Inside

6/25/15 09:40:36 AM

• Can we predict the characteristics of the baked goods from the analytical data?

http://www.cs.waikato.ac.nz/ml/weka/

Java, GPL, over 20 years, continuously improved, not always fastest but robust

Alternative: RapidMiner, libSVM, etc.

Weka Toolkit

ServerMirror @ UHB

• Processor: Intel Xeon – 2 Processors with 8 Cores each running at

2.2GHz• 128 GB main memory

• MS SQL Server (Mirror Image of TTZ DB) • JAVA• Weka

installed at TZI in January 2015

FP System Architecture

70

Database Schema

SQL Query & Results

MS Server SQL

Java ML Sample Code

Java Sample Output

Weka Data Explorer

DATA Pre-Processing

• About 150 values for each flour– 90 for the flour analytics– 60 for the rolls and breads

• Multivariate data analysis (Feature Selection)• PCA Principal Component Analysis

– → Reduce number of values– PLS Partial Least Squares Regression – → Create models

• Which analytical methods are the most meaningful?

6/25/15 09:40:36 AM

FLOURPLUS UI

• Remote access via internet• Data upload already possible • Integration with • FP Correlation ongoing