proseminar - data mining - vorbesprechung · verwendet optimale gewicht (bzgl. exp. loss) big...

17
Technische Universität München Vorbesprechung Proseminar - Data Mining SCCS, Fakultät für Informatik Technische Universität München SS 2015 SCCS: Proseminar - Data Mining Vorbesprechung, SS 2015 1

Upload: others

Post on 25-May-2020

7 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Proseminar - Data Mining - Vorbesprechung · Verwendet optimale Gewicht (bzgl. exp. loss) Big Learning Wie große Datenmengen speichern und verwalten? Welcher Einsatzbereich? Hadoop,

Technische Universität München

Vorbesprechung

Proseminar - Data Mining

SCCS, Fakultät für Informatik

Technische Universität München

SS 2015

SCCS: Proseminar - Data Mining

Vorbesprechung, SS 2015 1

Page 2: Proseminar - Data Mining - Vorbesprechung · Verwendet optimale Gewicht (bzgl. exp. loss) Big Learning Wie große Datenmengen speichern und verwalten? Welcher Einsatzbereich? Hadoop,

Technische Universität München

Data Mining: Beispiele (1)

• Hausnummererkennung (Klassifikation)

Source: http://arxiv.org/abs/1312.6082

SCCS: Proseminar - Data Mining

Vorbesprechung, SS 2015 2

Page 3: Proseminar - Data Mining - Vorbesprechung · Verwendet optimale Gewicht (bzgl. exp. loss) Big Learning Wie große Datenmengen speichern und verwalten? Welcher Einsatzbereich? Hadoop,

Technische Universität München

Data Mining: Beispiele (2)

• Image Segmentation (Clustering)

SCCS: Proseminar - Data Mining

Vorbesprechung, SS 2015 3

Page 4: Proseminar - Data Mining - Vorbesprechung · Verwendet optimale Gewicht (bzgl. exp. loss) Big Learning Wie große Datenmengen speichern und verwalten? Welcher Einsatzbereich? Hadoop,

Technische Universität München

Data Mining: Beispiele (3)

• Ähnliche Gene (Clustering)

[Hastie et al.]

SCCS: Proseminar - Data Mining

Vorbesprechung, SS 2015 4

Page 5: Proseminar - Data Mining - Vorbesprechung · Verwendet optimale Gewicht (bzgl. exp. loss) Big Learning Wie große Datenmengen speichern und verwalten? Welcher Einsatzbereich? Hadoop,

Technische Universität München

Data Mining: Beispiele (4)

• Vorausschauender Versand (Klassifikation)

Source: http://1.usa.gov/19X75t9

SCCS: Proseminar - Data Mining

Vorbesprechung, SS 2015 5

Page 6: Proseminar - Data Mining - Vorbesprechung · Verwendet optimale Gewicht (bzgl. exp. loss) Big Learning Wie große Datenmengen speichern und verwalten? Welcher Einsatzbereich? Hadoop,

Technische Universität München

Warum Data Mining?

• “Data Scientist: The Sexiest Job of the 21st Century” (HarvardBusiness Review)

• “We are drowning in information and starving for knowledge.”(Rutherford D. Roger)

• “The future belongs to the companies and people that turn datainto products.” (Mike Loukides, O’Reilly)

• Rank 5 in Computerworld’s “Top IT skills wanted for 2012”• Rank 1 in Computerworld’s “IT skills that employers can’t say no

to”• http://www.itjobswatch.co.uk/jobs/uk/datascientist.do

• http:

//www.itjobswatch.co.uk/jobs/uk/softwaredeveloper.do

SCCS: Proseminar - Data Mining

Vorbesprechung, SS 2015 6

Page 7: Proseminar - Data Mining - Vorbesprechung · Verwendet optimale Gewicht (bzgl. exp. loss) Big Learning Wie große Datenmengen speichern und verwalten? Welcher Einsatzbereich? Hadoop,

Technische Universität München

Finding Data Science Unicorn

SCCS: Proseminar - Data Mining

Vorbesprechung, SS 2015 7

Page 8: Proseminar - Data Mining - Vorbesprechung · Verwendet optimale Gewicht (bzgl. exp. loss) Big Learning Wie große Datenmengen speichern und verwalten? Welcher Einsatzbereich? Hadoop,

Technische Universität München

Data Mining Pipeline

 

 

 

   

Planung Aufbereitung Modellbildung Auswertung

Wir wollen nützliches Wissen aus Daten extrahieren• Planung. Finden des Problems. Was soll gemacht werden?

Dafür nötige Daten sammeln.• Aufbereitung. Rohdaten (unvollständig, redundant,

verschiedene Formate, Einheiten, etc.) werden in einebrauchbare Form gebracht.

• Modellbildung. Daten werden mit verschiedenen Methoden(Regression, Klassifikation, Clustering, etc.) analysiert.

• Auswertung. Interpretation und Auswertung der Ergebnisse.

SCCS: Proseminar - Data Mining

Vorbesprechung, SS 2015 8

Page 9: Proseminar - Data Mining - Vorbesprechung · Verwendet optimale Gewicht (bzgl. exp. loss) Big Learning Wie große Datenmengen speichern und verwalten? Welcher Einsatzbereich? Hadoop,

Technische Universität München

Themen I

• Überblick• Genauere Darstellung der Data Mining Pipeline• Beispiele wo Data Mining verwendet wird

• Einsatz von Data Mining in Industrie• Software: Matlab und R• Software: Python• Software: RapidMiner• Aufbereitung von Daten, Pre-Processing• Hauptkomponentenanalyse• Lineare Modelle für Regression und Klassifikation

• Was sind lineare Modelle? Wieso lineare Modelle? Welche?• Was ist Regression? Beispiele.• Klassifikation mit Thresholding• Vergleich mit z.B. k -nearest Neighbor

SCCS: Proseminar - Data Mining

Vorbesprechung, SS 2015 9

Page 10: Proseminar - Data Mining - Vorbesprechung · Verwendet optimale Gewicht (bzgl. exp. loss) Big Learning Wie große Datenmengen speichern und verwalten? Welcher Einsatzbereich? Hadoop,

Technische Universität München

Themen II

• Lernen mit Kernels• Max-margin Prinzip, Kernel Trick, SVM

• Spam Filtering with Naive Bayes Classifier• Entscheidungsbäume

• Merkmale in Reihenfolge der Wichtigkeit überprüfen• Es entsteht ein Baum

• Neuronale Netze I: Grundlagen• Neuronale Netze II: Deep Learning

SCCS: Proseminar - Data Mining

Vorbesprechung, SS 2015 10

Page 11: Proseminar - Data Mining - Vorbesprechung · Verwendet optimale Gewicht (bzgl. exp. loss) Big Learning Wie große Datenmengen speichern und verwalten? Welcher Einsatzbereich? Hadoop,

Technische Universität München

Themen III

• Association Rules• Finde gemeinsame Belegung von Variablen die möglichst oft

in Datenbank auftritt• Z.B.: Bier und Windeln werden of zusammen gekauft

• Clustering• Finde Struktur in Daten, kein “outcome” vorhanden• k -means, mixture of gaussians

• Dichteschätzung• Schätzen der Dichte P eines gegebenen Datensatzes

X = {x1, . . . , xM}.• Histogram, Kerndichteschätzer, etc.

• Reinforcement Learning• Das System bekommt sofort Feedback und reagiert darauf• Welche Verfahren gibt es? Anwendungsbeispiele?

SCCS: Proseminar - Data Mining

Vorbesprechung, SS 2015 11

Page 12: Proseminar - Data Mining - Vorbesprechung · Verwendet optimale Gewicht (bzgl. exp. loss) Big Learning Wie große Datenmengen speichern und verwalten? Welcher Einsatzbereich? Hadoop,

Technische Universität München

Themen IV

• Ensemble Learning• Verbinde mehrere verschiedene Algorithmen• Gewichte einzelne Antworten entsprechend• AdaBoost

• Kann als Ensemble Methode angesehen werden• Verwendet optimale Gewicht (bzgl. exp. loss)

• Big Learning• Wie große Datenmengen speichern und verwalten? Welcher

Einsatzbereich?• Hadoop, Cassandra, BigTable, ...• Stochastic Gradient Descent• Map-Reduce Parallelization

• Recommender Systems with Colaborative Filtering• Natural Language Processing

SCCS: Proseminar - Data Mining

Vorbesprechung, SS 2015 12

Page 13: Proseminar - Data Mining - Vorbesprechung · Verwendet optimale Gewicht (bzgl. exp. loss) Big Learning Wie große Datenmengen speichern und verwalten? Welcher Einsatzbereich? Hadoop,

Technische Universität München

Themen V

• Latent Semantic Indexing• Latent Dirichlet allocation

• Data Mining für soziale Netzwerke

• Data Mining und Gesellschaft: Datenschutz, Verantwortung, usw.

SCCS: Proseminar - Data Mining

Vorbesprechung, SS 2015 13

Page 14: Proseminar - Data Mining - Vorbesprechung · Verwendet optimale Gewicht (bzgl. exp. loss) Big Learning Wie große Datenmengen speichern und verwalten? Welcher Einsatzbereich? Hadoop,

Technische Universität München

Reviews

• Jede Ausarbeitung wird von zwei anderen Teilnehmern überprüft.• Dabei wird geachtet auf:

• Inhaltliches: Wissenschaftlichkeit, Verständlichkeit,Zusammenhänge klar, Beispiele hilfreich, ...

• Formelles: Sinnvolle Struktur der Ausarbeitung, Richtigzitiert, Grafiken mit Quelle versehen, ...

• Sprachliches: Rechtschreib- und Grammatikfehler (sollteneigentlich keine vorhanden sein ;-) )

• Damit der Review-Prozess funktionniert, muss die Ausarbeitungzur Deadline abgegeben werden!

• Der Stand der Ausarbeitung ist dabei "Release Candidate", nichtalpha oder beta

• Nach Abgabe der Reviews: Einarbeitung der Anmerkungen indie eigene Ausarbeitung

• Dann: Abgabe der finalen Ausarbeitung beim Betreuer

SCCS: Proseminar - Data Mining

Vorbesprechung, SS 2015 14

Page 15: Proseminar - Data Mining - Vorbesprechung · Verwendet optimale Gewicht (bzgl. exp. loss) Big Learning Wie große Datenmengen speichern und verwalten? Welcher Einsatzbereich? Hadoop,

Technische Universität München

Organisatorisches I

• Jedem Teilnehmer wird ein Betreuer zugewiesen• Vortrag: ca. 20min + Diskussion• Ausarbeitung: mind. 5 und max. 6 Seiten (LATEX) im IEEE Format

(Webseite), excl. Quellenangaben.• Wichtige Termine:

• Anmeldung bei Betreuern (3 Themen) bis 3.2, über dasAnmeldeformular (LS Webseite)

• Anmeldung im Matching System 30.01.15 bis 3.02.15http://www.in.tum.de/en/current-students/modules-and-courses/

practical-courses-and-seminar-courses.html

• Themenzuteilung: 11.2 oder 12.2

SCCS: Proseminar - Data Mining

Vorbesprechung, SS 2015 15

Page 16: Proseminar - Data Mining - Vorbesprechung · Verwendet optimale Gewicht (bzgl. exp. loss) Big Learning Wie große Datenmengen speichern und verwalten? Welcher Einsatzbereich? Hadoop,

Technische Universität München

Organisatorisches II

• Obligatorische Termine:1. Kick-Off Veranstaltung am 13.4 um 15 Uhr2. Literaturrecherche Workshop am 14.4 um 15 Uhr3. Vortragstermin wird (geblockt) zugeteilt, voraussichtlich 10.6 bis 12.64. 4 Wochen vor dem Vortrag - ein Entwurf der Ausarbeitung beim

Betreuer einreichen (per Email)5. 2 Wochen vor dem Vortrag - Folien beim Betreuer einreichen6. Am Tag des Vortrages - Abgabe der Ausarbeitung (Moodle)7. 1 Woche nach dem Vortrag - Einreichung der Reviews (Moodle)8. 2 Wochen nach dem Vortrag - Einreichung der fertigen Ausarbeitung

(Moodle)

• Webseite:http://www5.in.tum.de/wiki/index.php/Proseminar_Data_Mining_-_Summer_15 oderhttp://www5.in.tum.de → Teaching → Summer 15 → Proseminar - Data Mining

SCCS: Proseminar - Data Mining

Vorbesprechung, SS 2015 16

Page 17: Proseminar - Data Mining - Vorbesprechung · Verwendet optimale Gewicht (bzgl. exp. loss) Big Learning Wie große Datenmengen speichern und verwalten? Welcher Einsatzbereich? Hadoop,

Technische Universität München

Die ersten Schritte im Seminar• Kontaktiere deinen Betreuer wegen dem Thema und Referenzen

(falls noch keine erhalten).• Mache ein LaTeX Tutorial, z.B. online.• Lade das IEEE Template und lerne die Struktur kennen.• Lese das IEEE Editorial Style Manual, markiere für diese Arbeit

relevante Teile und nutze es später als Nachschlagewerk.Vor der ersten Abgabe der Ausarbeitung

• Mache eine automatische Rechtschreibkorrektur.• Gehe durch die Checkliste auf der LS Webseite. Hast du alle

Punkte berücksichtigt?• Überprüfe ob die Regeln aus IEEE Editorial Style Manual

berücksichtigt sind.Vor der letzten Abgabe der Ausarbeitung

• Mache die gleichen Schritte wie bei der ersten Abgabe.• Überprüfe ob die Angaben im Literaturverzeichnis korrekt sind.

SCCS: Proseminar - Data Mining

Vorbesprechung, SS 2015 17