l13: Заключительная

16
Введение в Data Science Занятие 13. Заключительное Николай Анохин Михаил Фирулик 31 мая 2014 г.

Upload: technosphere1

Post on 02-Jul-2015

193 views

Category:

Software


1 download

TRANSCRIPT

Page 1: L13: Заключительная

Введение в Data ScienceЗанятие 13. Заключительное

Николай Анохин Михаил Фирулик

31 мая 2014 г.

Page 2: L13: Заключительная

Предобработка данных

Заключение

Page 3: L13: Заключительная

Выбор параметров модели

Page 4: L13: Заключительная

Предобработка данных

I выбор признаков / feature selectionI дискретизация признаков / feature discretizationI очистка данных / data cleansingI уменьшение размерности / dimensionality reduction

Page 5: L13: Заключительная

Зачем выбирать признаки?

1. Качествоподвержены влиянию случайных признаков: DT, KNN, ...

2. Скоростьхотя отбор признаков на практике медленный

3. Интерпретируемость

Page 6: L13: Заключительная

Подходы к выбору признаков

I Ручнойлучше, если вы знаете, что делаете

I АвтоматизированныйI Схемо-независимый / Scheme-independentI Схемо-зависимый / Scheme-specific

Page 7: L13: Заключительная

Схемо-независимый подход

I Выбрать столько, чтобыидентифицировать каждыйобъект

I Техника near-hit, near-missI С помощью выбранного

критерия качестваI С помощью алгоритма

машинного обученияDecision Tree, Linear Model

Page 8: L13: Заключительная

Критерии качества признаков

Сколько?I Фиксированное количество

Пример: лучшие 100 признаковI Percentile

Пример: лучшие 20 процентовКак?

I Mutual Information

I (X ,Y ) =∑x

∑y

p(x , y) log

(p(x , y)

p(x)p(y)

)I Statistical Tests

Chi2, binomial , ...

Page 9: L13: Заключительная

Схемо-зависимый поиск в пространстве признаков

I Forward-selectionI Backward-elimination

Page 10: L13: Заключительная

Что мы рассмотрели: классификация

Page 11: L13: Заключительная

Что мы рассмотрели: кластеризация

Page 12: L13: Заключительная

Что мы рассмотрели: технологии

Page 13: L13: Заключительная

Что мы не рассмотрели

I neural networksI genetic algorithmsI dimensionality reductionI semi-supervised learningI reinforcement learningI NLP, SNAI и еще много чего

Page 14: L13: Заключительная

Что делать дальше

I Kaggle http://blog.kaggle.com/I Hilary Mason http://www.hilarymason.com/I Alex Holmes http://grepalex.com/I Cloudera http://blog.cloudera.com/I CourseraI Аспирантура (+PhD)I ТрудоустройствоI Собственный проект

Page 16: L13: Заключительная

На самом деле, еще не совсем все

Результаты (17 июня 00.00)I Код на bbI Проклассифицированные

пользователиПрезентация (17 июня 09.30)

I Использованные признакиI Выбранная модельI Результаты классификации

Время: 10 + 5 мин