l13: Заключительная
TRANSCRIPT
Введение в Data ScienceЗанятие 13. Заключительное
Николай Анохин Михаил Фирулик
31 мая 2014 г.
Предобработка данных
Заключение
Выбор параметров модели
Предобработка данных
I выбор признаков / feature selectionI дискретизация признаков / feature discretizationI очистка данных / data cleansingI уменьшение размерности / dimensionality reduction
Зачем выбирать признаки?
1. Качествоподвержены влиянию случайных признаков: DT, KNN, ...
2. Скоростьхотя отбор признаков на практике медленный
3. Интерпретируемость
Подходы к выбору признаков
I Ручнойлучше, если вы знаете, что делаете
I АвтоматизированныйI Схемо-независимый / Scheme-independentI Схемо-зависимый / Scheme-specific
Схемо-независимый подход
I Выбрать столько, чтобыидентифицировать каждыйобъект
I Техника near-hit, near-missI С помощью выбранного
критерия качестваI С помощью алгоритма
машинного обученияDecision Tree, Linear Model
Критерии качества признаков
Сколько?I Фиксированное количество
Пример: лучшие 100 признаковI Percentile
Пример: лучшие 20 процентовКак?
I Mutual Information
I (X ,Y ) =∑x
∑y
p(x , y) log
(p(x , y)
p(x)p(y)
)I Statistical Tests
Chi2, binomial , ...
Схемо-зависимый поиск в пространстве признаков
I Forward-selectionI Backward-elimination
Что мы рассмотрели: классификация
Что мы рассмотрели: кластеризация
Что мы рассмотрели: технологии
Что мы не рассмотрели
I neural networksI genetic algorithmsI dimensionality reductionI semi-supervised learningI reinforcement learningI NLP, SNAI и еще много чего
Что делать дальше
I Kaggle http://blog.kaggle.com/I Hilary Mason http://www.hilarymason.com/I Alex Holmes http://grepalex.com/I Cloudera http://blog.cloudera.com/I CourseraI Аспирантура (+PhD)I ТрудоустройствоI Собственный проект
На самом деле, еще не совсем все
Результаты (17 июня 00.00)I Код на bbI Проклассифицированные
пользователиПрезентация (17 июня 09.30)
I Использованные признакиI Выбранная модельI Результаты классификации
Время: 10 + 5 мин