foss sea 2014_Текстовый анализ на r: подбор рекомендаций для...
DESCRIPTION
22 ноября, Одессе FOSS Sea 2014 (http://geekslab.co/events/21-foss-sea-2014-infrastructure-for-researchers) Текстовый анализ на R: подбор рекомендаций для книжного магазина (Роман Захаров, co-owner SoftCube)TRANSCRIPT
FOSS Sea 2014
Текстовый анализ на R
Роман Захаров, So9cube
Подбор рекомендаций для книжного магазина
Интеллектуальный анализ текстов
Цель: получение информации из коллекций текстовых документов, основываясь на применении методов машинного обучения (machine learning) и обработки естественного языка (natural language processing)
Приложения текстового анализа
-‐ задачи категоризации / кластеризации текстов -‐ приложения к онлайн-‐медиа: рекомендации
контента, подбор по интересам -‐ маркетинговая прогностическая аналитика, в
частности предсказание оттока по отзывам -‐ анализ тональности текста -‐ применение в биоинформатике для связи научных
достижений и карты генов / протеинов -‐ задачи национальной безопасности
Процесс текстового анализа
Сбор данных
Парсинг текста
Фильтрация текста
Транс-‐формация
Текстовый анализ
-‐ документы -‐ веб-‐страницы -‐ комментарии -‐ т.д.
-‐ извлечение слов -‐ частей речи -‐ стемминг -‐ синонимы -‐ фильтрация
-‐ удаление слов -‐ фильтрация цифр, знаков препинания
-‐ подсчет слов -‐ создание term-‐by-‐document матриц -‐ взвешивание -‐ т.д
-‐ определение темы -‐ кластеринг -‐ прогнозы -‐ правила
Метрики похожести текстов: строки
Метрики похожести текстов: корпуса
Метрики похожести текстов: знания
R для текстового анализа
Фреймворки: -‐ tm -‐ koRpus -‐ openNLP Лексические базы данных, манипуляции со строками, стемминг: -‐ wordnet -‐ RKEA -‐ SnowballC -‐ tau
Рекомендации для книжного магазина
Моделирование на реальных данных
Данные, использованные для моделирования: -‐ автор -‐ переводчик -‐ издательство -‐ жанр -‐ описание от издателя
Текстовый анализ: TF-IDF
Значимость термина
Частота термина n в документе d
Уникальность термина среди документов
Текстовый анализ: реализация в R
Текстовый анализ: реализация в R
Текстовый анализ: реализация в R
Текстовый анализ: реализация в R
Текстовый анализ: результаты