2gis machine learning devday
TRANSCRIPT
MACHINE LEARNING
МАШИННОЕ ОБУЧЕНИЕ ДЛЯ АНАЛИЗА ТЕКСТОВИ ВЕБ-МАЙНИНГА
ИВАН БОНДАРЕНКО
АЛЕКСАНДР РАДИОНОВ
ТЕОРИЯ
ВИДЫ ML• Статистические методы
• Нейронные сети
• Рассуждения по аналогии
• Деревья решений
• Генетические алгоритмы
ИЗВЛЕЧЕНИЕ ФАКТОВС САЙТОВ
• Сайты с однотипной структурой
• Разная структура
NAMED ENTITY RECOGNITION
• Определяем классы извлекаемых сущностей
• Размечаем учебный и тестовый корпус
• Обучаем алгоритм
• Извлекаем факты из новых страниц
ЧТО РАСПОЗНАЁМ?
ЧТО РАСПОЗНАЁМ?
ADDR_HOUSE
ADDR_HOUSEADDR_STREET
ADDR_STREET
ADDR_CITY
ADDR_CITY
SCHEDULE
TEL
ORG
КАК РАЗМЕЧАЕМ?
КОРПУС• 10 асессоров
• Свыше 20 тыс сущностей 11 классов
• 9 тыс организаций
• 8 тыс адресов
• 500 расписаний
• …
BIO-ФОРМАТBegin, Inside, Outside
Минздрав B-ORGМосковской I-ORGобласти: I-ORGул. B-ADDR_STREETБольшая I-ADDR_STREETПолянка, I-ADDR_STREETд. B-ADDR_HOUSE42/2 I-ADDR_HOUSE1 Oэтаж O
CONDITIONAL RANDOM FIELDS
y0
y1
y2
yT-1
yT
yT-2
x1
x2
xT-1
xT
xT-2
- вектор признаков t-го слова- класс t-го слова
CONDITIONAL RANDOM FIELDS
- признаки t-го слова- класс t-го слова
ОЦЕНКА КАЧЕСТВА
ПОЛНОТА 69.06ТОЧНОСТЬ 90.69
ПРАКТИКА
ДАННЫЕ
ДАННЫЕ
ШИНЫ
ДАННЫЕ
ДАННЫЕ
РЕГУЛЯРКИ
(?<=\s|[,\(])RE[\s|\-]?(0[0-9]{2})(?=\s|[,\)])
\s?[VZ]?\s?R\s?([0-9]{2}[\.,][0-9]{1,2})
РЕГУЛЯРКИ
Сотни :(
Полнота ~ 50%
RegEx-Hell
ПИОНЕР
Лексикографические признакиМорфологияСловариКорни
Суффиксы / ПрефиксыОпциональные слова
ПОЛНОТА 93.74ТОЧНОСТЬ 97.14
ПОЛНОТА 95.61ТОЧНОСТЬ 97.52
*
* регулярки ~ 50
ЧТО ХОТИМ
• Сверять данные по существующим фирмам
• Искать новые
НАМ ПРИХОДИТСЯ
• Скачивать много сайтов
• Рендерить страницы в браузере
• Извлекать новые ссылки
• Распознавать сущности
КАК ДЕЛАЕМ
• Docker для контейнеров
• Kubernetes для оркестрирования
KUBERNETES
АРХИТЕКТУРА
Downloader
Scheduler
Extractor
KAFKA Saver
DOWNLOADER
• Консольный браузер на базе WebKit
• Расстановка ComputedStyle
DOWNLOADER
<h1> Machine Learning</h1>
DOWNLOADER
<h1 dgis-ner-left="230" dgis-ner-top="347" dgis-ner-width="980" dgis-ner-height="122"> Machine Learning</h1>
EXTRACTOR
Extractor PioNER
POD
RestKafka
Metrics
PIONER
• Сборка, тестирование, обучение на коммит
• Сборка Docker, публикация тоже
• Мониторинг качества
КАЧЕСТВО
КАЧЕСТВО
СКОРОСТЬ
Все сайты из 2ГИС выкачиваются и распознаются за 4 дня
WE MACHINE LEARNING