Система автоматизированного извлечения контактной...
TRANSCRIPT
Дипломная работа на тему: «Система автоматизированного
извлечения контактной информации об организации из неструктурированных
данных о филиалах»
Руководитель: Горский К.П. Дипломник группы 08-606: Карпова В.А.
МИНИСТЕРСТВО ОБРАЗОВАНИЯ И НАУКИ РОССИЙСКОЙ ФЕДЕРАЦИИ ФЕДЕРАЛЬНОЕ ГОСУДАРСТВЕННОЕ БЮДЖЕТНОЕ ОБРАЗОВАТЕЛЬНОЕ УЧРЕЖДЕНИЕ ВЫСШЕГО ПРОФЕССИОНАЛЬНОГО ОБРАЗОВАНИЯ «МОСКОВСКИЙ
АВИАЦИОННЫЙ ИНСТИТУТ (НАЦИОНАЛЬНЫЙ ИССЛЕДОВАТЕЛЬСКИЙ УНИВЕРСИТЕТ)» (МАИ)
Москва, 2015 г.
1
Актуальность системы• Организации нужны всё время
2
Поиск контактной информации о банках в течение недели
Основная цель• Показывать актуальную контактную информацию об организации в заголовке письма
3
По какому адресу банка поменять старую карту на новую?
Основная цель• Показывать актуальную контактную информацию об организации во входящем письме
4
Из Справочника Организаций Из Поиска
5
Входные данные
6
Входные данные
Ограничения сервисов
• Справочник: Нельзя изменять информацию об организациях
• Почта: Отображать одну строку между заголовком и телом письма
7
Корректность данных
• «Простейший» алгоритм выбора
56 %44 %
Всего доменов с одной и более проблемамиДоменов без проблем
8
Анализ классификационных признаков
9
Результаты анализа признаков
10
MaxEnt-классификатор• Классификация по формуле:
• Максимизация функции правдоподобия:
11
Оценка качества классификатора
• Точность:
• Полнота:
• F-мера
12
Применение классификатора при выборе контактной информации по
домену организации
13
Телефон
14
Название
15
13
Адрес
16
Сравнение абсолютных значений параметров (до/после)
17
Адреса
Телефоны
Названия
ИТОГО
0 550000 1100000 1650000 2200000
До применения новой схемы выбораПосле применения классификатора и схем выбора
Черные списки• Не все данные из Справочника Организаций - корректные
• Не все организации хотят, чтобы видели их контактную информацию в почте
• Агрегаторы
• Почтовые рассылки
18
Административный интерфейс
19
Административный интерфейс
20
Технологии21
Результаты22
• API для Почтового интерфейса • Формирование Черных Списков, импорт новых данных и экспорт статического API происходит без участия разработчиков и администраторов.
• Контактная информация об организациях отображается в заголовке письма веб-интерфейса Яндекс.Почты.
• Система внедрена в промышленную эксплуатацию
23
API для Почтового интерфейса