#3 global ai meetup (nlp) - Михаил Бурцев, deephacklab

DEEPNEURAL

LANGUAGEPROCESSING

Михаил Бурцев,к.ф.-м.н., зав. лаб.

«Нейронных сетей и глубокого обучения» МФТИ

Фундаментальная цель – Прикладная цель -

Понять природу человека Получить помощника

•

ЧТО ТАКОЕ ИСКУССТВЕННЫЙ ИНТЕЛЛЕКТ (ИИ)?

ДВА ПУТИ

Нейроны передают электрические сигналы

мозг можно смоделировать

электрической схемой

искусственные нейронные

сети

Человеческий интеллект основан на манипуляции

с символами

компьютер совершает манипуляции с

символами

искусственный интеллект

ЭВОЛЮЦИЯ ИИ

• Классификацияогромных массивовизображений и видео.

• Google и Facebook охотятся за головамиученых занимающихсянейронными сетями.

• Нейросети учатся игратьв игры по картинке.

deep learning

ЧТО ТАКОЕ ИСКУССТВЕННЫЕ НЕЙРОННЫЕ СЕТИ ИГЛУБОКОЕ ОБУЧЕНИЕ?

• Активность нейрона определяется преобразованием взвешенного суммарного воздействия на него

• Воздействия могут быть активирующими(положительные веса) или тормозными (отрицательные веса)

ИСКУССТВЕННЫЙНЕЙРОН

• Искусственная нейронная сеть(ИНС) является концептуальной моделью биологической нейронной сети

• Состоит из элементов, влияющих на активность друг друга

• Основные свойства– надежность – по мере

ухудшения качества входа, удалении связей или элементов эффективность сети снижается постепенно

– гибкость – ИНС могут быть применены в широком круге задач

– генерализация – достаточно обучения на ограниченной выборке

– ассоциативность памяти

ИСКУССТВЕННАЯНЕЙРОНАЯ СЕТЬ

• Обучение нейросетипроисходит за счетизменения весов

БАЗОВЫЕ ПОНЯТИЯ

ЧТО ТАКОЕГЛУБОКОЕ ОБУЧЕНИЕ?

DEEP LEARNING =

NEURAL NETS +BIG DATA + GPU

В И Д Е Т Ь П О Н И М А Т Ь Д Е Й С Т В О В А Т Ь

СОВРЕМЕННЫЕ НАПРАВЛЕНИЯ ИССЛЕДОВАНИЙ В ОБЛАСТИ ГЛУБОКОГО ОБУЧЕНИЯ

РЕКУРРЕНТНЫЕ НЕЙРОННЫЕ СЕТИ

задача предсказания временных рядов

архитектура рекуррентной сети

LSTM ячейка

примеры приложений в области работы с текстом

• «Классические» нейронные сети – сети прямого распространения (feedforward network) не обладают памятью.

• «Активации» проходят всю сеть насквозь.

• Нейросети «с памятью» –рекуррентные сети.

• За счет наличия обратных связей «активации» циркулируют в сети.

В П О И С К А Х П А М Я Т И

сеть прямого распространения

рекуррентная сеть

• Сигнал затухает!

П Р О Б Л Е М А Г Л У Б И Н Ы

L ST M : Н Е Й Р О А Р Х И Т Е К Т У Р А

Алиса теперь счастлива.

Она не говорит, что это так. Она в опасности. Она выглядит прекрасно. Она была на концерте Фаллуджи. Я знаю, что она влюблена в него.Она великолепна.Она принесла нам немного воды. Она ведьма. А когда она говорит: "Я не говорю, что когда она позвонит" И когда она вернётся, я поняла,

Алиса попала в беду.

И все же так обожает. Ты не нашел ее? Она изменила свою жизнь. . ♪ К кому она придумала это? ♪Да, да. Она не умеет жить. А она не знает, кто ты? Я видела в ней все свои приключения. Вот она вот и все. Она не собирается никого убивать.

Джон теперь счастлив.

Спасибо. Да, на дворе 800 фунтов на каждом месте преступления в 1000 тысяч градусов по матче. Он в самом деле собирается позволить себе просто бросить все на свои места. Да, я тоже так думал. Я не знаю, что в нем

Джон попал в беду.

• Сверхъестественное: Ваша честь, это был не мы.

• И все они возвращаются в Вашингтон. • Он был не таким, как было в прошлом

году• Придурок! • Свиньи собираются в Старлинг Сити. • Он был в отчаянии. • Вот что я вам скажу. • И когда он вернулся, я выбросил его в

офис.• Я тоже хотел это сделать.

РАБОТА С ЕСТЕСТВЕННЫМ ЯЗЫКОМ И ДИАЛОГОВЫЕ СИСТЕМЫ

Около 25% всех сообщений электронной почты содержат менее 20 токенов.

Kannan, A., Kurach, K., Ravi, S., Kaufmann, T., Tomkins, A., Miklos, B., ... & Ramavajjala, V. (2016). Smart Reply: Automated Response Suggestion for Email. In Proceedings of the ACM SIGKDD Conference on Knowledge Discovery and Data Mining (KDD)} (Vol. 36, pp. 495-503).


Внутреннее представление вопроса


Вызовы:

• Качество• недопустимость некачественных

ответов

• Полезность• необходимо максимизировать

использования сервиса

• Масштабируемость• миллионы сообщений в день

• Приватность• должна использоваться только

агрегированная статистика


Предобработка


Триггер ответа

- сеть прямого распространения с 3 слоями;- на вход подаются векторные представления

темы и содержания, а также дополнительная информация (наличие отправителя в адресной книге, наличие прочитанных писем от него);

- обучающая выборка состоит из писем двух категорий – был ответ с мобильного устройства или нет;

- в результате 10% сообщений классифицируются, как требующие ответа.


Выбор ответа

- LSTM сеть - на вход подается векторное представление

последовательности токенов;- выход последовательность токенов ответа;- при декодировании ответа используются

токены только из разрешенных ответов.


Множество разрешенных ответов

- выбор «канонических ответов»- “Thanks for your kind update.”, “Thank you

for updating!”, “Thanks for the statusupdate.”

- кластеризация по намерению- “Ha ha”, “lol” and “Oh that’s funny!” are

associated with the funny cluster


Диверсификация кандидатных ответов

- только один кандидат из кластера- обязательное присутвие, как «позитивных», так и

«негативных» ответов


Google's Neural Machine Translation System: Bridging the Gap between Human and Machine Translation https://arxiv.org/abs/1609.08144 , Mon, 26 Sep 2016

Google's Neural Machine Translation System

https://arxiv.org/abs/1609.08144



Проблема: Затухающие градиенты - Решение:Residual connections




Проблема: Затухающий сигнал - Решение: Двунаправленное кодирование


от BIG DATA к DEEP LEARNING

глубокое обучение делает большие данные осмысленными

Neural Networks

and Deep Learning

Lab

https://www.udacity.com/course/deep-learning--ud730

https://www.udacity.com/course/deep-learning--ud730

#3 global ai meetup (nlp) - Михаил Бурцев, deephacklab

Business