Компьютерная лингвистика
Анисья Катинская
Компьютерная лингвистика — направление в прикладной лингвистике, ориентированное на использование компьютерных программ и технологий организации и обработки данных для моделирования функционирования языка в тех или иных условиях, ситуациях, проблемных сферах и т.д., а также вся сфера применения компьютерных моделей языка в лингвистике и смежных дисциплинах.
(А. Н. Баранов, Введение в прикладную лингвистику)
Computational linguistics
Компьютерная лингвистика
Вычислительная лингвистика
Джорджтаунский эксперимент. 1954 г.
Лингвистика (языкознание) — наука о естественном человеческом языке вообще и о всех языках мира как индивидуальных его представителях. Лингвистика изучает язык вообще, как явление, не данное в непосредственном наблюдении.
Язык есть естественно (на определенной стадии развития человеческого общества) возникшая и закономерно развивающаяся семиотическая (знаковая) система, обладающая свойством социальной предназначенности. Это система, существующая прежде всего не для отдельного индивида, а для определенного социума. Кроме того, на эту знаковую систему наложены ограничения, связанные с ее функциями и используемым субстанциальным (звуковым) материалом
(А. Е. Кибрик)
Определение В. П. Селегея
Это формализованная, полная и логически непротиворечивая лингвистика, модели которой могут использоваться при создании программ для обработки текстов.
Компьютерная лингвистика 1 Компьютерная лингвистика 2
Это технология и методология решения практических задач, компьютерного анализа и синтеза языка.
Компьютерная лингвистика (The Association for Computational Linguistics)
Компьютерная лингвистика как исследование языка с вычислительной точки зрения. Компьютерная лингвистика занимается созданием вычислительных моделей различных лингвистических феноменов.
Natural language processing или Автоматическая обработка текста
Преимущественно область Computer Science, искусственного интеллекта и лингвистики. Имеет отношение к человеко-компьютерному взаимодействию, и современные модели АОТ чаще строятся на машинном обучении и статистике, а не моделировании языка.Т.е. для решения своих задач АОТ может использовать формальные модели языка, разных уровней языка, создаваемые компьютерной лингвистикой.
Igor A. Bolshakov and Alexander Gelbukh “COMPUTATIONAL LINGUISTICS: Models, Resources, Applications”
“Intelligent natural language processing is based on the science called computational linguistics. Computational linguistics is closely connected with applied linguistics and linguistics in general.”
© Igor A. Bolshakov, Alexander Gelbukh
Проблемы компьютерной лингвистики
• синтез и распознавание речи;• создание парсеров, морфологических
анализаторов;• вычислительная семантика;• машинный перевод;• симуляция языковой эволюции и ее изучение;• корпусная лингвистика;• создание электронных словарей, тезаурусов.
Проблемы АОТ
1. Хранение текстов и организация поиска по ним
Проблемы АОТ
2. Автоматическое индексирование и рубрицирование (topic segmentation and recognition)
http://maui-indexer.appspot.comhttp://www.alchemyapi.com/api/demo.html
3. Автоматическое аннотирование и реферирование (automatic abstracting)
http://extractorlive.com/on_line_demo.html
Проблемы АОТ
4. Проверка правописания (spelling correction)
Проблемы АОТ
© Daniel Jurafsky, James H. Martin
Минимальное редакционное расстояние
© Daniel Jurafsky, Christopher Manning
© Daniel Jurafsky, Christopher Manning
Минимальное редакционное расстояние
5. Извлечение отношений (relationship extraction)
6. Извлечение именных сущностей (named entity recognition)
http://www.alchemyapi.com
Проблемы АОТ
7. Анализ тональности текста (sentiment analysis)
Проблемы АОТ
© Daniel Jurafsky, Christopher Manning
8. Графематический анализ (word segmentation)
houses.said,
Crazy?positive.”
http://nlp.lsi.upc.edu/freeling/demo/demo.php
Проблемы АОТ
9. Сегментация текста на предложения (sentence breaking or sentence boundary disambiguation)
http://nlp.lsi.upc.edu/freeling/demo/demo.php
Проблемы АОТ
10. Морфологический анализ: стемминг (выделение основы), выделение аффиксов, моделирование словоизменения и словообразования (morphological segmentation)
Проблемы АОТ
Конечный автомат, моделирующий образование форм английского глагола
© Daniel Jurafsky, James H. Martin
Конечный автомат, моделирующий образование форм множественного числа
существительных
© Daniel Jurafsky, James H. Martin
11. Морфологический парсинг (part-of-speech tagging)
Проблемы АОТ
Морфологические парсеры
http://aot.ru/demo/morph.html — словарный методhttp://nlp.lsi.upc.edu/freeling/ — словарный методhttp://nlp.stanford.edu/software/tagger.shtml — машинное обучение
12. Синтаксический парсинг (parsing or syntactic analysis)
http://nlp.lsi.upc.edu/freeling/ — правилаhttp://aot.ru/demo/synt.html — грамматика HPSGhttp://www.dictum.ru/ru/syntax/blog — правилаhttp://nlp.stanford.edu/software/lex-parser.shtml — машинное обучение
Проблемы АОТ
Скобочное представление структуры предложения
© Daniel Jurafsky, James H. Martin
Представление структуры предложения в виде дерева
© Daniel Jurafsky, James H. Martin
13. Оптическое распознавание символов (optical character recognition)
Проблемы АОТ
14. Анализ дискурса (discourse analysis)
15. Автоматическое понимание текста (natural language understanding)АПТ с точки зрения лингвиста Н. Н. Леонтьевой (автор учебника «Автоматическое понимание текстов. Системы, модели, ресурсы»)
Естественный текст 1) тест перевода2) реферат3) ответы на вопросы4) рисунок или таблица
1) сравнение (выявление общего и различного)2) извлечение знаний
Несколько текстов
Проблемы АОТ
16. Автоматическая генерация языка (natural language generation)
Яндекс.РефератыГенерация шуток
http://www.abdn.ac.uk/ncs/computing/research/nlg/demonstrations/joking/
Проблемы АОТ
17. Сегментация речи (speech segmentation)
18. Автоматическое распознавание речи (automatic speech recognition)
19. Синтез звучащей речи (speech synthesis)
http://nlpub.ru/wiki/Распознавание_речи
Проблемы АОТ
© Daniel Jurafsky, James H. Martin
© Daniel Jurafsky, James H. Martin
20. Машинный перевод (machine translation)
«Car firms hope to turn windscreens into giant computer displays that overlay the real world with useful information, such as directions or even social media feeds.»
— «Cars turn to augmented reality», J. Stewart, BBC
Проблемы АОТ
21. Автоматическое установление кореферентных связей в тексте (сoreference resolution)
Проблемы АОТ
22. Вопросно-ответные системы (question-answering system)
Проблемы АОТ
• Category: General ScienceClue: When hit by electrons, a phosphor gives off electromagnetic energy in this form.Answer: Light (or Photons)
• Category: “Rap” SheetClue: This archaic term for a mischievous or annoying child can also mean a rogue or scamp.Subclue 1: This archaic term for a mischievous or annoying child.Subclue 2: This term can also mean a rogue or scamp.Answer: Rapscallion
• Category: Before and After Goes to the MoviesClue: Film of a typical day in the life of the Beatles, which includes running from bloodthirsty zombie fans in a Romero classic.Subclue 2: Film of a typical day in the life of the Beatles. Answer 1: (A Hard Day’s Night)Subclue 2: Running from bloodthirsty zombie fans in a Romero classic.Answer 2: (Night of the Living Dead)Answer: A Hard Day’s Night of the Living Dead
• Category: Decode the Postal CodesVerbal instruction from host: We’re going to give you a word comprising two postal abbreviations; you have to identify the states.Clue: VainAnswer: Virginia and Indiana
© AAAI
“The AI behind Watson – the technical article”
http://www.aaai.org/Magazine/Watson/watson.php
23. Разрешение многозначности (word-sense disambiguation)
Проблемы АОТ
Почему данную задачу так трудно решить?
• Все словари разные и не эквивалентны друг другу.• В некоторых языках проблема определения части речи
тесно связана с разрешением многозначности, эти две задачи могут мешать друг другу.
• Человеческий фактор.• Здравый смысл. «Jill and Mary are sisters.» — они являются сёстрами по отношению друг к другу.«Jill and Mary are mothers.» — каждая независимо является матерью.• Зависимость от задачи.• Дискретное представление значений слова.
Основные подходы к решению проблемы
1. «Глубокий» подход (deep approach)«Зеленый» в сочетании с одуш. сущ. Обозначает «неопытный». В значении «имеющий отношение к зеленому цвету» только с неодуш. сущ.
2. «Поверхностный» подход (shallow approach)«The dogs bark at the tree» bark – гл. «лаять» и сущ. «кора»
Методы решения
• методы, основанные на знаниях (dictionary- и knowledge-based methods);
• методы обучения с учителем (supervised methods);
• методы частичного обучения с учителем (semi-supervised learning);
• методы обучения без учителя (unsupervised methods.
© Daniel Jurafsky, James H. Martin
© Daniel Jurafsky, James H. Martin
«Неудобные» свойства языка
• Неоднозначность
«Сергей вернулся из командировки в Москву».«Мы встретили сына художника, приехавшего из Парижа».«критика ученого»«посещение родственников»«приглашение композитора»
• Несимметричность языков• Избыточность• Конвенциональность языка• Эллиптичность «Дан приказ ему на запад, /Ей — в другую сторону» — М. В. Исаковский); «Тане — 5, а Вале — 3» «Моя мать — врач»• Сложные средства референции
«Неудобные» свойства языка
The approval of CFO is required
Хомский vs. Норвиг
“On Chomsky and the Two Cultures of Statistical Learning”
http://norvig.com/chomsky.html
Deep linguistic processing
HMM Part-of-Speech tagging
“Secretariat Is expected to race tomorrow”
Формула Байеса:
HMM Part-of-Speech tagging
HMM Part-of-Speech tagging
HMM Part-of-Speech tagging
HMM Part-of-Speech tagging
© Daniel Jurafsky, James H. Martin
HMM Part-of-Speech tagging
www.coursera.org
Источники
• Speech and Language Processing. An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition. Daniel Jurafsky, James H. Martin
• COMPUTATIONAL LINGUISTICS: Models, Resources, Applications. Igor A. Bolshakov, Alexander Gelbukh
• Введение в прикладную лингвистику. А. Н. Баранов.• Автоматическое понимание текстов. Системы, модели,
ресурсы. Н. Н. Леонтьева• Лекция В. П. Селегея «Компьютерная лингвистика
сегодня» (9.10.2012)
Спасибо за внимание