Корпусная лингвистика: Проект открытый корпус и...
TRANSCRIPT
июль 2011
Корпусная лингвистика
проект Открытый Корпус и место компьютерной лингвистики в
народном хозяйстве
Докладчик: Бочаров Виктор
2
О докладчике
Виктор Бочаров:
• Аспирант кафедры математической лингвистики СПбГУ
• Участник инициативы Mathlingvo и проекта Открытый корпус
3
План презентации
• Что такое корпус текстов и зачем он нужен?
• Какие бывают корпуса текстов?
• Какие задачи решает компьютерная лингвистика?
• Зачем нужен ещё один корпус и каким он должен быть?
4
Термины
Лингвистический корпус - совокупность текстов, подобранных определённым образом и снабжённых лингвистической информацией.
Корпусная лингвистика - раздел языкознания, занимающийся созданием и использованием корпусов.
Корпусный менеджер - поисковая система по корпусу.
5
Термины (2)
Компьютерная лингвистика — раздел прикладной лингвистики, занимающийся применением математических моделей для описания естественного языка.
Natural Language Processing (NLP) — автоматическая обработка естественного языка.
6
Использование корпусов
Поиск примеров и определение частотности языковых явлений:• Исследование языка• Составление словарей• Составление учебных пособий
Тестирование и разработка ПО автоматической обработки текста
7
Лингвистические корпуса
• Письменная• УстнаяРечь:• Русский • Английский…Язык:• Публицистика • Худ. литература, научно-технические тексты, …Жанр:• Есть• Нет, какая именно?Разметка:• Один • Два, … языкаПараллельность:• Пополняющиеся• Не пополняющиесяИзменяемость:• Полные тексты• Фрагменты текстовПолнота текста:
8
Разметка
Экстралингвистическая:• Метатекстовая• Типографская• графематическая
Лингвистическая:• Морфологическая• Синтаксическая• семантическая• ...
9
Разметка
Сделанная вручную:• Одним человеком• Несколькими людьми с перекрытием• Несколькими людьми целиком
Автоматическая и проверенная вручную
Автоматическая
10
Разметка
Метатекстовая
• Про текст в целом:• Источник текста
(книга, газета, выходные данные, URL, ...)
• Жанр• Автор• Год создания• Тема
Типографская
• Разделение на страницы
• Выбор шрифта• Гарнитура• Жирный / курсив /
подчёркнутый / …• Цвет• Сноски• Гиперссылки• Рисунки, таблицы,
графики• «обвязка» (меню, ...)
Графематическая разметка
• Разделение на• Абзацы• Предложения• Слова• Знаки препинания
11
Морфологическая разметка
Лемматизация — определение словарной
формы слова:
• «Столом» - СТОЛ• «Читал», «читавший» -
ЧИТАТЬ• «Стекло» - СТЕКЛО,
СТЕЧЬ• «Стали» - СТАЛЬ, СТАТЬ
Определение грамматических
характеристик слова:
• Существительные: число и падеж;
• Прилагательные: род, число и падеж;
• Глаголы: лицо, число, род, время, наклонение, … падеж, … .
12
Морфологическая омонимияЭти типы стали есть в цехе.
Человек человеку волк, а зомби зомби зомби.Косил косой косой косой.
● «стали», «стекло» - сущ. или глагол?● «раме» - дательный или предложный?● «стол» - именительный или винительный?● «море» - МОР или МОРЕ или МОРА?● «из» - предлог ИЗ или имя ИЗА?● «для» - предлог ДЛЯ или глагол ДЛИТЬ?● «при» - предлог ПРИ или глагол ПЕРЕТЬ?
13
Синтаксическая разметка
● Многословные сущности:● ФИО, названия компаний, городов, ... .
● «Локальный синтаксис»:● СУЩ + ПРИЛ («красный стол», «железная дорога»,
…),● НАР + ГЛ («быстро бежал», «давно ждёт», …)
● Синтаксис предложения:● Разрешение анафоры («Василий ждёт
Михаила. Он всегда опаздывает»)
14
Синтаксическая разметка«Московский Локомотив на своём стадионе в Черкизово обыграл норвежский Бранн со счётом 3:2.»
15
Семантическая разметка
● Выбор правильного значения слова:● «Коса» - причёска, инструмент, оружие,
форма рельефа, …● «Ключ» - для открывания замка, часть
иероглифа, родник, скрипичный, телеграфный, …
● Построение семантического графа;● Снятие объектной омонимии:
● ЦСКА — Москва, Киев, Баку, София, Ереван, …
16
Лингвистические корпуса
● Создание корпуса — это долго и дорого.
● Один корпус можно использовать много раз:● Для разных задач● Разными людьми
● Многократное использование одного корпуса даёт возможность сравнивать результаты.
17
Компьютерная лингвистика
Инструменты анализа текста• Анализаторы: морфологические, синтаксические,
…
Задачи• Решаются при помощи инструментов :)
Продукты• Для конечного пользователя.
18
Инструменты
Алгоритм
Инструмент
Корпус
19
ИнструментыДиалог-2011: «The proper place of men and machines in language technology. Processing Russian without any linguistic knowledge», Serge Sharoff, Joakim Nivre
TnT tagger
НКРЯ
PoS taggerдля русского
MaltParser
Синтаксическийанализатор
для русского
SynTagRus
20
Задачи
● Извлечение фактов● Классификация текстов● Автоматический перевод● Автоматическое реферирование● Определение тональности
высказывания● Распознавание / синтез речи● OCR● Диалоговые системы
21
Продукты
Поиск: Яндекс, Google• Анализ запроса:
• Определение языка запроса• Выделение объектов в запросе (ФИО, география, ...)• Какие слова надо искать вместе, какие — можно
раздельно• Дополнение запроса синонимами
• Анализ документов:• Определение языка документа• Определение жанра• Выделение объектов в документе
22
Продукты (2)
Извлечение фактов:• Яндекс.Пресс-Портреты news.yandex.ru/people/
Автоматический перевод:• ПРОМТ• translate.yandex.ru, translate.google.com
Автоматическое реферирование• topicmarks.com
OCR• ABBYY FineReader
23
Народное хозяйство
Алгоритмы
Инструменты
КорпусРешения
задач
ПродуктыДругиетехнологии
не лингвистика
лингвистика
24
Компьютерная лингвистика
● Сделать информацию из текстов доступной для автоматической обработки:● Извлечение фактов (из текста в БД)
● Сделать информацию удобной для потребления человеком:● OCR, распознавание речи,
реферирование, перевод● Разложить тексты по полочкам:
● Классификация, поиск
25
Корпуса русских текстов
● Национальный корпус русского языка (НКРЯ)● Всего
– 341 млн словоупотреблений● Со снятой морфологической омонимией
– 6 млн словоупотреблений● С синтаксической разметкой (SynTagRus)
– 600 тыс словоупотреблений*
● www.ruscorpora.ru
26
Корпуса русских текстов
● НКРЯ● 180 тыс словоупотреблений доступно● Только поиск, есть разметка (в том числе
ручная)
● Упсальский корпус● Доступен, нет разметки
● Тюбингенский корпус● Только поиск, есть разметка (автоматическая)
● ХАНКО — хельсинский аннотированный корпус
● Только поиск, есть разметка
27
Проблемы
● Авторские права на тексты● Решения:
– Случайный порядок предложений– Доступ только для поиска– Убеждённость, что для научных целей можно
● Высокая стоимость ручной разметки● Решения:
– Автоматическая разметка– Автоматическая разметка с ручной проверкой
28
Какой нужен корпус
Доступный• Чтобы можно было скачать
Размеченный
С обратной связью• Web-интерфейс редактирования
29
OpenCorpora
Доступен под лицензией CC-BY-SA• Включает только тексты под CC-BY-SA или находящиеся в
общественном достоянии
Ручная разметка
Web-интерфейс редактирования• История правок, откат правок• Дерево комментариев у каждого предложения
Автоматический поиск «ошибок» в разметке
30
OpenCorpora - источники
● «Частный корреспондент»● Раздел Википедии на русском языке● Раздел Викиновостей на русском
языке● Худ. литература в общественном
достоянии● Блоги под совместимой лицензией● Научно-техническая литература под
совместимой лицензией● ...
31
OpenCorpora - разметка
● Метатекстовая● Типографская*● Графематическая● Морфологическая (автоматическая,
без снятия омонимии)
● Снятие морфологической омонимии● Синтаксическая
32
OpenCorpora - объем
Цель на 2011 год• 1 млн словоупотреблений без снятия омонимии
В настоящий момент — 86 тыс.
Вопросы?