Корпусная лингвистика: Проект открытый корпус и...

34
июль 2011 Корпусная лингвистика проект Открытый Корпус и место компьютерной лингвистики в народном хозяйстве Докладчик: Бочаров Виктор

Upload: witology

Post on 19-Jun-2015

1.949 views

Category:

Technology


2 download

TRANSCRIPT

Page 1: Корпусная лингвистика: Проект открытый корпус и применение в народном хозяйстве

июль 2011

Корпусная лингвистика

проект Открытый Корпус и место компьютерной лингвистики в

народном хозяйстве

Докладчик: Бочаров Виктор

Page 2: Корпусная лингвистика: Проект открытый корпус и применение в народном хозяйстве

2

О докладчике

Виктор Бочаров:

• Аспирант кафедры математической лингвистики СПбГУ

• Участник инициативы Mathlingvo и проекта Открытый корпус

Page 3: Корпусная лингвистика: Проект открытый корпус и применение в народном хозяйстве

3

План презентации

• Что такое корпус текстов и зачем он нужен?

• Какие бывают корпуса текстов?

• Какие задачи решает компьютерная лингвистика?

• Зачем нужен ещё один корпус и каким он должен быть?

Page 4: Корпусная лингвистика: Проект открытый корпус и применение в народном хозяйстве

4

Термины

Лингвистический корпус - совокупность текстов, подобранных определённым образом и снабжённых лингвистической информацией.

Корпусная лингвистика - раздел языкознания, занимающийся созданием и использованием корпусов.

Корпусный менеджер - поисковая система по корпусу.

Page 5: Корпусная лингвистика: Проект открытый корпус и применение в народном хозяйстве

5

Термины (2)

Компьютерная лингвистика — раздел прикладной лингвистики, занимающийся применением математических моделей для описания естественного языка.

Natural Language Processing (NLP) — автоматическая обработка естественного языка.

Page 6: Корпусная лингвистика: Проект открытый корпус и применение в народном хозяйстве

6

Использование корпусов

Поиск примеров и определение частотности языковых явлений:• Исследование языка• Составление словарей• Составление учебных пособий

Тестирование и разработка ПО автоматической обработки текста

Page 7: Корпусная лингвистика: Проект открытый корпус и применение в народном хозяйстве

7

Лингвистические корпуса

• Письменная• УстнаяРечь:• Русский • Английский…Язык:• Публицистика • Худ. литература, научно-технические тексты, …Жанр:• Есть• Нет, какая именно?Разметка:• Один • Два, … языкаПараллельность:• Пополняющиеся• Не пополняющиесяИзменяемость:• Полные тексты• Фрагменты текстовПолнота текста:

Page 8: Корпусная лингвистика: Проект открытый корпус и применение в народном хозяйстве

8

Разметка

Экстралингвистическая:• Метатекстовая• Типографская• графематическая

Лингвистическая:• Морфологическая• Синтаксическая• семантическая• ...

Page 9: Корпусная лингвистика: Проект открытый корпус и применение в народном хозяйстве

9

Разметка

Сделанная вручную:• Одним человеком• Несколькими людьми с перекрытием• Несколькими людьми целиком

Автоматическая и проверенная вручную

Автоматическая

Page 10: Корпусная лингвистика: Проект открытый корпус и применение в народном хозяйстве

10

Разметка

Метатекстовая

• Про текст в целом:• Источник текста

(книга, газета, выходные данные, URL, ...)

• Жанр• Автор• Год создания• Тема

Типографская

• Разделение на страницы

• Выбор шрифта• Гарнитура• Жирный / курсив /

подчёркнутый / …• Цвет• Сноски• Гиперссылки• Рисунки, таблицы,

графики• «обвязка» (меню, ...)

Графематическая разметка

• Разделение на• Абзацы• Предложения• Слова• Знаки препинания

Page 11: Корпусная лингвистика: Проект открытый корпус и применение в народном хозяйстве

11

Морфологическая разметка

Лемматизация — определение словарной

формы слова:

• «Столом» - СТОЛ• «Читал», «читавший» -

ЧИТАТЬ• «Стекло» - СТЕКЛО,

СТЕЧЬ• «Стали» - СТАЛЬ, СТАТЬ

Определение грамматических

характеристик слова:

• Существительные: число и падеж;

• Прилагательные: род, число и падеж;

• Глаголы: лицо, число, род, время, наклонение, … падеж, … .

Page 12: Корпусная лингвистика: Проект открытый корпус и применение в народном хозяйстве

12

Морфологическая омонимияЭти типы стали есть в цехе.

Человек человеку волк, а зомби зомби зомби.Косил косой косой косой.

● «стали», «стекло» - сущ. или глагол?● «раме» - дательный или предложный?● «стол» - именительный или винительный?● «море» - МОР или МОРЕ или МОРА?● «из» - предлог ИЗ или имя ИЗА?● «для» - предлог ДЛЯ или глагол ДЛИТЬ?● «при» - предлог ПРИ или глагол ПЕРЕТЬ?

Page 13: Корпусная лингвистика: Проект открытый корпус и применение в народном хозяйстве

13

Синтаксическая разметка

● Многословные сущности:● ФИО, названия компаний, городов, ... .

● «Локальный синтаксис»:● СУЩ + ПРИЛ («красный стол», «железная дорога»,

…),● НАР + ГЛ («быстро бежал», «давно ждёт», …)

● Синтаксис предложения:● Разрешение анафоры («Василий ждёт

Михаила. Он всегда опаздывает»)

Page 14: Корпусная лингвистика: Проект открытый корпус и применение в народном хозяйстве

14

Синтаксическая разметка«Московский Локомотив на своём стадионе в Черкизово обыграл норвежский Бранн со счётом 3:2.»

Page 15: Корпусная лингвистика: Проект открытый корпус и применение в народном хозяйстве

15

Семантическая разметка

● Выбор правильного значения слова:● «Коса» - причёска, инструмент, оружие,

форма рельефа, …● «Ключ» - для открывания замка, часть

иероглифа, родник, скрипичный, телеграфный, …

● Построение семантического графа;● Снятие объектной омонимии:

● ЦСКА — Москва, Киев, Баку, София, Ереван, …

Page 16: Корпусная лингвистика: Проект открытый корпус и применение в народном хозяйстве

16

Лингвистические корпуса

● Создание корпуса — это долго и дорого.

● Один корпус можно использовать много раз:● Для разных задач● Разными людьми

● Многократное использование одного корпуса даёт возможность сравнивать результаты.

Page 17: Корпусная лингвистика: Проект открытый корпус и применение в народном хозяйстве

17

Компьютерная лингвистика

Инструменты анализа текста• Анализаторы: морфологические, синтаксические,

Задачи• Решаются при помощи инструментов :)

Продукты• Для конечного пользователя.

Page 18: Корпусная лингвистика: Проект открытый корпус и применение в народном хозяйстве

18

Инструменты

Алгоритм

Инструмент

Корпус

Page 19: Корпусная лингвистика: Проект открытый корпус и применение в народном хозяйстве

19

ИнструментыДиалог-2011: «The proper place of men and machines in language technology. Processing Russian without any linguistic knowledge», Serge Sharoff, Joakim Nivre

TnT tagger

НКРЯ

PoS taggerдля русского

MaltParser

Синтаксическийанализатор

для русского

SynTagRus

Page 20: Корпусная лингвистика: Проект открытый корпус и применение в народном хозяйстве

20

Задачи

● Извлечение фактов● Классификация текстов● Автоматический перевод● Автоматическое реферирование● Определение тональности

высказывания● Распознавание / синтез речи● OCR● Диалоговые системы

Page 21: Корпусная лингвистика: Проект открытый корпус и применение в народном хозяйстве

21

Продукты

Поиск: Яндекс, Google• Анализ запроса:

• Определение языка запроса• Выделение объектов в запросе (ФИО, география, ...)• Какие слова надо искать вместе, какие — можно

раздельно• Дополнение запроса синонимами

• Анализ документов:• Определение языка документа• Определение жанра• Выделение объектов в документе

Page 22: Корпусная лингвистика: Проект открытый корпус и применение в народном хозяйстве

22

Продукты (2)

Извлечение фактов:• Яндекс.Пресс-Портреты news.yandex.ru/people/

Автоматический перевод:• ПРОМТ• translate.yandex.ru, translate.google.com

Автоматическое реферирование• topicmarks.com

OCR• ABBYY FineReader

Page 23: Корпусная лингвистика: Проект открытый корпус и применение в народном хозяйстве

23

Народное хозяйство

Алгоритмы

Инструменты

КорпусРешения

задач

ПродуктыДругиетехнологии

не лингвистика

лингвистика

Page 24: Корпусная лингвистика: Проект открытый корпус и применение в народном хозяйстве

24

Компьютерная лингвистика

● Сделать информацию из текстов доступной для автоматической обработки:● Извлечение фактов (из текста в БД)

● Сделать информацию удобной для потребления человеком:● OCR, распознавание речи,

реферирование, перевод● Разложить тексты по полочкам:

● Классификация, поиск

Page 25: Корпусная лингвистика: Проект открытый корпус и применение в народном хозяйстве

25

Корпуса русских текстов

● Национальный корпус русского языка (НКРЯ)● Всего

– 341 млн словоупотреблений● Со снятой морфологической омонимией

– 6 млн словоупотреблений● С синтаксической разметкой (SynTagRus)

– 600 тыс словоупотреблений*

● www.ruscorpora.ru

Page 26: Корпусная лингвистика: Проект открытый корпус и применение в народном хозяйстве

26

Корпуса русских текстов

● НКРЯ● 180 тыс словоупотреблений доступно● Только поиск, есть разметка (в том числе

ручная)

● Упсальский корпус● Доступен, нет разметки

● Тюбингенский корпус● Только поиск, есть разметка (автоматическая)

● ХАНКО — хельсинский аннотированный корпус

● Только поиск, есть разметка

Page 27: Корпусная лингвистика: Проект открытый корпус и применение в народном хозяйстве

27

Проблемы

● Авторские права на тексты● Решения:

– Случайный порядок предложений– Доступ только для поиска– Убеждённость, что для научных целей можно

● Высокая стоимость ручной разметки● Решения:

– Автоматическая разметка– Автоматическая разметка с ручной проверкой

Page 28: Корпусная лингвистика: Проект открытый корпус и применение в народном хозяйстве

28

Какой нужен корпус

Доступный• Чтобы можно было скачать

Размеченный

С обратной связью• Web-интерфейс редактирования

Page 29: Корпусная лингвистика: Проект открытый корпус и применение в народном хозяйстве

29

OpenCorpora

Доступен под лицензией CC-BY-SA• Включает только тексты под CC-BY-SA или находящиеся в

общественном достоянии

Ручная разметка

Web-интерфейс редактирования• История правок, откат правок• Дерево комментариев у каждого предложения

Автоматический поиск «ошибок» в разметке

Page 30: Корпусная лингвистика: Проект открытый корпус и применение в народном хозяйстве

30

OpenCorpora - источники

● «Частный корреспондент»● Раздел Википедии на русском языке● Раздел Викиновостей на русском

языке● Худ. литература в общественном

достоянии● Блоги под совместимой лицензией● Научно-техническая литература под

совместимой лицензией● ...

Page 31: Корпусная лингвистика: Проект открытый корпус и применение в народном хозяйстве

31

OpenCorpora - разметка

● Метатекстовая● Типографская*● Графематическая● Морфологическая (автоматическая,

без снятия омонимии)

● Снятие морфологической омонимии● Синтаксическая

Page 32: Корпусная лингвистика: Проект открытый корпус и применение в народном хозяйстве

32

OpenCorpora - объем

Цель на 2011 год• 1 млн словоупотреблений без снятия омонимии

В настоящий момент — 86 тыс.

Page 33: Корпусная лингвистика: Проект открытый корпус и применение в народном хозяйстве

33

Демонстрация

http://opencorpora.org/

Page 34: Корпусная лингвистика: Проект открытый корпус и применение в народном хозяйстве

Вопросы?