![Page 1: Смолина Пользовательские интерфейсы систем лингвистической разметки текстов](https://reader037.vdocuments.mx/reader037/viewer/2022103010/587094c61a28ab412b8b6435/html5/thumbnails/1.jpg)
Пользовательские интерфейсы систем лингвистической разметки
текстов
Автор: Смолина Мария, 425 группа
![Page 2: Смолина Пользовательские интерфейсы систем лингвистической разметки текстов](https://reader037.vdocuments.mx/reader037/viewer/2022103010/587094c61a28ab412b8b6435/html5/thumbnails/2.jpg)
Содержание
1. Основные виды лингвистической разметки
2. Стандарты разметки 3. Этапы лингвистической разметки 4. Требования к системе разметки 5. Обзор систем разметки 6. Разрабатываемый программный
инструмент
2
![Page 3: Смолина Пользовательские интерфейсы систем лингвистической разметки текстов](https://reader037.vdocuments.mx/reader037/viewer/2022103010/587094c61a28ab412b8b6435/html5/thumbnails/3.jpg)
Основные виды лингвистической разметки
• Лингвистическая разметка необходима для машинной обработки текстов на естественном языке.
• В размеченном виде тексты удобно хранить и подавать на вход различным программным инструментам.
Основные виды разметки:
Метаразметка (автор текста, название, место издания и т.п.) Графематическая (границы слов, заголовки, числа)
Морфологическая (часть речи, падеж, начальная форма) Синтаксическая (отражение синтаксической структуры
предложений)
Семантическая (отношения род-вид, часть-целое, синонимия)
3
![Page 4: Смолина Пользовательские интерфейсы систем лингвистической разметки текстов](https://reader037.vdocuments.mx/reader037/viewer/2022103010/587094c61a28ab412b8b6435/html5/thumbnails/4.jpg)
Пример графематической разметки (проект Диалинг-АОТ)
4
![Page 5: Смолина Пользовательские интерфейсы систем лингвистической разметки текстов](https://reader037.vdocuments.mx/reader037/viewer/2022103010/587094c61a28ab412b8b6435/html5/thumbnails/5.jpg)
5
Основные стандарты разметки Существует ряд международных стандартов представления размеченных текстов: Проект TEI
(использовался при создании НКРЯ)
Рекомендации EAGLES
CDIF
CES
XCES
![Page 6: Смолина Пользовательские интерфейсы систем лингвистической разметки текстов](https://reader037.vdocuments.mx/reader037/viewer/2022103010/587094c61a28ab412b8b6435/html5/thumbnails/6.jpg)
6
Пример морфологической разметки в стандарте TEI
<s>
<w><ana lex=“конкурент” gr=“S”></ana>Конкуренты</w>
<w><ana lex=“наступать” gr=“V”></ana>наступают</w>
<w><ana lex=“на” gr=“PR”></ana>на</w>
<w><ana lex=“пятка” gr=“S”></ana>пятки</w>.
</s>
Тег <w> обозначает слово, <s> - предложение
![Page 7: Смолина Пользовательские интерфейсы систем лингвистической разметки текстов](https://reader037.vdocuments.mx/reader037/viewer/2022103010/587094c61a28ab412b8b6435/html5/thumbnails/7.jpg)
Этапы лингвистической разметки • Естественный язык сложен и постоянно изменяется. • Разметка текстов, как правило, неоднозначна. • Системы автоматической разметки работают с ошибками Графематическая разметка: А. Кот смотрел на Ильина Б. В. Шпак смотрел на… Морфологическая разметка: слово ПЕЧЬ может быть как глаголом, так и существительным Как правило, разметка текста производится в два этапа: 1. Автоматическая разметка текста (корпуса текстов) 2. Ручная корректировка результатов экспертом
7
![Page 8: Смолина Пользовательские интерфейсы систем лингвистической разметки текстов](https://reader037.vdocuments.mx/reader037/viewer/2022103010/587094c61a28ab412b8b6435/html5/thumbnails/8.jpg)
8
Требования к системе разметки
Система разметки должна обладать следующими свойствами: Доступность Простота использования, наличие документации Поддержка основных видов разметки Сохранение результатов в соответствующем
стандарту виде Поддержка русского языка Удобный пользовательский интерфейс для ручной
корректировки результата Плюсом является поддержка дополнительных видов
разметки
![Page 9: Смолина Пользовательские интерфейсы систем лингвистической разметки текстов](https://reader037.vdocuments.mx/reader037/viewer/2022103010/587094c61a28ab412b8b6435/html5/thumbnails/9.jpg)
9
Системы разметки UAM CorpusTool Автор: Mick O` Donnell, 2011 год BRAT rapid annotation tool Авторы: Pontus Stenetorp, Sampo Pyysalo, Goran Topić, Япония, Великобритания, 2012 год NooJApp Автор: Max Silberztein, Франция, 2002 год
Проекты OpenCorpora Цель проекта – создать открытый размеченный корпус текстов на русском языке
![Page 10: Смолина Пользовательские интерфейсы систем лингвистической разметки текстов](https://reader037.vdocuments.mx/reader037/viewer/2022103010/587094c61a28ab412b8b6435/html5/thumbnails/10.jpg)
10
UAM CorpusTool: основные функции
Создание собственного корпуса текстов Автоматическая разметка для англоязычных текстов Исправление автоматической разметки Разметка текста вручную Добавление собственных дескрипторов Сохранение разметки в формате XML
![Page 11: Смолина Пользовательские интерфейсы систем лингвистической разметки текстов](https://reader037.vdocuments.mx/reader037/viewer/2022103010/587094c61a28ab412b8b6435/html5/thumbnails/11.jpg)
11
UAM CorpusTool: интерфейс
![Page 12: Смолина Пользовательские интерфейсы систем лингвистической разметки текстов](https://reader037.vdocuments.mx/reader037/viewer/2022103010/587094c61a28ab412b8b6435/html5/thumbnails/12.jpg)
12
UAM CorpusTool: особенности
Система доступна для скачивания, проста в установке, но ее исходный код закрыт
Проста в использовании, имеет полную документацию
Поддерживаются основные виды разметки для англоязычных текстов
Результат сохраняется в формате stand-off xml Нет автоматической разметки для русского языка Интерфейс для ручной корректировки результата
разметки прост и понятен
![Page 13: Смолина Пользовательские интерфейсы систем лингвистической разметки текстов](https://reader037.vdocuments.mx/reader037/viewer/2022103010/587094c61a28ab412b8b6435/html5/thumbnails/13.jpg)
13
BRAT rapid annotation tool: основные функции
Автоматическая разметка для англоязычных текстов Исправление автоматической разметки Извлечение некоторой информации из текстов
(имен, названий географических объектов) Разметка текста вручную
![Page 14: Смолина Пользовательские интерфейсы систем лингвистической разметки текстов](https://reader037.vdocuments.mx/reader037/viewer/2022103010/587094c61a28ab412b8b6435/html5/thumbnails/14.jpg)
14
BRAT rapid annotation tool: интерфейс
![Page 15: Смолина Пользовательские интерфейсы систем лингвистической разметки текстов](https://reader037.vdocuments.mx/reader037/viewer/2022103010/587094c61a28ab412b8b6435/html5/thumbnails/15.jpg)
15
BRAT rapid annotation tool: особенности
Система доступна для скачивания, процесс установки сложен, открытый исходный код
Не очень сложна в использовании, имеет документацию
Для англоязычных текстов поддерживаются основные виды разметки
Результат сохраняется в формате stand-off ann Для русского языка поддерживается только
автоматическая графематическая разметка Интерфейс для ручной корректировки результата
разметки прост и понятен
![Page 16: Смолина Пользовательские интерфейсы систем лингвистической разметки текстов](https://reader037.vdocuments.mx/reader037/viewer/2022103010/587094c61a28ab412b8b6435/html5/thumbnails/16.jpg)
16
NooJApp: основные функции
Автоматическая графематическая, морфологическая и синтаксическая разметка для английского языка
Исправление автоматической разметки Разметка текста вручную Подсчет количества букв, токенов и других
статистических данных
![Page 17: Смолина Пользовательские интерфейсы систем лингвистической разметки текстов](https://reader037.vdocuments.mx/reader037/viewer/2022103010/587094c61a28ab412b8b6435/html5/thumbnails/17.jpg)
17
NooJApp: интерфейс
![Page 18: Смолина Пользовательские интерфейсы систем лингвистической разметки текстов](https://reader037.vdocuments.mx/reader037/viewer/2022103010/587094c61a28ab412b8b6435/html5/thumbnails/18.jpg)
18
NooJApp: особенности
Система доступна для скачивания, процесс установки легкий, открытый исходный код
Не очень сложна в использовании, имеет документацию
Основные виды разметки поддерживаются только для английского языка
Результаты сохраняются в формате not, xml (стандарт TEI) Автоматическая разметка поддерживается только
для английского языка Интерфейс системы не очень удобен для работы
![Page 19: Смолина Пользовательские интерфейсы систем лингвистической разметки текстов](https://reader037.vdocuments.mx/reader037/viewer/2022103010/587094c61a28ab412b8b6435/html5/thumbnails/19.jpg)
19
Проект OpenCorpora • Проект предназначен для создания размеченного
корпуса русскоязычных текстов силами сообщества. • Каждый может принять участие в его создании. • Сначала тексты размечаются автоматически, затем
участникам предлагается исправить ошибки автоматической разметки.
Интерфейс
![Page 20: Смолина Пользовательские интерфейсы систем лингвистической разметки текстов](https://reader037.vdocuments.mx/reader037/viewer/2022103010/587094c61a28ab412b8b6435/html5/thumbnails/20.jpg)
20
Итог • На данный момент существует множество систем разметки,
но все они ориентированы на работу с англоязычными текстами.
• Некоторые из этих систем недостаточно удобные и требуют немало времени для освоения своего интерфейса.
Необходим программный инструмент: 1. Доступный, простой в использовании 2. Поддерживающий основные виды разметки 3. Отвечающий стандартам 4. Ориентированный на работу с русскоязычными
текстами 5. Обладающий удобным пользовательским
интерфейсом для корректировки результата
![Page 21: Смолина Пользовательские интерфейсы систем лингвистической разметки текстов](https://reader037.vdocuments.mx/reader037/viewer/2022103010/587094c61a28ab412b8b6435/html5/thumbnails/21.jpg)
21
Linguistic annotation system: основные функции
Автоматическая графематическая разметка для
русского языка Исправление автоматической разметки Сохранение разметки в формате XML
В дальнейшем будут добавлены модули морфологической и терминологической разметки, возможность сохранения разметки в соответствии со стандартом TEI.
![Page 22: Смолина Пользовательские интерфейсы систем лингвистической разметки текстов](https://reader037.vdocuments.mx/reader037/viewer/2022103010/587094c61a28ab412b8b6435/html5/thumbnails/22.jpg)
22
Linguistic annotation system: интерфейс
![Page 23: Смолина Пользовательские интерфейсы систем лингвистической разметки текстов](https://reader037.vdocuments.mx/reader037/viewer/2022103010/587094c61a28ab412b8b6435/html5/thumbnails/23.jpg)
23
Linguistic annotation system: интерфейс
![Page 24: Смолина Пользовательские интерфейсы систем лингвистической разметки текстов](https://reader037.vdocuments.mx/reader037/viewer/2022103010/587094c61a28ab412b8b6435/html5/thumbnails/24.jpg)
24
Linguistic annotation system: особенности Доступное web-приложение, установка не требуется Простота использования Поддержка графематической разметки, в
дальнейшем и других основных видов разметки Полностью ориентировано на работу с
русскоязычными текстами Есть интуитивно понятный интерфейс для ручной
корректировки результата Поддержка дополнительных видов разметки
(терминологическая разметка)
![Page 25: Смолина Пользовательские интерфейсы систем лингвистической разметки текстов](https://reader037.vdocuments.mx/reader037/viewer/2022103010/587094c61a28ab412b8b6435/html5/thumbnails/25.jpg)
Спасибо за внимание!
25