презентация1

25
КОРПУСНАЯ ЛИНГВИСТИКА (CORPUS LINGUISTICS)

Upload: pacific-state-university-russia

Post on 12-Jun-2015

484 views

Category:

Documents


1 download

TRANSCRIPT

Page 1: презентация1

КОРПУСНАЯ ЛИНГВИСТИКА (CORPUS LINGUISTICS)

Page 2: презентация1

РАССМАТРИВАЕМЫЕ ВОПРОСЫ

Корпусная лингвистика и понятие лингвистического корпуса.

История зарождения корпусной лингвистики.

Основные различия теоретической и корпусной лингвистик.

Основные понятия корпусной лингвистики и области ее применения

Page 3: презентация1

КОРПУСНАЯ ЛИНГВИСТИКА

научное направление, занимающееся разработкой общих принципов построения и использования лингвистических корпусов (корпусов текста) с использованием компьютерных технологий.

ЦЕЛЬ: лингвистическое описание языковой системы и отражение речевого материала в корпусе текстов, который может использоваться другими лингвистическими дисциплинами;

ОБЪЕКТ: корпус текстов; ПРЕДМЕТ: теоретические основы

и практические механизмы создания и использования представительных массивов языковых данных, предназначенных для лингвистических исследований в интересах широкого круга пользователей;

ЗАДАЧИ: полное и системное отражение содержательного общения на языке.

Page 4: презентация1

ПРИЕМЫ И СТАДИИ РАБОТЫ КОРПУСНОЙ ЛИНГВИСТИКИ

ПРИЕМЫ: автоматическое извлечение

сведений о языке из корпусов; обработка информации; проверка и интерпретация

обработанных данных.

СТАДИИ: необходимость представить

структуру речевой действительности;

выявление материальных ограничений на составление корпуса;

отбор текстов и составление корпуса текста;

компиляция текста.

Page 5: презентация1

ЦЕЛЕСООБРАЗНОСТЬ СОЗДАНИЯ И СМЫСЛ ИСПОЛЬЗОВАНИЯ КОРПУСОВ

достаточно большой (репрезентативный) объем корпуса гарантирует типичность данных и обеспечивает полноту представления всего спектра языковых явлений;

данные разного типа находятся в корпусе в своей естественной контекстной форме, что создает возможность их всестороннего и объективного изучения;

однажды созданный и подготовленный массив данных может использоваться многократно, многими исследователями и в различных целях

Page 6: презентация1

КАТЕГОРИАЛЬНЫЙ АППАРАТ КОРПУСНОЙ ЛИНГВИСТИКИ

Проблемная область — область языковой системы, содержащая феномены, подлежащие лингвистическому описанию

Корпус данных — сформированная по определенным правилам выборка данных из проблемной области.

Единица хранения корпуса данных — совокупность естественноязыковых выражений проблемной области (слова, короткие фразы, предложения, словосочетания, целые тексты или их фрагменты).

Коллокация (collocation) –последовательность слов или терминов, частотность совместного появления которых в корпусе выше, чем ожидаемая вероятность их совместного появления- мощный двигатель, крепкий чай, нельзя сказать крепкий двигатель, мощный чай.

Конкорданс –список всех употреблений заданного языкового выражения (например, слова) в контексте, возможно, со ссылками на источник. Этот термин употребляется и для обозначения ключевых слов книги, расположенных в алфавитном порядке.

Page 7: презентация1

КОНКОРДАНС СЛОВА “SWELLING”

the wall goes on to the distant

swelling (возвышаясь)

on the horizon marking the

he developed stress induced

swelling (отек) of both knees and the right

there is usually a painless

swelling (увеличение)

of the lymph glands which

in her knees and suffered from

swelling (отек) feet said that she was able to

from across the Border,

swelling (увеличение)

their numbers to 300 but,

causes violent irritation and

swelling (отек) which can seriously impede

symptoms of poisoning include

swelling (припухлость)

skin irritation, rashes or

there was a swelling (нарастание, затухание)

of human voices

out of the constricting boot, the

swelling (опухоль)

was all too visible

much she felt the words

swelling (подниались. набухали)

her up inside like leaven in

Конкордансы используются для решения следующих лингвистических задач:

сравнения различных использований одного и того же слова;

анализа ключевых слов; анализа частотности слов

и словосочетаний; поиск и исследование фраз

и идиом; поиск перевода, например,

терминологии; создание списков слов

(для публикации).

Page 8: презентация1

Первые корпусы

Библия Johnson, Oxford English Dictionary,

Webster Dictionary Частотный корпус Thorndike`a, 1921 Дескриптивная грамматика ( Fries,

1940; Quirk,

Page 9: презентация1

Brown Corpus(Нельсон Фрэнсис и Генри Кучера)

В 1963 г. Брауновский университет 1 миллион слов 500 фрагментов прозаических текстов,

относящихся к 15 наиболее массовым жанрам

Цель создания: обеспечить системное изучение отдельных жанров письменного английского языка и сравнение жанров

Page 10: презентация1
Page 11: презентация1

Вехи создания компьютерных корпусов

1960-е: Брауновский корпус, (США), 1млн слов 1970-е: LOB корпус (Великобритания, Норвегия), 1млн. слов 1980-е: Машинный Фонд русского языка Уппсальский корпус русского языка (Швеция), 1млн. слов 1990-е BNC, 100 млн.слов, национальные корпуса

(венгерский, итальянский, хорватский, чешский, японский), 100 млн.слов

The Bank of English, Birmingham ( Collins Cobuild), 600 млн. слов

2000-е: American National Corpus, 100 млн. слов Corpus of Contemporary American English, 400 млн. слов Национальный корпус русского языка, 140 млн слов Gigaword corpora: английский, арабский, китайский, 2

млрд. слов Oxford English corpus, 2 млрд. слов

Page 12: презентация1

Национальный корпус русского языка

2001 год – начало работы; Центр лингвистической документации при Независимом

московском университете, отдела экспериментальной лексикографии Института русского языка им. В.В. Виноградова РАН; Институт языкознания РАН, Институт проблем передачи информации РАН, Всероссийский институт научной и технической информации РАН, Институт

лингвистических исследований РАН в Санкт-Петербурге, Воронежский государственный университет.

Page 13: презентация1

Традиционная лингвистика Корпусная лингвистикаОсновное внимание – изучение языка Основное внимание – изучение речи

Цель – описание и объяснение языка Цель – описание языка в том виде, как он проявил себя в речи, представленной в виде специально подобранного корпуса текстов

В своих исследованиях идет от теории к ее объяснению и подтверждению в фактах речи

В своих исследованиях опирается на данные корпуса текста

Предпочитает квалитативные (качественные) методы

Предпочитает квантитативные методы

Видит себя частью традиций, базирующихся на рационалистических методах

Видит себя частью традиций, базирующихся на эмпирических методах

Текст рассматривается как некоторая абстракция Текст рассматривается как некоторая физическая сущность

Изучает языковые универсалии Составление грамматики конкретных языков

Основное внимание – не только форме, но исодержанию

Основное внимание уделяется форме

Рассматривает тексты в локальной перспективе Рассматривает тексты в глобальной перспективе

Анализирует некоторую конкретную, искусственно ограниченную, проблемную область

Фокусирует свое внимание на как можно более широком взгляде на текст, неограниченном ни какими догмами

Опирается на интуицию в отборе речевого материала, в отборе эмпирических материалов своих исследовании

В своих выводах опирается на наблюдение речевой деятельности, проявленной в виде текстов

Предпочитает логические рассуждения Часто пользуется вероятностными методами и статистикой для первичной обработки речевого материала

Предпочитаются искусственные примеры, из изолированных от текста словоупотреблении

Проводится работа с лингвистическими данными (словоупотреблениями) в том виде, в каком они встречались в контексте

Предпочитает индуктивные методы обработки эмпирического словесного материала, считает их сутью научного метода

Предпочитает дедуктивные методы обработки эмпирического словесного материала

Верит в открытия, основанные на процедурах, оценках, сравнениях и т.д

Верит в научные открытия, основанные наобработке эмпирических данных

Page 14: презентация1

НАПРАВЛЕНИЯ КОРПУСНОЙ ЛИНГВИСТИКИ

лексикографические исследования, создание словарей;

получение точных данных о лексическом составе языков, об относительных частотах употребления слов;

изучение изменений в лексическом составе языков, различных его вариаций;

изучение грамматики естественных языков, сочетаемости грамматических явлений друг с другом;

изучение текстов, их функциональных стилей ; использование в обучении иностранным языкам; составление, многоязычных корпусов.

Page 15: презентация1

КОРПУС – ЭТО

корпус — это организованное определенным образом словесное единство, элементами которого являются тексты или специальным образом отобранные отрывки из текстов;

корпус – это набор лингвистических данных из определенного языка в форме записанных высказывании или письменных текстов, доступный для анализа;

корпус — это набор естественных текстов на любом языке, устных или письменных, который хранится электронном виде и позволяет организовать компьютеризированный поиск.

Page 16: презентация1

КОРПУС -

есть собрание отрывков текстов в электронной форме, отобранных в соответствии с внешними критериями, чтобы наиболее полно представлять язык или вариацию языка.

Функционирует как источник данных для лингвистических исследований.

(Джон Синклер)

Page 17: презентация1

ТРЕБОВАНИЯ К ПОСТРОЕНИЮ КОРПУСА

Разметка (аннотация) : морфологическая, синтаксическая, семантическая, анафорическая, просодическая;

репрезентативность: 1. корпуса, относящиеся ко всему языку. 2. сознательно смещенные корпуса, относящиеся к какому-либо подъязыку (жанр, стиль, язык определенной социальной группы и т.д.).;

полнота или размер представляемого материала;

экономичность; структуризация материала; компьютерная поддержка;

Page 18: презентация1

Морфологическая разметка

Синонимы: part-of-speech tagging (POS-tagging), частеречная разметка.

Элементы данных морфологической разметки включают: лемму;признак части речи;признаки грамматических категорий.

Attributes "pos" of the tag <ana>

Attributes "gram" of the tag <ana>

С - существительное,П - прилагательное,Г - глагол в личной форме,ПРИЧАСТИЕ - причастие ;ДЕЕПРИЧАСТИЕ – деепричастие,ИНФИНИТИВ – инфинитив, МС - местоимение-существительное,МС-П - местоименное прилагательное ,МС-ПРЕДК - местоимение-предикатив ,ЧИСЛ - числительное (количественное),ЧИСЛ-П - порядковое числительное,

мр, жр, ср - мужской, женский, средний род;од, но - одушевленность, неодушевленность;ед, мн - единственное, множественное число;им, рд, дт, вн, тв, пр, зв - падежи: именительный, родительный, дательный, винительный, творительный, предложный, звательный;2 - второй родительный или второй предложный падежи;св, нс - совершенный, несовершенный вид;пе, нп - переходный, непереходный глагол;дст, стр - действительный, страдательный залог;нст, прш, буд - настоящее, прошедшее, будущее время;

Page 19: презентация1

Сложности синтаксической разметки: разнообразие синтаксических теорий и формализмов:

грамматика зависимостей;

грамматика непосредственно-составляющих;

грамматика структурных схем;

традиционные синтаксические учения о членах предложения;

функциональная грамматика;

семантический синтаксис;

и др.

Пример синтаксического разбора (грамматика зависимостей, система ЭТАП-3)

Long ago, in the city of Babylon, the people began to build a huge tower which seemed to reach the heavens soon.

Page 20: презентация1

Семантическая разметка

Значения слов Разрешение

омонимии и синонимии

Категоризация слов (разряды)

Тематические классы Признаки

каузативности Оценки Деривационные

характеристики И т.д.

Три группы помет: разряд

• имя собственное• возвратное местоимение• и т.д.

лексико-семантические характеристики: • таксономия (тематический класс

лексемы) — для имен существительных, прилагательных, глаголов и наречий;

• мереология (указание на отношения «часть — целое», «элемент — множество») — для предметных и непредметных имен;

• топология (топологический статус обозначаемого объекта) — для предметных имен;

• каузация — для глаголов; • служебный статус — для

глаголов; • оценка — для предметных и

непредметных имен, прилагательных и наречий.

Page 21: презентация1

КЛАССИФИКАЦИЯ КОРПУСОВ

признак Типы корпусов

По форме хранения Письменные, речевые, смешанные

Язык текстов Русский, английский и т.д.

Языки представления, «параллельность»

Одноязычные, двуязычные, многоязычные

«Литературность», специфичность Литературные, диалектные, разговорные, терминологические, смешанные

По жанровой принадлежности Литературные, фольклорные, драматургические, публицистические

Доступность Свободно доступные, коммерческие, закрытые

Назначение Исследовательские, иллюстративные

Динамичность Динамические (мониторные), статические

Разметка Размеченные, неразмеченные

Характер разметки Морфологические, синтаксические, семантические, анафорические, просодические

Объем текстов Полнотекстовые, фрагментнотекстовые

Хронологический аспект Синхронические, диахронические

«Общность» Общие, одного писателя

Структура Центральные и архивные, ядерные и периферийные

Page 22: презентация1

НАИБОЛЕЕ ЗНАЧИМЫЕ ЛИНГВИСТИЧЕСКИЕ КОРПУСА

Исследовательские корпусы —предназначены для изучения различных аспектов функционирования языковой системы;

Иллюстративные корпусы —подтверждают полученные результаты;

Динамические и статистические корпусы текстов - выявляют функционирование на временной шкале;

Корпусы параллельных текстов - подмножество текстов на языке-источнике и одно или несколько подмножеств текстов-переводов языка-источника.

Page 23: презентация1

Пользователи параллельных корпусов:

1) переводчики-практики; 2) лексикографы; 3) разработчики систем машинного

перевода и лексиконов к ним;4) разработчиков систем переводческой

памяти (типа Trados Workbench и Star Transit);

5) лингвисты, в т.ч. компаративисты, лексикологи, переводоведы, литературоведы, социологи и культурологи;

6) преподаватели и студенты (в качестве источника образцов перевода и языковых примеров)

Page 24: презентация1

ТЕХНОЛОГИЧЕСКИЙ ПРОЦЕСС СОЗДАНИЯ КОРПУСА

1. Определение перечня источников.

2. Оцифровка текстов (преобразование в компьютерную форму);

3. Предобработка текста; 4. Конвертирование и

графематический анализ; 5. Разметка текста; 6. Корректировка результатов

автоматической разметки; 7. Конвертирование

размеченных текстов в структуру специализированной лингвистической информационно-поисковой системы (corpus manager)

8. Обеспечение доступа к корпусу.

Page 25: презентация1

ПРИМЕРЫ КОРПУСОВКОРПУС-МЕНЕДЖЕРЫ

Наиболее распространенными примерами корпусов являются: тексты конкретного

писателя или писателей; тексты за конкретное

десятилетие или столетие; современные тексты

определенной тематики; современные тексты,

адекватно представляющие язык или общество.

Корпусные менеджеры: поиск конкретных словоформ; поиск словоформ по леммам; поиск группы словоформ в виде

разрывной или неразрывной синтагмы;

поиск словоформ по набору морфологических признаков;

отображение информации о происхождении, типе текста и т.п.;

вывод результатов поиска с указанием контекста заданной длины;

получение различных лексико-грамматических статистических данных;

сохранение отобранных строк конкорданса в отдельном файле на компьютере пользователя и др.