constr spb2015

33
Статус коллокации в лингвистическом описании 1 18 мая 2015 www.helsinki.fi/yliopisto Cтатус коллокации в лингвистическом описании Михаил Копотев, Дарья Кормачева, Лидия Пивоварова Университет Хельсинки

Upload: lidia-pivovarova

Post on 17-Jul-2015

135 views

Category:

Science


8 download

TRANSCRIPT

Page 1: Constr spb2015

Статус коллокации в лингвистическом описании 118 мая 2015www.helsinki.fi/yliopisto

Cтатус коллокации в лингвистическом описании

Михаил Копотев, Дарья Кормачева, Лидия Пивоварова

Университет Хельсинки

Page 2: Constr spb2015

Статус коллокации в лингвистическом описании 218 мая 2015www.helsinki.fi/yliopisto

CoCoCo

Collocation Colligation Corpora – проект по разработке методов извлечения, классификации и

анализа неоднословных целостностей.

Университет Хельсинки, руководитель Копотев М. В.

Page 3: Constr spb2015

Статус коллокации в лингвистическом описании 318 мая 2015www.helsinki.fi/yliopisto

ГРЕТЬ + N

ДУШУ

КРОВЬ

ВОДУМОЛОКО

ЧАЙ

РУКИЛАДОНИ

НОГИКОПЫТАСПИНУ

МАШИНУМОТОР

Page 4: Constr spb2015

Статус коллокации в лингвистическом описании 418 мая 2015www.helsinki.fi/yliopisto

ГРЕТЬ + N

ДУШУ

КРОВЬ

ВОДУМОЛОКО

ЧАЙ

РУКИЛАДОНИ

НОГИКОПЫТАСПИНУ

МАШИНУМОТОР

Коллокации в прикладном значении слова – все неоднословные целостности, которые могут быть извлечены из корпуса автоматически.

Page 5: Constr spb2015

Статус коллокации в лингвистическом описании 518 мая 2015www.helsinki.fi/yliopisto

ГРЕТЬ + N

ДУШУ

КРОВЬ

ВОДУМОЛОКО

ЧАЙ

РУКИЛАДОНИ

НОГИКОПЫТАСПИНУ

МАШИНУМОТОР

Коллокации.

Collocation typically denotes frequently repeated or statistically significant co-occurences, whether or not there are special semantic bonds between collocating items (Moon, 1998)

Page 6: Constr spb2015

Статус коллокации в лингвистическом описании 618 мая 2015www.helsinki.fi/yliopisto

ГРЕТЬ + X

ДУШУ

КРОВЬ

ВОДУМОЛОКО

ЧАЙ

РУКИЛАДОНИ

НОГИСПИНУ

МАШИНУМОТОР

Коллигация.

Colligation – the grammatical company a word keeps (or avoids keeping) and the positions it prefers (Hoey, 2004)

N.acc

Page 7: Constr spb2015

Статус коллокации в лингвистическом описании 718 мая 2015www.helsinki.fi/yliopisto

ГРЕТЬ + N

ДУШУ

КРОВЬ

ВОДУМОЛОКО

ЧАЙ

РУКИЛАДОНИ

НОГИКОПЫТАСПИНУ

МАШИНУМОТОР

Конструкции.

Construction – a pairing of form with meaning/ use such that some aspect of the form or some aspect of the meaning/use is not strictly predictable. (Goldberg, 1996: 68)

Page 8: Constr spb2015

Статус коллокации в лингвистическом описании 818 мая 2015www.helsinki.fi/yliopisto

● Слова, стоящие рядом в тексте, скрепляются разнородными силами – грамматическими, лексическими, или комбинацией и тех, и других.● Определить статус коллокации – значит установить, какая связь наиболее сильна в том или ином случае.● Метод – статистическое профилирование с последующим экспертным анализом.

Page 9: Constr spb2015

Статус коллокации в лингвистическом описании 918 мая 2015www.helsinki.fi/yliopisto

Автоматическое профилирование

query Datacollection

For each part of speach

case

gender

token

lemma

Determine stable

features

For each grammatical

feature

nouns

verbs

particular values for the

features

most specific tokens / lemmas

most specific

semantic classes

Output

colligations

collocations

constructions

Page 10: Constr spb2015

Статус коллокации в лингвистическом описании 1018 мая 2015www.helsinki.fi/yliopisto

Алгоритм

query Datacollection

For each part of speach

case

gender

token

lemma

Determine stable

features

For each gramemme

nouns

verbs

particular values for the

features

most specific tokens / lemmas

most specific

semantic classes

Output

colligations

collocations

constructions

Page 11: Constr spb2015

Статус коллокации в лингвистическом описании 1118 мая 2015www.helsinki.fi/yliopisto

Kullback-Leibler divergence

Kopotev et al. 2013

Page 12: Constr spb2015

Статус коллокации в лингвистическом описании 1218 мая 2015www.helsinki.fi/yliopisto

Автоматическое профилирование

query Datacollection

For each part of speach

case

gender

token

lemma

Determine stable

features

For each grammatical

feature

nouns

verbs

particular values for the

features

most specific tokens / lemmas

most specific

semantic classes

Output

colligations

collocations

constructions

Page 13: Constr spb2015

Статус коллокации в лингвистическом описании 1318 мая 2015www.helsinki.fi/yliopisto

Frequency ratio

Kopotev et al. 2013: исследование на материале 25-ти предлогов, подкорпус НКРЯ со снятой омонимией

DKL

в 100% случаев выявляет падеж как наиболее значимую характеристику

FR с точностью 95% и полнотой 89% предсказывает правильное значение падежа

Page 14: Constr spb2015

Статус коллокации в лингвистическом описании 1418 мая 2015www.helsinki.fi/yliopisto

Автоматическое профилирование

query Datacollection

For each part of speach

case

gender

token

lemma

Determine stable

features

For each grammatical

feature

nouns

verbs

particular values for the

features

most specific tokens / lemmas

most specific

semantic classes

Output

colligations

collocations

constructions

Page 15: Constr spb2015

Статус коллокации в лингвистическом описании 1518 мая 2015www.helsinki.fi/yliopisto

Weighted frequency ratio

Kormacheva et al. 2014: исследование на материале 25-ти предлогов, подкорпус НКРЯ со снятой омонимией

Сравнение wFR с пятью другими мерами для задачи извлечения коллокаций; wFR дает наилучшие результаты.

Однако точность извлечения сильно варьируется для разных предлогов – от 75% до 4%

Page 16: Constr spb2015

Статус коллокации в лингвистическом описании 1618 мая 2015www.helsinki.fi/yliopisto

У + N

ПОДНОЖИЯ

ОКНА, СТЕНЫ, КРЫЛЬЦА, ПЕЧКИ – 16

КОШКИ, КОРОВЫ, МЛЕКОПИТАЮЩЕГО,

МЕДВЕДЯ – 13

РЕБЕНКА, ПАПЫ, ТЕЩИ, БАБУШКИ - 10

СТОЙКИ, ТЕЛЕВИЗОРА, КАМИНА – 8

НЕМЦА, РУССКОГО, ЦЫГАНА, ЯПОНЦА - 6

Page 17: Constr spb2015

Статус коллокации в лингвистическом описании 1718 мая 2015www.helsinki.fi/yliopisto

У + N

ПОДНОЖИЯ

ОКНА, СТЕНЫ, КРЫЛЬЦА, ПЕЧКИ – 16

КОШКИ, КОРОВЫ, МЛЕКОПИТАЮЩЕГО,

МЕДВЕДЯ – 13

РЕБЕНКА, ПАПЫ, ТЕЩИ, БАБУШКИ - 10

СТОЙКИ, ТЕЛЕВИЗОРА, КАМИНА – 8

НЕМЦА, РУССКОГО, ЦЫГАНА, ЯПОНЦА - 6

Исследовательская интуиция говорит, что такого рода конструкции могут быть извлечены из корпуса с использованием (модифицированного) соотношения частот (frequency ratio).

Однако в нашем распоряжении нет корпуса с размеченными семантическими классами.

Поэтому встает вопрос об извлечении семантических классов из текста автоматически.

Page 18: Constr spb2015

Статус коллокации в лингвистическом описании 1818 мая 2015www.helsinki.fi/yliopisto

Дистрибутивная семантика

● Подход в котором семантическая близость слов определяется похожестью их контекстов в корпусе.

“You know the word by the company it keeps.” (Firth, 1957)

● Современные информационные технологии позволяют применять этот принцип для автоматического подсчета семантического расстояния между словами в масштабе корпуса.

Page 19: Constr spb2015

Статус коллокации в лингвистическом описании 1918 мая 2015www.helsinki.fi/yliopisto

Дистрибутивная семантика

w1 w2 w3 ...

w1 0 1 5 ...

w2 1 1 10 ...

w3 5 10 0 ...

... ... ... ... ...

SVD – стандартный

метод понижения

размерности данных

ω1 ω2 ω3 ...

w1 0 1 5 ...

w2 1 1 10 ...

w3 0 8 0 ...

... ... ... ... ...

w1 w2 w3 ...

w1 1 0.8 0.5 ...

w2 0.8 1 0.1 ...

w3 0.5 0.1 1 ...

... ... ... ... ...

КОНТЕКСТЫ

РАССТОЯНИЯ

Page 20: Constr spb2015

Статус коллокации в лингвистическом описании 2018 мая 2015www.helsinki.fi/yliopisto

Эксперименты

Pivovarova et al. 2015 (в печати)

● НКРЯ, подкорпус со снятой неоднозначностью

● Существительные с частотой >12

● Контекст – все слова на расстоянии ±2

● DISSECT (Baroni et.al)

● Все слова, дистанция между которыми выше пороговой, считаются семантически связанными

Page 21: Constr spb2015

Статус коллокации в лингвистическом описании 2118 мая 2015www.helsinki.fi/yliopisto

Конструкционный профиль[молодой + N]

Page 22: Constr spb2015

Статус коллокации в лингвистическом описании 2218 мая 2015www.helsinki.fi/yliopisto

Семантическая кластеризация

● Kmeans, 500 кластеров● Оценка - в идеале: семантический словарь или ворднет - эксперимент с информантами● Нас интересует качество кластеров применительно к задаче конструкционного профилирования

Page 23: Constr spb2015

Статус коллокации в лингвистическом описании 2318 мая 2015www.helsinki.fi/yliopisto

Предсказательная сила семантической кластеризации

ПОЗДНИЙ + N

Для 31-го запроса из 39 (79%) семантическая кластеризация обладала большей предсказательной силой, чем несгруппированные лексемы.

Pivovarova et al. 2015 (в печати)

НКРЯ ИНТЕРНЕТ-корпус

беременность время год начало период срок час

беременность время год день конец месяц начало период половина срок час

вечер ночь обед рассвет утро вечер ночь полдень полночь сумерки утро

весна осень весна зима лето осень

Page 24: Constr spb2015

Статус коллокации в лингвистическом описании 2418 мая 2015www.helsinki.fi/yliopisto

lemma ARI words lemma ARI words

плохой + N 0.02 91 главный + N 0.1 74

важный + N -0.01 33 маленький + N

-0.02 32

хороший + N 0.08 68 молодой + N 0.08 40

равный + N 0.28 87 нужный + N 0 73

новый + N 0 39 подобный + N 0 78

высокий + N 0 63 поздний + N 0.22 67

последний + N 0.23 61 различный + N

0.11 91

российский + N -0.02 58 разный + N 0 75

следующий + N 0.19 94 N + город 0 67

крайний + N 0.49 87 N + мир 0.06 81

N + пора 0.06 73

Page 25: Constr spb2015

Статус коллокации в лингвистическом описании 2518 мая 2015www.helsinki.fi/yliopisto

Сравнение с ручной разметкой

● Для 12 из 21 запросов (57%) имеются неслучайные пересечения между автоматическими кластерами и вручную выделенными конструкциями

РОССИЙСКИЙ + X

биатолонист, парламентарий

биатолонист, премьер-лига

Вручную размечались только первые 100 биграм.Автоматическая кластеризация позволяет найти конструкции ниже.

ВЫСОКИЙ + {дерево, дуб, ель, липа, ...}

Page 26: Constr spb2015

Статус коллокации в лингвистическом описании 2618 мая 2015www.helsinki.fi/yliopisto

Профилирование

● Профиль – статистика появления лексемы в корпусе в различных формах и контекстах.

● Gries and Divjak (2009), Gries (2010), Janda and Lyashevskaya (2011), Divjak and Arppe (2013)

● Профиль – набор дополнительных свойств, которые дают более полное представление о статусе коллокации.

Page 27: Constr spb2015

Статус коллокации в лингвистическом описании 2718 мая 2015www.helsinki.fi/yliopisto

Морфологическое профилирование

Морфологический профиль лексемы ведомо, НКРЯ, XIX-XX век:

gen - без ведома, с ведома – 1516

все остальные падежи – 4 раза

Вероятностные предпочтения той или иной морфологической формы – показатель степени связанности лексемы.

Page 28: Constr spb2015

Статус коллокации в лингвистическом описании 2818 мая 2015www.helsinki.fi/yliopisto

Профиль проницаемости

Page 29: Constr spb2015

Статус коллокации в лингвистическом описании 2918 мая 2015www.helsinki.fi/yliopisto

Лексический профиль

Page 30: Constr spb2015

Статус коллокации в лингвистическом описании 3018 мая 2015www.helsinki.fi/yliopisto

Конструкционный профильnom gen dat acc ins loc

топонимы 10374 11270 1369 5866 1496 9246

Москва 1000 816 99 769 84 963

Америка 57 117 18 118 14 215

Волга 4923 2894 2785 4612 690 2823

Page 31: Constr spb2015

Статус коллокации в лингвистическом описании 3118 мая 2015www.helsinki.fi/yliopisto

Page 32: Constr spb2015

Статус коллокации в лингвистическом описании 3218 мая 2015www.helsinki.fi/yliopisto

Заключение● Границы между языковыми уровнями проницаемы

(ср. constructicon A. Goldberg)

● Принцип идиоматичности: говорящий имеет в своем распоряжении большое число полуоформленных фраз, которые представляют собой уже готовые единицы, даже несмотря на то, что при анализе и можно разбить на сегменты (Sinclair 1991: 105)

● Cоссюровская дихотомия langue-parole заменяется представлением о первичности речевой деятельности и плавной вероятностой шкалой от речевого штампа до грамматического правила.

● Адекватным описанием оказывается не грамматика, а компьютерная база данных, которая отвечает на запросы пользователя на ходу - онлайн.

Page 33: Constr spb2015

Статус коллокации в лингвистическом описании 3318 мая 2015www.helsinki.fi/yliopisto

СПАСИБО ЗА + X!