angelii rus
TRANSCRIPT
![Page 1: Angelii rus](https://reader033.vdocuments.mx/reader033/viewer/2022052217/557fbac8d8b42a36118b4b86/html5/thumbnails/1.jpg)
Преобразование структур зависимостей
Ангелина Иванова
7.04.2012
![Page 2: Angelii rus](https://reader033.vdocuments.mx/reader033/viewer/2022052217/557fbac8d8b42a36118b4b86/html5/thumbnails/2.jpg)
Введение
The LinGO Redwoods Treebank
Конвертер для Redwoodsтрансформация синтаксических деревьев
трансформация синтаксических зависимостей
Корпус PEST
Сравнительный анализ преобразованных
структур со стандартами
Заключение
План презентации
![Page 3: Angelii rus](https://reader033.vdocuments.mx/reader033/viewer/2022052217/557fbac8d8b42a36118b4b86/html5/thumbnails/3.jpg)
Введение
The LinGO Redwoods Treebank
Конвертер для Redwoodsтрансформация синтаксических деревьев
трансформация синтаксических зависимостей
Корпус PEST
Сравнительный анализ преобразованных
структур со стандартами
Заключение
План презентации
![Page 4: Angelii rus](https://reader033.vdocuments.mx/reader033/viewer/2022052217/557fbac8d8b42a36118b4b86/html5/thumbnails/4.jpg)
Графы и деревья
Граф совокупность (1) точек и (2) линий, соединяющих некоторые из этих точек. Точки называют узлами графа, а линии - дугами.
![Page 5: Angelii rus](https://reader033.vdocuments.mx/reader033/viewer/2022052217/557fbac8d8b42a36118b4b86/html5/thumbnails/5.jpg)
Графы и деревья
Дерево составляющих Дерево зависимостей
Дерево связный ациклический граф.
![Page 6: Angelii rus](https://reader033.vdocuments.mx/reader033/viewer/2022052217/557fbac8d8b42a36118b4b86/html5/thumbnails/6.jpg)
Графы и деревьяНаиболее типичное дерево зависимостей:
● Ориентированный ацикличный связный граф
● Каждое слово в предложении представлено узлом в дереве
● Корень – узел без входящей дуги
● Для каждого узла есть только один главный узел, которому он подчиняется
![Page 7: Angelii rus](https://reader033.vdocuments.mx/reader033/viewer/2022052217/557fbac8d8b42a36118b4b86/html5/thumbnails/7.jpg)
Введение
The LinGO Redwoods Treebank
Конвертер для Redwoodsтрансформация синтаксических деревьев
трансформация синтаксических зависимостей
Корпус PEST
Сравнительный анализ преобразованных
структур со стандартами
Заключение
План презентации
![Page 8: Angelii rus](https://reader033.vdocuments.mx/reader033/viewer/2022052217/557fbac8d8b42a36118b4b86/html5/thumbnails/8.jpg)
The LinGO Redwoods Treebank
● Язык: английский● Лингвистический подход: HPSG● Грамматика: LinGO ERG● Виды аннотаций:
– Синтаксические деревья
– Синтаксические зависимости
![Page 9: Angelii rus](https://reader033.vdocuments.mx/reader033/viewer/2022052217/557fbac8d8b42a36118b4b86/html5/thumbnails/9.jpg)
![Page 10: Angelii rus](https://reader033.vdocuments.mx/reader033/viewer/2022052217/557fbac8d8b42a36118b4b86/html5/thumbnails/10.jpg)
The LinGO Redwoods Treebank
● Источники данных:– Verbmobil and e-commerce corpora
– LOGON Norwegian-English MT corpus
– English Wikipedia (from WeScience)
– Brown corpus (SemCor)
– и др.
![Page 11: Angelii rus](https://reader033.vdocuments.mx/reader033/viewer/2022052217/557fbac8d8b42a36118b4b86/html5/thumbnails/11.jpg)
Синтаксические деревья
![Page 12: Angelii rus](https://reader033.vdocuments.mx/reader033/viewer/2022052217/557fbac8d8b42a36118b4b86/html5/thumbnails/12.jpg)
Синтаксические деревьяDELPH-IN Derivation Tree Синтаксическое дерево
грамматики составляющих
![Page 13: Angelii rus](https://reader033.vdocuments.mx/reader033/viewer/2022052217/557fbac8d8b42a36118b4b86/html5/thumbnails/13.jpg)
Синтаксические зависимости
Формат: элементарные структуры зависимостей (Elementary Dependency Structures, http://moin.delph-in.net/RmrsEds)
Предикаты соответствуют группам слов
Некоторые слова семантически пусты и не представлены в графе зависимостей
Элементарные структуры зависимостей не формируют деревья
![Page 14: Angelii rus](https://reader033.vdocuments.mx/reader033/viewer/2022052217/557fbac8d8b42a36118b4b86/html5/thumbnails/14.jpg)
Синтаксические зависимости
{e2:
x4:thing<0:4>[]
_1:which_q<0:4>[BV x4]
e2:_next_a_1<7:12>[ARG1 x4]
}
![Page 15: Angelii rus](https://reader033.vdocuments.mx/reader033/viewer/2022052217/557fbac8d8b42a36118b4b86/html5/thumbnails/15.jpg)
Введение
The LinGO Redwoods Treebank
Конвертер для Redwoodsтрансформация синтаксических деревьев
трансформация синтаксических зависимостей
Корпус PEST
Сравнительный анализ преобразованных
структур со стандартами
Заключение
План презентации
![Page 16: Angelii rus](https://reader033.vdocuments.mx/reader033/viewer/2022052217/557fbac8d8b42a36118b4b86/html5/thumbnails/16.jpg)
Сложные случаи:● сокращенные отрицательные формы
The dog couldn't bark.
● пунктуация
● устойчивые выражения
Трансформация в структуры зависимостей
![Page 17: Angelii rus](https://reader033.vdocuments.mx/reader033/viewer/2022052217/557fbac8d8b42a36118b4b86/html5/thumbnails/17.jpg)
Трансформация синтаксических деревьевROOT_INFORMAL
FLR-HD_WH-MC-SB_C
HDN_BNP-QNT_C
HDN_OPTCMP_C
What
HD_XSB-FIN_C
HD-CMP_U_C
's
next?
W_QMARK_PLR
![Page 18: Angelii rus](https://reader033.vdocuments.mx/reader033/viewer/2022052217/557fbac8d8b42a36118b4b86/html5/thumbnails/18.jpg)
Введение
The LinGO Redwoods Treebank
Конвертер для Redwoodsтрансформация синтаксических деревьев
трансформация синтаксических зависимостей
Корпус PEST
Сравнительный анализ преобразованных
структур со стандартами
Заключение
План презентации
![Page 19: Angelii rus](https://reader033.vdocuments.mx/reader033/viewer/2022052217/557fbac8d8b42a36118b4b86/html5/thumbnails/19.jpg)
{e2: x4:thing<0:4>[] _1:which_q<0:4>[BV x4] e2:_next_a_1<7:12>[ARG1 x4]}
x4 e2
Трансформация синтаксических зависимостей
![Page 20: Angelii rus](https://reader033.vdocuments.mx/reader033/viewer/2022052217/557fbac8d8b42a36118b4b86/html5/thumbnails/20.jpg)
Виды предикатов:● lexical● transparent● relational● redundant
Трансформация синтаксических зависимостей
![Page 21: Angelii rus](https://reader033.vdocuments.mx/reader033/viewer/2022052217/557fbac8d8b42a36118b4b86/html5/thumbnails/21.jpg)
Lexical predicates
Предикаты, которые соответствуют словам в предложении[lexical]
/^_.*/
named
card
thing
numbered_hour
person
pron
time
![Page 22: Angelii rus](https://reader033.vdocuments.mx/reader033/viewer/2022052217/557fbac8d8b42a36118b4b86/html5/thumbnails/22.jpg)
Lexical predicates
Two hundred twenty dogs bark.{e2:
_1:udef_q<0:18>[BV x4]
i8:card<0:3>("2")[ARG1 x4]
e10:card<4:11>("100")[ARG1 x4]
i14:plus<4:11>[ARG1 x4, ARG2 i15, ARG3 i16]
i15:times<4:11>[ARG1 x4, ARG2 i8, ARG3 e10]
i16:card<12:18>("20")[ARG1 x4]
x4:_dog_n_1<19:23>[]
e2:_bark_v_1<24:29>[ARG1 x4]
}
e10 e2i18 i16 x4
![Page 23: Angelii rus](https://reader033.vdocuments.mx/reader033/viewer/2022052217/557fbac8d8b42a36118b4b86/html5/thumbnails/23.jpg)
Transparent predicates
Предикат, который приравнивается к одному из своих аргументов
[transparent]
nominalization ARG1
implicit_conj LHNDL
implicit_conj LINDEX
/_c$/ LHNDL
/_c$/ LINDEX
![Page 24: Angelii rus](https://reader033.vdocuments.mx/reader033/viewer/2022052217/557fbac8d8b42a36118b4b86/html5/thumbnails/24.jpg)
Transparent predicates
The dog arrived and barked.
{e2:
_1:_the_q<0:3>[BV x5]
x5:_dog_n_1<4:7>[]
e9:_arrive_v_1<8:15>[ARG1 x5]
e2:_and_c<16:19>[LINDEX e9, RINDEX e11,
LHNDL e9, RHNDL e11]
e11:_bark_v_1<20:27>[ARG1 x5]
}
e9 e2
Root
![Page 25: Angelii rus](https://reader033.vdocuments.mx/reader033/viewer/2022052217/557fbac8d8b42a36118b4b86/html5/thumbnails/25.jpg)
Relational predicates
Предикаты с двумя аргументами, один из которых – главная составляющая, а другой – зависимая составляющая.
/_c$/ LHNDL RHNDL
/_c$/ LINDEX RINDEX
of_p ARG2 ARG1
part_of ARG0 ARG1
poss ARG2 ARG1
![Page 26: Angelii rus](https://reader033.vdocuments.mx/reader033/viewer/2022052217/557fbac8d8b42a36118b4b86/html5/thumbnails/26.jpg)
Relational predicates
Browne arrived on Tuesday morning.{e2:
_1:proper_q<0:6>[BV x5]
x5:named<0:6>("Browne")[]
e2:_arrive_v_1<7:14>[ARG1 x5]
e9:_on_p_temp<15:17>[ARG1 e2, ARG2 x10]
x12:dofw<18:25>("Tue")[]
_2:def_explicit_q<18:25>[BV x10]
e17:of_p<18:25>[ARG1 x10, ARG2 x12]
_3:def_implicit_q<18:25>[BV x12]
x10:_morning_n_of<26:34>[]
}
x10x12
![Page 27: Angelii rus](https://reader033.vdocuments.mx/reader033/viewer/2022052217/557fbac8d8b42a36118b4b86/html5/thumbnails/27.jpg)
Redundant predicates
Предикат, содержащий аргумент, подлежащий удалению.
[redundant]
/.*/ LHNDL LINDEX
/.*/ RHNDL RINDEX
![Page 28: Angelii rus](https://reader033.vdocuments.mx/reader033/viewer/2022052217/557fbac8d8b42a36118b4b86/html5/thumbnails/28.jpg)
Redundant predicates
The dog arrived and barked.
{e2:
_1:_the_q<0:3>[BV x5]
x5:_dog_n_1<4:7>[]
e9:_arrive_v_1<8:15>[ARG1 x5]
e2:_and_c<16:19>[LINDEX e9, RINDEX e11,
LHNDL e9, RHNDL e11]
e11:_bark_v_1<20:27>[ARG1 x5]
}
e9 e11
![Page 29: Angelii rus](https://reader033.vdocuments.mx/reader033/viewer/2022052217/557fbac8d8b42a36118b4b86/html5/thumbnails/29.jpg)
Определение типа предиката (lexical, transparent, relational,redundant)
Разбиение сокращенных отрицательных форм
Отделение пунктуации
Разбиение устойчивых выражений на отдельные слова
Трансформация синтаксических зависимостей
![Page 30: Angelii rus](https://reader033.vdocuments.mx/reader033/viewer/2022052217/557fbac8d8b42a36118b4b86/html5/thumbnails/30.jpg)
Примеры
![Page 31: Angelii rus](https://reader033.vdocuments.mx/reader033/viewer/2022052217/557fbac8d8b42a36118b4b86/html5/thumbnails/31.jpg)
Примеры
![Page 32: Angelii rus](https://reader033.vdocuments.mx/reader033/viewer/2022052217/557fbac8d8b42a36118b4b86/html5/thumbnails/32.jpg)
Примеры
![Page 33: Angelii rus](https://reader033.vdocuments.mx/reader033/viewer/2022052217/557fbac8d8b42a36118b4b86/html5/thumbnails/33.jpg)
Введение
The LinGO Redwoods Treebank
Конвертер для Redwoodsтрансформация синтаксических деревьев
трансформация синтаксических зависимостей
Корпус PEST
Сравнительный анализ преобразованных
структур со стандартами
Заключение
План презентации
![Page 34: Angelii rus](https://reader033.vdocuments.mx/reader033/viewer/2022052217/557fbac8d8b42a36118b4b86/html5/thumbnails/34.jpg)
Корпус PESTЯзык: английский
Две части: 10 предложений и 15 предложений
Форматы: CoNLL Syntactic Dependencies
CoNLL PropBank Semantics Stanford basic Stanford collapsed dependencies Enju predicate – argument structures
![Page 35: Angelii rus](https://reader033.vdocuments.mx/reader033/viewer/2022052217/557fbac8d8b42a36118b4b86/html5/thumbnails/35.jpg)
CoNLL Syntactic Dependencies
Деревья из Penn Treebank трансформированные с помощью утилиты PennConverter Главные составляющие – функциональные слова
Граф зависимостей – ориентированное дерево:
каждое слово в предложение представлено узлом в графеграф связныйу каждого узла есть только один главный узел, которому он
подчиняетсяв графе отсутствуют циклы
![Page 36: Angelii rus](https://reader033.vdocuments.mx/reader033/viewer/2022052217/557fbac8d8b42a36118b4b86/html5/thumbnails/36.jpg)
CoNLL PropBank Semantics Аннотации PropBank и NomBank “поверх” синтаксической разметки PennTreebank
Лексические главные состаляющие
У зависимой составляющей могут быть несколько синтаксических главных составляющих
Граф несвязный
Некоторые слова предложения семантически пусты и не представлены в графе
![Page 37: Angelii rus](https://reader033.vdocuments.mx/reader033/viewer/2022052217/557fbac8d8b42a36118b4b86/html5/thumbnails/37.jpg)
Stanford Basic Dependencies
Трансформирован из деревьев составляющих из PennTreebank Лексические главные состаляющие
Граф зависимостей – ориентированное дерево:
каждое слово в предложение представлено узлом в графе
граф связныйу каждого узла есть только один главный узел,
которому он подчиняетсяв графе отсутствуют циклы
![Page 38: Angelii rus](https://reader033.vdocuments.mx/reader033/viewer/2022052217/557fbac8d8b42a36118b4b86/html5/thumbnails/38.jpg)
Stanford Standard Dependencies
Главные составляющие – функциональные слова
Граф зависимостей не формирует дерево:Семантически “пустые” словамножественные главные составляющиециклы
![Page 39: Angelii rus](https://reader033.vdocuments.mx/reader033/viewer/2022052217/557fbac8d8b42a36118b4b86/html5/thumbnails/39.jpg)
Enju Predicate – Argument Structures (EP)
Лексические главные состаляющие
Полу-автоматически трансформирован из PennTreebank с помощью HPSG-преобразований
Граф зависимостей не формирует дерево
![Page 40: Angelii rus](https://reader033.vdocuments.mx/reader033/viewer/2022052217/557fbac8d8b42a36118b4b86/html5/thumbnails/40.jpg)
Введение
The LinGO Redwoods Treebank
Конвертер для Redwoodsтрансформация синтаксических деревьев
трансформация синтаксических зависимостей
Корпус PEST
Сравнительный анализ преобразованных
структур со стандартами
Заключение
План презентации
![Page 41: Angelii rus](https://reader033.vdocuments.mx/reader033/viewer/2022052217/557fbac8d8b42a36118b4b86/html5/thumbnails/41.jpg)
Выбор корня
A similar technique is almost impossible toapply to other crops, such as cotton,
soybeans and rice.
CoNLL Syntactic: isCoNLL PropBank: -Stanford Basic: impossibleStanford Standard: impossibleEnju Predicate-Argument Structures: isDELHP-IN Derivation Tree: isDELPH-IN MRS: almost
![Page 42: Angelii rus](https://reader033.vdocuments.mx/reader033/viewer/2022052217/557fbac8d8b42a36118b4b86/html5/thumbnails/42.jpg)
Союзы
A , B and C A , B and C
A , B and C A , B and C
A , B and C
A , B and C A , B and C
CoNLL Syntactic Dependencies CoNLL PropBank Dependencies
Stanford Basic Dependencies Stanford Standard Dependencies
Enju PAS
DELHP-IN Derivation Tree DELHP-IN MRS
![Page 43: Angelii rus](https://reader033.vdocuments.mx/reader033/viewer/2022052217/557fbac8d8b42a36118b4b86/html5/thumbnails/43.jpg)
Инфинитив
CoNLL syntactic Enju PAS to apply DELPH-IN Derivation Tree
Stanford Basic to apply Stanford Standard
CoNLL PropBank - DELPH-IN MRS
![Page 44: Angelii rus](https://reader033.vdocuments.mx/reader033/viewer/2022052217/557fbac8d8b42a36118b4b86/html5/thumbnails/44.jpg)
Артикли
CoNLL Syntactic Stanford Basic Stanford Standard a technique DELPH-IN Derivation Tree
Enju PAS DELPH-IN MRS a technique
CoNLL PropBank
![Page 45: Angelii rus](https://reader033.vdocuments.mx/reader033/viewer/2022052217/557fbac8d8b42a36118b4b86/html5/thumbnails/45.jpg)
Прилагательные
CoNLL Syntactic Stanford Basic Stanford Standard similar technique DELPH-IN Derivation Tree
Enju PAS DELPH-IN MRS similar technique
CoNLL PropBank -
![Page 46: Angelii rus](https://reader033.vdocuments.mx/reader033/viewer/2022052217/557fbac8d8b42a36118b4b86/html5/thumbnails/46.jpg)
Предлоги CoNLL Syntactic Stanford Basic crops such as
DELPH-IN Derevation Tree crops such as
Enju PAS crops such as DELPH-IN MRS crops such as
CoNLL PropBank - Stanford Standard
![Page 47: Angelii rus](https://reader033.vdocuments.mx/reader033/viewer/2022052217/557fbac8d8b42a36118b4b86/html5/thumbnails/47.jpg)
“Сложные” прилагательные
A similar technique is almost impossible to apply
Удалённая связь выявлена в следующих форматах:
CoNLL PropBank Enju PAS DELPH-IN MRS
![Page 48: Angelii rus](https://reader033.vdocuments.mx/reader033/viewer/2022052217/557fbac8d8b42a36118b4b86/html5/thumbnails/48.jpg)
Попарное совпадение дуг зависимостей
![Page 49: Angelii rus](https://reader033.vdocuments.mx/reader033/viewer/2022052217/557fbac8d8b42a36118b4b86/html5/thumbnails/49.jpg)
Попарные значения коэффициента сходства
Jaccard
![Page 50: Angelii rus](https://reader033.vdocuments.mx/reader033/viewer/2022052217/557fbac8d8b42a36118b4b86/html5/thumbnails/50.jpg)
Введение
The LinGO Redwoods Treebank
Конвертер для Redwoodsтрансформация синтаксических деревьев
трансформация синтаксических зависимостей
Корпус PEST
Сравнительный анализ преобразованных
структур со стандартами
Заключение
План презентации
![Page 51: Angelii rus](https://reader033.vdocuments.mx/reader033/viewer/2022052217/557fbac8d8b42a36118b4b86/html5/thumbnails/51.jpg)
Заключение
● Различные форматы предлагают несхожие решения
● DELPH-IN Derivation Trees ближе всего к CoNLL Syntactic Dependencies
● DELPH-IN MRS ближе всего к Enju PAS
![Page 52: Angelii rus](https://reader033.vdocuments.mx/reader033/viewer/2022052217/557fbac8d8b42a36118b4b86/html5/thumbnails/52.jpg)
Будущая работа
● Закончить и опубликовать в свободном доступе конвертер
● Конвертировать корпус Redwoods в структуры зависимостей между отдельными словами
● Использовать Redwoods для экспериментов с синтаксическими анализаторами (парсерами)
![Page 53: Angelii rus](https://reader033.vdocuments.mx/reader033/viewer/2022052217/557fbac8d8b42a36118b4b86/html5/thumbnails/53.jpg)
Спасибо за внимание!