Языки России в интернетеweb-corpora.net/wsgi3/minorlangs/static/files/... ·...

79
Языки России в интернете Коллекции текстов Л. Зайдельман И. Крылова, а также И. Попов, Е. Степанова, Б. Орехов НИУ Высшая школа экономики [email protected] Летняя школа, 2016 Л. Зайдельман, И. Крылова Языки России в интернете Летняя школа, 2016 1 / 79

Upload: others

Post on 20-Aug-2020

2 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Языки России в интернетеweb-corpora.net/wsgi3/minorlangs/static/files/... · 2016. 9. 25. · Языки России в интернете Коллекциитекстов

Языки России в интернетеКоллекции текстов

Л. Зайдельман И. Крылова,а также И. Попов, Е. Степанова, Б. Орехов

НИУ Высшая школа экономики

[email protected]

Летняя школа, 2016

Л. Зайдельман, И. Крылова Языки России в интернете Летняя школа, 2016 1 / 79

Page 2: Языки России в интернетеweb-corpora.net/wsgi3/minorlangs/static/files/... · 2016. 9. 25. · Языки России в интернете Коллекциитекстов

Содержание

1 История проекта2 Как можно собирать тексты3 Как собирали тексты мы

Поиск лексических маркеровПоиск текстов в интернетеВыкачивание текстов из интернетаОпределение языка

4 Что получилосьИнтернетСоциальные сети

5 Что можно из этих данных узнатьКак устроен интернет малых языков?Можно ли предсказать число сайтов на малом языке?Как выглядит типичный носитель малого языка?О чем говорят миноритарии?

Л. Зайдельман, И. Крылова Языки России в интернете Летняя школа, 2016 2 / 79

Page 3: Языки России в интернетеweb-corpora.net/wsgi3/minorlangs/static/files/... · 2016. 9. 25. · Языки России в интернете Коллекциитекстов

История проекта

Содержание

1 История проекта

2 Как можно собирать тексты

3 Как собирали тексты мы

4 Что получилось

5 Что можно из этих данных узнать

Л. Зайдельман, И. Крылова Языки России в интернете Летняя школа, 2016 3 / 79

Page 4: Языки России в интернетеweb-corpora.net/wsgi3/minorlangs/static/files/... · 2016. 9. 25. · Языки России в интернете Коллекциитекстов

История проекта

История проекта

Проект начался благодаря Центру изучения Интернета и обществаРЭШ;На ранних этапах над ним работали Борис Орехов и КириллРешетников;Затем работа переехала в НИУ ВШЭ;Кирилл больше не занимается этой проблематикой;Зато к работе подключились магистранты Школы лингвистикиНИУ ВШЭ;

Л. Зайдельман;И. Крылова;И. Попов;Е. Степанова.

Л. Зайдельман, И. Крылова Языки России в интернете Летняя школа, 2016 4 / 79

Page 5: Языки России в интернетеweb-corpora.net/wsgi3/minorlangs/static/files/... · 2016. 9. 25. · Языки России в интернете Коллекциитекстов

История проекта

Сколько языков в России?

Около ста (для точного подсчета нужно решить проблему языкvs. диалект);При этом мы считаем только те языки, которые не являютсятитульными в других государствах (не казахский, не абхазский);Но не считаем и идиш: на нем пишут в интернете почтиисключительно за границей;Про некоторые не вполне понятно, жив ли еще хоть один носитель(алеутский);После консультаций со специалистами мы остановились на цифре96.

Л. Зайдельман, И. Крылова Языки России в интернете Летняя школа, 2016 5 / 79

Page 6: Языки России в интернетеweb-corpora.net/wsgi3/minorlangs/static/files/... · 2016. 9. 25. · Языки России в интернете Коллекциитекстов

Как можно собирать тексты

Содержание

1 История проекта

2 Как можно собирать тексты

3 Как собирали тексты мы

4 Что получилось

5 Что можно из этих данных узнать

Л. Зайдельман, И. Крылова Языки России в интернете Летняя школа, 2016 6 / 79

Page 7: Языки России в интернетеweb-corpora.net/wsgi3/minorlangs/static/files/... · 2016. 9. 25. · Языки России в интернете Коллекциитекстов

Как можно собирать тексты

Как можно собирать тексты

Ездить в экспедиции, записывать, оцифровывать, выкладывать винтернет;Оцифровывать книги (любые другие печатные издания);Находить в интернете.

Л. Зайдельман, И. Крылова Языки России в интернете Летняя школа, 2016 7 / 79

Page 8: Языки России в интернетеweb-corpora.net/wsgi3/minorlangs/static/files/... · 2016. 9. 25. · Языки России в интернете Коллекциитекстов

Как можно собирать тексты

Примеры полевых корпусов

Корпуса ИЭА РАН на ненецком, телеутском, шорском иэвенкийском – http://corpora.iea.ras.ru/corpora/

Корпуса кетского, селькупского, эвенкийского –http://siberian-lang.srcc.msu.ru/ru

Корпуса с текстами на арчинском, хиналугском, нганасанском,энецком и тофалараском –http://www.philol.msu.ru/∼languedoc/rus/index.php

Корпус бесермянского диалекта удмуртского языка –http://beserman.ru/corpus/search/?interface_language=ru

Л. Зайдельман, И. Крылова Языки России в интернете Летняя школа, 2016 8 / 79

Page 9: Языки России в интернетеweb-corpora.net/wsgi3/minorlangs/static/files/... · 2016. 9. 25. · Языки России в интернете Коллекциитекстов

Как собирали тексты мы

Содержание

1 История проекта

2 Как можно собирать тексты

3 Как собирали тексты мыПоиск лексических маркеровПоиск текстов в интернетеВыкачивание текстов из интернетаОпределение языка

4 Что получилось

5 Что можно из этих данных узнать

Л. Зайдельман, И. Крылова Языки России в интернете Летняя школа, 2016 9 / 79

Page 10: Языки России в интернетеweb-corpora.net/wsgi3/minorlangs/static/files/... · 2016. 9. 25. · Языки России в интернете Коллекциитекстов

Как собирали тексты мы

Как собрать тексты из интернета?

Придумать, как собирать ссылки;Собрать ссылки;Выкинуть все лишнее;Выкачать тексты по ссылкам;Выкинуть все лишнее;Оставить только тексты на нужном языке (выкинув все лишнее).

Л. Зайдельман, И. Крылова Языки России в интернете Летняя школа, 2016 10 / 79

Page 11: Языки России в интернетеweb-corpora.net/wsgi3/minorlangs/static/files/... · 2016. 9. 25. · Языки России в интернете Коллекциитекстов

Как собирали тексты мы

Почему просто не взять Википедию?

Ботозаливки;Одной жанровой направленности – энциклопедической.

Топ-10 частотного списка словоформ татарской википедии:

Л. Зайдельман, И. Крылова Языки России в интернете Летняя школа, 2016 11 / 79

Page 12: Языки России в интернетеweb-corpora.net/wsgi3/minorlangs/static/files/... · 2016. 9. 25. · Языки России в интернете Коллекциитекстов

Как собирали тексты мы

Делал ли кто-то такое до нас?

Проекты Kevin Scannell по сбору текстов из интернета и твиттера(в открытом доступе тольке триграммы и некоторые ссылки)

crubadan.orgindigenoustweets.com

Проект Endangered Languages (справочная информация о языкахсо всякими материалами, картой и примерами текстов) –www.endangeredlanguages.comЯзыки народов России в Интернете. Список ресурсов –www.belti.ru/peoples/eng_index.html

Л. Зайдельман, И. Крылова Языки России в интернете Летняя школа, 2016 12 / 79

Page 13: Языки России в интернетеweb-corpora.net/wsgi3/minorlangs/static/files/... · 2016. 9. 25. · Языки России в интернете Коллекциитекстов

Как собирали тексты мы

Как собирали тексты мы

Мы не можем выкачивать весь интернет, отдельно разбираясьс каждой страницей;Воспользуемся большой поисковой машиной;Находим сайты в поиске по специальным терминам;Фильтруем;Выкачиваем;Определяем язык.

Л. Зайдельман, И. Крылова Языки России в интернете Летняя школа, 2016 13 / 79

Page 14: Языки России в интернетеweb-corpora.net/wsgi3/minorlangs/static/files/... · 2016. 9. 25. · Языки России в интернете Коллекциитекстов

Как собирали тексты мы

С какими проблемами мы сталкивались?

Нет заранее собранных хороших поисковых терминов (собранывручную);Code-mixing (сделана программа определения языка);Бытовая система письма (разработана система правил перевода);Автоматические обращения к поисковикам лимитированы (ничегоне поделаешь).Грязный интернет (вычищали полуавтоматически);

Л. Зайдельман, И. Крылова Языки России в интернете Летняя школа, 2016 14 / 79

Page 15: Языки России в интернетеweb-corpora.net/wsgi3/minorlangs/static/files/... · 2016. 9. 25. · Языки России в интернете Коллекциитекстов

Как собирали тексты мы Поиск лексических маркеров

Содержание

1 История проекта

2 Как можно собирать тексты

3 Как собирали тексты мыПоиск лексических маркеровПоиск текстов в интернетеВыкачивание текстов из интернетаОпределение языка

4 Что получилось

5 Что можно из этих данных узнать

Л. Зайдельман, И. Крылова Языки России в интернете Летняя школа, 2016 15 / 79

Page 16: Языки России в интернетеweb-corpora.net/wsgi3/minorlangs/static/files/... · 2016. 9. 25. · Языки России в интернете Коллекциитекстов

Как собирали тексты мы Поиск лексических маркеров

Лексические маркеры

Необходимые условия:Слова из этого языка;Уникальны для этого языка;Частотные.

Лексические маркеры – слова, принадлежащие языку и однозначно егоидентифицирующие.

Поиск осуществляется вручную (грамматики, словари, разговорники).

Л. Зайдельман, И. Крылова Языки России в интернете Летняя школа, 2016 16 / 79

Page 17: Языки России в интернетеweb-corpora.net/wsgi3/minorlangs/static/files/... · 2016. 9. 25. · Языки России в интернете Коллекциитекстов

Как собирали тексты мы Поиск лексических маркеров

Лексические маркеры

Опциональное условие:Не содержат диакритических символов.

Потому что:Все пользуются бытовой системой письма (терминА.А. Зализняка);Не всегда можно установить однозначные соответствия;Например: о → э, о.татшом → татшэм, татшом (коми-зырянский)

Л. Зайдельман, И. Крылова Языки России в интернете Летняя школа, 2016 17 / 79

Page 18: Языки России в интернетеweb-corpora.net/wsgi3/minorlangs/static/files/... · 2016. 9. 25. · Языки России в интернете Коллекциитекстов

Как собирали тексты мы Поиск лексических маркеров

На примере русского языка

Принадлежат языку: + молоко – мандруватиЕсть только в одном языке: + возле – черезЯвляются частотными словами: + под – горловинаНе содержат диакритических символов*: + сельдь – селёдка

→ который – хороший маркер для русского языка

* Бытовая письменность (по звучанию или написанию)

Л. Зайдельман, И. Крылова Языки России в интернете Летняя школа, 2016 18 / 79

Page 19: Языки России в интернетеweb-corpora.net/wsgi3/minorlangs/static/files/... · 2016. 9. 25. · Языки России в интернете Коллекциитекстов

Как собирали тексты мы Поиск лексических маркеров

Задание

Разделитесь на команды (по 2-3 человека у одного компьютера).Выберите один из языков:

аварский,адыгейский,бурятский,ингушский,корякский,лезгинский,татарский,тувинский,удмуртский,хакасский.

Попробуйте, используя предоставленные разговорники, найтилексические маркеры для этого языка.

Л. Зайдельман, И. Крылова Языки России в интернете Летняя школа, 2016 19 / 79

Page 20: Языки России в интернетеweb-corpora.net/wsgi3/minorlangs/static/files/... · 2016. 9. 25. · Языки России в интернете Коллекциитекстов

Как собирали тексты мы Поиск лексических маркеров

Соревнование

А теперь давайте сравним ваши маркеры с нашими! По чьим маркерамнаходится больше текстов на нужном языке, тот и победил :)

Л. Зайдельман, И. Крылова Языки России в интернете Летняя школа, 2016 20 / 79

Page 21: Языки России в интернетеweb-corpora.net/wsgi3/minorlangs/static/files/... · 2016. 9. 25. · Языки России в интернете Коллекциитекстов

Как собирали тексты мы Поиск лексических маркеров

Наши маркеры

Слайды с нашими маркерами были удалены во избежания попаданияих в интернет. Полную презентацию можно запросить, связавшись снами через почту: [email protected]

Л. Зайдельман, И. Крылова Языки России в интернете Летняя школа, 2016 21 / 79

Page 22: Языки России в интернетеweb-corpora.net/wsgi3/minorlangs/static/files/... · 2016. 9. 25. · Языки России в интернете Коллекциитекстов

Как собирали тексты мы Поиск текстов в интернете

Содержание

1 История проекта

2 Как можно собирать тексты

3 Как собирали тексты мыПоиск лексических маркеровПоиск текстов в интернетеВыкачивание текстов из интернетаОпределение языка

4 Что получилось

5 Что можно из этих данных узнать

Л. Зайдельман, И. Крылова Языки России в интернете Летняя школа, 2016 22 / 79

Page 23: Языки России в интернетеweb-corpora.net/wsgi3/minorlangs/static/files/... · 2016. 9. 25. · Языки России в интернете Коллекциитекстов

Как собирали тексты мы Поиск текстов в интернете

Сбор ссылок

Мы не можем выкачивать весь интернет, отдельно разбираясьс каждой страницей;Воспользуемся большой поисковой машиной;Лексические маркеры отправляются как запрос поисковику;

В результате получаются списки сайтов;Повторно отправляем запрос с лексическим маркером и url сайта;

Получаем список страниц на этом сайте;Сортируем полученные сайты.

Для автоматизации запросов используем Яндекс.XML.Л. Зайдельман, И. Крылова Языки России в интернете Летняя школа, 2016 23 / 79

Page 24: Языки России в интернетеweb-corpora.net/wsgi3/minorlangs/static/files/... · 2016. 9. 25. · Языки России в интернете Коллекциитекстов

Как собирали тексты мы Поиск текстов в интернете

Сортировка сайтов

Хорошие: содержат больше 30 страниц на интересующем нас языке.Бедные: содержит несколько страниц на языке.

Большие: многостраничные сайты, на которых встретилосьнесколько страниц на данном языке (youtube.comи stihi.ru).

Плохие: сюда попадают сайты с рефератами, словарямии грамматиками, в которых маркеры встречаются внеестественной языковой среды.

Вконтакте: отдельная группа, в которую собираются ссылки на этотресурс.

В зависимости от того, в какую категорию попал сайт, мы либовыкачиваем его целиком, либо формируем список нужных страниц.

Л. Зайдельман, И. Крылова Языки России в интернете Летняя школа, 2016 24 / 79

Page 25: Языки России в интернетеweb-corpora.net/wsgi3/minorlangs/static/files/... · 2016. 9. 25. · Языки России в интернете Коллекциитекстов

Как собирали тексты мы Выкачивание текстов из интернета

Содержание

1 История проекта

2 Как можно собирать тексты

3 Как собирали тексты мыПоиск лексических маркеровПоиск текстов в интернетеВыкачивание текстов из интернетаОпределение языка

4 Что получилось

5 Что можно из этих данных узнать

Л. Зайдельман, И. Крылова Языки России в интернете Летняя школа, 2016 25 / 79

Page 26: Языки России в интернетеweb-corpora.net/wsgi3/minorlangs/static/files/... · 2016. 9. 25. · Языки России в интернете Коллекциитекстов

Как собирали тексты мы Выкачивание текстов из интернета

Выкачивание текстов

Для большого интернета используются краулеры. Краулер,которым пользуемся мы, написан с помощью Scrapy, библиотекидля Python;Для Вконтакте используется API.

Л. Зайдельман, И. Крылова Языки России в интернете Летняя школа, 2016 26 / 79

Page 27: Языки России в интернетеweb-corpora.net/wsgi3/minorlangs/static/files/... · 2016. 9. 25. · Языки России в интернете Коллекциитекстов

Как собирали тексты мы Выкачивание текстов из интернета

Данные про сайты

url сайта;url страницы сайта;Заголовок, если есть;Текст между двумя тегами сайта;Техническое: дата выкачивания.

Л. Зайдельман, И. Крылова Языки России в интернете Летняя школа, 2016 27 / 79

Page 28: Языки России в интернетеweb-corpora.net/wsgi3/minorlangs/static/files/... · 2016. 9. 25. · Языки России в интернете Коллекциитекстов

Как собирали тексты мы Выкачивание текстов из интернета

Данные про ВКонтакте

О каждом сообществе:

Название;Число участников;Список всех постов и комментариев.

О каждом посте/комментарии:

Текст;Дата создания;Число комментариев (для постов);Id поста-родителя (для комментариев);Информация об авторе: id, дата рождения; город проживания,пол.

Л. Зайдельман, И. Крылова Языки России в интернете Летняя школа, 2016 28 / 79

Page 29: Языки России в интернетеweb-corpora.net/wsgi3/minorlangs/static/files/... · 2016. 9. 25. · Языки России в интернете Коллекциитекстов

Как собирали тексты мы Определение языка

Содержание

1 История проекта

2 Как можно собирать тексты

3 Как собирали тексты мыПоиск лексических маркеровПоиск текстов в интернетеВыкачивание текстов из интернетаОпределение языка

4 Что получилось

5 Что можно из этих данных узнать

Л. Зайдельман, И. Крылова Языки России в интернете Летняя школа, 2016 29 / 79

Page 30: Языки России в интернетеweb-corpora.net/wsgi3/minorlangs/static/files/... · 2016. 9. 25. · Языки России в интернете Коллекциитекстов

Как собирали тексты мы Определение языка

Бытовая система письма и code-mixing по-башкирски

Л. Зайдельман, И. Крылова Языки России в интернете Летняя школа, 2016 30 / 79

Page 31: Языки России в интернетеweb-corpora.net/wsgi3/minorlangs/static/files/... · 2016. 9. 25. · Языки России в интернете Коллекциитекстов

Как собирали тексты мы Определение языка

Идентификация языка(здорового человека)

ЗадачаНужно определить, на каком языке из заданного списка написан текст.

Текст представляется в виде упорядоченного по частоте наборабуквенных n-грамм;Для каждого языка из списка создается эталонный наборбуквенных n-грамм, также упорядоченный;Вычисляются расстояния между текстом и эталонами каждогоиз языков;Выигрывает язык, эталон которого оказался самым близким.

Л. Зайдельман, И. Крылова Языки России в интернете Летняя школа, 2016 31 / 79

Page 32: Языки России в интернетеweb-corpora.net/wsgi3/minorlangs/static/files/... · 2016. 9. 25. · Языки России в интернете Коллекциитекстов

Как собирали тексты мы Определение языка

Идентификация языка(человека, который связался с малыми языками)

ПроблемаУ нас нет текстов, чтобы сформировать эталоны.

ЗадачаНужно понять, написан ли текст на ожидаемом языке.

Л. Зайдельман, И. Крылова Языки России в интернете Летняя школа, 2016 32 / 79

Page 33: Языки России в интернетеweb-corpora.net/wsgi3/minorlangs/static/files/... · 2016. 9. 25. · Языки России в интернете Коллекциитекстов

Как собирали тексты мы Определение языка

Идентификация языка(человека, который связался с малыми языками)

Текст представляется в виде упорядоченного по частоте наборабуквенных n-грамм;Эталонный набор буквенных n-грамм создается толькодля русского языка;Вычисляется расстояние между текстом и эталоном для русскогоязыка;Эмпирическим путем была определена граница отсечения;Если текст оказался очень близок к эталону (расстояние меньшеграницы), текст на русском;В противном случае считаем, что текст написан на ожидаемомязыке;Дополнительно избавляемся от мусорных текстов.

Л. Зайдельман, И. Крылова Языки России в интернете Летняя школа, 2016 33 / 79

Page 34: Языки России в интернетеweb-corpora.net/wsgi3/minorlangs/static/files/... · 2016. 9. 25. · Языки России в интернете Коллекциитекстов

Как собирали тексты мы Определение языка

Идентификация языка. Что получилось

Л. Зайдельман, И. Крылова Языки России в интернете Летняя школа, 2016 34 / 79

Page 35: Языки России в интернетеweb-corpora.net/wsgi3/minorlangs/static/files/... · 2016. 9. 25. · Языки России в интернете Коллекциитекстов

Как собирали тексты мы Определение языка

Задание

Найти и категоризовать распространенные ошибки инструментаопределения языка.По возможности придумать и предложить решение для исправленияошибок.Сделать мини-доклад для участников остальных групп.

Л. Зайдельман, И. Крылова Языки России в интернете Летняя школа, 2016 35 / 79

Page 36: Языки России в интернетеweb-corpora.net/wsgi3/minorlangs/static/files/... · 2016. 9. 25. · Языки России в интернете Коллекциитекстов

Как собирали тексты мы Определение языка

Формат данных. Интернет

{"download_date": "2016-01-25 10:28:15.197639","url": "http://www.abazashta.com/club/forum/forum2/

topic2/messages/?PAGEN_1=2","domain": "www.abazashta.com","language": "abq","header": "","text": {

"85": {"language": "abq","text": "Адац-ач1выйа йг1аныпщтуа сахща?"

},...

}}

Л. Зайдельман, И. Крылова Языки России в интернете Летняя школа, 2016 36 / 79

Page 37: Языки России в интернетеweb-corpora.net/wsgi3/minorlangs/static/files/... · 2016. 9. 25. · Языки России в интернете Коллекциитекстов

Как собирали тексты мы Определение языка

Формат данных. Вконтакте

"club40933116": {"name": "Учим аварский язык вместе","posts": {

"143": {"sort": 1357381128,"author": {

"bdate": "26.6.1992","city": "Махачкала","sex": 1,"id": 11182},

"language": "ava","date": "2013-01-05 13:18:48","text": "гьаналъ ханкlал -мясные хинкал","comments": {}},

Л. Зайдельман, И. Крылова Языки России в интернете Летняя школа, 2016 37 / 79

Page 38: Языки России в интернетеweb-corpora.net/wsgi3/minorlangs/static/files/... · 2016. 9. 25. · Языки России в интернете Коллекциитекстов

Что получилось

Содержание

1 История проекта

2 Как можно собирать тексты

3 Как собирали тексты мы

4 Что получилосьИнтернетСоциальные сети

5 Что можно из этих данных узнать

Л. Зайдельман, И. Крылова Языки России в интернете Летняя школа, 2016 38 / 79

Page 39: Языки России в интернетеweb-corpora.net/wsgi3/minorlangs/static/files/... · 2016. 9. 25. · Языки России в интернете Коллекциитекстов

Что получилось Интернет

Содержание

1 История проекта

2 Как можно собирать тексты

3 Как собирали тексты мы

4 Что получилосьИнтернетСоциальные сети

5 Что можно из этих данных узнать

Л. Зайдельман, И. Крылова Языки России в интернете Летняя школа, 2016 39 / 79

Page 40: Языки России в интернетеweb-corpora.net/wsgi3/minorlangs/static/files/... · 2016. 9. 25. · Языки России в интернете Коллекциитекстов

Что получилось Интернет

Интернет

Искали 49 языков;Нашли 48 языков, для которых есть хотя бы одна страница;30 языков, для которых есть хотя бы один сайт на малом языке;379 сайтов на малых языках;Выкачали чуть меньше.

На поиск ушло 239 дней.

Л. Зайдельман, И. Крылова Языки России в интернете Летняя школа, 2016 40 / 79

Page 41: Языки России в интернетеweb-corpora.net/wsgi3/minorlangs/static/files/... · 2016. 9. 25. · Языки России в интернете Коллекциитекстов

Что получилось Интернет

ИнтернетСколько сайтов на каждом языке?

Другие данные на сайте проекта: http://web-corpora.net/minorlangs

Л. Зайдельман, И. Крылова Языки России в интернете Летняя школа, 2016 41 / 79

Page 42: Языки России в интернетеweb-corpora.net/wsgi3/minorlangs/static/files/... · 2016. 9. 25. · Языки России в интернете Коллекциитекстов

Что получилось Социальные сети

Содержание

1 История проекта

2 Как можно собирать тексты

3 Как собирали тексты мы

4 Что получилосьИнтернетСоциальные сети

5 Что можно из этих данных узнать

Л. Зайдельман, И. Крылова Языки России в интернете Летняя школа, 2016 42 / 79

Page 43: Языки России в интернетеweb-corpora.net/wsgi3/minorlangs/static/files/... · 2016. 9. 25. · Языки России в интернете Коллекциитекстов

Что получилось Социальные сети

ВКонтакте

Искали 49 языков;Нашли 35 языков;1630 сообществ, в которых есть хотя бы 1 текст;Но не все содержат тексты только на миноритарном языке.

Л. Зайдельман, И. Крылова Языки России в интернете Летняя школа, 2016 43 / 79

Page 44: Языки России в интернетеweb-corpora.net/wsgi3/minorlangs/static/files/... · 2016. 9. 25. · Языки России в интернете Коллекциитекстов

Что получилось Социальные сети

Сообщества и языки

Л. Зайдельман, И. Крылова Языки России в интернете Летняя школа, 2016 44 / 79

Page 45: Языки России в интернетеweb-corpora.net/wsgi3/minorlangs/static/files/... · 2016. 9. 25. · Языки России в интернете Коллекциитекстов

Что получилось Социальные сети

Посты и языки

Л. Зайдельман, И. Крылова Языки России в интернете Летняя школа, 2016 45 / 79

Page 46: Языки России в интернетеweb-corpora.net/wsgi3/minorlangs/static/files/... · 2016. 9. 25. · Языки России в интернете Коллекциитекстов

Что получилось Социальные сети

Зависимость постов на языке от общего числа постов

Л. Зайдельман, И. Крылова Языки России в интернете Летняя школа, 2016 46 / 79

Page 47: Языки России в интернетеweb-corpora.net/wsgi3/minorlangs/static/files/... · 2016. 9. 25. · Языки России в интернете Коллекциитекстов

Что получилось Сайт

Сайт

http://web-corpora.net/minorlangs

Л. Зайдельман, И. Крылова Языки России в интернете Летняя школа, 2016 47 / 79

Page 48: Языки России в интернетеweb-corpora.net/wsgi3/minorlangs/static/files/... · 2016. 9. 25. · Языки России в интернете Коллекциитекстов

Что можно из этих данных узнать

Содержание

1 История проекта

2 Как можно собирать тексты

3 Как собирали тексты мы

4 Что получилось

5 Что можно из этих данных узнатьКак устроен интернет малых языков?Можно ли предсказать число сайтов на малом языке?Как выглядит типичный носитель малого языка?О чем говорят миноритарии?

Л. Зайдельман, И. Крылова Языки России в интернете Летняя школа, 2016 48 / 79

Page 49: Языки России в интернетеweb-corpora.net/wsgi3/minorlangs/static/files/... · 2016. 9. 25. · Языки России в интернете Коллекциитекстов

Что можно из этих данных узнать Как устроен интернет малых языков?

Содержание

1 История проекта

2 Как можно собирать тексты

3 Как собирали тексты мы

4 Что получилось

5 Что можно из этих данных узнатьКак устроен интернет малых языков?Можно ли предсказать число сайтов на малом языке?Как выглядит типичный носитель малого языка?О чем говорят миноритарии?

Л. Зайдельман, И. Крылова Языки России в интернете Летняя школа, 2016 49 / 79

Page 50: Языки России в интернетеweb-corpora.net/wsgi3/minorlangs/static/files/... · 2016. 9. 25. · Языки России в интернете Коллекциитекстов

Что можно из этих данных узнать Как устроен интернет малых языков?

Кто регистрирует домены

Л. Зайдельман, И. Крылова Языки России в интернете Летняя школа, 2016 50 / 79

Page 51: Языки России в интернетеweb-corpora.net/wsgi3/minorlangs/static/files/... · 2016. 9. 25. · Языки России в интернете Коллекциитекстов

Что можно из этих данных узнать Как устроен интернет малых языков?

Когда регистрируют домены

Л. Зайдельман, И. Крылова Языки России в интернете Летняя школа, 2016 51 / 79

Page 52: Языки России в интернетеweb-corpora.net/wsgi3/minorlangs/static/files/... · 2016. 9. 25. · Языки России в интернете Коллекциитекстов

Что можно из этих данных узнать Как устроен интернет малых языков?

Где регистрируют домены

Л. Зайдельман, И. Крылова Языки России в интернете Летняя школа, 2016 52 / 79

Page 53: Языки России в интернетеweb-corpora.net/wsgi3/minorlangs/static/files/... · 2016. 9. 25. · Языки России в интернете Коллекциитекстов

Что можно из этих данных узнать Как устроен интернет малых языков?

Веб-граф национальных интернетов

Характеристики:АссортативныйНе слабо связный

Л. Зайдельман, И. Крылова Языки России в интернете Летняя школа, 2016 53 / 79

Page 54: Языки России в интернетеweb-corpora.net/wsgi3/minorlangs/static/files/... · 2016. 9. 25. · Языки России в интернете Коллекциитекстов

Что можно из этих данных узнать Как устроен интернет малых языков?

Веб-граф бурятского национального интернета

Характеристики:ДисассортативныйСлабо связный

Л. Зайдельман, И. Крылова Языки России в интернете Летняя школа, 2016 54 / 79

Page 55: Языки России в интернетеweb-corpora.net/wsgi3/minorlangs/static/files/... · 2016. 9. 25. · Языки России в интернете Коллекциитекстов

Что можно из этих данных узнать Можно ли предсказать число сайтов на малом языке?

Содержание

1 История проекта

2 Как можно собирать тексты

3 Как собирали тексты мы

4 Что получилось

5 Что можно из этих данных узнатьКак устроен интернет малых языков?Можно ли предсказать число сайтов на малом языке?Как выглядит типичный носитель малого языка?О чем говорят миноритарии?

Л. Зайдельман, И. Крылова Языки России в интернете Летняя школа, 2016 55 / 79

Page 56: Языки России в интернетеweb-corpora.net/wsgi3/minorlangs/static/files/... · 2016. 9. 25. · Языки России в интернете Коллекциитекстов

Что можно из этих данных узнать Можно ли предсказать число сайтов на малом языке?

Можно построить значимую модель линейной регрессии,объясняющую 65-75% данных.

В модель будут входить параметры:ln(кол-во статей в вики за 2016г);ln(кол-во токенов в ВКонтакте);ln(число носителей за 2010г);прирост населения за 2014г;расходы региона за 2014г;ln(число газет за 1996г).

Л. Зайдельман, И. Крылова Языки России в интернете Летняя школа, 2016 56 / 79

Page 57: Языки России в интернетеweb-corpora.net/wsgi3/minorlangs/static/files/... · 2016. 9. 25. · Языки России в интернете Коллекциитекстов

Что можно из этих данных узнать Как выглядит типичный носитель малого языка?

Содержание

1 История проекта

2 Как можно собирать тексты

3 Как собирали тексты мы

4 Что получилось

5 Что можно из этих данных узнатьКак устроен интернет малых языков?Можно ли предсказать число сайтов на малом языке?Как выглядит типичный носитель малого языка?О чем говорят миноритарии?

Л. Зайдельман, И. Крылова Языки России в интернете Летняя школа, 2016 57 / 79

Page 58: Языки России в интернетеweb-corpora.net/wsgi3/minorlangs/static/files/... · 2016. 9. 25. · Языки России в интернете Коллекциитекстов

Что можно из этих данных узнать Как выглядит типичный носитель малого языка?

Пользователи

Пользователь является носителем миноритарного языка, если оннаписал по крайней мере один пост на этом языке;Количество пользователей-носителей не зависит линейно отколичества носителей, известного из переписи населения;Среди носителей 23 языков регионом-лидером являетсятитульный регион;Средний возраст носителей всех языков находится в промежутке19,6-31,3 лет; самым «юным» языком является чукотский, асамым «взрослым» – коми-зырянский;Абсолютное большинство всех пользователей участвует в жизнитолько одного сообщества, «говорящего» на миноритарномязыке: наименьший показатель у пользователей якутского языка –69,6%;57,4% пользователей-носителей написали только один пост наминоритарном языке; средний показатель равен четырем.

Л. Зайдельман, И. Крылова Языки России в интернете Летняя школа, 2016 58 / 79

Page 59: Языки России в интернетеweb-corpora.net/wsgi3/minorlangs/static/files/... · 2016. 9. 25. · Языки России в интернете Коллекциитекстов

Что можно из этих данных узнать Как выглядит типичный носитель малого языка?

Доля написавших только в одно сообщество

Л. Зайдельман, И. Крылова Языки России в интернете Летняя школа, 2016 59 / 79

Page 60: Языки России в интернетеweb-corpora.net/wsgi3/minorlangs/static/files/... · 2016. 9. 25. · Языки России в интернете Коллекциитекстов

Что можно из этих данных узнать Как выглядит типичный носитель малого языка?

Максимальное число сообществ у одного пользователя

Л. Зайдельман, И. Крылова Языки России в интернете Летняя школа, 2016 60 / 79

Page 61: Языки России в интернетеweb-corpora.net/wsgi3/minorlangs/static/files/... · 2016. 9. 25. · Языки России в интернете Коллекциитекстов

Что можно из этих данных узнать Как выглядит типичный носитель малого языка?

Языковые способности пользователей

Л. Зайдельман, И. Крылова Языки России в интернете Летняя школа, 2016 61 / 79

Page 62: Языки России в интернетеweb-corpora.net/wsgi3/minorlangs/static/files/... · 2016. 9. 25. · Языки России в интернете Коллекциитекстов

Что можно из этих данных узнать Как выглядит типичный носитель малого языка?

Сообщества

Количество сообществ на миноритарном языке не зависитлинейно от количества пользователей, «говорящих» на этомязыке;Тексты на миноритарном языке короче текстов на русском: всреднем текст на миноритарном языке состоит из 5 слов, а нарусском – из 13;Треть всех текстов сообщества написана на миноритарном языке;

Л. Зайдельман, И. Крылова Языки России в интернете Летняя школа, 2016 62 / 79

Page 63: Языки России в интернетеweb-corpora.net/wsgi3/minorlangs/static/files/... · 2016. 9. 25. · Языки России в интернете Коллекциитекстов

Что можно из этих данных узнать Как выглядит типичный носитель малого языка?

Длина текстов

Л. Зайдельман, И. Крылова Языки России в интернете Летняя школа, 2016 63 / 79

Page 64: Языки России в интернетеweb-corpora.net/wsgi3/minorlangs/static/files/... · 2016. 9. 25. · Языки России в интернете Коллекциитекстов

Что можно из этих данных узнать Как выглядит типичный носитель малого языка?

Иерархическая кластеризация языков

Л. Зайдельман, И. Крылова Языки России в интернете Летняя школа, 2016 64 / 79

Page 65: Языки России в интернетеweb-corpora.net/wsgi3/minorlangs/static/files/... · 2016. 9. 25. · Языки России в интернете Коллекциитекстов

Что можно из этих данных узнать Как выглядит типичный носитель малого языка?

Портрет типичного носителя

Типичный пользователь-носитель миноритарного языка:

Возраст: 19-31;Место проживания: титульный регион;Являясь носителем миноритарного языка, в основном «говорит»по-русски;Вероятнее всего, принимает участие в жизни только одногосообщества.

Типичное сообщество, «говорящее» на миноритарном языке:

Треть всех постов написана на миноритарном языке;Длина текста на миноритарном языке в среднем около пяти слов.

Л. Зайдельман, И. Крылова Языки России в интернете Летняя школа, 2016 65 / 79

Page 66: Языки России в интернетеweb-corpora.net/wsgi3/minorlangs/static/files/... · 2016. 9. 25. · Языки России в интернете Коллекциитекстов

Что можно из этих данных узнать О чем говорят миноритарии?

Содержание

1 История проекта

2 Как можно собирать тексты

3 Как собирали тексты мы

4 Что получилось

5 Что можно из этих данных узнатьКак устроен интернет малых языков?Можно ли предсказать число сайтов на малом языке?Как выглядит типичный носитель малого языка?О чем говорят миноритарии?

Л. Зайдельман, И. Крылова Языки России в интернете Летняя школа, 2016 66 / 79

Page 67: Языки России в интернетеweb-corpora.net/wsgi3/minorlangs/static/files/... · 2016. 9. 25. · Языки России в интернете Коллекциитекстов

Что можно из этих данных узнать О чем говорят миноритарии?

Можем ли мы узнать тематику записей?

В идеальном случае нам нужны были бы 30 экспертов, чтобыпрочесть все выкачанное;Но у компьютерной лингвистики есть свои способы определениятематики.

Л. Зайдельман, И. Крылова Языки России в интернете Летняя школа, 2016 67 / 79

Page 68: Языки России в интернетеweb-corpora.net/wsgi3/minorlangs/static/files/... · 2016. 9. 25. · Языки России в интернете Коллекциитекстов

Что можно из этих данных узнать О чем говорят миноритарии?

Пример данных

"213": {"date": "2015-07-18 01:49:02","text": "-Астог1фируллох1, 1аллеелай!\n-Х1ухилла?\n

-Охьахаал т1аккха дуьцар ду хьун!\n-Хии, схьадица х1ухилла.","author": {

"bdate": "8.8.1999","id": 2841,"city": "Уфа","sex": 2 }

},"115": {

"date": "2015-03-11 21:09:03","text": "-Я от тебя ухожу, ты меня не любишь!\n

-Дорогая что ты говоришь?!","author": "chechen_zabarsh"

}Л. Зайдельман, И. Крылова Языки России в интернете Летняя школа, 2016 68 / 79

Page 69: Языки России в интернетеweb-corpora.net/wsgi3/minorlangs/static/files/... · 2016. 9. 25. · Языки России в интернете Коллекциитекстов

Что можно из этих данных узнать О чем говорят миноритарии?

Результат: чеченский

Л. Зайдельман, И. Крылова Языки России в интернете Летняя школа, 2016 69 / 79

Page 70: Языки России в интернетеweb-corpora.net/wsgi3/minorlangs/static/files/... · 2016. 9. 25. · Языки России в интернете Коллекциитекстов

Что можно из этих данных узнать О чем говорят миноритарии?

Как получить такие графы?Предобработка данных

Оставить только тексты из всех данных;Определить язык (русский, мусор, малый) и оставить толькотексты на языке;Токенизировать;Убрать пунктуацию и смайлики;Убрать наиболее частотные слова из каждого сообщества.

Л. Зайдельман, И. Крылова Языки России в интернете Летняя школа, 2016 70 / 79

Page 71: Языки России в интернетеweb-corpora.net/wsgi3/minorlangs/static/files/... · 2016. 9. 25. · Языки России в интернете Коллекциитекстов

Что можно из этих данных узнать О чем говорят миноритарии?

Как получить такие графы?Метрика близости

Каждое сообщество – вектор длины N, где N – сумма всехтокенов во всех сообществах одного языка;Каждая компонента вектора соответствует одному токену иотражает вес (число употреблений) этого токена в конкретномсообществе;Для сравнения полученных векторов мы использовали косинуснуюмеру сходства.

Л. Зайдельман, И. Крылова Языки России в интернете Летняя школа, 2016 71 / 79

Page 72: Языки России в интернетеweb-corpora.net/wsgi3/minorlangs/static/files/... · 2016. 9. 25. · Языки России в интернете Коллекциитекстов

Что можно из этих данных узнать О чем говорят миноритарии?

Как получить такие графы?Расчет метрик и построение графа

Вершины: сообщества.Ребра: соединяют сообщества друг с другом.Вес: косинусная мера схожести.

Дополнительные условия:рисовали только ребра с весом > 0.1;рисовали только вершины, у которых есть исходящие и/иливходящие ребра.

Л. Зайдельман, И. Крылова Языки России в интернете Летняя школа, 2016 72 / 79

Page 73: Языки России в интернетеweb-corpora.net/wsgi3/minorlangs/static/files/... · 2016. 9. 25. · Языки России в интернете Коллекциитекстов

Что можно из этих данных узнать О чем говорят миноритарии?

Графовые метрики

Степень центральности вершины – число ребер, входящих в этувершину.

Среди вершин-сообществ мы находим вершину с наибольшей степеньюцентральности (Maxdc). Мы рассчитываем, что сообщество,соответствующее этой вершине, является наиболее типичным средисообществ этого языка.

Ассортативность – метрика, которая показывает похожесть вершин.

Коэффициент ассортативности (AC) принимает значения от -1 до 1.Мы ожидаем, что сообщества, «говорящие» на определенные темы,будут связаны ребрами с сообществами, которые «говорят» на эти жетемы.

Л. Зайдельман, И. Крылова Языки России в интернете Летняя школа, 2016 73 / 79

Page 74: Языки России в интернетеweb-corpora.net/wsgi3/minorlangs/static/files/... · 2016. 9. 25. · Языки России в интернете Коллекциитекстов

Что можно из этих данных узнать О чем говорят миноритарии?

Результат: что будет, если не выставить порог?

Л. Зайдельман, И. Крылова Языки России в интернете Летняя школа, 2016 74 / 79

Page 75: Языки России в интернетеweb-corpora.net/wsgi3/minorlangs/static/files/... · 2016. 9. 25. · Языки России в интернете Коллекциитекстов

Что можно из этих данных узнать О чем говорят миноритарии?

Карачаево-балкарский

Л. Зайдельман, И. Крылова Языки России в интернете Летняя школа, 2016 75 / 79

Page 76: Языки России в интернетеweb-corpora.net/wsgi3/minorlangs/static/files/... · 2016. 9. 25. · Языки России в интернете Коллекциитекстов

Что можно из этих данных узнать О чем говорят миноритарии?

Чеченский

Л. Зайдельман, И. Крылова Языки России в интернете Летняя школа, 2016 76 / 79

Page 77: Языки России в интернетеweb-corpora.net/wsgi3/minorlangs/static/files/... · 2016. 9. 25. · Языки России в интернете Коллекциитекстов

Что можно из этих данных узнать О чем говорят миноритарии?

Чеченский юмор

Л. Зайдельман, И. Крылова Языки России в интернете Летняя школа, 2016 77 / 79

Page 78: Языки России в интернетеweb-corpora.net/wsgi3/minorlangs/static/files/... · 2016. 9. 25. · Языки России в интернете Коллекциитекстов

Что можно из этих данных узнать О чем говорят миноритарии?

Задание

ГипотезаСоставляющие несвязанного графа имеют явную тематическуюнаправленность.

ЗадачаПроверить гипотезу.

Л. Зайдельман, И. Крылова Языки России в интернете Летняя школа, 2016 78 / 79

Page 79: Языки России в интернетеweb-corpora.net/wsgi3/minorlangs/static/files/... · 2016. 9. 25. · Языки России в интернете Коллекциитекстов

Что можно из этих данных узнать О чем говорят миноритарии?

Л. Зайдельман, И. Крылова Языки России в интернете Летняя школа, 2016 79 / 79