Извлечение справочных данных из технических текстов...
DESCRIPTION
ТехИнвестЛаб.ру продолжает исследования в области автоматизированного извлечения информации из инженерных текстов на естественном языке. В презентации демонстрируются результаты обработки определений из нефте-газового словаря и построения справочных данных на их основе. Проект выполнялся с использованием софта ABBYY Compreno, разработанного и настроенного для работы с инженерными данными компанией ABBYY.TRANSCRIPT
![Page 1: Извлечение справочных данных из технических текстов на естественных языках](https://reader036.vdocuments.mx/reader036/viewer/2022081717/546208e3af79595b058b4700/html5/thumbnails/1.jpg)
20.09.2013
Извлечение справочных данных из технических текстов на естественных языках
![Page 2: Извлечение справочных данных из технических текстов на естественных языках](https://reader036.vdocuments.mx/reader036/viewer/2022081717/546208e3af79595b058b4700/html5/thumbnails/2.jpg)
2
Первые попытки: Моделирование требований
Проект ОАО Росэнергоатом, июль 2011– Методология ручной обработки
технических заданий– Специальный софт для преобразования в
модель данных ISO 15926– Обработка типового ТЗ на АЭС:
• Размер выборки: 12 абзацев текста• Идентификация содержания: 16 требований, 3
классификатора• Модель: 96 объектов, 35 отношений
![Page 3: Извлечение справочных данных из технических текстов на естественных языках](https://reader036.vdocuments.mx/reader036/viewer/2022081717/546208e3af79595b058b4700/html5/thumbnails/3.jpg)
3
Семантическое моделирование технических документов
Методология TabLan, март 2012– Методология ручной обработки
технической документации (English)– Используя подмножество языка Gellish
http://sourceforge.net/apps/trac/gellish/
– Отображение на расширенный набор шаблонов ISO 15926-7
– Использует открытое расширение.15926 Editor для трансформации в модель данных ISO 15926
Можно скачать с http://techinvestlab.ru/TabLan/
![Page 4: Извлечение справочных данных из технических текстов на естественных языках](https://reader036.vdocuments.mx/reader036/viewer/2022081717/546208e3af79595b058b4700/html5/thumbnails/4.jpg)
4
Уроки моделирования документов
• Перспективы:– Верификация требований– Автоматизированная настройка IT систем
(классификаторы и справочники для CAD/CAM/PLM/ERP/и т.п.)
– Поддержка интеграции данных (генерация библиотек справочных данных)
– Трассировка требований к проектным решениям– Верификация проектных решений
• Проблемы:– Затраты ручного труда на моделирование– Большой объём «тупой» подготовительной работы– Необходимость участия специалистов инженерных
областях в работе на новом формальном языке– Фрагментированная IT архитектура в проектных
организациях – препятствие для повторного использования моделей
![Page 5: Извлечение справочных данных из технических текстов на естественных языках](https://reader036.vdocuments.mx/reader036/viewer/2022081717/546208e3af79595b058b4700/html5/thumbnails/5.jpg)
5
Необходимые условия для автоматизации моделирования
технических документов• Использование самых современных
достижений в компьютерной обработке естественного языка (синтаксис и семантика)
• Использование самых современных достижений онтологического моделирования естественного языка
• Обучение на образцах из специального корпуса естественного языка
• Контролируемый инженерный язык (по образцу Gellish) как промежуточная модель
• Формальное преобразование моделей в модели ISO 15926 и их верификация
![Page 6: Извлечение справочных данных из технических текстов на естественных языках](https://reader036.vdocuments.mx/reader036/viewer/2022081717/546208e3af79595b058b4700/html5/thumbnails/6.jpg)
Эксперименты сABBYY Compreno
Technology That Translates from Human
into Computer Language http://www.abbyy.ru/science/techno
logies/business/compreno
![Page 7: Извлечение справочных данных из технических текстов на естественных языках](https://reader036.vdocuments.mx/reader036/viewer/2022081717/546208e3af79595b058b4700/html5/thumbnails/7.jpg)
ComprenoAABBYY Syntactic and Semantic Parser выполняет точный и подробный анализ текстов на русском и английском языках, создавая прочный фундамент для решения главной задачи приложения на высоком уровне.
JОбласть применения
●- Интеллектуальный корпоративный поиск
●- Автоматическое реферировании документов
●- Извлечение фактов из больших объемов информации
●- Мониторинг СМИ и социальных сетей с последующим анализом тональности найденных сообщений
●- Другие приложения, включающие анализ текстов
![Page 8: Извлечение справочных данных из технических текстов на естественных языках](https://reader036.vdocuments.mx/reader036/viewer/2022081717/546208e3af79595b058b4700/html5/thumbnails/8.jpg)
.15926 Editor: инструментарий ISO 15926
8
Система онтологического программирования:- просмотр, создание, поиск и преобразование данных в форматах стандарта ISO 15926;- поддержка множественности неймспейсов, работа с серверами SPARQL;- консоль онтологического программирования на языке Python;- распознавание онтологических паттернов;Работа будет продолжаться в направлениях:- разработка адапторов для различных инженерных (и не только инженерных) применений;- интерфейсная поддержка exploratory programming; - развитие возможностей онтологического программирования (подъем уровня языка работы с онтологическими данными, разработка верификаторов, reasoners, средств эволюции онтологий и т.д.).Скачать с http://techinvestlab.ru/dot15926Editor/
08.04.23
![Page 9: Извлечение справочных данных из технических текстов на естественных языках](https://reader036.vdocuments.mx/reader036/viewer/2022081717/546208e3af79595b058b4700/html5/thumbnails/9.jpg)
9
Пилотный проект• ABBYY Compreno
• Использование самых современных достижений в компьютерной обработке естественного языка (синтаксис и семантика)
• Использование самых современных достижений онтологического моделирования естественного языка
• Обучение парсера ABBYY Compreno на корпусе инженерных текстов• Образцы текстов профессионального подмножества естественного
языка • Моделирование отдельных инженерных текстов• Извлечение инженерной онтологии объектов и отношений
• .15926 Editor• Отображение инженерной онтологии объектов и отношений на
онтологию ISO 15926-2 • Формальное преобразование моделей в модели ISO 15926 и их
верификация• Публикация в семантическом формате справочных данных ISO
15926-8
![Page 10: Извлечение справочных данных из технических текстов на естественных языках](https://reader036.vdocuments.mx/reader036/viewer/2022081717/546208e3af79595b058b4700/html5/thumbnails/10.jpg)
Извлечение онтологической информации "Эта система состоит из двух объемов: сухой бокс и
мокрый бокс" (ABBYY Compreno).
08.04.23 10
![Page 11: Извлечение справочных данных из технических текстов на естественных языках](https://reader036.vdocuments.mx/reader036/viewer/2022081717/546208e3af79595b058b4700/html5/thumbnails/11.jpg)
Формирование справочных данных на основе онтологического разбора (.15926 Editor)
08.04.23 11
![Page 12: Извлечение справочных данных из технических текстов на естественных языках](https://reader036.vdocuments.mx/reader036/viewer/2022081717/546208e3af79595b058b4700/html5/thumbnails/12.jpg)
Извлечение онтологической информации "Внутренние поверхности должны быть гладкими для
уменьшения отложения продуктов коррозии и упрощения дезактивации" (ABBYY Compreno).
08.04.23 12
![Page 13: Извлечение справочных данных из технических текстов на естественных языках](https://reader036.vdocuments.mx/reader036/viewer/2022081717/546208e3af79595b058b4700/html5/thumbnails/13.jpg)
Формирование справочных данных на основе онтологического разбора (.15926 Editor)
08.04.23 13
![Page 14: Извлечение справочных данных из технических текстов на естественных языках](https://reader036.vdocuments.mx/reader036/viewer/2022081717/546208e3af79595b058b4700/html5/thumbnails/14.jpg)
![Page 15: Извлечение справочных данных из технических текстов на естественных языках](https://reader036.vdocuments.mx/reader036/viewer/2022081717/546208e3af79595b058b4700/html5/thumbnails/15.jpg)
![Page 16: Извлечение справочных данных из технических текстов на естественных языках](https://reader036.vdocuments.mx/reader036/viewer/2022081717/546208e3af79595b058b4700/html5/thumbnails/16.jpg)
![Page 17: Извлечение справочных данных из технических текстов на естественных языках](https://reader036.vdocuments.mx/reader036/viewer/2022081717/546208e3af79595b058b4700/html5/thumbnails/17.jpg)
![Page 18: Извлечение справочных данных из технических текстов на естественных языках](https://reader036.vdocuments.mx/reader036/viewer/2022081717/546208e3af79595b058b4700/html5/thumbnails/18.jpg)
![Page 19: Извлечение справочных данных из технических текстов на естественных языках](https://reader036.vdocuments.mx/reader036/viewer/2022081717/546208e3af79595b058b4700/html5/thumbnails/19.jpg)
![Page 20: Извлечение справочных данных из технических текстов на естественных языках](https://reader036.vdocuments.mx/reader036/viewer/2022081717/546208e3af79595b058b4700/html5/thumbnails/20.jpg)
![Page 21: Извлечение справочных данных из технических текстов на естественных языках](https://reader036.vdocuments.mx/reader036/viewer/2022081717/546208e3af79595b058b4700/html5/thumbnails/21.jpg)
Создание системы накопления справочных данных
Начальное наполнение на базе отраслевых глоссариев, тезаурусов, материалов отдельных исследований по стандартизации – обработка словарных определений.
Открытое предоставление специалистам отрасли и широкой публике (проектные, исследовательские, эксплуатационные, надзорные организации, органы стандартизации и т.д.) онтологической информации (интернет-портал).
Публичное обсуждение терминов и коллаборативное пополнение библиотеки заинтересованными лицами через wiki - инструменты.
Расширение библиотеки справочных данных путём обработки корпуса инженерных текстов на естественных языках специализированными инструментами извлечения и преобразования онтологий.
Использование словарей и тезаурусов для автоматизации переводов на иностранные языки, каталогизации (рубрикации, индексирования) в отраслевых и корпоративных электронных библиотеках и иных форматах электронного сбора и хранения знаний.
Использование библиотеки справочных данных для стандартизации терминологии проектной информации в системах CAD/PLM и каталогах и для автоматизированного обмена такой информацией в обменных форматах стандарта ISO 15926.
![Page 22: Извлечение справочных данных из технических текстов на естественных языках](https://reader036.vdocuments.mx/reader036/viewer/2022081717/546208e3af79595b058b4700/html5/thumbnails/22.jpg)
Apr 8, 2023 22
TechInvestLab.ru
Левенчук Анатолий ИгоревичБлог: http://ailev.ru
Почта: [email protected]
Агроскин Виктор ВладимировичПочта: [email protected]