О разработке лингвистической базы данных онтологического типа, как ресурса для лингвопроцессоров

Авторы

  • Айрат Рафизович Гатиатуллин, ayrat.gatiatullin@gmail.com ГНБУ Академия наук Республики Татарстан, г. Казань, Россия
  • Николай Аркадьевич Прокопьев, nikolai.prokopyev@gmail.com ГНБУ Академия наук Республики Татарстан, г. Казань, Россия

Ключевые слова:

онтологические модели, семантический фрейм, тюркские языки

Аннотация

В данной статье описывается разработка лингвистических онтологических баз данных для тюркских языков, которые могут быть использованы в целом ряде лингвистических процессоров для обработки текстов на тюркских языках. Актуальность данной работы заключается в том, что несмотря на активные разработки для тюркских языков в последние 10-15 лет практически все тюркские языки (кроме турецкого) продолжают относиться к типу малоресурсных языков. Это связано с тем, что для тюркских языков наблюдается дефицит лингвистических ресурсов, применимых в различных компьютерных разработках по обработке естественного языка. Это могут быть разного рода онтологические базы данных типа WordNet, FrameNet, VerbNet, РуТез и др., а также комбинации этих ресурсов с электронными корпусами. Подобные онтологические базы данных могут быть использованы в различных информационно-справочных системах, при создании синтаксических, семантических и семантико-синтаксических анализаторов, а также учебных и научных прикладных программ. В предлагаемой нами работе представлен подход, который объединяет онтологические модели фреймового и таксономического типа, структурно-параметрическую модель тюркской морфемы в единую интегральную модель. В основу разработки такой модели изначально положены принципы многоязычности, многофункциональности и прагматической ориентированности. Многоязычность предполагает универсальность
для всех языков тюркской группы, а прагматическая ориентированность именно ориентированность на структурно-функциональные особенности языков агглютинативного типа. Создание программного обеспечения кроме вышеперечисленных теоретико-лингвистических методов и технологий предполагает использование технологий проектирования сложных баз данных, веб-программирования, клиентсерверных технологий. На основе интегральной онтологической модели создается многоязычная база данных для тюркских языков, которая используется для генерации правил контекстно-свободной грамматики и создания семантико-синтаксического анализатора. На вход данного анализатора поступают предложения на тюркских языках, а на выходе получаются структурированные данные. Получаемый таким образом анализатор применим для семантико-синтаксической разметки тюркских электронных корпусов и создания программ семантического поиска.

Литература
1. Дыбо А.В., Шеймович А.В. (2014) Автоматический морфологический анализ для корпусов тюркских языков. Филология и культура, №2, с. 20-26.
2. Желтов П.В. (2002) Морфологический анализатор чувашского языка. Материалы Международной
конференции студентов и аспирантов по фундаментальным наукам «Ломоносов 2002».
3. Шарипбаев А.А., Бекманова Г.Т., Ергеш Б.Ж., Бурибаева А.К., Карабалаева М.Х. (2012) Интеллектуальный морфологический анализатор, основанный на семантических сетях. Материалы международной научно-технической конференции «Открытые семантические технологии проектирования интеллектуальных систем» (OSTIS-2012), с. 397-400.
4. Sharipbay A.A., Bekmanova G., Yergesh B., Mukanova A. (2014) Synchronized liner tree for
morphological analysis and generation of the Kazakh language. Proceedings of the international conference
“Turkic languages processing”, TurkLang 2014, pp. 113-117.
5. Orhun, M., Tantuğ A.C., Adalı E. (2010) Morphological Disambiguation Rules For Uyghur Language.
IEEE International Conference on Software Engineering and Service Sciences (ICSESS), pp. 542-546. doi:
10.1109/ ICSESS.2010.5552304
6. Sahin G.G., Adalı E. (2018) Annotation of semantic roles for the Turkish proposition bank, 52(3),
pp. 673-706. doi: 10.1007/s10579-017-9390-y
7. Eryiğit G., Nivre J., Oflazer K. (2008) Dependency Parsing of Turkish. Computational Linguistics, 34(3),
pp. 357-389. doi: 10.1162/coli.2008.34.4.627
8. Lyashevskaya O., Kashkin E. (2015) FrameBank: A Database of Russian Lexical Constructions.
Proceedings of the 4th International Conference on Analysis of Images, Social Networks and Texts (AIST
2015). Communications in Computer and Information Science, vol. 542, pp. 350-360. doi:10.1007/978-3-319-2
9. Turkish National Corpus (TNC). URL: http:// www.tnc.org.tr.
10. Алматинский корпус казахского языка. URL: http://web-corpora.net/KazakhCorpus/search/.
11. Корпус алтайского языка. URL: http://altay 2.gasu.ru.
12. Национальный корпус башкирского языка. URL: http://bashcorpus.ru.
13. Башкирский поэтический корпус. URL: http:// web-corpora.net/bashcorpus/search/.
14. Корпус татарского языка ‘Туган тел’. URL: http://tugantel.tatar.
15. Письменный корпус татарского языка. URL: http://www.corpus.tatar.
16. Корпус хакасского языка. URL: http://khakas.altaica.ru.
17. Корпус якутского языка. URL: http://adictsakha.nsu.ru/corpora/corp.
18. Корпус узбекского языка. URL: http://corpus-uz.herokuapp.com.
19. Корпус шорского и телеутского языков. URL: https://corpora.iea.ras.ru/corpora.
20. Лингвистическое ПО «МетаФраз R10». URL: http://www.metafraz.ru.
21. C. F. Hockett, Two models of grammatical description, WORD Vol. 10 (1954) 210–234.
22. Yelibayeva G., Sharipbay A., Mukanova A., Razakhova B. (2020) Applied ontology for the automatic
classification of simple sentences of the Kazakh language. 5th International Conference on Computer Science
and Engineering, UBMK 2020. pp. 13-18. doi: 10.1109/UBMK50275.2020.9219461
23. FrameNet. URL: https://framenet.icsi.berkeley.edu.
24. Palmer M. (2009). Semlink: Linking PropBank, VerbNet and FrameNet. Proceedings of the Generative
Lexicon Conference., pp. 9-15.
25. Gatiatullin A., Suleymanov D., Prokopyev N., Khakimov B. (2020) About turkic morpheme portal.
CEUR Workshop Proceedings Institute for history, language and literature, Ufa scientific center, Russian
Academy of Sciences Proceedings of TurkLang 2020, pp. 226-243.

Биографии авторов

Айрат Рафизович Гатиатуллин, ayrat.gatiatullin@gmail.com, ГНБУ Академия наук Республики Татарстан, г. Казань, Россия

кандидат технических наук, ведущий научный сотрудник

Николай Аркадьевич Прокопьев, nikolai.prokopyev@gmail.com, ГНБУ Академия наук Республики Татарстан, г. Казань, Россия

научный сотрудник

Загрузки

Опубликован

2021-06-15

Как цитировать

ГАТИАТУЛЛИН , А. Р., & ПРОКОПЬЕВ , Н. А. (2021). О разработке лингвистической базы данных онтологического типа, как ресурса для лингвопроцессоров. Алтаистика. Altaistics, 1(1 (01), 77–88. извлечено от https://altaisticsvfu.ru/index.php/journal/article/view/8

Выпуск

Раздел

IT в исследовании алтайских языков