Пожалуйста, используйте этот идентификатор, чтобы цитировать или ссылаться на этот ресурс: http://e-lib.bsufl.by/handle/edoc/17865
Название: Аўтаматызаваная апрацоўка беларускай мовы праз камп’ютарна-лінгвістычны модуль NOOJ
Другие названия: Automated Processing Of The Belarusian Language With Nooj Computer-Linguistic Module
Авторы: Варановіч, В. В.
Гецэвіч, Ю. С.
Супрунчук, М. В.
Ключевые слова: Языкознание (лингвистика)
Прикладное языкознание
Дата публикации: 2025
Издатель: Белорусский государственный университет иностранных языков
Библиографическое описание: Варановіч, В. В. Аўтаматызаваная апрацоўка беларускай мовы праз камп’ютарна-лінгвістычны модуль NOOJ / В. В. Варановіч, Ю. С. Гецэвіч, М. В. Супрунчук // Язык в эпоху цифровых трансформаций и развития искусственного интеллекта : сб. науч. ст. по итогам II междунар. науч. конф., Минск, 23–24 окт. 2025 г. / редкол. : Н. Е. Лаптева (отв. ред.) [и др.]. – Минск : БГУИЯ, 2025. – С. 577–585.
Аннотация: Каб атрымаць некаторыя звесткі лінгвістычнага (пра мову) ці экстралінгвістычнага (пра свет) характару, трэба вывучаць вялікія тэксты, бо апора на дастатковую колькасць фактаў звычайна забяспечвае пэўную і дакладную інфармацыю. У гэтым дапамагаюць метады корпуснай лінгвістыкі і аўтаматычнай апрацоўкі мовы (NLP). Для аблягчэння стварэння карпусоў і далейшай падрыхтоўкі запытаў да іх выкарыстоўваюцца анлайнавыя і афлайнавыя корпусныя менеджары. Прыкладам апошняга з іх з’яўляецца камп’ютарны лінгвістычны працэсар NooJ, які на пачатку 2000-х гг. распрацаваў М. Зільберштайн (Францыя). Беларускі модуль працэсара быў падрыхтаваны ў 2012 г. У дакладзе апісаны даследаванні з яго выкарыстаннем і асобныя дапаўненні да яго. Апісана падрыхтоўка новага рэпрэзентатыўнага міні-корпуса ў 1,5 мільёна словаўжыванняў. У беларускім базавым слоўніку выпраўлена тэгіраванне дзеепрыслоўяў, прапанаваны сінтаксічныя правілы для больш дакладнага аўтаматычнага тэгіравання амонімаў, для вылучэння і аднастайнай апрацоўкі фразеалагізмаў; дададзена каля 300 новых слоў і дапоўнена граматычная інфармацыя пра асобныя словы. Ключавыя словы: аманімія; аўтаматычная апрацоўка мовы; корпус тэкстаў; корпусны менеджар; сінтаксічная граматыка; NLP; NooJ.
Описание: Varanovich V., Hetsevich Yu., Suprunchuk М. To obtain some information of a linguistic (about language) or extralinguistic (about the world) nature, it is necessary to study large texts, since reliance on a sufficient number of facts usually provides certain and accurate information. Methods of corpus linguistics and automatic language processing (NLP) help in this. Online and offline corpus managers are used to facilitate the creation of corpora and the further preparation of queries for them. The computer linguistic processor NooJ is an example of the latter. It was developed by M. Silberstein (France) in the early 2000s. The Belarusian module of the processor was prepared in 2012. The article describes research done with it and some recent additions to it. The preparation of a new representative mini-corpus of 1.5 million word usages is described. The Belarusian basic dictionary has been corrected (the tagging of gerunds), syntactic rules for more accurate automatic tagging of homonyms and for uniform picking out and processing of phraseological units were proposed; and 300 new words and supplemented grammatical information about individual words were added. Key words: corpus manager; homonymy; NLP; NooJ; text corpus; syntactic grammar.
URI: http://e-lib.bsufl.by/handle/edoc/17865
ISBN: 978-985-28-0275-8
Располагается в коллекциях:Язык в эпоху цифровых трансформаций и развития искусственного интеллекта (статьи)

Файлы этого ресурса:
Файл Описание РазмерФормат 
577-585.pdf9,03 MBAdobe PDFПросмотреть/Открыть


Все ресурсы в архиве электронных ресурсов защищены авторским правом, все права сохранены.