Аўтаматызаваная апрацоўка беларускай мовы праз камп’ютарна-лінгвістычны модуль NOOJ

Варановіч, В. В.; Гецэвіч, Ю. С.; Супрунчук, М. В.

Please use this identifier to cite or link to this item: http://e-lib.bsufl.by/handle/edoc/17865

Title:	Аўтаматызаваная апрацоўка беларускай мовы праз камп’ютарна-лінгвістычны модуль NOOJ
Other Titles:	Automated Processing Of The Belarusian Language With Nooj Computer-Linguistic Module
Authors:	Варановіч, В. В. Гецэвіч, Ю. С. Супрунчук, М. В.
Keywords:	Языкознание (лингвистика) Прикладное языкознание
Issue Date:	2025
Publisher:	Белорусский государственный университет иностранных языков
Citation:	Варановіч, В. В. Аўтаматызаваная апрацоўка беларускай мовы праз камп’ютарна-лінгвістычны модуль NOOJ / В. В. Варановіч, Ю. С. Гецэвіч, М. В. Супрунчук // Язык в эпоху цифровых трансформаций и развития искусственного интеллекта : сб. науч. ст. по итогам II междунар. науч. конф., Минск, 23–24 окт. 2025 г. / редкол. : Н. Е. Лаптева (отв. ред.) [и др.]. – Минск : БГУИЯ, 2025. – С. 577–585.
Abstract:	Каб атрымаць некаторыя звесткі лінгвістычнага (пра мову) ці экстралінгвістычнага (пра свет) характару, трэба вывучаць вялікія тэксты, бо апора на дастатковую колькасць фактаў звычайна забяспечвае пэўную і дакладную інфармацыю. У гэтым дапамагаюць метады корпуснай лінгвістыкі і аўтаматычнай апрацоўкі мовы (NLP). Для аблягчэння стварэння карпусоў і далейшай падрыхтоўкі запытаў да іх выкарыстоўваюцца анлайнавыя і афлайнавыя корпусныя менеджары. Прыкладам апошняга з іх з’яўляецца камп’ютарны лінгвістычны працэсар NooJ, які на пачатку 2000-х гг. распрацаваў М. Зільберштайн (Францыя). Беларускі модуль працэсара быў падрыхтаваны ў 2012 г. У дакладзе апісаны даследаванні з яго выкарыстаннем і асобныя дапаўненні да яго. Апісана падрыхтоўка новага рэпрэзентатыўнага міні-корпуса ў 1,5 мільёна словаўжыванняў. У беларускім базавым слоўніку выпраўлена тэгіраванне дзеепрыслоўяў, прапанаваны сінтаксічныя правілы для больш дакладнага аўтаматычнага тэгіравання амонімаў, для вылучэння і аднастайнай апрацоўкі фразеалагізмаў; дададзена каля 300 новых слоў і дапоўнена граматычная інфармацыя пра асобныя словы. Ключавыя словы: аманімія; аўтаматычная апрацоўка мовы; корпус тэкстаў; корпусны менеджар; сінтаксічная граматыка; NLP; NooJ.
Description:	Varanovich V., Hetsevich Yu., Suprunchuk М. To obtain some information of a linguistic (about language) or extralinguistic (about the world) nature, it is necessary to study large texts, since reliance on a sufficient number of facts usually provides certain and accurate information. Methods of corpus linguistics and automatic language processing (NLP) help in this. Online and offline corpus managers are used to facilitate the creation of corpora and the further preparation of queries for them. The computer linguistic processor NooJ is an example of the latter. It was developed by M. Silberstein (France) in the early 2000s. The Belarusian module of the processor was prepared in 2012. The article describes research done with it and some recent additions to it. The preparation of a new representative mini-corpus of 1.5 million word usages is described. The Belarusian basic dictionary has been corrected (the tagging of gerunds), syntactic rules for more accurate automatic tagging of homonyms and for uniform picking out and processing of phraseological units were proposed; and 300 new words and supplemented grammatical information about individual words were added. Key words: corpus manager; homonymy; NLP; NooJ; text corpus; syntactic grammar.
URI:	http://e-lib.bsufl.by/handle/edoc/17865
ISBN:	978-985-28-0275-8
Appears in Collections:	Язык в эпоху цифровых трансформаций и развития искусственного интеллекта (статьи)

Files in This Item:

File	Description	Size	Format
577-585.pdf		9,03 MB	Adobe PDF	View/Open

Show full item record

Digital Repository
Belarusian state university of foreign languages

ISSN (online):

Digital RepositoryBelarusian state university of foreign languages

ISSN (online):

Digital Repository
Belarusian state university of foreign languages