Please use this identifier to cite or link to this item:
http://e-lib.bsufl.by/handle/edoc/19472| Title: | Автоматизация формирования и структурирования коллекции текстов как основа семантического анализа |
| Other Titles: | Automation of Text Collection Formation and Structuring as a Basis for Semantic Analysis |
| Authors: | Святощик, М. И. Гибкий, П. В. |
| Keywords: | Языкознание (лингвистика) Прикладное языкознание |
| Issue Date: | 2026 |
| Publisher: | Белорусский государственный университет иностранных языков |
| Citation: | Святощик, М. И. Автоматизация формирования и структурирования коллекции текстов как основа семантического анализа / М. И. Святощик, П. В. Гибкий // Вестник БГУИЯ. Сер. 1, Филология. – 2026. – № 2 (4). – С. 57–66. |
| Abstract: | В статье представлены результаты первого этапа научно-исследовательской работы по автоматизации семантической разметки текстов научно-технической направленности. Цель настоящего исследования – формирование репрезентативной коллекции текстовых материалов в области фотоники и ее систематизация в специализированной компьютерной базе данных. Описана методология сбора и предобработки данных, включающая парсинг веб-источников, очистку текстов от нефункциональных элементов, OCR-распознавание, лемматизацию и определение языка. Детализирована архитектура базы данных на основе СУБД PostgreSQL, оптимизированной для хранения метаданных документов и полнотекстового поиска посредством GIN-индексов. Сформированная коллекция включает 50 научных статей на русском языке за период 2015–2025 гг., преобразованных в структурированный формат JSON. Результаты работы создают фундаментальную основу для последующего применения алгоритмов слабой семантической разметки и теоретических наработок Минской школы вычислительной семантики (Универсального семантического кода В. В. Мартынова; Теории автоматического порождения архитектуры знаний А. Н. Гордея). Проделанная работа позволяет решать прикладные задачи библиометрического анализа, выявления исследовательских трендов и поддержки принятия решений в области фотоники. Обнаружены такие проблемы, как неоднородность форматов исходных данных и необходимость ручной верификации, намечены пути их решения через внедрение методов активного обучения. К л ю ч е в ы е с л о в а: фотоника; обработка естественного языка; сбор данных; база данных; PostgreSQL; семантическая разметка; Универсальный семантический код; ТАПАЗ; научно-технические тексты; полнотекстовый поиск. |
| Description: | Svyatoshchik M., Gibkij P. K e y w o r d s: photonics; Natural Language Processing; data collection; database; PostgreSQL; semantic markup; Universal Semantic Code; TAPAZ; scientific and technical texts; full-text search. |
| URI: | http://e-lib.bsufl.by/handle/edoc/19472 |
| Appears in Collections: | Вестник БГУИЯ. Сер. 1. Филология (статьи) |
Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.