Пожалуйста, используйте этот идентификатор, чтобы цитировать или ссылаться на этот ресурс: http://e-lib.bsufl.by/handle/edoc/19472
Название: Автоматизация формирования и структурирования коллекции текстов как основа семантического анализа
Другие названия: Automation of Text Collection Formation and Structuring as a Basis for Semantic Analysis
Авторы: Святощик, М. И.
Гибкий, П. В.
Ключевые слова: Языкознание (лингвистика)
Прикладное языкознание
Дата публикации: 2026
Издатель: Белорусский государственный университет иностранных языков
Библиографическое описание: Святощик, М. И. Автоматизация формирования и структурирования коллекции текстов как основа семантического анализа / М. И. Святощик, П. В. Гибкий // Вестник БГУИЯ. Сер. 1, Филология. – 2026. – № 2 (4). – С. 57–66.
Аннотация: В статье представлены результаты первого этапа научно-исследовательской работы по автоматизации семантической разметки текстов научно-технической направленности. Цель настоящего исследования – формирование репрезентативной коллекции текстовых материалов в области фотоники и ее систематизация в специализированной компьютерной базе данных. Описана методология сбора и предобработки данных, включающая парсинг веб-источников, очистку текстов от нефункциональных элементов, OCR-распознавание, лемматизацию и определение языка. Детализирована архитектура базы данных на основе СУБД PostgreSQL, оптимизированной для хранения метаданных документов и полнотекстового поиска посредством GIN-индексов. Сформированная коллекция включает 50 научных статей на русском языке за период 2015–2025 гг., преобразованных в структурированный формат JSON. Результаты работы создают фундаментальную основу для последующего применения алгоритмов слабой семантической разметки и теоретических наработок Минской школы вычислительной семантики (Универсального семантического кода В. В. Мартынова; Теории автоматического порождения архитектуры знаний А. Н. Гордея). Проделанная работа позволяет решать прикладные задачи библиометрического анализа, выявления исследовательских трендов и поддержки принятия решений в области фотоники. Обнаружены такие проблемы, как неоднородность форматов исходных данных и необходимость ручной верификации, намечены пути их решения через внедрение методов активного обучения. К л ю ч е в ы е с л о в а: фотоника; обработка естественного языка; сбор данных; база данных; PostgreSQL; семантическая разметка; Универсальный семантический код; ТАПАЗ; научно-технические тексты; полнотекстовый поиск.
Описание: Svyatoshchik M., Gibkij P. K e y w o r d s: photonics; Natural Language Processing; data collection; database; PostgreSQL; semantic markup; Universal Semantic Code; TAPAZ; scientific and technical texts; full-text search.
URI: http://e-lib.bsufl.by/handle/edoc/19472
Располагается в коллекциях:Вестник БГУИЯ. Сер. 1. Филология (статьи)

Файлы этого ресурса:
Файл Описание РазмерФормат 
57-66.pdf347,87 kBAdobe PDFПросмотреть/Открыть


Все ресурсы в архиве электронных ресурсов защищены авторским правом, все права сохранены.