Пожалуйста, используйте этот идентификатор, чтобы цитировать или ссылаться на этот ресурс:
http://e-lib.bsufl.by/handle/edoc/19472| Название: | Автоматизация формирования и структурирования коллекции текстов как основа семантического анализа |
| Другие названия: | Automation of Text Collection Formation and Structuring as a Basis for Semantic Analysis |
| Авторы: | Святощик, М. И. Гибкий, П. В. |
| Ключевые слова: | Языкознание (лингвистика) Прикладное языкознание |
| Дата публикации: | 2026 |
| Издатель: | Белорусский государственный университет иностранных языков |
| Библиографическое описание: | Святощик, М. И. Автоматизация формирования и структурирования коллекции текстов как основа семантического анализа / М. И. Святощик, П. В. Гибкий // Вестник БГУИЯ. Сер. 1, Филология. – 2026. – № 2 (4). – С. 57–66. |
| Аннотация: | В статье представлены результаты первого этапа научно-исследовательской работы по автоматизации семантической разметки текстов научно-технической направленности. Цель настоящего исследования – формирование репрезентативной коллекции текстовых материалов в области фотоники и ее систематизация в специализированной компьютерной базе данных. Описана методология сбора и предобработки данных, включающая парсинг веб-источников, очистку текстов от нефункциональных элементов, OCR-распознавание, лемматизацию и определение языка. Детализирована архитектура базы данных на основе СУБД PostgreSQL, оптимизированной для хранения метаданных документов и полнотекстового поиска посредством GIN-индексов. Сформированная коллекция включает 50 научных статей на русском языке за период 2015–2025 гг., преобразованных в структурированный формат JSON. Результаты работы создают фундаментальную основу для последующего применения алгоритмов слабой семантической разметки и теоретических наработок Минской школы вычислительной семантики (Универсального семантического кода В. В. Мартынова; Теории автоматического порождения архитектуры знаний А. Н. Гордея). Проделанная работа позволяет решать прикладные задачи библиометрического анализа, выявления исследовательских трендов и поддержки принятия решений в области фотоники. Обнаружены такие проблемы, как неоднородность форматов исходных данных и необходимость ручной верификации, намечены пути их решения через внедрение методов активного обучения. К л ю ч е в ы е с л о в а: фотоника; обработка естественного языка; сбор данных; база данных; PostgreSQL; семантическая разметка; Универсальный семантический код; ТАПАЗ; научно-технические тексты; полнотекстовый поиск. |
| Описание: | Svyatoshchik M., Gibkij P. K e y w o r d s: photonics; Natural Language Processing; data collection; database; PostgreSQL; semantic markup; Universal Semantic Code; TAPAZ; scientific and technical texts; full-text search. |
| URI: | http://e-lib.bsufl.by/handle/edoc/19472 |
| Располагается в коллекциях: | Вестник БГУИЯ. Сер. 1. Филология (статьи) |
Файлы этого ресурса:
| Файл | Описание | Размер | Формат | |
|---|---|---|---|---|
| 57-66.pdf | 347,87 kB | Adobe PDF | Просмотреть/Открыть |
Все ресурсы в архиве электронных ресурсов защищены авторским правом, все права сохранены.