Пожалуйста, используйте этот идентификатор, чтобы цитировать или ссылаться на этот ресурс:
http://e-lib.bsufl.by/handle/edoc/19472Полная запись метаданных
| Поле DC | Значение | Язык |
|---|---|---|
| dc.contributor.author | Святощик, М. И. | - |
| dc.contributor.author | Гибкий, П. В. | - |
| dc.date.accessioned | 2026-04-29T09:50:26Z | - |
| dc.date.available | 2026-04-29T09:50:26Z | - |
| dc.date.issued | 2026 | - |
| dc.identifier.citation | Святощик, М. И. Автоматизация формирования и структурирования коллекции текстов как основа семантического анализа / М. И. Святощик, П. В. Гибкий // Вестник БГУИЯ. Сер. 1, Филология. – 2026. – № 2 (4). – С. 57–66. | en_US |
| dc.identifier.uri | http://e-lib.bsufl.by/handle/edoc/19472 | - |
| dc.description | Svyatoshchik M., Gibkij P. K e y w o r d s: photonics; Natural Language Processing; data collection; database; PostgreSQL; semantic markup; Universal Semantic Code; TAPAZ; scientific and technical texts; full-text search. | en_US |
| dc.description.abstract | В статье представлены результаты первого этапа научно-исследовательской работы по автоматизации семантической разметки текстов научно-технической направленности. Цель настоящего исследования – формирование репрезентативной коллекции текстовых материалов в области фотоники и ее систематизация в специализированной компьютерной базе данных. Описана методология сбора и предобработки данных, включающая парсинг веб-источников, очистку текстов от нефункциональных элементов, OCR-распознавание, лемматизацию и определение языка. Детализирована архитектура базы данных на основе СУБД PostgreSQL, оптимизированной для хранения метаданных документов и полнотекстового поиска посредством GIN-индексов. Сформированная коллекция включает 50 научных статей на русском языке за период 2015–2025 гг., преобразованных в структурированный формат JSON. Результаты работы создают фундаментальную основу для последующего применения алгоритмов слабой семантической разметки и теоретических наработок Минской школы вычислительной семантики (Универсального семантического кода В. В. Мартынова; Теории автоматического порождения архитектуры знаний А. Н. Гордея). Проделанная работа позволяет решать прикладные задачи библиометрического анализа, выявления исследовательских трендов и поддержки принятия решений в области фотоники. Обнаружены такие проблемы, как неоднородность форматов исходных данных и необходимость ручной верификации, намечены пути их решения через внедрение методов активного обучения. К л ю ч е в ы е с л о в а: фотоника; обработка естественного языка; сбор данных; база данных; PostgreSQL; семантическая разметка; Универсальный семантический код; ТАПАЗ; научно-технические тексты; полнотекстовый поиск. | en_US |
| dc.publisher | Белорусский государственный университет иностранных языков | en_US |
| dc.subject | Языкознание (лингвистика) | en_US |
| dc.subject | Прикладное языкознание | en_US |
| dc.title | Автоматизация формирования и структурирования коллекции текстов как основа семантического анализа | en_US |
| dc.title.alternative | Automation of Text Collection Formation and Structuring as a Basis for Semantic Analysis | en_US |
| dc.type | Article | en_US |
| Располагается в коллекциях: | Вестник БГУИЯ. Сер. 1. Филология (статьи) | |
Файлы этого ресурса:
| Файл | Описание | Размер | Формат | |
|---|---|---|---|---|
| 57-66.pdf | 347,87 kB | Adobe PDF | Просмотреть/Открыть |
Все ресурсы в архиве электронных ресурсов защищены авторским правом, все права сохранены.