Пожалуйста, используйте этот идентификатор, чтобы цитировать или ссылаться на этот ресурс:
http://e-lib.bsufl.by/handle/edoc/17808| Название: | Сравнение больших языковых моделей и марковских цепей для генерации анекдотов на русском языке |
| Другие названия: | Comparison Of Large Language Models And Markov Chains For Generating Jokes In Russian |
| Авторы: | Липатова, Д. А. |
| Ключевые слова: | Языкознание (лингвистика) Прикладное языкознание Перевод Русский язык |
| Дата публикации: | 2025 |
| Издатель: | Белорусский государственный университет иностранных языков |
| Библиографическое описание: | Липатова, Д. А. Сравнение больших языковых моделей и марковских цепей для генерации анекдотов на русском языке / Д. А. Липатова // Язык в эпоху цифровых трансформаций и развития искусственного интеллекта : сб. науч. ст. по итогам II междунар. науч. конф., Минск, 23–24 окт. 2025 г. / редкол. : Н. Е. Лаптева (отв. ред.) [и др.]. – Минск : БГУИЯ, 2025. – С. 182–190. |
| Аннотация: | В статье рассматриваются возможности автоматической генерации анекдотов на русском языке с использованием марковских цепей и больших языковых моделей (large language models, LLM). Целью исследования является сравнительный анализ этих методов в задаче генерации юмористических текстов, учитывающих формальные признаки анекдота. Для обучения марковских моделей был собран корпус из более чем 300 000 анекдотов, очищенный от дубликатов и выбросов. Результаты показали, что увеличение параметра state_size улучшает связность и осмысленность текстов, но снижает их разнообразие, при этом многие генерации представляют собой комбинации уже существующих анекдотов. В работе также тестировались LLM: GPT‑4, YandexGPT (3.0, 5.0 Lite, 5.0 Pro), Gemini (2.0 Flash, 2.0 Flash Thinking, 2.5 Pro) и Grok 3. Выяснилось, что некоторые из них (особенно GPT‑4 и Gemini 2.0 Flash) лучше сохраняют ключевые признаки жанра анекдота, создавая тексты с «речью от автора» и характерными персонажами, тогда как другие отклоняются от этих признаков или выдают заготовленные варианты. Результаты исследования подчеркивают необходимость дальнейших экспериментов с промптами и обучающими данными для повышения оригинальности и качества генерации. Ключевые слова: обработка естественного языка; автоматическая генерация текста; анекдоты; большие языковые модели; марковские цепи. |
| Описание: | Lipatova D. The article deals with the possibilities of automatic generation of anecdotes in Russian using Markov chains and large language models (LLM). The aim of the study is a comparative analysis of these methods in the task of generating humorous texts that take into account the formal features of the anecdote. A corpus of more than 300,000 anecdotes, cleaned of duplicates and outliers, was collected to train the Markov models. Results showed that increasing the state_size parameter improves the coherence and meaningfulness of the texts but reduces their diversity, with many generations being combinations of pre-existing anecdotes. The LLMs tested in this work are GPT-4, YandexGPT (3.0, 5.0 Lite, 5.0 Pro), Gemini (2.0 Flash, 2.0 Flash Thinking, 2.5 Pro) and Grok 3. It turned out that some of them (especially GPT-4 and Gemini 2.0 Flash) were better at preserving key features of the anecdote genre, producing texts with “speech from the author” and distinctive characters, while others deviated from these features or produced pre-prepared variants. The results of the study emphasize the need for further experimentation with prompts and training data to improve originality and generation quality. ЯЗЫК В ЭПОХУ ЦИФРОВЫХ ТРАНСФОРМАЦИЙ И РАЗВИТИЯ ИСКУССТВЕННОГО ИНТЕЛЕКТА Key words: natural language processing; automatic text generation; anecdotes; large language models; Markov chains. |
| URI: | http://e-lib.bsufl.by/handle/edoc/17808 |
| ISBN: | 978-985-28-0275-8 |
| Располагается в коллекциях: | Язык в эпоху цифровых трансформаций и развития искусственного интеллекта (статьи) |
Файлы этого ресурса:
| Файл | Описание | Размер | Формат | |
|---|---|---|---|---|
| 182-190.pdf | 9,21 MB | Adobe PDF | Просмотреть/Открыть |
Все ресурсы в архиве электронных ресурсов защищены авторским правом, все права сохранены.