Разработка программного средства оценки качества аргументации в структурированных дебатах

Семенов Артём Дмитриевич

The article discusses the development of a desktop software tool for training polemics and argumentation skills. The problem of human judging subjectivity in debates is described, and a solution based on integration with the DeepSeek API is proposed. The technical implementation of the architecture using Retrieval-Augmented Generation (RAG) is presented. The testing results of the developed AI-jury algorithm are provided, proving its high statistical stability compared to human experts.

Keywords: software engineering, artificial intelligence, large language models, RAG, debates, PySide6, DeepSeek, prompt-engineering.

Введение

В условиях цифровизации все более значимую роль приобретают программные средства, предназначенные для поддержки интеллектуальной деятельности. Навыки аргументированного изложения и защиты позиции востребованы в образовательной и профессиональной среде. Однако традиционные подходы к обучению аргументации требуют участия квалифицированных тренеров или судей, что влечет за собой высокую степень субъективности оценок и низкую масштабируемость процесса.

Существующие на рынке ИИ-решения (например, ChatGPT, Yoodli) ориентированы либо на свободное общение, либо на анализ формальных характеристик речи (темп, интонация), не обеспечивая жесткого сценарного контроля дискуссии [1]. В связи с этим целью данной работы стала разработка программного средства «Интеллектуальный Гладиатор», обеспечивающего автоматизированное проведение и объективную оценку дебатов с участием виртуальных оппонентов.

Архитектура и программная реализация

Разработанное программное средство построено на базе языка Python и кроссплатформенного фреймворка PySide6. Приложение реализует паттерн проектирования MVC (Model-View-Controller) и асинхронную событийную модель управления [2].

Ключевой особенностью системы является разделение ролей ИИ-агентов. Для генерации ответов виртуальных оппонентов (например, исторических философов) используется мультиагентный подход с интеграцией локальной векторной базы данных ChromaDB. Алгоритм реализует принцип RAG (RetrievalAugmented Generation) [3]: перед отправкой запроса к LLM (DeepSeek-Chat) система находит релевантные цитаты философа в локальной базе и внедряет их в системный промпт. Это позволяет минимизировать галлюцинации и обеспечить историческую достоверность аргументации.

Интерфейс пользователя разделен на функциональные зоны, включая зону оппонента с динамической генерацией текста, информационную панель с таймерами и зону пользователя с голосовым вводом (STT) в режиме реального времени.

Пользовательский интерфейс экрана полемики

Рис. 1. Пользовательский интерфейс экрана полемики

Для оценки качества дискуссии разработан алгоритм ИИ-Жюри на базе аналитической модели DeepSeek-Reasoner. Оценка базируется на международном стандарте дебатов 3M (Matter, Manner, Method) и включает предварительный логический анализ стенограммы (Chain-of-Thought) с сопоставлением аргументов [4].

Результаты тестирования

Для верификации разработанного алгоритма ИИ-Жюри была проведена серия нагрузочных испытаний. Оценивалась детерминированность выставляемых баллов. Транскрипты раундов дебатов подавались на вход алгоритму по 5 раз независимыми итерациями (суммарно 15 прогонов). Результаты оценки дисперсии представлены в таблице 1.

Анализ результатов показал, что средний коэффициент вариации (CV) для аналитических макро-критериев составил всего 5,8 %. Нулевая дисперсия (CV = 0.0 %) в оценке логической непротиворечивости подтверждает строгую детерминированность алгоритма. Для сравнения, профессиональные эксперты-люди демонстрируют расхождение в суждениях в 19 % случаев [5]. Таким образом, разработанный LLM-судья обладает значительно более высокой точностью и повторяемостью результатов, исключая фактор случайного отклонения. Пример оценки дисперсии части баллов представлен в таблице 1.

Таблица 1

Оценка дисперсии баллов алгоритма ИИ-Жюри

Критерий (система 3M)	Среднее ( µ )	Стд. откл. ( σ )	Коэфф. вариации (CV)
Логическая непротиворечивость	5.00	0.00	0.00 %
Структурная связность речи	17.80	0.45	2.51 %
Качество контраргументации	10.20	0.45	4.38 %
Стилистическое богатство	8.60	0.55	6.37 %

Дополнительное тестирование архитектуры RAG на базе 50 раундов дебатов показало, что интеграция узкоспециализированной терминологии позволяет преодолеть склонность базовой модели к нейтральным ответам («семантическое усреднение»). Применение RAG повысило качество аргументации нишевых ИИ-персонажей в среднем на 2,2 балла по системе 3M.

Заключение

Разработанный программный модуль успешно решает задачу проведения и объективной оценки структурированных дебатов. Применение современных технологий обработки естественного языка, локальных векторных хранилищ и продуманного промпт-инжиниринга позволило создать тренажер, превосходящий стабильность экспертов-людей. Внедрение подобных систем открывает новые перспективы для автоматизации образовательного процесса и развития когнитивных навыков.

Литература:

Sharma, M. Understanding AI Sycophancy in Large Language Models /M. Sharma, S. Tong, T. Korbak [et al.] // Journal of Machine Learning Research. — 2023. — Vol. 24, № 1. — P. 110–135.
Мартин, Р. Чистая архитектура: Искусство разработки программного обеспечения / Р. Мартин; пер. с англ. — Санкт-Петербург: Питер, 2022.– 352 с.
Lewis, P. Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks / P. Lewis, E. Perez, A. Piktus [et al.] // NeurIPS 2020 Proceedings. — 2020. — Vol. 33. — P. 9459–9475.
International Debate Education Association (IDEA). Rulebook for 3M Assessment System (Matter, Manner, Method). — New York: IDEA Press, 2019. 112p.
Zheng, L. Judging LLM-as-a-judge with MT-Bench and Chatbot Arena L. Zheng, W. L. Chiang, Y. Sheng [et al.] // Advances in Neural Information Processing Systems. — 2023. — Vol. 36. — P. 46595–46623.

Молодой учёный

Разработка программного средства оценки качества аргументации в структурированных дебатах

Разработка программного средства оценки качества аргументации в структурированных дебатах

Молодой учёный