В данной работе рассматривается задача автоматизации анализа больших объемов текстовых данных для быстрого и точного извлечения их смыслового содержания. Разработан метод и интеллектуальная система, включающая модули автоматического анализа текстов, выявления ключевых слов и их связей, а также структурирования и генерации тематических описаний. В основе системы лежит комбинация современных подходов к обработке естественного языка (NLP) и методов машинного обучения, включая нейросетевые архитектуры для моделирования контекстуальных зависимостей. Разработанная система обеспечивает высокий уровень абстракции и структурирования данных, способствуя более эффективной организации информационного пространства и ускорению процесса принятия решений на основе анализа текстов.
Ключевые слова: обработка естественного языка, машинное обучение, тематическое моделирование, извлечение ключевых слов, генерация текста, интеллектуальная система.
Введение
Стремительный рост объемов научно-технической информации на русском языке создает значительные трудности для ее ручного анализа. Существующие автоматизированные подходы часто опираются на статистические методы (например, TF-IDF [1, c. 112]) или классические модели тематического моделирования (LDA [1, с. 150], NMF [1, с. 179]), которые неспособны в полной мере учитывать сложный контекст, специфическую терминологию и семантические связи, характерные для научных текстов. Это подчеркивает необходимость разработки более совершенных интеллектуальных систем, способных генерировать сжатые, но содержательные тематические описания.
Для решения данной проблемы в рамках работы был разработан новый интегрированный метод и реализована модульная интеллектуальная система. Система предназначена для глубокого семантического анализа русскоязычных научно-образовательных и инженерно-технических текстов и формирования на их основе высокоуровневых описаний, включающих набор ключевых терминов, тематическую структуру и связную аннотацию.
Методы и архитектура системы
В основе системы лежит модульная архитектура, обеспечивающая гибкость и возможность независимой модернизации компонентов. Каждый модуль решает специализированную задачу, а их результаты интегрируются для достижения конечной цели. Архитектура включает следующие ключевые модули:
— Модуль предобработки текста. Выполняет стандартные процедуры очистки и нормализации текста (удаление спецсимволов, приведение к нижнему регистру, токенизация) для подготовки данных к последующему анализу.
— Модуль извлечения ключевых слов. Используется модель KeyBERT, которая применяет предобученные контекстуальные эмбеддинги для сопоставления семантической близости слов-кандидатов с вектором всего документа. Это позволяет извлекать термины, наиболее точно отражающие его содержание.
— Модуль тематического моделирования. Применяется модель BERTopic, основанная на векторных представлениях текста, с использованием алгоритмов понижения размерности (UMAP) и кластеризации (HDBSCAN). BERTopic не требует предварительного задания количества тем и формирует более когерентные и интерпретируемые тематические кластеры.
— Модуль обогащения знаний. Использует извлеченные ключевые термины для отправки запросов к графу знаний Wikidata через протокол SPARQL, что позволяет обогатить семантическое представление документа внешними релевантными понятиями.
— Модуль интеграции и генерации описания. Специально разработанный механизм «Fusion-Transformer» принимает на вход результаты работы аналитических модулей и формирует из них единое, насыщенное контекстом генеративное задание. Далее это задание подается на вход большой языковой модели (LLM), адаптированной с помощью LoRA, которая генерирует финальное связное высокоуровневое описание.
Такая архитектура позволяет преодолеть недостатки отдельных методов, обеспечивая глубокий, многоаспектный анализ текста. Ключевой особенностью архитектуры является механизм обработки документов большого объема.
Вместо простого усечения текста, которое приводит к потере информации, система применяет стратегию чанкинга (chunking) : исходный документ разбивается на более мелкие, частично пересекающиеся фрагменты (чанки). Каждый фрагмент последовательно обрабатывается модулями извлечения ключевых слов и тематического моделирования. Полученные промежуточные результаты (ключевые слова и тематики от каждого чанка) агрегируются перед подачей в финальный модуль интеграции. Такой подход позволяет анализировать документы практически любого размера без потери контекста и смысловой целостности.
Сведем данные архитектурной модели в таблице 1.
Таблица 1
Архитектурная модель методов интеллектуальной системы генерации высокоуровневых тематических описаний текстовых документов
Модуль |
Применяемые технологии |
Обоснование выбора |
Предобработка текста |
Стандартные процедуры (очистка, токенизация, нормализация) |
Обеспечение чистоты и унифицированности данных для корректной работы последующих моделей |
Извлечение ключевых слов |
KeyBERT с использованием контекстуальных эмбеддингов |
Высокая семантическая точность извлечения. Способность улавливать контекстуально важные, но не самые частотные термины |
Тематическое моделирование |
BERTopic (UMAP + HDBSCAN) |
Автоматическое определение числа тем. Формирование более когерентных и семантически осмысленных тематических кластеров |
Обогащение знаний |
Wikidata SPARQL Lookup |
Расширение семантического поля документа за счет привлечения структурированных внешних знаний, повышение полноты анализа |
Интеграция и генерация |
Fusion-Transformer + LoRA-адаптированная LLM |
Fusion-Transformer обеспечивает интеллектуальную интеграцию признаков. LLM генерирует связный, стилистически верный текст. LoRA снижает требования к ресурсам для дообучения LLM |
Результаты
Разработанная архитектура, основанная на интеграции специализированных модулей KeyBERT и BERTopic с большой языковой моделью, продемонстрировала высокую эффективность в решении поставленных задач. Такой комплексный подход позволяет системе глубоко понимать контекст и семантические связи, генерируя более информативные и релевантные описания по сравнению с традиционными подходами.
При сопоставлении с классическими статистическими методами (на основе TF-IDF, LDA и т. д.) предложенный метод обеспечивает значительно более высокое качество анализа. Точность выделения ключевых терминов и смысловая целостность определяемых тематик в среднем оказались выше на 30–40 %. Это обусловлено способностью контекстуальных моделей, лежащих в основе системы, улавливать семантические нюансы, которые недоступны для алгоритмов, оперирующих лишь статистикой и частотностью слов.
Было проведено сравнение с другими современными решениями на базе локальных LLM схожего размера. Благодаря уникальному интеграционному механизму «Fusion-Transformer», который структурирует и обогащает входные данные для генеративной модели, данная система показывает стабильное, хоть и небольшое, преимущество. Генерируемые описания в среднем на 2–4 % полнее и точнее отражают ключевые аспекты исходного документа, демонстрируя лучшую сфокусированность и меньшую склонность к упущению важных деталей по сравнению с прямым применением аналогичных LLM.
В итоге, предложенный комбинированный подход позволяет генерировать более связные и детализированные описания, точно отражающие взаимосвязи и контекст текста. В отличие от чисто экстрактивных методов, таких как TextRank, которые лишь выбирают готовые предложения, или прямого применения LLM, которое может привести к слишком общим выводам, предложенная система синтезирует новую информацию, основанную на глубоком предварительном анализе. Это обеспечивает итоговым описаниям высокую релевантность и информативность, повышая эффективность работы с текстовыми данными.
Заключение
В ходе работы был разработан и реализован интегрированный метод и модульная интеллектуальная система для генерации высокоуровневых тематических описаний. Предложенная архитектура, основанная на комбинации современных NLP-моделей и большой языковой модели с интеграционным механизмом, продемонстрировала свою эффективность. Система успешно решает проблему поверхностного анализа, характерную для многих существующих инструментов, обеспечивает обработку документов большого объема и глубокое понимание семантики русскоязычных научно-технических текстов.
Литература:
1. Лейн Х. Обработка естественного языка в действии / Х. Лейн, Х. Хапке, К. Ховард. — СПб.: Питер, 2020. — 576 c. — Текст: непосредственный.
2. Гольдберг Й. Нейросетевые методы в обработке естественного языка / Й. Гольдберг, пер. с англ. Д. А. Мовчана. — М.: ДМК Пресс, 2019. — 282 с.