Отправьте статью сегодня! Журнал выйдет 26 июля, печатный экземпляр отправим 30 июля
Опубликовать статью

Молодой учёный

Применение метода инварианта для выявления текстов, созданных посредством искусственного интеллекта

Научный руководитель
Психология
13.06.2025
31
Поделиться
Библиографическое описание
Черешнева, А. В. Применение метода инварианта для выявления текстов, созданных посредством искусственного интеллекта / А. В. Черешнева. — Текст : непосредственный // Молодой ученый. — 2025. — № 24 (575). — С. 554-556. — URL: https://moluch.ru/archive/575/126630/.


Исследование проблемы выявления текстов, созданных с использованием искусственного интеллекта (далее — ИИ), является крайне актуальным.

В настоящее время нейросети еще не столь совершенны, чтобы генерировать и выдавать контент безупречного качества. При этом, использование такого контента предполагается всеми пользователями сети Интернет без какого-либо специального «фильтра», который мог бы предотвратить многочисленные негативные последствия, связанные с распространением «информационного шума», на фоне которого одновременно возникает потребность в генерации еще большего количества текстов.

Поскольку такая работа поручается ИИ, существует негласный запрос на то, чтобы созданные таким способом тексты отвечали ряду принципов, которые, в свою очередь, будут не только поддерживать уровень доверия к тому или иному ресурсу, но и выдавать достоверные факты, а возможно, и иметь эмоциональную составляющую при полном отсутствии фактических ошибок, штампов и клише, содержать осмысленные фразы или даже выражать чувственный опыт.

Ежедневно появляются новые инструменты и программы, которые сами по себе могут нести социальные, коммуникативные риски, представлять угрозу человеческой идентичности, сохранению персональных данных и т. д.

На сегодняшний день не существует материала или контента, сгенерированного полностью нейросетью, без какого-либо вмешательства человека. В этой связи говорить о полноценной замене человеку не стоит. Однако, чем больший шаг вперед делают нейросети в своем развитии, тем сильнее у тех или иных пользователей проявляется желание присвоить чужие тексты.

Можно смело утверждать, что человеческая речь, облеченная в текст, обладает некоторой магической силой, которая проявляется в способности дискутировать, приводить аргументы, расставлять акценты, руководить действиями других людей и своими собственными, манипулировать тем или иным образом, а также иным способом обеспечивать так называемую возможность самовыражения, по возможности избегая нарушения прав и свобод других людей.

Обладает ли такой «магией» текст, созданный ИИ? Для ответа на этот вопрос нужно понимать, что тот или иной текст действительно создан непосредственно ИИ, а для выполнения этой задачи нужно иметь необходимые инструменты. На сегодняшний день они существуют, но не могут похвастаться своей безупречностью.

Кроме того, появление так называемых «фейков» и новостей, созданных на их основе, может как повредить репутации как отдельных личностей, так и вводить в заблуждение целые массы населения, что предполагает наступление крайне неблагоприятных последствий такого рода контента.

В настоящее время ученые всего мира продолжают искать методы и алгоритмы для надежного распознавания созданных ИИ текстов, изучение этой темы необходимо не только для обеспечения доверия к контенту, но и для поддержания надлежащего уровня этики в «опасном» цифровом пространстве.

Поскольку в настоящее время решить задачи по атрибуции текстов можно компьютерными методами, это в свою очередь может освободить исследователей всех уровней от выполнения этой сложной рукотворной работы.

Существуют определенные подходы к выявлению текста, созданного нейросетью. Все они основаны на принципах, применяемых для определения текстов, написанных человеком: оценке подлежит уровень грамматической структуры, синтаксиса и семантики текста, рассматривается уникальный стиль автора, который может предполагать использование метафор, аллюзий и эмоциональной окраски.

Методы атрибуции позволяют исследовать текст на пяти уровнях: пунктуационном, орфографическом, синтаксическом, лексико-фразеологическом, стилистическом [5]

Кроме того, изучается контекст, который должен быть адаптирован к конкретной ситуации, креативность и оригинальность текста, наличие в нем грамматических ошибок и опечаток.

Все эти принципы позволяют выделить тексты, созданные непосредственно человеком, из массы текстов, принадлежащих другим источникам. Безусловно, имеется высокий риск того, что проверка текста сработает неверно. Последствия такой ошибки могут быть различными: от неправильно проставленной оценки за школьное сочинение до получения невиновным человеком обвинительного приговора за преступления идеологической направленности, которые в последнее время широко распространены на территории РФ.

Авторский инвариант, как метод исследования текстов, многократно анализировался и его существование сейчас считается доказанным. Специфичность авторского инварианта сравнима с отпечатками пальцев.

Как писал Батов В. И. в 1991 году в своей работе «Другому как понять тебя?», «понятие «атрибуция» шире, нежели просто указание на поиск действительного автора. Атрибуция включает и время создания Слова, и его культурно-исторический контекст (социальная организация общества, языковые традиции, речевые нормы и пр., и, конечно, сведения о самом авторе. Произнесенное и зафиксированное Слово принято называть текстом» [1].

И хотя применение метода анализа авторского инварианта имеет ограниченную судебную практику, данный метод широко используется для различных исследований текста. Например, для выявления плагиата.

Так В. И. Батовым с коллегами была разработана компьютерная программа ЛИНГВА-ЭКСПРЕСС, с помощью которой можно представить речевое произведение в виде трехзвенной эмпирической модели: формальные характеристики текста-формы коммуникации замысла — психологические характеристики автора, тем самым раскрывается психологическое содержание текста как продукта речевой деятельности.

«Показана возможность выявления особенностей речевого поведения, глубинных психических свойств или характера человека (автора или авторов текста) и переживаемых им (в момент порождения текста) состояний». [2]

Авторский инвариант достаточно стабилен и отклонения от типичного для данного автора незначительны. Были отмечены случаи, когда один из нескольких текстов данного автора отличался от остальных. В силу того, что текст, сгенерированный ИИ, в теории, не несет в себе признаков инварианта автора, то последовательная оценка текстов, сгенерированных ИИ, должна выявить значимые отклонения инварианта.

Программа ЛИНГВА-ЭКСПРЕСС позволяет, в частности, идентифицировать авторство текстов.

Так, для подготовки выпускной квалификационной работы и проведения эксперимента была предложена гипотеза, что текст ИИ лишен признаков автора (нет выраженного авторского инварианта).

Для оценки степени отсутствия авторского инварианта перед ИИ была поставлена задача сгенерировать текст на заданную тему. Затем этот текст загружался в программу ЛИНГВА-ЭКСПРЕСС, а полученные машинограммы сравнивались с машинограммами текста, созданного человеком.

Следует отметить, что машинограмма в силу особенностей алгоритма программы «ЛИНГВА-ЭКСПРЕСС» несет в себе несколько избыточный объем информации, что обусловлено спецификой задач, для решения которых программа разрабатывалась. Мы рассматривали лишь стабильность и/или нестабильность результатов работы программы.

Авторский текст, помимо инварианта, обладает внутренней связностью и логикой. Поэтому тексты живого автора всегда будут иметь один и тот же стиль на протяжении всего произведения. Так как перед ИИ несколько раз ставится задача создания текста на одну и ту же тему, то алгоритм машинного обучения и процесс поиска информации, и объединение её в единый текст будут происходить по-разному, в зависимости от поставленной перед ИИ задачей. И вполне вероятно ИИ не сможет несколько раз подряд повторить генерацию текста на заданную тему.

Перед основным экспериментом проводился пилотный эксперимент, который показал, что для получения сгенерированного текста необходимо ставить перед ИИ подробную задачу. В противном случае алгоритм работы ИИ сводится к поиску в интернете. В частности, и ЯндексГПТ-5, и ДипСик просто выдавали текст с соответствующих страниц Википедии. Поэтому перед ИИ ставилась задача из нескольких пунктов, вынуждая его генерировать текст из нескольких частей, а не копировать статьи из справочников.

В результате исследования было выявлено, что сгенерированные ИИ тексты не обладают авторским инвариантом. Иными словами, анализ при помощи программ оценки авторского инварианта, включая примененную нами программу «ЛИНГВА-ЭКСПРЕСС», позволяет надежно идентифицировать текст, созданный при помощи ИИ.

В этой связи можно утверждать, что отождествление искусственного интеллекта (ИИ) и человеческого интеллекта (ЧИ) на данном уровне развития компьютерных технологий отражает скорее маркетинговую политику разработчиков программ ИИ, нежели реальное научное достижение.

Искусственный интеллект, как термин, отражает сложность перевода различных научных понятий. Так, используемый сейчас перевод на русский язык англоязычного термина artificial intelligence не совсем корректен. В английском языке существуют слова (термины) intellect (интеллект) и intelligence (разум). Оба слова имеют большое количество значений и коннотаций, однако, в русском языке эти значения и коннотации, по большей части, являются национально-культурными лакунами. «И. В. Томашева определяет лакуны как национально-специфические элементы культуры, которые отражаются в языке представителей данной культуры. При этом они могу абсолютно или частично не осознаваться представителями других лингвокультур». [6]

Кроме того, в мире существует большой объем дискурсов на разных языках, которые сильно затрудняют общение как по теме интеллекта, в целом, так и по теме искусственного интеллекта, в частности. С учетом того, что работа (алгоритмы) и применение продуктов функционирования ИИ выходит за рамки точных (технических) наук и становится новой онтологией естественных и гуманитарных наук, всё более актуальной становится проблема регулирования деятельности ИИ.

ИИ позиционируется на рынке как технология, способная совершать некие действия без участия человека. И если генерация текстов для нерадивых школьников или студентов выглядит вполне безобидно, то автономная боевая система с ударными функциями, например, беспилотный летательный аппарат, использующий технологии ИИ при выборе целей, это пессимистические реалии сегодняшнего дня.

Современное информационное противоборство в значительной степени происходит в пространстве языка, где встречаются и реализуются самые разные подходы: от формирования системы языковой безопасности до активного применения нарративных технологий. В этих условиях на первый план выходит задача выявления продуктов деятельности ИИ для эффективного противодействия.

И хотя на современном уровне развития компьютерных технологий генерация текстов ИИ выглядит как неумелая компиляция, распознаваемая «невооруженным глазом», в долгосрочной перспективе возможно появление алгоритмов, которые отойдут от чисто поискового алгоритма и получат способность не только генерировать грамматическую структуру, но и порождать смысл. В этом случае программы, подобные «ЛИНГВА-ЭКСПРЕСС» могут оказаться востребованными.

Литература:

  1. Батов В. И. Анализ и интерпретация личностного в тексте. Диссертация. — М., 2003;
  2. Батов В. И., Сорокин Ю. А. Атрибуция текста на основе объективных характеристик // Изв. АН СССР. т. XXXIV. (Серия литературы и языка) — 1975. — № 1.
  3. Батов В. И. «Другому как понять тебя?»/ Батов В. И. Издательство: Знание, 1991. — с.2.
  4. Маркова Е. В. Пантомимический дневник/Маркова Е. В./Сборник статей, СПб, ДЕАН -2017- 320 с.
  5. Батура Т. В. Формальные методы определения авторства текстов / Вестник Новосибирского государственного университета. Серия: Информационные технологии. — 2012. — № 4 том 10. — С. 81–94.
  6. Даминова Д. Х. Национально-культурные невербальные лакуны речевого этикета китайского и русского языков в деловой коммуникации. // https://scientifictext.ru URL: https://scientifictext.ru/images/PDF/2017/DNO-8–21/natsionalno-kulturnye.pdf (дата обращения: 10.06.2025).
Можно быстро и просто опубликовать свою научную статью в журнале «Молодой Ученый». Сразу предоставляем препринт и справку о публикации.
Опубликовать статью
Молодой учёный №24 (575) июнь 2025 г.
Скачать часть журнала с этой статьей(стр. 554-556):
Часть 8 (стр. 515-583)
Расположение в файле:
стр. 515стр. 554-556стр. 583

Молодой учёный