Эпоха цифровых технологий вступила в фазу, когда увиденное на видео или изображениях больше не может считаться безоговорочной правдой. Технологии глубокого обучения позволяют создавать гиперреалистичные поддельные медиа — дипфейки, представляющие прямую угрозу безопасности личности, стабильности финансовых систем и общественно-политическому порядку.
Исследования утверждают, что человек плохо справляется с распознаванием синтетического контента. Так, эксперимент, описанный в статье Testing Human Ability To Detect “Deepfake” Images of Human Faces [1], с участием 280 респондентов показал, что средняя точность отличия реальных изображений от сгенерированных составляет лишь 62 %, что недостаточно для надежной защиты в реальной жизни. Одновременно с этим происходит стремительная демократизация технологий создания дипфейков — если раньше это требовало глубоких технических знаний, то сегодня в открытом доступе находятся десятки тысяч бесплатных и простых в использовании инструментов, что повышает риски их использования в преступных целях.
Аналитические отчеты компаний, специализирующихся на кибербезопасности (таких как Sensity [2] и Resemble.AI [3]), фиксируют тревожную динамику и расширение спектра угроз. Если ранее основными целями атак были публичные личности и финансовые институты, то к 2025 году дипфейки всё чаще применяются против частных лиц. Эксперты выделяют три ключевых направления злонамеренного использования:
– Влияние на общественное мнение — создание и распространение манипулятивного контента с целью дестабилизации политической и социальной обстановки;
– Финансовое мошенничество — использование поддельных видео и аудио известных лиц или руководителей компаний с целью получения денежных средств и конфиденциальных данных.
– Обход систем безопасности (KYC) — применение синтетических биометрических данных для несанкционированного доступа к финансовым сервисам.
– Неконсенсуальный контент и шантаж — поддельные материалы, создаваемые для преследования, мести или шантажа, преимущественно в отношении женщин. Согласно статистике [3], именно это направление криминального использования дипфейков является самым массовым, составляя почти треть (32 %) от общего числа случаев.
Массовое распространение высококачественных синтетических медиа и расширение круга их жертв актуализируют критическую проблему обеспечения достоверности цифрового контента.
Чтобы понять глубину и природу этой угрозы, необходимо обратиться к технологическим основам, которые сделали её возможной. Ключ к созданию современных дипфейков лежит в области глубокого обучения, где за последнее десятилетие произошла революция, породившая ряд мощных генеративных архитектур.
Основой для большинства современных методов синтеза медиа стали генеративно-состязательные сети (GAN), представленные в 2014 году в Ian J. Goodfellow в работе Generative Adversarial Nets [4].
Принцип их работы построен на соревновании двух нейронных сетей: генератора, создающего поддельные данные, и дискриминатора, пытающегося отличить их от реальных. В результате такого соревновательного обучения генератор учится производить изображения и видео высокой степени реалистичности.
Именно GAN легли в основу первых широко известных инструментов для замены лиц и породили такие инструменты, как StyleGAN для синтеза фотореалистичных портретов несуществующих людей и StarGAN для контролируемого изменения атрибутов лица — возраста, эмоций или прически.
Параллельно с развитием GAN развивался подход, основанный на автоэнкодерах — нейросетях, предназначенных для эффективного сжатия и последующего восстановления данных.
В контексте дипфейков это привело к появлению специализированных архитектур, таких как FaceSwap. В них один автоэнкодер обучается извлекать и кодировать мимику и позу человека-источника, а декодер второго автоэнкодера, обученный на лице-мишени, — воссоздавать эту мимику на новом лице.
Данный принцип был использован во многих популярных фреймворках, например, DeepFaceLab. Дальнейшим развитием стали модели, явно разделяющие кодирование идентичности (внешности) и движения (мимики), такие как First Order Motion Model (FOMM), способные анимировать статичное фото, используя видео другого человека.
Качественный скачок в реалистичности и контроле над генерацией произошел с приходом диффузионных моделей. Их принцип работы основан на двухэтапном процессе — исходное изображение последовательно зашумляется до полного превращения в случайный шум (прямой процесс), а затем нейросеть обучается выполнять обратную операцию — восстанавливать изображение из шума (обратный процесс). Этот метод, доказавший свою эффективность в моделях типа Stable Diffusion для изображений и Sora для видео, позволил генерировать контент высокой детализации и сложности по простому текстовому запросу, значительно снизив технический барьер для создания убедительных фейков.
Перечисленные архитектуры легли в основу последовательных волн развития подходов к созданию дипфейков. Можно выделить три основных хронологических периода эволюции данной технологии:
1. Первая волна (2014–2017 гг.) — начальный этап развития дипфейков, начальной точкой которого можно считать появление технологии GAN, заложившей фундамент для дальнейших исследований. В этот период основное применение GAN находилось в задаче замены лиц. Доминирующим подходом было использование вариационных автокодировщиков (VAE) с архитектурой кодировщик-декодер, обученных на парных наборах данных.
Основными характерными чертами дипфейков данного периода являются низкий уровень реализма, наличие выраженных визуальных артефактов.
Переход технологии из академической среды в публичную произошёл в конце 2017 года, когда пользователь платформы Reddit с ником «deepfakes» разместил поддельные видеоролики со знаменитостями. Это событие дало технологии её устойчивое название и обозначило начало её массового неспециализированного использования.
2. Вторая волна (2018–2021 гг.) — этап демократизации технологии и повышения качества создаваемого контента. В конце 2017 года было выпущено настольное приложение FakeApp, а вскоре после него — более мощные и гибкие открытые фреймворки DeepFaceLab и Faceswap, которые обрели широкую популярность к началу 2018 года. Их появление сделало технологию доступной для широкого круга пользователей без глубоких технических знаний.
Параллельно происходило совершенствование генеративных моделей — появились такие инструменты, как ProGAN, а также StyleGAN (NVIDIA) и его улучшенные версии, позволившие синтезировать фотореалистичные изображения лиц в высоком разрешении, что существенно повысило общее качество итоговых дипфейков.
Данный этап характеризуется преимущественной фокусировкой на задаче замены лиц и манипуляции атрибутами лица, а также значительным повышением качества генерации, но с сохранением ряда визуальных артефактов, заметных при детальном анализе.
3. Третья волна (с 2022 г. по настоящее время) — период, в который доминирующей технологией становятся диффузионные модели, активное распространение которых началось в 2022 году после выхода DALL-E 2, Midjourney, а также Stable Diffusion.
В 2023 году завершился переход к массовой доступности ключевых генеративных моделей: ранее ограниченные бета-тесты (например, DALL-E 2) сменились открытой регистрацией, а открытые модели (Stable Diffusion) были интегрированы в пользовательские веб-сервисы и приложения. Параллельно с этим появились инструменты дляконтролируемой генерации изображений (такие как ControlNet, задающий композицию через наброски) и гиперреалистичного синтеза голоса (например, ElevenLabs).
С 2024 года главным направлением развития стала генерация видео — появились такие инструменты, как Sora и Runway, которые могут создавать целые видео по текстовому запросу. Данное направление в настоящее время остается преобладающим, при этом фокус современных инструментов смещён на генерацию мультимодального контента, объединяющего синтетические видео и аудио.
Эволюция технологий создания дипфейков демонстрирует не только снижение технических барьеров и расширение функциональных возможностей генеративных моделей, но и закономерное усложнение спектра угроз. Сегодня увиденное на видео или фотографии уже нельзя безоговорочно считать правдой.
Одновременно с усложнением генеративных моделей стремительно развиваются и методы противодействия им. Однако данная область характеризуется дисбалансом сторон — для успешной атаки злоумышленнику достаточно обмануть лишь часть аудитории, в то время как системы защиты должны иметь близкую к 100 % точность. В условиях стремительного развития генеративных моделей, когда каждый новый подход к созданию синтетического контента на первых порах делает существующие детекторы неэффективными, задача распознавания становится особенно трудно решаемой.
Поэтому современные исследования сфокусированы на двух взаимодополняющих подходах:
– Разработка универсальных и устойчивых систем детекции, способных выявлять не специфические артефакты, а общие следы неестественности в синтетическом контенте.
– Создание инфраструктуры для маркировки легитимного контента в момент его создания, что позволит проверить его происхождение.
Параллельно актуальность приобретают нетехнические меры защиты, в первую очередь — совершенствование правового регулирования.
В российском контексте, несмотря на растущую популярность синтетического контента, правовое поле находится в стадии формирования. Прямой запрет на использование дипфейк-контента отсутствует, изображение гражданина защищается на основе действующего законодательства (ст. 152.1 ГК РФ).
На рассмотрении находятся законопроекты, направленные на введение уголовной ответственности за противоправное использование дипфейков и на защиту голоса как нематериального блага. Ключевым вызовом является поиск баланса между защитой личности и риском избыточного регулирования, которое может затронуть добросовестных разработчиков.
Не менее важным направлением является развитие цифровой грамотности и критического мышления населения. Рост осведомленности пользователей рассматривается как основополагающая мера, позволяющая самостоятельно распознавать манипулятивные схемы.
Таким образом, эволюция дипфейк-технологий вступила в фазу, где ключевым становится разработка комплексных мер защиты от создаваемых угроз. Эффективная стратегия должна сочетать оперативное технологическое реагирование (детекция и маркировка), правовое регулирование и постоянную просветительскую работу с обществом.
Литература:
1. Bray S. D., Johnson S. D., Kleinberg B. Testing human ability to detect ‘deepfake’ images of human faces / Bray S. D., Johnson S. D — Текст: электронный // Journal of Cybersecurity. — 2023. — Vol. 9. — URL: https://doi.org/10.1093/cybsec/tyad011 (Дата обращения: 03.12.2025)
2. The State of Deepfakes 2024 [Электронный ресурс]: Sensity AI — URL: https://sensity.ai/reports (Дата обращения: 06.12.2025).
3. Q1 2025 Deepfake Incident Report: Mapping Deepfake Incidents [Электронный ресурс]: Resemble AI — URL: https://www.resemble.ai/wp-content/uploads/2025/04/ResembleAI-Q1-Deepfake-Threats.pdf(Дата обращения: 06.12.2025).
4. Goodfellow I. J., Pouget-Abadie J., Mirza M., Xu B., et al. Generative adversarial nets / Goodfellow I. J. — Текст: электронный // Advances in Neural Information Processing Systems 27 (NIPS 2014) / eds. Z. Ghahramani, M. Welling, C. Cortes, N. Lawrence, K. Q. Weinberger. — 2014. — P. 2672–2680. — URL: https://doi.org/10.1145/3422622 (дата обращения: 01.12.2025).
5. Mirsky Y., Lee W. The Creation and Detection of Deepfakes: A Survey / Mirsky Y., Lee W. — Текст: электронный // ACM Computing Surveys. 2021. Vol. 54 — № 1. — P. 1–41. — URL: https://doi.org/10.1145/3425780 (дата обращения: 01.12.2025)
6. Литаш-Сорокина, Е. А. Искусственный интеллект и дипфейки: вызовы и перспективы / Е. А. Литаш-Сорокина. — Текст: электронный // Государственная служба. — 2025. — № 3. — С. 37–50. — URL: https://cyberleninka.ru/article/n/iskusstvennyy-intellekt-i-dipfeyki-vyzovy-i-perspektivy/viewer (Дата обращения: 01.12.2025)

