Сравнительный анализ нейронных сетей для генерации изображений высокого качества | Статья в сборнике международной научной конференции

Отправьте статью сегодня! Журнал выйдет 4 мая, печатный экземпляр отправим 8 мая.

Опубликовать статью в журнале

Библиографическое описание:

Попов, И. М. Сравнительный анализ нейронных сетей для генерации изображений высокого качества / И. М. Попов, А. Д. Шишкин. — Текст : непосредственный // Исследования молодых ученых : материалы XLIII Междунар. науч. конф. (г. Казань, июль 2022 г.). — Казань : Молодой ученый, 2022. — С. 6-11. — URL: https://moluch.ru/conf/stud/archive/457/17391/ (дата обращения: 24.04.2024).



В статье проводится сравнительный анализ нейронных сетей для генерации изображений высокого качества в условиях ограниченных вычислительных мощностей.

Ключевые слова: нейронные сети, генерация изображений, машинная графика, компьютерная графика.

Благодаря развитию технологий, каждый год производители представляют всё новые линейки технических устройств, которые превосходят прошлые поколения во многих аспектах.

Сравнивая современный персональный компьютер и устройство из начала столетия, можно заметить, насколько возросли вычислительные мощности и расширился список решаемых задач в домашних условиях. Если раньше для обработки трёхмерной сцены требовались часы беспрерывной работы нескольких устройств, то сейчас может справиться одно устройство в режиме реального времени.

Новые графические чипы позволяют производить быструю и качественную обработку изображений, а также вывод их на экран. Высокое качество изображений уже стало стандартом для обывателя, из чего следует потребность в увеличении качества уже готовых изображений.

Исходя из данных потребностей, новые стандарты применяются и к аппаратуре, предназначенной для регистрации изображений, таким как фотоаппараты и видеокамеры. От новых моделей ожидается все более высокое качество работы. Однако, потолок физических возможностей техники замедляет развитие, из-за чего разработчики прибегают к использованию технологии нейронных сетей для повышения качества изображения.

Для достижения данных целей постоянно совершенствовались существующие методы обработки изображений и разрабатывались новые. До середины десятых годов довольно часто применялись нейронные сети с обучением по типу «стимул-реакция». Сейчас же большее распространение получили глубокие свёрточные нейронные сети. Сейчас применение нейронных сетей в области обработки изображений является самым современным методом, который находит свое применение, в том числе, в смартфонах, которые могут заменить необходимый ранее фотоаппарат во многих отраслях.

В данной работе рассматривается реализация задачи масштабирования изображения (Super-Resolution или SR) для одного изображения (Single Image Super-Resolution или SISR). Объектом исследования является нейронная сеть, решающая поставленную задачу.

В работе использовались сети EDSR [1], EDSR с использованием дискриминатора SRGAN [2] и SRResNet — генератор SRGAN.

Для обучения нейронных сетей используется набор данных DIV2K [3] с высококачественными изображениями (HR) и соответствующими им низкокачественными (LR). Тренировочный набор составляет 800 пар фотографий, выборка валидации — 100 пар.

Для расширения обучающего набора применялась вырезка случайного фиксированного фрагмента пары HR и LR изображений с последующим случайным поворотом и отражением. Операции повторяется необходимое количество раз, пока идет процесс обучения.

Результат работы сетей четырехкратного увеличения после 5000 шагов обучения представлен ниже. Здесь можно видеть, что EDSR обученная с помощью дискриминатора пытается воспроизвести более сложный узор рубашки, но качество самого изображения от этого пострадало. Изображения, полученные с помощью обычной EDSR и SRResNet получились более размытыми, но в то же время они выглядят более естественно, на них отсутствуют искажения (рис. 1).

Cравнение работы нейронных сетей

Рис. 1. Cравнение работы нейронных сетей

Для данного изображения были получены следующие метрики (таблица 1), подтверждающие более естественный вид выходного изображения для сетей, обозначенных выше.

Таблица 1

Сводная таблица метрик

Модель\метрика

PSNR для изображения

SSIM для изображения

PSNR для выборки валидации

SSIM для выборки валидации

EDSR

26.537

0.754

27.857

0.790

EDSR + GAN

23.753

0.631

24.620

0.650

SRResNet

25.825

0.732

27.192

0.771

Для сравнения, соответствующие значения при использовании билинейной и бикубической функций для увеличения изображения равны PSNR (пиковое отношение сигнала к шуму) — 26.113, SSIM (Индекс структурного сходства) — 0.733 и PSNR — 26.698, SSIM — 0.755 соответственно.

Обучение EDSR четырехкратного увеличения было продолжено еще на 40000 шагов, поскольку она показала лучший результат. Также была обучена модель двукратного увеличения на 10000 шагов. Ниже представлен результат работы EDSR x4 (рис. 2) и для EDSR x2 (рис. 3).

Результат работы EDSR x4

Рис. 2. Результат работы EDSR x4

Результат работы EDSR x2

Рис. 3. Результат работы EDSR x2

Как видно на изображениях, EDSR недостаточно хорошо увеличивает небольшие элементы, например, текст или узоры. Детали на обработанных изображениях получаются сглаженными, так как модель использует математическую функция ошибки и степень детализации зависит от обучающего набора данных. В используемом для обучения наборе надписей присутствовал малый процесс, из-за чего у EDSR не получается создать читаемую надпись, если ее изначально было невозможно прочитать. Некоторые детали архитектуры нейронная сеть также пытается сгладить, не сохраняя узнаваемую текстуру (например, мелкую каменную кладку). Большие же объекты на изображении, в которых уже достаточно информации, увеличиваются с сохранением качества.

Полученные метрики для EDSR x4: PSNR — 28.445, SSIM — 0.805. Для EDSR x2: PSNR — 33.488, SSIM — 0.936.

Исходя из полученных метрик можно сделать вывод, что EDSR x2 быстрее достигает целевого разрешения и лучше работает с мелкими деталями. Данная модель лучше подходит для решения задачи Super-Resolution в условиях ограниченных мощностей.

Литература:

1. Enhanced Deep Residual Networks for Single Image Super-Resolution / B. Lim et al. // arXiv, 2017. https://arxiv.org/pdf/1707.02921.pdf.

2. Photo-Realistic Single Image Super-Resolution Using a Generative Adversarial Network / Ledig C. et al. // arXiv, 2017. https://arxiv.org/pdf/1609.04802.pdf.

3. DIV2K dataset: DIVerse 2K resolution high quality images as used for the challenges @ NTIRE (CVPR 2017 and CVPR 2018) and @ PIRM (ECCV 2018) // DIV2K dataset URL: https://data.vision.ee.ethz.ch/cvl/DIV2K/.

Ключевые слова

нейронные сети, компьютерная графика, генерация изображений, машинная графика