Введение. Современные требования к качеству цифровых визуализаций чрезвычайно высоки: изображения должны быть не только высоко детализированными, но и визуально правдоподобными, близкими к фотографической реальности. Традиционные алгоритмы улучшения изображений часто не способны достичь желаемого уровня фотореализма. Например, при масштабировании изображения простыми методами детали размываются, возникают артефакты, и общее восприятие сцены ухудшается. До широкого распространения ИИ-подходов повышение детализации визуализаций и повышение точности аппроксимации основывалось на интерполяционных методах, включая улучшенные схемы, использующие обобщённые разделённые разности [9]. Однако интерполяция принципиально ограничена: она повышает разрешение за счёт перераспределения имеющейся информации и не восстанавливает отсутствующие высокочастотные детали, что делает необходимым применение обучаемых моделей суперразрешения и генеративной детализации. С развитием методов глубокого обучения появилось новое поколение инструментов, позволяющих существенно повысить субъективное качество изображений. Модели суперразрешения на основе сверточных нейронных сетей впервые показали значительный прирост четкости по сравнению с классическими методами интерполяции за счет обучения на больших наборах данных низкого и высокого разрешения.
Далее, появление генеративных состязательных сетей (GAN) в задаче суперразрешения ознаменовалось работой SRGAN [1] – первым подходом, способным генерировать фотореалистичные текстуры при увеличении изображений в 4 раза. SRGAN оптимизировал результат по перцептивной функции потерь, что позволило получить значительно более правдоподобные детали, чем при оптимизации традиционных метрик (например, MSE/PSNR). Однако возникла плата за фотореализм – появление артефактов и несоответствий оригиналу: «галлюцинированные» мелкие детали могут сопровождаться неестественными артефактами. Эта проблема была частично решена в усовершенствованной модели ESRGAN, где улучшены архитектура генератора, функция потерь и метод обучения GAN [2]. Для применения моделей суперразрешения в реальных условиях возникла проблема доменного несоответствия: большинство исследований предполагает идеализированное ухудшение, тогда как реальные изображения страдают от более сложных и неизвестных искажений. То есть методы, обученные на упрощенных деградациях, показывают низкую эффективность на реальных данных. В 2021 году предложен подход Real-ESRGAN, вводящий более приближенные к реальности модели деградации и усовершенствованный дискриминатор для стабильного обучения [3]. Это позволило значительно улучшить визуальное качество восстановления для реальных фотографий по сравнению с предшествующими работами.
Однако остаются открытые вопросы: как совместить точное восстановление структуры с фотореалистичной детализацией без заметных искажений и как корректно оценивать качество, если PSNR/SSIM слабо коррелируют с субъективным восприятием.
Цель исследования – разработать и обосновать новый метод повышения качества и реалистичности визуализаций на основе ИИ, обеспечивающий баланс между точным восстановлением исходной структуры изображения и генерацией правдоподобных деталей. Для достижения цели формулируется следующая научная гипотеза: комбинация алгоритмов суперразрешения и генеративного добавления деталей, контролируемая специально разработанной метрикой качества, позволит получать изображения, близкие по структуре к оригиналу и одновременно обладающие высокой степенью фотореализма.
Постановка научной задачи и обзор нерешённых проблем
На основе анализа литературы и текущего состояния дел были выявлены ключевые проблемы, препятствующие достижению максимального качества и реалистичности визуализаций:
Противоречие между перцептивным качеством и артефактами. Методы, оптимизированные на перцептуальные критерии (например, GAN-суперразрешение), дают резкие и детализированные изображения, но из-за агрессивного «достраивания» могут порождать искусственные артефакты и текстуры, отсутствующие в исходной сцене [2]. В частности, SRGAN/ESRGAN иногда «галлюцинируют» детали, снижая достоверность. Задача — сохранить преимущества GAN при минимизации артефактов.
Доменный сдвиг в данных. Алгоритмы часто обучаются и тестируются на синтетических деградациях (например, бикубическое уменьшение). В реальных данных искажения сложнее и разнообразнее (шум, нестандартный blur, компрессия), поэтому модель, успешная на бикубике, может работать хуже на реальных снимках; это снижает практическую эффективность. Отсюда интерес к blind-подходам, учитывающим произвольные деградации (например, Real-ESRGAN [3]). Открытый вопрос — как надёжно моделировать реальные ухудшения и обеспечивать устойчивость к разным входным данным.
Несовершенство метрик качества. PSNR и SSIM широко применяются, но не всегда согласуются с человеческим восприятием: «гладкие» методы без деталей могут получать высокие значения, хотя выглядят замыленными, тогда как GAN-методы — ниже по PSNR/SSIM, но субъективно лучше (из-за несоответствия добавленных деталей эталону по пикселям). Небольшое размытие почти не меняет PSNR, но заметно ухудшает резкость и воспринимаемое качество [6]. Поэтому используют перцептуальные метрики, однако они оценивают разные аспекты и могут противоречить друг другу. Универсального показателя нет, что делает актуальной разработку составных метрик. В работе вводится интегральный показатель Realism Quality Score (RQS), объединяющий структурную и перцептивную оценку.
Предлагаемый подход. В работе предлагается двухэтапный конвейер повышения качества изображений, объединяющий идеи точного восстановления и генерации реалистичных деталей. На первом этапе исходное низкокачественное изображение проходит через модель суперразрешения для восстановления базовой структуры и увеличения разрешения. В качестве основы использована глубокая сверточная нейросеть, архитектура которой аналогична ESRGAN: генератор на базе Residual-in-Residual Dense Blocks (RRDB) без батч-нормализации [2]. Однако, в отличие от классического ESRGAN, при обучении первого этапа делается больший упор на сохранение структуры: вводится комбинированная функция потерь, включающая пиксельный L1-лосс и компонент структурного сходства (MS-SSIM) [5]. Это позволяет модели минимизировать глобальную ошибку восстановления и избежать грубых искажений формы объектов. Обучение первого этапа проводилось на данных DIV2K с масштабированием х4– сеть учится превращать изображение низкого разрешения (LR) в предварительное изображение высокого разрешения (HR') с максимально правильной общей структурой.
Второй этап конвейера нацелен на увеличение перцептивной реалистичности результата HR'. Здесь применяется генеративный подход: улучшенное изображение проходит через модель, которая дорисовывает высокочастотные детали, текстуры и улучшает локальный контраст. Данный модуль представляет собой GAN, где та же сверточная сеть RRDB используется как генератор, а дискриминатор – сверточная сеть архитектуры U-Net со спектральной нормализацией (по аналогии с Real-ESRGAN [3]). Генератор второго этапа берет на вход изображение HR' и пытается сгенерировать финальное улучшенное изображение HR, неотличимое для дискриминатора от реального высокого качества. В функции потерь второго этапа сбалансированы три слагаемых: (1) перцептуальная потеря разница между признаками для HR и эталонного HR-изображения (данная составляющая стимулирует правдоподобие текстур и содержательных деталей [1]; (2) adversarial loss – стандартная состязательная потеря Жансена–Шеннона[7], которая побуждает генератор создавать фотореалистичные черты; (3) небольшой вес сохраняется у L1-слогаемого между HR* и HR, чтобы предотвратить уход результата слишком далеко от исходных пикселей (это помогает уменьшить артефакты). Таким образом, второй этап фокусируется на визуальном улучшении, но под контролем ограничивающих факторов, чтобы не испортить структуру.
Комбинированная метрика RQS. Для объективной оценки качества результатов введена метрика Realism Quality Score (RQS), объединяющая показатели структурного и перцептивного сходства восстановленного изображения с оригиналом. RQS определяетсянаосноведвухпопулярныхметрик: SSIM (Structural Similarity Index) и LPIPS (Learned Perceptual Image Patch Similarity). SSIM измеряет степень структурного подобия изображения-результата с опорным, оценивая различия в яркости, контрасте и структуре на локальных окнах. Значение SSIM лежит в диапазоне [0, 1], где 1 означает полное совпадение без искажений по структуре [4]. Метрика LPIPS, предложенная R. Zhang и соавт. [6], вычисляется как среднеквадратичное расстояние между признаками глубокого нейросетевого экстрактора для эталонного и тестового изображений. LPIPS отражает перцептивную разницу: чем меньше LPIPS, тем более похожими считаются два изображения с точки зрения высокоуровневых признаков, извлеченных из обученной сети. В отличие от SSIM, метрика LPIPS непосредственно обучена на данных с человеческими оценками сходства, благодаря чему она лучше коррелирует с субъективным восприятием различий [6]. Значение LPIPS обычно нормируется в [0, 1], где 0 соответствует идентичным изображениям.
Идея RQS заключается в объединении преимуществ обеих метрик. Формально, вычисляется нормированное сочетание структурного сходства и перцептивного различия по формуле:
где IHR – оригинальное высококачественное изображение (эталон), а IHR* – восстановленное методом изображение. Таким образом, 1 - LPIPS интерпретируется как перцептивное сходство. Величина RQS также нормирована от 0 до 1, и высокая ее величина свидетельствует о том, что результат одновременно близок к оригиналу по структуре (высокий SSIM) и по восприятию (низкий LPIPS).
Данные и настройка эксперимента. В качестве материала исследования использован открытый набор изображений DIV2K [8], широко применяемый в задачах суперразрешения. Набор содержит высококачественные изображения разрешения ~2K (≈1600–2000 пикселей по длинной стороне) различных сцен с богатой детализацией. Для экспериментов использовались 100 эталонных изображений. Из каждого эталона получались соответствующие низкокачественные версии двумя путями: (1) бикубическое понижение разрешения в 4 раза; (2) дополнительное ухудшение для теста устойчивости – к пониженному изображению применялся гауссов шум (σ=5) и легкое размытие (радиус=1). Таким образом, проверялась работа методов как в условиях идеализированной деградации, так и при наличии небольших отклонений от обученной модели.
Сравнивались четыре метода восстановления:
Bicubic (базовый): увеличение изображения в 4 раза бикубической интерполяцией.
ESRGAN: модель Enhanced SRGAN [2], обученная на DIV2K (использована открытая реализация); даёт высокую детализацию за счёт GAN-обучения.
Real-ESRGAN: модель Real-ESRGAN [3], обученная на синтетических деградациях, приближённых к реальным; обычно устойчивее к шумам и несоответствию деградаций, но может уступать ESRGAN на «идеально» бикубических данных.
Предлагаемый метод: двухэтапный конвейер (суперразрешение + GAN-дорисовка) с комбинированной функцией потерь. Обучение на DIV2K (800 изображений) выполнялось в два шага: 100 эпох L1+SSIM (этап 1) и 50 эпох GAN-обучения (этап 2). Дискриминатор — U-Net со skip-связями и спектральной нормализацией (как в Real-ESRGAN). Гиперпараметры подбирались по максимуму RQS; на втором этапе использованы веса , , для снижения артефактов при сохранении деталей.
Результаты и их анализ
После подготовки моделей каждое из 100 тестовых изображений было восстановлено четырьмя перечисленными способами. Качество результатов оценивалось метриками PSNR (dB), SSIM (0–1),LPIPS (0–1, чем меньше, тем лучше) и интегральнойRQS(0–1, чем больше, тем лучше). В таблице ниже приведены средние значения показателей по всем тестовым изображениям для каждого метода:
|
Метод |
PSNR (dB) |
SSIM |
LPIPS |
RQS |
|
Bicubic (×4) |
26.51 |
0.710 |
0.319 |
0.695 |
|
ESRGAN |
25.07 |
0.684 |
0.184 |
0.750 |
|
Real-ESRGAN |
24.85 |
0.698 |
0.208 |
0.745 |
|
Предлагаемый метод |
25.22 |
0.715 |
0.154 |
0.752 |
Таблица 1 – Средние показатели качества восстановления (DIV2K, масштаб ×4).
Без добавленного шума/размытости на входе распределение метрик было сходным, хотя Real-ESRGAN незначительно уступал ESRGAN по резкости. В присутствии шума и небольшого blur-размывания на входе ESRGAN показал более заметное снижение качества, тогда как Real-ESRGAN оказался устойчивее, что ожидаемо благодаря его обучению на разнообразных деградациях. Предлагаемый метод продемонстрировал наилучшие значения RQS во всех сценариях, опередив ближайший аналог (ESRGAN) примерно на 0.02–0.04. Это указывает на более удачный компромисс между точностью и визуальным качеством.
Анализ результатов показывает:
Бикубическая интерполяция даёт высокие PSNR/SSIM (не добавляет новых деталей), но визуально размывает фактуры; поэтому LPIPS максимален (0.319), а RQS — минимален (~0.70). Одна интерполяция не обеспечивает фотореализм.
ESRGAN заметно повышает резкость и детализацию: LPIPS падает до ~0.18, но PSNR/SSIM немного ниже из-за перцептивного «достраивания». Возможны локальные артефакты (зернистость, искажение повторяющихся узоров), однако по RQS метод существенно лучше bicubic (~0.75 против ~0.695).
Real-ESRGAN — более универсальный компромисс: на «чистой» бикубике чуть консервативнее ESRGAN (деталей меньше, LPIPS немного выше), зато при шуме/blur превосходит ESRGAN (особенно по SSIM и PSNR). Его RQS близок к ESRGAN (0.74–0.75), при меньшей склонности к артефактам за счёт более сглаженной генерации.
Предлагаемый метод показал лучшее сочетание точности и реалистичности: PSNR/SSIM близки к bicubic и выше, чем у ESRGAN, при этом LPIPS минимален. В результате RQS≈0.75 — примерно на 0.05 выше ESRGAN/Real-ESRGAN и на 0.05 выше bicubic. Визуально результаты резкие и детальные без заметных артефактов: лучше восстанавливаются текстуры (трава, фасады), тогда как ESRGAN иногда «шумит», а bicubic сглаживает. Эффект был обеспечен двухэтапным конвейером: первый этап фиксирует структуру, второй добавляет текстуры под контролем перцептуальной и GAN-потерь, что подтверждает выдвинутую гипотезу.
Обсуждение результатов — влияние предложенного подхода. Результаты показывают, что сочетание восстановления структуры и генерации деталей обеспечивает заметный рост качества. Предлагаемый метод превосходит классическую интерполяцию и модели ESRGAN/Real-ESRGAN по совокупности метрик, повышая одновременно объективные (PSNR, SSIM) и перцептивные (LPIPS) показатели, что обычно сложно из-за их компромисса [6]. Это снижает конфликт «чёткость–реалистичность» и позволяет решать суперразрешение вместе с перцептивным улучшением.
Артефакты и качество деталей. Несмотря на общее превосходство, метод имеет ограничения. На отдельных изображениях наблюдаются единичные артефакты: слабые шумоподобные структуры на однородных областях и локальные искажения тонких линий. Это связано с GAN-компонентом: дискриминатор стимулирует добавление текстур, поэтому генератор иногда «дорисовывает» слабый шум даже там, где поверхность должна быть гладкой. Обычно это не ухудшает восприятие и может повышать натуральность, но формально является отклонением от оригинала. Дополнительная настройка весов потерь (например, снижение вклада GAN) способна уменьшить эффект, однако полностью устранить его без потери резкости сложно — это типичный компромисс перцептивного суперразрешения.
Отдельная проблема возникает при сильной размытости или редких объектах вне обучающего распределения: модель может восстановить детали неверно (например, мелкий текст становится нечитаемым). Это отражает общую неопределённость генеративных методов при низком качестве входа. Потенциальные меры — использование специализированных модулей или генерация нескольких вариантов с последующим выбором по дополнительным критериям.
Соотношение с метриками и RQS. Метрика RQS оказалась полезной: она ранжирует методы в соответствии с визуальным качеством (bicubic < Real-ESRGAN≈ESRGAN<≈ предлагаемый метод), тогда как PSNR/SSIM выделяют bicubic, а LPIPS сглаживает различия с ESRGAN. RQS объединяет структурную и перцептивную стороны, упрощая интерпретацию, но остаётся эвристикой: равные веса компонент могут быть не оптимальны для разных задач, а корреляция с оценками пользователей требует отдельной валидации. В текущих экспериментах высокие значения RQS совпали с субъективно лучшими результатами, что делает подход перспективным для дальнейших исследований.
Критическое обсуждение и перспективы. Научный вклад работы — показана реализуемость гибридной системы, объединяющей восстановление структуры и генерацию деталей для повышения фотореализма, с выигрышем относительно существующих решений. Вместе с тем требуется расширенная валидация: проверка на других датасетах и задачах, включая реальные фото без эталонных оригиналов. Ограничение метода — вычислительная тяжесть (GAN-этап), что сдерживает применение вне офлайн-обработки. Перспективы — компрессия/дистилляция модели для near real-time и снижение нагрузки за счёт уменьшения разрешения на GAN-этапе с последующим обратным масштабированием.
Выводы. Разработан метод повышения качества и реалистичности визуализаций на основе ИИ. Предложен двухэтапный конвейер, объединяющий суперразрешение (восстановление структуры) и GAN-доработку (перцептивная детализация), с объединённой функцией потерь, обеспечивающей компромисс между точностью и фотореализмом. Введена комбинированная метрика RQS (Realism Quality Score) на основе SSIM и LPIPS, позволяющая комплексно оценивать структурную достоверность и перцептивную правдоподобность результатов и корректно сравнивать алгоритмы.
Проведено имитационное исследование на DIV2K (масштабирование ×4): по RQS предложенный метод превосходит ближайший аналог (ESRGAN) примерно на ~4% и традиционную интерполяцию примерно на ~5%; при этом достигаются более высокие PSNR/SSIM и более низкие значения LPIPS, что подтверждает улучшение как структурного, так и перцептивного качества. Научный вклад работы заключается в демонстрации подхода, который частично снимает противоречие между числовыми метриками и визуальным восприятием за счёт совмещения критериев оптимизации и введения RQS. Практическая значимость связана с применимостью метода в задачах постобработки изображений и визуального контента.
Дальнейшие исследования целесообразно направить на адаптацию к видео, повышение устойчивости к реальным деградациям, снижение вычислительной сложности для near real-time и расширение субъективной валидации для уточнения RQS под восприятие человека.
Список литературы
Ledig C., Theis L., Huszár F., Caballero J., et al. Photo-Realistic Single Image Super-Resolution Using a Generative Adversarial Network (SRGAN). In: CVPR, 2017
Wang X., Yu K., Wu S., Gu J., Liu Y., Dong C., Loy C.C., Qiao Y., Tang X. ESRGAN: Enhanced Super-Resolution Generative Adversarial Networks.In: ECCV Workshops (ECCVW), 2018.
Wang X., Xie L., Dong C., Shan Y. Real-ESRGAN: Training Real-World Blind Super-Resolution with Pure Synthetic Data.In: ICCV Workshops, 2021.
Wang Z., Bovik A.C., Sheikh H.R., Simoncelli E.P. Image Quality Assessment: From Error Visibility to Structural Similarity (SSIM).IEEE Transactions on Image Processing, 2004.
Wang Z., Simoncelli E.P., Bovik A.C. Multiscale Structural Similarity for Image Quality Assessment (MS-SSIM).In: Asilomar Conf. on Signals, Systems and Computers, 2003.
Zhang R., Isola P., Efros A.A., Shechtman E., Wang O. The Unreasonable Effectiveness of Deep Features as a Perceptual Metric (LPIPS).In: CVPR, 2018.
Goodfellow I.J., Pouget-Abadie J., Mirza M., Xu B., Warde-Farley D., Ozair S., Courville A., Bengio Y. Generative Adversarial Nets.In: NeurIPS, 2014.
Agustsson E., Timofte R. NTIRE 2017 Challenge on Single Image Super-Resolution: Dataset and Study (DIV2K).In: CVPR Workshops, 2017.
Найдыш А. В. Повышение точности интерполяции на основе обобщенных разделенных разностей // Инженерия и машинная графика: тезисы докладов X Всесоюзного семинара, 5–7 июня 1991 г. Полтава: ПолтИСИ, 1991. С. 31.