本文详细介绍了eccv 2020 oral论文《invertible image rescaling》,该论文由北京大学、微软亚洲研究院和多伦多大学的研究人员共同完成。
作者 | 郑书新
编辑 | 丛 末
论文地址:https://www.php.cn/link/d60aef7f82617ea585bb8b57bbe57732
开源代码:https://www.php.cn/link/c9ce4c2325ee078ee17e3a108180fe1f)
1.研究背景 同学们在日常上网时是否遇到过这种情况:精心拍摄的高清照片/视频,想分享给朋友或发布到朋友圈/微博/抖音/知乎,结果上传后被无良服务器压缩成极低分辨率的劣质图像。甚至有些图片/表情包在多次传播后,画质已经模糊到难以辨认。
实际上,图像降采样(缩放)是数字图像处理中最常见的操作之一,应用广泛:压缩图像尺寸、节省服务器存储或带宽、适应不同分辨率的屏幕等。由于服务器资源昂贵,大家在使用微博/知乎时不需付费,平台通过插入广告来补偿成本,因此高清图像和视频通常会被尽可能压缩,只要能分清张一山和夏雨就足够了。
如何恢复降采样后的图像一直是图像处理领域的一个重大挑战,尚未得到有效解决。
我们这项最新工作尝试从根本上解决这个问题,并已被ECCV 2020收录为Oral论文。
2.方法 对降采样后图像的原图进行求解是一个典型的病态(ill-posed)问题:
假设有一张图像包含4个像素,值分别为1,3,5,7。通过双线性插值降采样后,得到像素值为4的低分辨率图像。如何从这个像素恢复原图呢?
这个问题非常棘手,因为有许多4个像素的组合可以生成相同的低分辨率图像。如果是4x降采样,则16个像素会被采样成一个点。想要从一个像素精确地恢复原图?看看那些像素上的"?"是否熟悉。。。
为什么这是一个病态问题?因为降采样过程中信息丢失(information loss),使得无法准确恢复原图。传统方法通常使用超分辨率卷积神经网络,尝试从大量数据中学习低分辨率到高分辨率的映射关系;或者使用encoder网络对原图进行降采样,同时使用decoder网络恢复图像,通过联合训练(jointly training)达到更好的效果。然而,这些方法并未从根本上解决病态问题,效果也不理想。因此,我们需要更聪明的方法来处理病态问题。
基于DNN的Encoder-Decoder结构用于图像缩放和恢复
刚才提到病态问题是由于信息丢失引起的,那么具体丢失了哪些信息呢?
“高频内容在采样率转换过程中会丢失。”--Nyquist-Shannon采样定理
正是高频信息的丢失导致我们无法很好地恢复高清原图。如果我们能“保留”这些高频信息呢?
为了显式地保留高频信息,我们将降采样过程替换为小波变换:通过小波变换可以得到原图的一个低频分量和三个不同方向的高频分量。这里的低频分量与双线性插值降采样得到的低分辨率结果相同,而高频分量则是在降采样过程中丢失的信息。
当我们选择保留所有信息时,可以使用小波变换的逆变换(即反函数,如果
,那么
),轻松恢复原图。同样,对于使用DNN进行降采样的图像,如果保留了所有信息,也可以使用DNN的反函数恢复原图。
对于深度学习模型这种复杂的非线性函数,其反函数是什么呢?这里我们使用了可逆神经网络(Invertible NN, INN)模型。对于不熟悉可逆神经网络模型的读者,推荐阅读Lilian Weng的博客:Flow-based Generative Model。我们采用了最简单的Normalizing Flow形式。需要注意的是,基于flow的模型是严格可逆的。从另一个角度思考这个问题,降采样和升采样本来就是一对逆任务,是否应当使用可逆神经网络?
有了可逆神经网络模型,我们可以将之前的Encoder-Decoder网络替换为INN及其反函数,这样,如果我们能够保留所有信息,就能完美地恢复原始高清图像。然而,我们显然无法在存储、传输低分辨率图像时还附带这些本应被丢失的信息(低分辨率图像的维度+丢失信息的维度=原始图像的维度),而丢弃这些信息又让我们无法使用INN来恢复原图。所以,折腾了半天又把这条路堵死了?
别急,我们再回顾一下前面的简单例子:
除了性能的大幅提升,更重要的是,由于建模方法尝试直接解决任务的本质问题,模型所需参数量仅为前人方法的1/10~1/30。以下是效果的可视化,请注意绿色框中对原图的还原程度。
更多细节可以参考论文,包括具体的训练方法、不同采样的
如何影响图像还原、对于Out of Distribution的
模型又会有怎样的效果等等。
3.总结 最后总结一下:Image Rescaling任务是一个极具挑战性、在实际应用中广泛且具有巨大商业价值的任务。本文使用可逆神经网络对解决这一对逆任务进行了初步尝试,沿着这条思路仍有很多值得探索的点。同时,由于信息丢失(Information Loss)导致的ill-posed问题在现实中普遍存在,本文提供的对Lost Information进行建模的视角,相信可以为类似任务提供一定的参考价值。
参考资料:^Nonlinear independent component analysis: Existence and uniqueness results. https://www.php.cn/link/e1c03a94d8ec9cd62597c9910247a3de
以上就是ECCV 2020 Oral | 可逆图像缩放:完美恢复降采样后的高清图片的详细内容,更多请关注php中文网其它相关文章!
每个人都需要一台速度更快、更稳定的 PC。随着时间的推移,垃圾文件、旧注册表数据和不必要的后台进程会占用资源并降低性能。幸运的是,许多工具可以让 Windows 保持平稳运行。
Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号