您現在的位置是:首頁 > 綜合
一層卷積能做啥?BOE告訴你:一層卷積可以做超分!
- 由 TechBeat技術社群 發表于 綜合
- 2022-12-27
快吧搜尋不了
本文是京東方團隊關於端側超分的深度思考,
以端側裝置超分為切入點,對經典上取樣與深度學習超分之間的“空白”地帶進行思考,提出了一類“一層”超分架構
(腦洞真的太大了),並對所提方案與其他輕量型超分方案以及bicubic從不同角度進行了對比,同時也為未來端側超分演算法的設計提供了一個極具價值的參考點。
論文:
https://arxiv。org/pdf/2108。10335。pdf
一、Abstract
經典的影象縮放(比如bicubic)可以視作一個卷積層+一個上取樣濾波器,它在所有顯示裝置與影象處理軟體中是普遍存在的。
在過去的十年裡,深度學習技術已被成功應用到影象超分任務上,它們往往由多個卷積與大量濾波器構成。
一、Abstract
一方面,隨著能高效執行深度學習任務的硬體的迅速發展,AI晶片發展趨勢呈現出了非常好的前景;另一方面,只有少數SR架構能夠在端側裝置上實時處理非常小尺寸影象。
我們對該問題的可能方案進行了探索以期彌補經典上取樣與輕量深度學習超分之間的空白。作為從經典到深度學習上取樣之間的過渡,我們提出了edge-SR(eSR):一層架構,它採用可解釋機制進行影象上取樣。當然,一層架構無法達到與深度學習方法的效能,但是,對於高速度需求來說,eSR具有更好的影象質量-推理速度均衡。彌補經典與深度學習上取樣之間的空白對於大量採用該技術非常重要。
本文貢獻包含以
下幾點:
·提出了幾種一層架構以彌補經典與深度學習上取樣之間的空白;
·在1185中深度學習架構中進行了窮舉搜尋,可參考上圖,不同的架構具有不同的效能-速度均衡。
·對一層自注意力架構進行了可解釋分析,對自注意力機制提供了一種新的解釋。
上述結果可能會帶來以下影響:
·影象超分系統有可能大量應用到端側裝置;
·對小網路的內部學習機制有更好的理解;
·對未來應用於研究了一個更好的效能-耗時均衡參考。
深度學習方法已成功佔據了影象上取樣任務的質量基準。深度學習方法能否在端側裝置(比如顯示屏、平板電腦以及膝上型電腦)上取代經典上取樣技術嗎 ?
二、Super-Resolution for Edge Devices
影象上取樣與下采樣指的是LR與HR之間的轉換。最簡單的下采樣有pooling、downsample。downsample一半是在水平和垂直方向進行均勻的畫素丟棄,這種處理會導致高頻資訊丟失,導致Alisaing問題。為解決該問題,經典的線性下采樣首先採用anti-aliasing低通濾波器移除高頻,然後再下采樣。現有深度學習框架中採用stride convolution實現。線性上取樣則與之相反,下圖給出了實現視覺化圖,即
二、Super-Resolution for Edge Devices
。
由於引入過多零,造成大
量的資源浪費,上圖中的定義實現非常低效。
本文提出了
一種高效實現,見上圖下部分,即先濾波再pixelshuffle。
注:
作者採用標準bicubi插值濾波器係數進行驗證,兩者具有完全相同的結果。
Classical
本文提出的首個一層網路為edge-SR Maximum(eSR-MAX),見下圖。
先上取樣後濾波
本文提出的第二個一層網路為edge-SR Template Matching(eSR-TM)。
下圖給出了該方案的解釋示意圖,它利用了模板匹配的思想。
Maxout
本文提出的第三種方案是edge-SR TRansformer(eSR-TR),見下圖,它採用了Transformer的自注意力機制,某種程度上時eSR-TM的簡化。
Self-Attention
此外本文還提出了edge-SR CNN(eSR-CNN),見上圖c。
下圖給出了所提幾種方案的演算法實現。
Transformer
作為對標,本文以FSRCNN、ESPCN為候選,結構見下圖。
兩者的區別有兩點:
啟用函式、上取樣方式。
edge-SR CNN
上圖所構建的1185超分模型池,訓練資料採用General100與T91進行,模型的輸入為1通道灰度影象。整個訓練過程花費了兩個月時間@Tesla M40GPUX7。為測試最終模型,主要考慮了兩種推理裝置:
Deep-Learning
:Nvidia公司的嵌入式GPU裝置,功耗30Watt;
三、Experiments
: 樹莓派CPU處理器,功耗15Watt。
測試過程中,每個模型的輸出為14個Full-HD影象,測試集源自DIV2K。推理過程採用FP16推理。影象質量評價則採用了Set5、Set14、BSDS100、Urban100以及Manga109等基準資料集。
上圖對比了不同方案的效能-速度,以bicubic作為基準,從中可以看拿到:
·在端側GPU裝置上,所提edge-SR成功彌補了經典上取樣與深度學習超分之間的空白,同時具有比bicubic上取樣更好的速度-質量均衡;
·在樹莓派CPU裝置上,edge-SR彌補了x2與x3倍率下的空白,但x4任務上bicubic上取樣具有更佳的效能。
·深度學習方案更擅長於提升影象質量,如ESPCN在高質量範圍具有最快速度;
·eSR-CNN並未提升ESPCN質量,但提升了其速度;
·eSR-MAX具有最快速度,但質量不穩定;
·eSR-TM與eSR-TR在中等速度-質量方面具有最佳效能。
上表給出了不同方案的效能,可以看到:
三、Experiments
上述兩個圖對eSR-TM與eSR-TR進行了視覺化解釋,從中可以看到:
·對於eSR-TM而言,不同濾波器處理不同頻率帶;儘管濾波器不平滑,但具有一定程度的方向辨別能力;
·對於eSR-TR而言,matching與上取樣濾波器同樣不平滑,但有一定的方向性。
·Nvidia Jetson AGX Xavier
影片類low-level演算法想落地到端側,尤其是要求
·Raspberry Pi 400
時,難度真的非常大,誰做誰知道。效能好的模型,速度完全跟不上;但是要速度快吧,效能又不突出,
eSR方案取得了最佳速度、最低功耗 ,同時具有比bicubic上取樣更好的影象質量。
京東方的研究員腦洞實在太大了,不去關注效能,轉而去關注bicubic插值與深度學習超分方案在效能-速度均衡之間的那塊“空白區域”,進而提出了“腦洞”更大的一層超分模型!一層能幹啥?在看到該文之前,真是想都不敢想。
就算是一層模型,京東方的研究員也是玩出了花樣,又是Maxout,又是模板匹配、又是Transformer,真是大寫的!
比較可惜的是這篇文章並未開源,雖然復現很簡單,但作為“拿來主義”的我,有訓練好的誰還去重新訓練呢,對吧…
Illustrastion
b
y Tatiana Vinogradova from
Icons8
-The End-