愛鋒貝

標(biāo)題: 基于深度學(xué)習(xí)的水下光學(xué)圖像超分辨率重建綜述 [打印本頁]

作者: 數(shù)碼桃桃    時間: 2023-3-28 17:25
標(biāo)題: 基于深度學(xué)習(xí)的水下光學(xué)圖像超分辨率重建綜述
【作者簡介】文/羅逸豪 曹翔 張鈞陶 王天江 馮琪,分別來自中國船舶集團有限公司第七一〇研究所、清江創(chuàng)新中心、長沙學(xué)院、軍事科學(xué)院系統(tǒng)工程研究院、華中科技大學(xué)。第一作者羅逸豪,1995年出生,男,博士,主要從事深度學(xué)習(xí)、計算機視覺方向研究。本文為基金項目,裝備預(yù)先研究項目“機載水下小目標(biāo)探測技術(shù)”(3020706)。文章來自《數(shù)字海洋與水下攻防》(2023年第1期),參考文獻略,用于學(xué)習(xí)與交流,版權(quán)歸作者及出版社共同擁有,轉(zhuǎn)載也請備注由“溪流之海洋人生”微信公眾平臺編輯與整理。
近年來,隨著船舶系統(tǒng)的智能化、無人化發(fā)展,無人水下航行器(UUV)和水下機器人在民用、軍事領(lǐng)域大量應(yīng)用。視覺系統(tǒng)是無人化裝置獲取并感知水下信息的重要途徑之一,水下光學(xué)圖像信息量豐富,比聲吶圖像更適用于近距離的水下目標(biāo)探測任務(wù)。然而,光學(xué)圖像本身在獲取、壓縮和傳輸過程中容易遭受不可避免的損失,如成像設(shè)備限制、相機抖動、有損壓縮、傳輸信號衰減等。在水下環(huán)境中,湍流、懸浮物等復(fù)雜環(huán)境因素還會引起光照散射、衰減與相機散焦等問題,使得水下光學(xué)圖像質(zhì)量更低,產(chǎn)生嚴(yán)重的顏色失真、細(xì)節(jié)缺失、對比度下降與模糊等多種退化問題。這會給后續(xù)的圖像分類、目標(biāo)檢測等高層任務(wù)帶來諸多困難,限制了無人設(shè)備水下自主識別與探測的性能與應(yīng)用,尤其是小目標(biāo)檢測精度。因此,通過重建算法獲得細(xì)節(jié)清晰、紋理豐富的高質(zhì)量、高分辨率(HR)水下光學(xué)圖像對自主識別、無人探測等應(yīng)用具有十分重要的價值。
研究者不斷探索各種各樣的圖像增強技術(shù)用于改善圖像質(zhì)量,如圖像去模糊(Deblurring)、去噪(Denoising)、去霧(Dehazing)、超分辨率(SR)重建等。圖像超分辨率重建是計算機視覺和圖像處理領(lǐng)域中的一個經(jīng)典低層任務(wù),旨在從低分辨率(LR)圖像中生成包含高頻細(xì)節(jié)的高分辨率圖像。相比于設(shè)計更加復(fù)雜的光學(xué)成像設(shè)備來提升圖像質(zhì)量,圖像SR算法不僅可以大幅降低成本,還能突破成像系統(tǒng)的限制,獲得質(zhì)量更高的HR圖像。同一張LR圖像可能由不同的HR圖像經(jīng)多種未知退化產(chǎn)生,不確定性SR重建過程充滿挑戰(zhàn)。
近年來隨著人工智能的快速發(fā)展,基于深度學(xué)習(xí)的SR重建算法取得了突破性進展。相較于插值、重構(gòu)等傳統(tǒng)方法,深度學(xué)習(xí)模型能夠從大規(guī)模數(shù)據(jù)集中學(xué)習(xí)到更豐富的圖像特征,自適應(yīng)地學(xué)習(xí)LR圖像與HR圖像之間的映射關(guān)系,在自然光學(xué)圖像場景中取得了更優(yōu)的重建效果。對于水下光學(xué)圖像,盡管基于顏色補償和物理模型等傳統(tǒng)方法針對水下光學(xué)成像退化特性取得了一定成效,其重構(gòu)效果和泛化性依然落后于數(shù)據(jù)驅(qū)動的深度學(xué)習(xí)方法。
目前已有大量文獻對基于深度學(xué)習(xí)的自然光學(xué)圖像超分辨率重建算法進行了歸納總結(jié)。它們從網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計、上采樣方式、訓(xùn)練算法等方面對SR研究工作進行分類論述。其中有文獻介紹了一些特定領(lǐng)域的應(yīng)用,比如人臉、深度圖、遙感圖像、醫(yī)學(xué)圖像等,沒有提及水下場景。目前尚未有文獻對基于深度學(xué)習(xí)的水下光學(xué)圖像超分辨率重建進行系統(tǒng)性綜述。同時,依據(jù)網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計等分類的總結(jié)方式注重于方法本身,難以從應(yīng)用的角度為水下光學(xué)圖像場景提供指導(dǎo)意義。
因此,本文在第1章對自然圖像退化方式和數(shù)據(jù)集進行分類總結(jié),并結(jié)合國內(nèi)外最新研究現(xiàn)狀將基于深度學(xué)習(xí)的單幅圖像超分辨率重建算法分為一般退化、已知(非盲)多種退化、未知(盲)多種退化3種方式進行詳細(xì)總結(jié),為水下應(yīng)用場景提供參考;在第2章歸納了水下光學(xué)圖像退化方式和常見的公開數(shù)據(jù)集;在第3章按照同樣的分類總結(jié)并分析了水下光學(xué)圖像超分辨率重建的最新進展;在第4章總結(jié)全文,并對水下光學(xué)圖像超分辨率重建未來可能的發(fā)展趨勢進行了展望.
一、基于深度學(xué)習(xí)的圖像超分辨率重建算法
⒈背景
圖像超分辨率重建是圖像退化過程的逆過程,利用低分辨率圖像本身包含的結(jié)構(gòu)、紋理等信息,重建出對應(yīng)的高分辨率圖像,表達式如下:
ILR=D(IHR)   ⑴
IHR=R(ILR,θ)   ⑵
式中:IHR表示高分辨率圖像;ILR表示低分辨率圖像;D表示退化過程;Rθ表示超分辨率重建模型及其參數(shù)。
基于深度學(xué)習(xí)的SR重建模型早期以卷積神經(jīng)網(wǎng)絡(luò)(CNN)為主,隨著研究的深入,生成對抗網(wǎng)絡(luò)(GAN)、注意力機制和Transformer等網(wǎng)絡(luò)結(jié)構(gòu)也被用于SR模型。這也是許多文獻對SR方法分類的依據(jù)。主流的SR重建模型通常以單幅LR圖像作為輸入(SISR),也有一些方法輸入多幀圖像(MFSR)。
深度學(xué)習(xí)SR模型不僅從LR圖像獲取信息,還通過外部數(shù)據(jù)集構(gòu)建的大量LR-HR圖像對,訓(xùn)練模型以尋找丟失的HR信息。不同退化方式和場景域構(gòu)成的訓(xùn)練集,會使深度學(xué)習(xí)模型學(xué)習(xí)到不同的知識表達。因此數(shù)據(jù)集對SR重建模型的應(yīng)用性能起著至關(guān)重要的作用。
⒉自然光學(xué)圖像數(shù)據(jù)集
目前工業(yè)界和學(xué)術(shù)界已開源多個自然光學(xué)圖像超分辨率重建數(shù)據(jù)集用于學(xué)術(shù)研究,以供不同的算法公平對比。表1總結(jié)了目前常用的數(shù)據(jù)集,“-”表示不包含圖像。客觀的圖像質(zhì)量評價指標(biāo)通常使用峰值信噪比(PSNR)、結(jié)構(gòu)相似度(SSIM),由重建的HR圖像與測試集的真實HR圖像比較計算得出。當(dāng)不參考真實HR圖像時,計算重建圖像的感知指數(shù)(PerceptionIndex,PI)進行評估。
表1 圖像超分辨率重建常用數(shù)據(jù)集

(, 下載次數(shù): 17)
根據(jù)樣本是否包含LR圖像,可以將現(xiàn)有數(shù)據(jù)集分為2類。第1種是只包含HR圖像的數(shù)據(jù)集,使用高清光學(xué)相機采集的真實高質(zhì)量圖像。第2種是包含LR-HR圖像對的數(shù)據(jù)集,使用不同的成像方式對同一場景采集不同分辨率的圖像。第2種方式具有更真實的退化過程,適用于真實場景的圖像SR重建。但是采集真實的LR-HR圖像對具備一定難度,大多數(shù)數(shù)據(jù)集只采集HR圖像,研究者們自行采用不同的退化方式合成相應(yīng)的LR圖像,以構(gòu)成LR-HR圖像對進行訓(xùn)練。
圖1展示了不同高斯模糊核寬度退化下的低分辨率自然光學(xué)圖像,它們在細(xì)節(jié)上存在很大差異,SR重建難度也各自不同。

(, 下載次數(shù): 13)
圖1 不同模糊核寬度退化下的低分辨率圖像
⒊圖像退化方式
早期的SR重建方法直接將HR圖像下采樣得到LR圖像,再作為配對的樣本輸入到網(wǎng)絡(luò)模型中進行訓(xùn)練。而實際的退化過程復(fù)雜且未知,包含模糊、噪聲、環(huán)境、壓縮等因素的影響,難以進行準(zhǔn)確的定義。因此,最近的許多SR重建算法考慮了多種退化方式,同時實現(xiàn)了圖像增強和超分辨率(SESR)。根據(jù)現(xiàn)有數(shù)據(jù)集構(gòu)建過程中采取的退化方式,結(jié)合式⑴總結(jié)了3種退化方式。
⑴下采樣退化方式
下采樣退化模型通過對HR圖像執(zhí)行下采樣操
作得到對應(yīng)的LR圖像,表達式如下:
ILR=﹙IHR﹚↓s ⑶
式中:↓s表示尺度為s的下采樣操作,通常使用雙三次(Bicubic)和雙線性(Bilinear)插值。
⑵一般退化方式
一般退化模型在下采樣模型的基礎(chǔ)上考慮了模糊和噪聲退化因素,更加接近實際情況,因此被大多數(shù)SR重建方法采用,表達式如下:
ILR=﹙IHR⊕k﹚↓sn
式中:⊕表示卷積操作;k表示模糊核;n表示加性白噪聲。
⑶多種退化方式
雖然一般退化模型的有效性得到了驗證,但其假設(shè)的退化類型依然離真實退化過程存在一定差異。因此,多種退化模型在此基礎(chǔ)上新增了更復(fù)雜的退化過程,比如多種各向異性的高斯模糊核疊加,以模擬真實圖像。其表達式如下所示:
ILR=Dn(IHR)  ⑸
由于現(xiàn)實場景的退化過程復(fù)雜且未知,從退化方式的角度對不同方法進行歸納總結(jié),可以為具體的SR重建應(yīng)用提供指導(dǎo)意義和參考價值。另外,根據(jù)退化過程中模糊核是否已知,還可以把SR重建方法分為非盲圖像SR和盲圖像SR。
因此,本文基于退化方式將基于深度學(xué)習(xí)的單幅圖像超分辨率(SISR)重建算法分為針對一般退化、已知(非盲)多種退化、未知(盲)多種退化3個方面進行詳細(xì)總結(jié)。本文主要探討SISR,基于多幀、SR重建算法詳見有關(guān)文獻。
⒋單幅圖像超分辨率重建算法
⑴針對一般退化方式
早期方法均針對較為理想的下采樣退化方式和一般退化方式。DONG等人首次運用一個只有3層卷積層的CNN模型端到端學(xué)習(xí)插值低分辨率圖像與高分辨率圖像之間的映射關(guān)系,提出了第1個基于CNN的SISR模型SRCNN。KIM等人訓(xùn)練了一個20層的神經(jīng)網(wǎng)絡(luò)模型VDSR,引入殘差學(xué)習(xí)和梯度裁剪策略來加快深度模型的收斂速度。DnCNN和IRCNN模型直接對高頻殘差圖像進行預(yù)測。MAO等人提出了RED-Net,使用卷積層作為編碼器,反卷積層作為解碼器。
DRCN、DRRN和MemNet模型使用遞歸卷積層或遞歸模塊逐步將較難的圖像超分辨率重建問題分解成一組容易解決的簡單問題,并利用遞歸學(xué)習(xí)實現(xiàn)參數(shù)共享,大大降低存儲成本和計算復(fù)雜度。上述方法先將輸入的LR圖像插值上采樣至HR圖像的大小然后進行處理,計算復(fù)雜度高,且會過度平滑或模糊原始LR圖像,丟失部分細(xì)節(jié)。
為了提高計算效率,研究者們提出了后上采樣方式,先在低維空間進行網(wǎng)絡(luò)運算,然后在模型末端集成可學(xué)習(xí)的上采樣層映射到高維空間,是目前主流的SR模型結(jié)構(gòu)。FSRCNN在模型末端引入轉(zhuǎn)置卷積層上采樣到高分辨率圖像。ESPCN引入高效亞像素卷積層學(xué)習(xí)LR-HR圖像映射。EDSR優(yōu)化了常用的殘差結(jié)構(gòu),刪除批處理歸一化(BN)和ReLU激活函數(shù)。CARN模型級聯(lián)局部和全局信息來改進殘差結(jié)構(gòu)。借鑒DenseNet強大的特征提取能力,SRDenseNet和RDN增強了圖像SR重建的性能。
由于不同特征對于SR重建效果的重要性是不同的,基于注意力機制的方法選擇性關(guān)注特定層中的少數(shù)特征。RCAN模型基于通道注意力機制,CSNLN和NLSA基于非局部(Non-local)注意力。此外,MAGID等人引入動態(tài)高通濾波和矩陣多譜通道注意模塊來改善局部和全局特征。雖然后上采樣結(jié)構(gòu)大大降低了計算成本,但增加了較大放大倍數(shù)(如×4、×8)SR重建的學(xué)習(xí)難度,且無法滿足以一個模型執(zhí)行多個放大倍數(shù)的需求。為了解決這個問題,SCN模擬學(xué)習(xí)迭代收縮閾值算法網(wǎng)絡(luò)構(gòu)建多層神經(jīng)網(wǎng)絡(luò),實現(xiàn)高分辨率圖像的逐級重建。LAI等人提出一種漸進式上采樣網(wǎng)絡(luò)模型LapSRN,由3個子網(wǎng)絡(luò)組成,每個子網(wǎng)絡(luò)分別預(yù)測2倍放大的殘差圖像,逐步實現(xiàn)8倍放大。LapSRN通過將復(fù)雜任務(wù)分解為簡單任務(wù),極大地降低了高倍SR模型的學(xué)習(xí)難度?;诖私Y(jié)構(gòu)MSLapSRN和E-ProSRNet實現(xiàn)了進一步優(yōu)化。
為了更好地捕捉LR-HR圖像對之間的相互依賴關(guān)系,漸進式上下采樣結(jié)構(gòu)通過迭代反向投影不斷改進重建的HR圖像細(xì)節(jié)。DBPN由一系列緊密連接的上下采樣結(jié)構(gòu)組成,將多個HR圖像進行組合構(gòu)成最終輸出。SRFBN基于循環(huán)結(jié)構(gòu)以多個反向投影模塊遞歸優(yōu)化LR圖像。雖然漸進式上下采樣結(jié)構(gòu)產(chǎn)生了高質(zhì)量的重建結(jié)果,但反向投影模塊的設(shè)計標(biāo)準(zhǔn)目前尚不明確。
上述方法均專注于實現(xiàn)更高的峰值信噪比(PSNR),使用均方誤差(MSE)損失或L1損失作為損失函數(shù),可能會產(chǎn)生過于模糊的圖像。為了提高重建圖像的視覺效果,JOHNSON等人使用感知損失測量兩幅圖像之間的特征空間誤差訓(xùn)練模型。LEDIG等人借鑒了對抗損失,提出了第1個基于生成對抗網(wǎng)絡(luò)的模型SRGAN。
在此基礎(chǔ)上,ESRGAN改進了網(wǎng)絡(luò)架構(gòu)、對抗性損失和感知損失,刪除BN層。SAJJADI等人設(shè)計紋理損失函數(shù)優(yōu)化HR圖像細(xì)節(jié)。SRFeat在特征域中額外引入一個判別器,將合成圖像與真實圖像區(qū)分開,鼓勵生成器產(chǎn)生高頻結(jié)構(gòu)特征而非噪聲偽影。SPSR基于梯度引導(dǎo)圖像保留高頻信息。GAN系列方法的重建效果更具真實感,對不關(guān)注細(xì)節(jié)的整體圖像具有較好的應(yīng)用效果。
⑵針對已知(非盲)多種退化方式
針對下采樣退化方式和一般退化方式的方法無法滿足現(xiàn)實場景需求。為了應(yīng)對多種退化方式,直觀的思路是構(gòu)建包含更多退化信息的LR圖像,對深度學(xué)習(xí)模型進行黑箱訓(xùn)練。通常而言構(gòu)建的多種退化方式已知,屬于非盲圖像SR重建。
SRMD將LR圖像與多種退化信息合并作為模型的統(tǒng)一輸入,根據(jù)特定退化信息進行特征適配,并在一個模型中覆蓋多種退化方式。雖然SRMD將SR重建模型擴展到能處理多種退化類型,但其作用域依舊非常有限,因為對任意退化模糊核進行有效編碼并非易事。因此,ZHANG等人基于最大后驗概率框架對網(wǎng)絡(luò)模型進行設(shè)計,使其無需對退化模糊核進行編碼。其中深度即插即用網(wǎng)絡(luò)模型DPSR將SR重建網(wǎng)絡(luò)集成到基于最大后驗概率的迭代優(yōu)化方案中;深度展開網(wǎng)絡(luò)模型USRNet結(jié)合基于學(xué)習(xí)和基于模型的方法,通過單個模型處理具有不同放大倍數(shù)、退化模糊核和噪聲水平的圖像SR重建任務(wù)。UDVD模型使用退化圖像作為超分辨率重建任務(wù)的額外輸入,利用逐像素動態(tài)卷積有效處理圖像中的變分退化。
此外,SHOCHER等人利用內(nèi)部圖像數(shù)據(jù)和CNN的強大學(xué)習(xí)能力,提出一個基于零樣本的SR重建模型ZSSR。ZSSR模型先根據(jù)輸入圖像本身提取訓(xùn)練樣本,然后將提取到的子圖像獲得其對應(yīng)的LR圖像。在此基礎(chǔ)上,MZSR借助元遷移學(xué)習(xí)和外部訓(xùn)練樣本來優(yōu)化訓(xùn)練過程,相比于ZSSR需要數(shù)千次迭代來適應(yīng)新任務(wù),MZSR模型僅需要幾次迭代就能適應(yīng)。
⑶針對未知(盲)多種退化方式
雖然上述方法在應(yīng)對多種退化方式時產(chǎn)生了較好的SR重建結(jié)果,但仍基于退化已知假設(shè)。現(xiàn)實場景中圖像退化情況未知,重建性能可能會顯著下降。為解決此問題盲圖像SR重建算法應(yīng)運而生。
最直觀的思路就是在非盲圖像SR重建基礎(chǔ)上增加模糊核估計方法,分為2個子問題解決盲圖像SR重建。KernelGAN的生成器從LR圖像中估計退化模糊核,以模擬真實的退化過程。HUSSEIN等人在此基礎(chǔ)上提出非盲校正濾波進一步優(yōu)化模糊核估計過程?;谏疃葓D像先驗框架DIP,Double-DIP模型在未訓(xùn)練的自編碼網(wǎng)絡(luò)模型的參數(shù)空間中,通過最小化低分辨率圖像的重建誤差,聯(lián)合優(yōu)化高分辨率圖像和退化模糊核。FKP進一步優(yōu)化上述方法,學(xué)習(xí)各向異性高斯核分布與潛在分布之間的可逆映射。此外,LIANG等人還提出了一種用于空間變化模糊核估計的互仿射網(wǎng)絡(luò)模型MANet,在不增加感受野、模型大小和計算負(fù)擔(dān)的情況下增強特征的表達能力。TAO等人基于LR圖像的傅立葉頻譜來更準(zhǔn)確地重建未知模糊核。
上述方法需要獨立訓(xùn)練2個模型,不能進行端到端優(yōu)化,模糊核估計步驟只能利用LR圖像中有限信息,可能與第2步模型不兼容。因此,使用一個模型完成模糊核估計和非盲圖像SR更為有效。
GU等人通過迭代的方式修正模糊核估計,使重建圖像逐步逼近真實結(jié)果。DAN模型迭代優(yōu)化估計器和恢復(fù)器,恢復(fù)器基于預(yù)測模糊核重建HR圖像,估計器借助重建圖像對模糊核進行估計。KMSR基于GAN構(gòu)建逼真的模糊核池,然后構(gòu)建與HR圖像對應(yīng)的LR圖像訓(xùn)練重建模型。
CORNILLERE等人利用SR重建偽影估計模糊核,訓(xùn)練模糊核判別器來估計輸出誤差,并在推理階段最小化誤差求得最優(yōu)模糊核。DASR假定退化在同一幅圖像中是相同的,而在另一幅圖像中不同,利用估計的退化表示生成相應(yīng)的卷積核和調(diào)整系數(shù),使網(wǎng)絡(luò)能夠靈活地適用于不同退化方式。
KIM等人提出的KOALAnet將非迭代框架擴展到空間變化模糊核,使SR重建網(wǎng)絡(luò)適應(yīng)特定退化方式。AMNet結(jié)合強化學(xué)習(xí)使用不可微分的感知度量共同優(yōu)化模糊核估計與重建網(wǎng)絡(luò)。FAIG基于積分梯度區(qū)分退化信息,首先尋找對特定退化重建貢獻最大的濾波器,以此預(yù)測輸入圖像的模糊核,然后結(jié)合不同網(wǎng)絡(luò)模型用于多種退化的圖像SR重建。
二、水下光學(xué)圖像超分辨率重建任務(wù)
⒈水下光學(xué)成像與退化
傳統(tǒng)的基于物理模型方法對水下光學(xué)成像與退化過程進行建模,將水下光學(xué)圖像重建視為其逆問題。水下光學(xué)成像模型由3部分組成:直射部分、前向散射部分和后向散射部分。直射部分為經(jīng)過物體反射后直接到達成像設(shè)備的光線,可視為清晰圖像光線衰減過程。前向散射部分指經(jīng)過物體反射后經(jīng)水中粒子散射吸收和水介質(zhì)吸收后到達成像設(shè)備的光線,圖像信息產(chǎn)生了偏移,可視為模糊過程。后向散射部分代表從光源出發(fā)的光線經(jīng)水中粒子散射吸收和水介質(zhì)吸收后被成像設(shè)備收集,屬于噪聲,不包含物體信息,會造成嚴(yán)重的顏色失真、對比度下降問題。
除了光學(xué)成像本身造成的模糊和噪聲退化,水體流動、魚類游動和成像設(shè)備晃動還會造成圖像運動模糊。除此之外,水下復(fù)雜環(huán)境中的成像設(shè)備無法實現(xiàn)理想的聚焦,易發(fā)生散焦模糊,將一個理想化的像素點成像為一個圓形斑點。如圖2所示,由于紅色波在水介質(zhì)中易被吸收,水下圖像可能以藍色和綠色色調(diào)主導(dǎo),而不同的水深、顆粒數(shù)量也會導(dǎo)致不同程度的模糊。

(, 下載次數(shù): 26)
圖2 水下光學(xué)圖像示例
通過對比圖1和圖2也可以直觀發(fā)現(xiàn)水下采集的光學(xué)圖像的退化種類與程度比自然光學(xué)圖像更甚,通常有顏色失真、細(xì)節(jié)缺失、對比度下降與模糊等多種退化問題。因此,相比于自然光學(xué)圖像,水下光學(xué)圖像超分辨率重建更具挑戰(zhàn)。
⒉水下光學(xué)圖像數(shù)據(jù)集
水下環(huán)境具有多樣性和復(fù)雜性,在不同水域和海域以及在不同時間采集的圖像均具有不同的圖像質(zhì)量、退化方式、場景目標(biāo)。為了應(yīng)對不同類型的需求,研究者們構(gòu)建了數(shù)量繁多的數(shù)據(jù)集,并默認(rèn)使用高清相機在良好光照、水質(zhì)環(huán)境下采集的水下圖像為高質(zhì)量HR圖像。
表2總結(jié)了目前常用的水下光學(xué)圖像SR重建和增強數(shù)據(jù)集,“-”表示不包含圖像或未明確劃分訓(xùn)練集和測試集。
表2 常見水下光學(xué)圖像超分辨率重建和增強數(shù)據(jù)集

(, 下載次數(shù): 13)
直至2020年才出現(xiàn)第1個針對水下光學(xué)圖像SR重建任務(wù)的公開數(shù)據(jù)集USR-248。它使用多種高清相機在海洋探索和野外實驗期間采集HR圖像,還在FlickrTM、YouTubeTM和其他互聯(lián)網(wǎng)在線資源中收集了清晰的水下HR圖像。數(shù)據(jù)集包含各種場景下的多種目標(biāo),如珊瑚礁、魚、潛水員、沉船、廢墟。HR圖像統(tǒng)一調(diào)整為640×480分辨率,采用Bicubic下采樣生成3組LR圖像,分辨率依次為320×240、160×120和80×60。

在此基礎(chǔ)上,USR-2K數(shù)據(jù)集擴充了訓(xùn)練集和測試集的圖像數(shù)量,采用了與USR-248相似的構(gòu)建過程。然而它們僅通過Bicubic下采樣生成LR圖像,本質(zhì)上屬于只包含HR圖像的數(shù)據(jù)集。為了UFO數(shù)據(jù)集采用了一種廣泛使用的域轉(zhuǎn)移技術(shù),利用CycleGAN模擬水下光學(xué)畸變特性,處理從不同水類型、多個地點的海洋勘探中收集的HR水下光學(xué)圖像,然后使用7×7高斯模糊和Bicubic下采樣生成LR圖像。HR圖像統(tǒng)一為640×480分辨率,LR圖像分為3組,分辨率依次為320×240、214×160、160×120。由于水下退化過程由CycleGAN模型進行黑箱化模擬,UFO數(shù)據(jù)集針對未知(盲)多種退化方式。
除此之外,還有許多針對水下圖像增強任務(wù)的數(shù)據(jù)集,經(jīng)過處理或轉(zhuǎn)換之后也可用于SR重建任務(wù)的訓(xùn)練或測試。根據(jù)發(fā)布時間排序如下:
①TURBID數(shù)據(jù)集在水箱環(huán)境中采集30張分辨率為3000×4000的清晰圖像,然后往水箱中依次加入全脂牛奶以模擬19種不同程度的渾濁度。
②WaterGAN通過真實水下圖像和空氣圖像訓(xùn)練GAN模型,以學(xué)習(xí)表達水下圖像風(fēng)格,將大量在空氣中采集的自然圖像轉(zhuǎn)換為分辨率為640×480的水下圖像。
③OceanDark收集了183張1280×720大小的人工光源低照度水下圖像,場景中包含溜冰鞋、螃蟹、魚、海膽、科學(xué)儀器等目標(biāo)。
④U–45使用水下清晰–退化圖像對訓(xùn)練CycleGAN,生成了45張256×256大小的水下退化圖像,模擬了顏色失真、低對比度、模糊3種退化過程。
⑤UIEB在真實水下環(huán)境中采集了950張低質(zhì)量圖像,使用多種傳統(tǒng)方法與深度學(xué)習(xí)方法相結(jié)合的方式進行增強,得到了890張肉眼認(rèn)為清晰的高質(zhì)量圖像。
⑥RUIE構(gòu)建了3個子集用于評估水下圖像可見度恢復(fù)、顏色校正、目標(biāo)檢測能力,分別包含3630張、300張、300張圖像。
⑦SUID基于水下成像模型和光學(xué)傳播特性構(gòu)建物理模型,使用空氣中采集的30張清晰圖像合成900張退化后的水下圖像。
⑧EUVP使用7個不同的攝像頭在不同光照強度和地點采集水下清晰圖像,并結(jié)合互聯(lián)網(wǎng)視頻,使用CycleGAN模擬水下光學(xué)退化過程,包含超過1.2萬個配對圖像和8千個未配對圖像。
⑨SQUID采集不同季節(jié)、深度、水類型的57張水下圖像,并在拍攝場景中放置了防水彩色卡,以進行嚴(yán)格的物理模型顏色校正。
與自然光學(xué)圖像質(zhì)量評價指標(biāo)類似,水下圖像增強任務(wù)也通常計算重建圖像與測試集中的清晰/HR圖像之間的峰值信噪比(PSNR)和結(jié)構(gòu)相似度(SSIM)。當(dāng)測試集中只包含退化圖像時,Quevedo等人設(shè)計了針對水下圖像的退化機理與成像特點無參考評價指標(biāo)UIQM,在不需要真實值的情況下綜合評價重建圖像的顏色、清晰度和對比度。
還有許多數(shù)據(jù)集針對水下光學(xué)圖像的分類、檢測、分割等高層任務(wù),詳見相關(guān)文獻,本文不再贅述。
三、基于深度學(xué)習(xí)的水下圖像超分辨率重建方法
雖然基于顏色補償和物理模型等傳統(tǒng)針對水下光學(xué)成像的多種退化方式取得了一定效果,但它們假設(shè)的物理模型系數(shù)、同向異性高斯模糊、水介質(zhì)均勻等情況極大降低了算法在眾多水下環(huán)境中的泛化性。隨著水下光學(xué)圖像SR重建數(shù)據(jù)集的發(fā)展,近年來許多研究者將基于深度學(xué)習(xí)的圖像SR重建算法應(yīng)用到水下領(lǐng)域,取得了良好效果。
圖3概括了目前基于深度學(xué)習(xí)的水下光學(xué)圖像SR重建的過程。首先,通過高清相機、互聯(lián)網(wǎng)等方式收集水下HR圖像,然后通過不同的圖像退化模型生成LR圖像,構(gòu)建HR-LR圖像對作為訓(xùn)練數(shù)據(jù)。深度學(xué)習(xí)SR模型不關(guān)注圖像退化的方式,只根據(jù)HR-LR圖像對計算SR重建圖像與HR圖像的損失值,通過反向傳播進行模型訓(xùn)練,即數(shù)據(jù)驅(qū)動。根據(jù)水下光學(xué)圖像退化方式的不同,將現(xiàn)有方法分為針對下采樣退化方式和針對多種退化方式2類,第1類方法未考慮水下圖像特有的顏色失真、模糊等退化問題。

(, 下載次數(shù): 26)
圖3 基于深度學(xué)習(xí)的水下光學(xué)圖像超分辨率重建過程

⒈針對下采樣退化方式
早期缺乏公開的水下光學(xué)圖像SR重建數(shù)據(jù)集時,陳龍彪、王海等人借鑒EDSR和SRDenseNet設(shè)計模型,使用自采的水下圖像進行訓(xùn)練,取得了優(yōu)于傳統(tǒng)上采樣方法的SR重建效果。為了獲得更具真實感的水下圖像,程娜改進了SRGAN模型應(yīng)用于水下捕撈機器人采集的圖像,取得了良好的性能。另外,徐永兵等人設(shè)計一種雙目圖像SR重建算法,輸入2幀LR圖像,借助多重注意力機制挖掘雙目圖像的視差信息,實現(xiàn)高質(zhì)量的上采樣重建。
基于公開數(shù)據(jù)集USR-248和USR-2K,AMPCNet充分利用了注意力和圖像內(nèi)部信息,以兩條路徑交叉連接的方式實現(xiàn)了多尺度特征提取,取得了良好的定量評價和視覺質(zhì)量。CHEN等人采用了漸進式上采樣結(jié)構(gòu),結(jié)合注意力機制改善了水下圖像高倍(×4、×8)放大的性能。ISLAM等人借鑒了EDSR和PatchGAN的模型結(jié)構(gòu),設(shè)計了一種針對水下SISR的生成式模型SRDRM-GAN,可應(yīng)對多種嘈雜視覺條件的水下環(huán)境。AlphaSRGAN引入預(yù)處理方法,同時優(yōu)化了生成器網(wǎng)絡(luò)結(jié)構(gòu),提升了生成圖像的重建質(zhì)量。
另外,WANG等人提出了一種基于信息蒸餾的輕量級SR重建網(wǎng)絡(luò),采用后上采樣結(jié)構(gòu),大幅降低模型參數(shù)和計算復(fù)雜度以適用于實時水下應(yīng)用。在此基礎(chǔ)上,袁紅春等人引入了全局特征融合和空間注意力機制增強模型特征表達能力,提升了輕量化模型的SR重建性能。
⒉針對多種退化方式
由于水下光學(xué)圖像包含顏色失真、細(xì)節(jié)缺失、對比度下降與模糊等多種退化問題,傳統(tǒng)方法通常針對每一種退化,逐一設(shè)計重建模型。因此,在早期缺乏高質(zhì)量的水下HR圖像時,針對多種退化方式的深度學(xué)習(xí)SR重建方法首先使用物理模型等傳統(tǒng)算法對低質(zhì)量LR圖像進行圖像增強,即圖5所示的預(yù)處理步驟;然后再設(shè)計基于CNN或GAN模型生成高質(zhì)量的HR圖像。顯而易見,此類方法的缺陷是不能聯(lián)合優(yōu)化多種退化問題,泛化性不足。
為了端到端優(yōu)化訓(xùn)練針對多種退化的深度學(xué)習(xí)SR模型,實現(xiàn)更好的重建效果,陳浩優(yōu)化了DPSR模型來處理多種模糊核退化,結(jié)合遷移學(xué)習(xí)的方式在自采水下圖像中取得了良好效果。
CHEN等人選擇了能夠有效模擬水下湍流波形和特征的小波基來代替神經(jīng)元擬合函數(shù),然后改進了DenseNet密集連接塊的結(jié)構(gòu),在TURBID數(shù)據(jù)集上驗證了已知模糊的重建效果。然而實際情況的水下圖像多種退化是未知的,非盲SR重建方法效果的通用性不佳。
UFO數(shù)據(jù)集基于GAN合成了包含多種退化方式的水下圖像,適用于盲圖像SR重建。ISLAM等人引入密集殘差塊和注意力機制設(shè)計了DeepSESR模型,同時實現(xiàn)了圖像增強和超分辨率重建功能。在此基礎(chǔ)上,WANG等人以漸進式上采樣結(jié)構(gòu)設(shè)計SR網(wǎng)絡(luò)模型,借鑒全局空間注意力和多尺度殘差連接,能夠更好地補償多種圖像細(xì)節(jié)。
最近,REN等人借鑒了基于Transformer設(shè)計SR模型的思想,將SwinTransformer嵌入到U-Net模型中,以提高捕獲全局特征的能力,在客觀評價指標(biāo)PSNR和SSIM上取得了最先進的性能。為了獲得更好的主觀視覺感受,AGHELAN引入預(yù)訓(xùn)練和遷移學(xué)習(xí)方法,使用USR-248和UFO數(shù)據(jù)集微調(diào)Real-ESRGAN模型。
美中不足的是,UFO數(shù)據(jù)集包含的多種退化方式基于GAN合成,而非完全真實水下場景的退化。馬文齊使用高倍和低倍攝像頭對同一水下場景進行拍攝,得到真實的HR-LR圖像對,但僅包含了水下浮游生物圖像。
表3對比了目前具有代表性的深度學(xué)習(xí)水下光學(xué)圖像超分辨率重建方法,評價指標(biāo)包括PSNR、SSIM和UIQM,超分辨率倍數(shù)包括×2、×3、×4、×8,“±”表示得分的均值和浮動方差,加粗部分表示該數(shù)據(jù)集下此項指標(biāo)的最高得分。由對比結(jié)果可知,同一種深度學(xué)習(xí)模型對于不同的退化方式、評價指標(biāo)和放大倍數(shù)的性能均具有差異,沒有一種模型在所有指標(biāo)上均取得最高分。因此在具體的應(yīng)用場景中,需進行針對性的深度學(xué)習(xí)模型設(shè)計。
表3 基于深度學(xué)習(xí)的水下光學(xué)圖像超分辨率重建方法定量評分對比

(, 下載次數(shù): 17)

(, 下載次數(shù): 23)
四、結(jié)束語
現(xiàn)實應(yīng)用場景中水下光學(xué)圖像包含顏色失真、細(xì)節(jié)缺失、對比度下降與模糊等多種退化問題,超分辨率重建難度遠高于常規(guī)的自然圖像。本文根據(jù)圖像退化方式的不同,對基于深度學(xué)習(xí)的單幅自然圖像超分辨率重建算法進行分類總結(jié),并歸納分析了水下光學(xué)圖像退化方式、常見公開數(shù)據(jù)集和水下光學(xué)圖像超分辨率重建的最新方法。隨著深度學(xué)習(xí)技術(shù)的成熟,水下光學(xué)圖像超分辨率重建研究盡管取得了一定進展,仍存在一些問題,總結(jié)如下:

⑴現(xiàn)有的水下超分辨率數(shù)據(jù)集過少,未充分考慮水下環(huán)境導(dǎo)致的多種圖像退化問題,以至于許多方法僅針對單一的下采樣退化,泛化性差。
⑵有許多包含多種退化情況的水下圖像增強數(shù)據(jù)集,可以用于超分辨率重建任務(wù),然而僅有極少深度學(xué)習(xí)超分辨率方法使用圖像增強數(shù)據(jù)集訓(xùn)練。
⑶基于深度學(xué)習(xí)的水下超分辨率重建模型相對落后,大多數(shù)方法是將針對常規(guī)自然圖像的3年前經(jīng)典模型進行簡單應(yīng)用。
通過上述總結(jié),結(jié)合基于深度學(xué)習(xí)的自然圖像超分辨率重建最新研究以及其他應(yīng)用領(lǐng)域,對水下光學(xué)圖像超分辨率重建未來可能的發(fā)展趨勢進行如下展望:
⑴真實水下圖像超分辨率重建?,F(xiàn)有的水下光學(xué)圖像數(shù)據(jù)集通過從高分辨率圖像中人工合成低分辨率圖像來生成相互匹配的訓(xùn)練數(shù)據(jù)集。然而,由于訓(xùn)練和測試數(shù)據(jù)之間的數(shù)據(jù)分布存在差異,通過人工合成數(shù)據(jù)集訓(xùn)練的深度學(xué)習(xí)模型在現(xiàn)實場景中的應(yīng)用性能會遭受不可避免的損失,最為常見的就是重建圖像產(chǎn)生的偽影。獲取完全真實的HR-LR圖像對的現(xiàn)有方法通過調(diào)整數(shù)碼相機的焦距,拍攝同一場景中不同分辨率大小的對應(yīng)圖像,并根據(jù)不同外部環(huán)境因素產(chǎn)生真實的退化過程。但這種采集方式的實施過程復(fù)雜困難,需要耗費大量的人力與物力。因此,真實圖像超分辨率重建是一個極具價值和挑戰(zhàn)性的研究方向。
⑵輕量化超分辨率重建網(wǎng)絡(luò)模型。在實際水下環(huán)境的具體應(yīng)用中,超分辨率重建模型的推理過程常在嵌入式、邊緣設(shè)備上運行,比如水下機器人、UUV。然而,這些設(shè)備對實時性和功耗方面的要求都相對較高,深度學(xué)習(xí)模型的高計算成本和內(nèi)存消耗阻礙了算法的部署應(yīng)用。因此研究精確、實時、節(jié)能的輕量化超分辨率重建網(wǎng)絡(luò)模型具有重要的應(yīng)用意義。具體而言,可以采用權(quán)重共享策略來減少模型參數(shù),或?qū)Υ竽P瓦M行壓縮,減少一些不必要的計算單元。在推理過程中,輸入圖像不同的圖像區(qū)域有不同的恢復(fù)難度,細(xì)節(jié)缺失主要存在于邊緣區(qū)域和紋理區(qū)域,因此對于平坦區(qū)域可以分配較少的計算資源。通過不同規(guī)模的網(wǎng)絡(luò)模型對不同的圖像區(qū)域進行處理,使整體計算資源消耗更低。
⑶聯(lián)合水下目標(biāo)檢測的多任務(wù)學(xué)習(xí)。計算機視覺低層任務(wù)包括模糊、去噪、去霧、超分辨率重建等圖像增強技術(shù)用于改善圖像質(zhì)量;高層任務(wù)包括圖像分類、目標(biāo)檢測、語義分割等識別技術(shù)用于場景感知應(yīng)用。對于目標(biāo)檢測任務(wù),僅將輸入圖像放大就能直接提升小目標(biāo)檢測精度,結(jié)合超分辨率重建、去模糊網(wǎng)絡(luò)與目標(biāo)檢測模型進行圖像、特征層面的多任務(wù)學(xué)習(xí),可以同時提升重建性能和檢測精度。多任務(wù)學(xué)習(xí)利用參數(shù)共享等方式對多個任務(wù)進行端到端訓(xùn)練,產(chǎn)生隱式訓(xùn)練數(shù)據(jù)增加的效果并降低過擬合的風(fēng)險,實現(xiàn)“1+1>2”。由于水下環(huán)境采集的圖像常面臨各種質(zhì)量降低問題,聯(lián)合超分辨率重建網(wǎng)絡(luò)與目標(biāo)檢測模型進行多任務(wù)學(xué)習(xí),可以更好的適用于水下探測等任務(wù)。
⑷基于其他水下傳感器的超分辨率重建。在水下目標(biāo)探測任務(wù)中,由于成像環(huán)境的限制,光學(xué)傳感器僅適用于近距離感知,聲吶等水聲傳感器更適用于遠距離探測。聲吶圖像的自主目標(biāo)識別被廣泛應(yīng)用于民用、軍事領(lǐng)域。然而,海水介質(zhì)的非均勻性會造成聲信號的衰減和畸變,同時各種漂浮物和顆粒都會增大聲波傳輸過程中的多徑效應(yīng),極大影響了聲吶圖像質(zhì)量。目前已有一些方法應(yīng)對側(cè)掃聲吶圖像和水聲通信信道的超分辨率重建,盡管只針對單一的下采樣退化。因此,研究基于更多退化方式的水下聲吶圖像超分辨率重建算法具有極大的應(yīng)用價值。此外,基于多模態(tài)融合和參考圖像的超分辨率重建算法可以借助更多信息提升算法性能。隨著無人艇以及UUV的進一步發(fā)展與應(yīng)用,對水下光傳感器、前視聲吶、側(cè)掃聲吶、合成孔徑聲吶采集的圖像進行融合分析極具研究前景。

-----------------------------




歡迎光臨 愛鋒貝 (http://m.7gfy2te7.cn/) Powered by Discuz! X3.4