Unsupervised Deep Learning in Remote Sensing with Application to Image Fusion and Denoising

Autor: Nguyen, Han Van
Přispěvatelé: Magnús Örn Úlfarsson, Rafmagns- og tölvuverkfræðideild (HÍ), Faculty of Electrical and Computer Engineering (UI), Verkfræði- og náttúruvísindasvið (HÍ), School of Engineering and Natural Sciences (UI), Háskóli Íslands, University of Iceland
Jazyk: angličtina
Rok vydání: 2022
Předmět:
ISSN: 1547-1543
Popis: Optical remote sensing (RS) uses optical sensors to create images of the Earth's surface. Those imaging sensors are mounted on spaceborne or airborne vehicles and capture visible, near-infrared, and shortwave infrared radiation reflected from the Earth's surface. Optical remote sensing imaging systems usually provide multi-band images, such as hyperspectral images (HSIs) and multispectral images (MSIs), often with band-dependent spatial resolution. However, those images are often corrupted by noise and have low spatial/spectral resolution. This is caused by several reasons, such as atmospheric absorption, sensor imperfection, and a trade-off between spectral and spatial resolutions. Therefore, denoising or sharpening the images is crucial for many RS applications. This thesis focuses on HSI denoising and RS image fusion. HSI denoising is the problem of recovering the original true image from the noisy HSI. On the other hand, in RS image fusion, one has a set of co-registered images, each acquired at a different frequency band and having a different spatial resolution. The aim is to sharpen the images so they all have a spatial resolution equal to the highest spatial resolution of the input images. The main objective of this thesis is to propose new HSI denoising and RS image fusion methods using unsupervised deep learning (DL). The proposed unsupervised DL-based methods are inspired by the deep image prior idea, which centers around training a convolutional neural network (CNN) in an unsupervised manner. Moreover, several novel points are proposed, such as sparse and low-rank ideas, the sensors' modulation transfer functions (MTFs) utilization, and the usage of Stein's unbiased risk estimate (SURE). The proposed HSI denoising and RS image fusion methods are summarized below. The thesis proposes two HSI denoising methods based on unsupervised CNNs. The first method incorporates the sparse and low-rank property induced by the high spectral and spatial correlation of HSIs to a CNN. Training a CNN for HSI denoising using the sparse and low-rank data significantly reduces computational load and improves the results. The second HSI denoising method derives a SURE-based loss function for training a CNN. Since SURE is an unbiased estimate of the mean-square error (MSE) between the denoised and the reference images and is calculated using only the noisy image, training a CNN with SURE loss avoids overfitting and is unsupervised. Additionally, the SURE-based HSI denoising method can be extended to deal with non-Gaussian noise and to work with low-dimensional HSI data obtained by projecting the original data to a subspace. The SURE-based method improves results and is more feasible in a practical HSI denoising application. The thesis proposes a Sentinel-2 (S2) image fusion method using a single unsupervised CNN where the sensors' MTFs are embedded as a network layer. The proposed method uses a single CNN to sharpen both the 20 m and 60 m bands of the S2 image, unlike traditional DL-based methods that usually use separate CNN to sharpen each resolution band. Moreover, since the manufacturer provided the S2 sensors' MTFs, the proposed method employs an MTF-based degradation model as a CNN layer. By doing this, training the CNN is unsupervised, and the fused images are well-preserved in both spectral and spatial domains. A general framework for RS image fusion is proposed. In this framework, a loss function based on SURE and a linear operator that maps an LR image to its HR is derived for training a CNN. The loss function used in this method has two main benefits. First, SURE is an unbiased estimate of the MSE between the fused and the reference images and is computed without using the reference image. Thus, the method is unsupervised and avoids overfitting. Second, the linear operator is chosen to give upsampling results, at least better than a simple interpolation method, e.g., bicubic. Therefore, the linear operator improves the overall fusion results. The method is applied for three representative RS image fusion problems, i.e., MSI and HSI fusion, S2 sharpening, and pansharpening, where the back-projection operator is used as a linear operator in the SURE-based loss. Experimental results show that the fusion quality is significantly enhanced by using back-projection and SURE.
Ljósfræðileg fjarkönnun (RS) notar myndskynjara til að taka myndir af yfirborði jarðar. Þessir myndskynjarar eru festir á gervihnetti eða flugvélar og fanga sýnilega, nærinnrauða og stuttbylgju-innrauða geislun sem endurkastast frá yfirborði jarðar. Ljósfræðileg fjarkönnunarmyndkerfi eru skilgreind útfrá fjölda tíðnibanda og helstu tegundir mynda eru margrása myndir (e. multispectral images (MSI)), og fjölrásamyndir (e. hyperspectral images (HSI)). Af verkfræðilegum og eðlisfræðilegum ástæðum hafa þessar myndir rýmisupplausn (e. spatial resolution) sem er tíðniháð og einnig innihalda þessar myndir oft suð. Í þessari ritgerð er lögð áhersla á að auka gæði MSI og HSI bæði með því að suðsía þær (e. denoising) og auka rýmisupplausn þeirra með myndsambræðslu (skerping) (e. image fusion). Þessi ritgerð er þróar nýjar aðferðir sem eru byggðar á því að nota óleiðbeindar djúpnámsaðferðir (e. deep learning) sem byggja á földunarnetum (e. convolution neural networks) til að suðsíða og skerpa MSI og HSI myndir. Til þess að þróa þessar aðferðir eru notaðar hugmyndir frá merkjafræði og tölfræði eins og t.d., notkun á tíðnisvörun myndskynjarana, SURE (e. Stein’s unbiased risk estimator), rýr merkjafræði (e. sparse signal processing), og að fjarkönnunarmyndir ”lifa” oft í stærðfræðilegu rúmi af miklu lægri vídd en þær eru teknar á. Í þessari ritgerð eru þróaðar tvær aðferðir til suðsíunnar á fjölrásamyndum (e. hyperspectral images (HSI)) með óileiðbeindum földunarnetum (e. convolution neural networks (CNN)). Fyrri aðferðin nýtir rýra merkjafræði (e. sparse signal processing) og að fjarkönnunarmyndir má oft greina í stærðfræðilegu rúmi af miklu lægri vídd en þær eru teknar á. Þjálfun földunarneta með rýrum gögnum af lágri vídd dregur verulega úr reikniþunga og bætir niðurstöður. Seinni aðferðin leiðir út tapfall (e. loss function) byggt á SURE (e. Stein’s unbiased risk estimator) til þjálfunar á földunarnetum. Þar sem sem reikna má SURE útfrá myndum sem innihalda suð og það er óbjagaður metill á meðalferskekkju milli suðsíaðra mynda og viðmiðunarmynda kemst þjálfun tauganeta með SURE tapfalli hjá því að ofmáta gögnin og er óleiðbeind. Einnig má útvíkka þessa SURE miðuðu suðsíunnar aðferð til að vinna á ógaussísku suði og virka með víddafækkuðum fjölrásamyndum. Aðferðin bætir niðurstöður og er fýsilegri í raunverulegum hagnýtingum til suðsíunnar. Þessi ritgerð þróar myndsambræðsluaðferð (e. image fusion method) fyrir Sentinel2 (S2) myndir með óleiðbeindu földunarneti þar sem tíðnisvörun myndskynjaranna er innfeld sem lag í netið. Aðferðin notar stakt földunarnet til að skerpa bæði 20 og 60 m bönd S2 mynda, ólíkt mörgum fyrri djúpnámsaðferðum (e. deep learning) sem flestar nota aðskild földunarneta til að skerpa bönd af ólíkri upplausn. Ennfremur nýtar aðferðin mælda tíðnisvörun myndskynjaranna frá framleiðanda þeirra sem innfelt sem lag í földunarnetið til að herma myndbreytingareiginleika þeirra. Þannig má nota óleiðbeinda þjálfun en viðhalda bæði róf- og rúmþáttum sambræddu myndanna. v Víðtækt fyrirkomulag til myndbræðslu fjarskynjunar mynda er sett fram. Innan þessa fyrirkomulags er tapfall byggt á SURE notað ásamt línulegum virkja sem varpar mynd af lágri upplausn í hærri upplausn til að þjálfa földunarnet. Tapfallið hefur tvo sérlega kosti. Í fyrsta lagi er SURE reiknað án viðmiðunarmynda útfrá myndum sem innihalda suð en er óbjagaður metill á meðalferskekkju milli suðsíaðrar myndar og undirlyggjandi viðmiðunarmyndar. Þar af leiðir að aðfeðrðin er óleiðbeind og kemst hjá því að ofmáta gögn. Í öðru lagi er línulegi virkinn valinn til þess að gefa úrtaksþéttingu (e. upsampling) sem er alltént betri en einföld brúun á borð við tvívíða þriðja stigs brúun (e. bicubic interpolation). Línulegi virkinn bætir með því móti heildargæði myndbræðslunnar. Aðferðinni er beitt á þrjú einkennandi verkefni í myndbræðslu fjarskynjunarmynda, myndbræðslu margrása mynda og fjölrásamynda (e. multispectral images (MSI) og hyperspectral images (HSI)), skerpingu S2 mynda og panskerping (e. pansharpening), þar sem afturvarpsvirki (e. back-projection operator) er notaður sem línulegur virki með SURE tapfalli. Niðurstöður tilrauna sýna að gæði myndbræðslu aukast verulega með notkun afturvarps og SURE.
The Icelandic Research Fund, Grant 174075-05 and Grant 207233-051, and the University of Iceland Doctoral Fund under Grant 1547-154305.
Databáze: OpenAIRE