Research Article

The Journal of the Acoustical Society of Korea. July 2020. 246-254
https://doi.org/10.7776/ASK.2020.39.4.246


ABSTRACT


MAIN

  • I. 서 론

  • II. 관련 연구

  • III. 제안 방법

  •   3.1 입력 신호의 변환, 재변환 및 초기화

  •   3.2 ISTA block

  •   3.3 손실 함수

  • IV. 모의 실험

  •   4.1 ISTA block 개수에 따른 성능 변화

  •   4.2 손실 함수에 따른 성능 변화

  •   4.3 기존 방법들과의 성능 비교

  •   4.4 메모리 사용량 및 실행 시간 비교

  • V. 결 론

I. 서 론

측면주사 소나는 영상을 기반으로 한 수중 탐색 소나 시스템이다. 탐색 범위와 영상 품질 사이에 역상관 관계가 존재하며 고주파를 이용하는 측면주사 소나는 협소한 탐색 범위의 고품질 영상을 획득하는 반면 저주파 측면주사 소나는 광역 탐색 범위의 저품질 영상을 획득하게 된다.[1]

측면주사 소나 영상에서 품질 저하의 주요 원인중 하나는 영상 잡음이다. 해양 환경 및 장비 특성으로 인해 획득한 수중 영상에는 영상 잡음이 존재하게 된다. 특히 원거리에서 반사된 신호의 경우 에너지 수준이 현저하게 낮기 때문에 강제적으로 높은 증폭을 해주는 시간변화이득 과정을 거치게 된다. 이로 인해 획득한 수중 영상은 센서와해저면 또는 객체의 거리에 따라 잡음의 강도가 다르게 되는 비균일 잡음 특성을 갖게 된다. 이러한 비균일 잡음을 모델링하고 감쇄시키는 것은 측면주사 소나 영상의 품질 향상에 주요한 부분 중에 하나이다.

압축 센싱 기법은 신호의 sparsity에 기반하여 신호를 복원함으로써, 영상 잡음 제거에서 그 효과가 입증되었다.[2,3,4] K-SVD[2]와 Clustering-based Sparse Representation(CSR)[3]은 잡음 제거에 적용되는 대표적인 압축 센싱 기법이다. K-SVD는 sparse coding과 사전 업데이트의 반복 과정을 통해 sparse 해를 구하게 된다. Sparse coding 과정은 사전 D를 알고 있다는 가정하에 Orthogonal Matching Pursuit(OMP)[4] 알고리즘을 통해 최적의 계수를 찾는다. 사전 업데이트는 기저 신호 별로 업데이트를 수행하며 업데이트 하고자 하는 기저 신호를 제외한 나머지 기저 신호들을 고정 시킨 후 sparse coding Xk를 동시에 업데이트한다. 사전 업데이트 과정에서 SVD 분해를 이용하여 기저 신호 및 sparse 해를 업데이트하게 된다. CSR은 국부 희소성과 비국부 자기 유사성을 결합함은 물론 , 특징 그룹 영역 내에서도 sparsity를 찾고자 하였다. 동일 클래스 내의 영상 패치들에 대한 sparse 계수를 클래스의 중심값과 유사하게 함으로써, 동일 클래스의 영상 패치들은 유사한 기저 신호로 복원된다. K-SVD와 CSR 같은 전통적인 압축 센싱 복원 기법을 이용하여 최적의 해를 찾기 위해서는 관련된 하이퍼 파라미터를 실험자의 경험 혹은 반복 실험을 통해 설정해야 한다. 다양한 응용 분야로 압축 센싱을 적용할 때, 하이퍼 파라메터를 설정하는 부분 또한 주요한 이슈가 된다.

컴퓨터 비전에서 딥러닝의 성공과 더불어 압축 센싱 분야에서도 딥러닝과 압축 센싱 기술이 접목된 학습형 압축 센싱 기술이 제안되었다.[5,6] Learned Iterative shrinkage and thresholding algorithm(Learned ISTA)[5]는 최초의 딥러닝과 접목된 학습형 압축 센싱 기법으로 ISTA 연산을 k번으로 고정시킨 k-step의 recurrent neural network 구조를 가지고 있다. 전통적인 압축 센싱 기법과는 다르게 주어진 데이터세트에서 적합한 사전과 하이퍼 파라메터들을 훈련을 통해 찾게 된다.

본 논문에서는 비선형성이 강화된 학습 기반 압축 센싱을 이용한 측면주사 소나 영상 잡음 제거 알고리즘을 제안한다. 제안하는 알고리즘의 학습기반 압축 센싱 알고리즘은 비선형 공간 내의 ISTA 최적화를 통해 구현된다. 딥러닝을 기반으로 한 학습 기반 압축 센싱 기법에서 비선형성의 강화는 성능에 주요한 영향을 끼친다. 제안한 알고리즘에서는 강화된 비선형 공간에서 sparsity를 가지게 하여 복잡한 영상 신호를 표현할 수 있게 하며 콘볼루션 연산으로 사전 행렬을 구함으로써 가변적인 입력에 대응할 수 있게 하였다. 또한, 제안된 알고리즘은 기존의 구조보다 적은 메모리를 사용하는 구조를 가진다.

본 논문의 II장에서는 관련된 기존 연구들을 소개하며 III장에서는 제안하는 방식의 상세한 내용을 다룬다. IV장은 모의 실험을 통해 본 논문에서 제안하는 알고리즘의 성능을 정량적, 정성적으로 비교 평가하였다. 마지막으로 V장은 결론에 대해 기술한다.

II. 관련 연구

ISTA-Net[6]에서는 ISTA 구조를 기반으로 딥러닝과 접목된 학습형 ISTA 구조를 제안하였다. Eq. (1) 과 같은 복원 문제에서 ISTA 알고리즘은 Eqs. (2)와 (3)과 같은 두 개의 업데이트 과정을 반복적으로 거치면서 해를 찾게 된다.

$$\min\nolimits_x\frac12\vert\vert y-\Phi\bullet x\vert\vert_2^2+\lambda\vert\vert\Psi\bullet x\vert\vert_1,$$ (1)

여기서 y는 관측 신호, x는 원신호, Φ는 Restrict Isometry Property(RIP)를 만족하는 고정된 크기의 가우시안 랜덤 행렬(Gaussian Random Projection Matrix), Ψ는 원신호 x를 sparse 한 공간으로 변환시키는 행렬이다.

$$r^{(k)}=x^{(k-1)}-\rho\Phi^T\bullet(\Phi\bullet x^{(k-1)}-y),$$ (2)
$$x^{(k)}={\mathrm{argmin}}_x\frac12\vert\vert x-r^{(k)}\vert\vert_2^2+\lambda\vert\vert\Psi\bullet x\vert\vert_1,$$ (3)

여기서 k는 k번째 ISTA 연산과정을 나타내며, ρ는 스텝 크기를 말한다. Ψ=I인 경우 Eq. (3)은 x(k)=soft(rk,λ)의 단순하게 닫힌 형태로 업데이트를 수행하게 된다.

ISTA-Net에서는 고정된 횟수의 ISTA 블럭을 딥러닝과 접목된 네트워크 구조의 형태를 가지고 있다. ISTA-Net은 sparse 측정 도메인에서 원본 신호 도메인으로의 효과적인 역 매핑을 학습한다. ISTA-Net에서도 ISTA와 동일하게 Eqs. (4)와 (5)의 업데이트 과정을 수행한다. ISTA-Net에서는 변환 Ψ를 학습 가능한 콘볼루션 뉴럴넷, F(x), 형태로 구성함으로써 비선형 변환 내에서 sparsity를 가지도록 구성하였다.

$$r^{(k)}=x^{(k-1)}-\rho^k\Phi^T\bullet(\Phi\bullet x^{(k-1)}-y),$$ (4)
$$x^{(k)}=\arg\;\min\nolimits_x\frac12\vert\vert x-r^{(k)}\vert\vert_2^2+\lambda\vert\vert F(x)\vert\vert_1.$$ (5)

변환 F는 연속된 콘볼루션과 Rectifier Linear Unit (ReLU)로 구성된다. 변환 F는 비선형성을 포함하고 학습할 수 있기 때문에, 영상에 대해서 풍부한 표현을 할 수 있는 과적합 사전으로 구성된다. 선형 관계식 및 대칭 제한 조건을 이용하면 Eq. (5)는 Eq. (6)과 같이 닫힌 형태의 해를 갖게 된다.

$$x^{(k)}=\widetilde F(soft(F(r^{(k)}),\theta^{(k)})),$$ (6)

여기서 F~는 변환 F에 대한 역변환으로 F~F=I의 제한 조건을 만족하게 설계되었다. 또한, ISTA-Net의 저자는 추가적인 연구로 residual 구조를 사용하면서 학습 가능한 콘볼루션 레이어를 더 깊게 쌓는 ISTA- Net+를 제시하였다.

III. 제안 방법

딥러닝을 기반으로 한 학습 기반 압축 센싱 기법에서 비선형성이 강한 공간을 찾아가는 것은 성능에 중요한 영향을 미치게 된다.[7] 그러나 비선형성을 과도하게 추구하다 보면 학습이 불가하게 되는 문제가 발생한다. 제안하는 학습 기반 압축 센싱 기법에서는 비선형성을 강화시키는 형태의 학습 기반 압축 센싱 구조를 제안한다. 제안하는 학습기반 압축 센싱 기법을 적용한 잡음 제거 알고리즘 구조는 Fig. 1과 같다. 제안된 구조는 입력 신호를 비선형 변환 및 초기화하는 부분, sparse 공간으로 변환 및 재변환하는 ISTA block, 특징 공간에서 픽셀 공간으로 변환해주는 부분으로 구성된다.

http://static.apub.kr/journalsite/sites/ask/2020-039-04/N0660390403/images/ASK_39_04_03_F1.jpg
Fig. 1.

Architecture of the proposed method. It is composed of k-ISTA blocks.

3.1 입력 신호의 변환, 재변환 및 초기화

Pixel 공간의 입력 데이터는 Fig. 2의 왼쪽 그림 같이 네트워크를 통해 특징 공간으로 변환된다. 즉, Eq. (7)과 같이 입력 영상 y는 비선형 변환 네트워크 S()에 의해서 y'로 변환된다. Fig. 2에서 S()는 conv 연산과 ReLU 비선형 활성 함수로 구성하였다. 복원 영상 신호 xpred는 Fig. 2의 오른쪽 그림과 같이 S~() 네트워크를 통해 특징 공간에서 픽셀 공간으로 최종 복원된다.

$$y'=S(y).$$ (7)

ISTA-Net에서 관측 영상은 least square를 기반으로 초기값을 추정하여 네트워크를 학습하였다. 본 논문에서는 이러한 초기값을 추정하는 부분을 네트워크안에서 처리할 수 있도록 네트워크를 설계하였다. Eq. (7)에 의해 비선형 공간으로 변환된 y'은 Fig. 3과 같이 병목 구조를 가지는 초기화(initialization) 블록에 의해 초기화된다. y'은 초기화 블록을 통해 x'(0)로 초기화되며 ISTA block에 적합한 특징을 제공한다. Fig. 3에서 픽셀 공간 축소 레이어(down scale)와 픽셀 공간 확장 레이어(up scale) 영상의 폭과 높이를 각각 1/2, 2배의 크기가 되도록 bicubic interpolation을 수행한다. 1×1 conv은 학습 가능한콘볼루션 형태로 입력의 채널을 줄이는 역할을 한다. Fig. 3에서 화살표로 표시된 것은 U-net[8]과 비슷하게 ReLU의 출력을 픽셀 공간 확장 레이어의 출력과 채널을 합치는 하는 과정이다.

http://static.apub.kr/journalsite/sites/ask/2020-039-04/N0660390403/images/ASK_39_04_03_F2.jpg
Fig. 2.

Non-linear feature space mapping layer S and inverse of S.

http://static.apub.kr/journalsite/sites/ask/2020-039-04/N0660390403/images/ASK_39_04_03_F3.jpg
Fig. 3.

Structure of the initialization.

3.2 ISTA block

입력 신호의 비선형 공간 변환 후에 Eq. (1)과 같은 복원 문제는 Eq. (8) 와 같이 나타낼 수 있다.

$$x'=\arg\;\min\nolimits_{x'}\vert\vert y'-H(x')\vert\vert_2^2+\vert\vert F(x')\vert\vert_1,$$ (8)

여기서 x'는 비선형 공간내의 특징값, HΦ에 상응한다. 제안된 구조에서는 H를 고정된 가우시안 랜덤 행렬이 아닌 비선형 네트워크 형태로 설계하며 학습을 통해 파라메터를 설정한다. Eqs. (4)와 (5)와 대응되는 비선형 공간내의 업데이트는 수식은 Eqs. (9), (10)과 같다.

$$r'^{(k)}=x'^{(k-1)}-\widetilde H(H(x'^{(k-1)})-y'),$$ (9)
$$x'^{(k)}=\arg\;\min\nolimits_{x'}\frac12\vert\vert x'-r'^{(k)}\vert\vert_2^2+\lambda\vert\vert F(x')\vert\vert_1.$$ (10)

Eq. (9)의 H~H는 역변환 관계를 가지며 RIP 조건을 만족하여야 한다. Eqs. (9)와 (10)의 최적해는 residual 구조를 기반으로 한 ISTA-Net+ 구조를 따라 Eq. (11)와 같이 표현된다.

$$x'^{(k)}=r'^{(k)}+\widetilde F(soft(F(r'^{(k)}),\theta^{(k)})).$$ (11)

본 논문에서의 ISTA block은 Fig. 1과 같이 r', F, F~, soft()로 구성되며 전체적인 구조는 ISTA block이 k개 펼쳐진 구조를 갖는 ISTA-Net의 구조와 유사하다. 기존 ISTA-Net의 구조와는 다르게 r', F, F~ 부분을 잡음 제거에 적합한 네트워크 형태로 설계하였으며 학습을 통해 관련 연산을 수행한다.

3.2.1 r'

k번째 ISTA block의 r'는 Fig. 4와 같이 이전 ISTA block의 출력값과 H(k)H~(k)에 대한 연산으로 구성된다. H(k)H~(k)의 구조는 Fig. 5와 같이 residual 구조를 기반으로 콘볼루션, ReLU, 축소 블록(reduction block)으로 구성된다. 학습 변수를 효율적으로 사용하기 위해 Fig. 5의 shared conv1과 shared conv2은 모든 ISTA block H(k)가 공유되며 동일하게 shared conv3과 shared conv4은 모든 ISTA block H~(k)에서 공유하도록 설계하였다. Fig. 6의 축소 블록은 1×1 콘볼루션을 사용한 채널 축소를 통해 네트워크의 비선형성을 강화하려는 목적으로 설계되었으며,[9] 각 ISTA block마다 학습 가중치를 공유하지 않음으로써 ISTA block의 특성을 반영할 수 있다. Auto-encoder[10]와 비슷한 구조인 병목 형태의 축소 블록을 사용함으로써, 기존의 ISTA기반 알고리즘들과 다르게 잡음 제거에 강인한 ISTA 기반의 알고리즘을 설계했다. 축소 블록은 sparse한 공간으로 변환하는 F(k),F~(k)부분에서도 파라메터를 공유하도록 설계하였다.

http://static.apub.kr/journalsite/sites/ask/2020-039-04/N0660390403/images/ASK_39_04_03_F4.jpg
Fig. 4.

Structure of r'.

http://static.apub.kr/journalsite/sites/ask/2020-039-04/N0660390403/images/ASK_39_04_03_F5.jpg
Fig. 5.

Layer representation of H(k) and H~(k).

http://static.apub.kr/journalsite/sites/ask/2020-039-04/N0660390403/images/ASK_39_04_03_F6.jpg
Fig. 6.

Architecture of reduction block.

3.2.2 sparse 공간 변환

Sparse 공간 변환은 Fig. 7과 같은 네트워크를 통해 얻을 수 있다. ISTA-Net과 동일하게 대칭적 제한 조건을 갖는 F(k)F~(k), Shrinkage 함수 soft(,θ(k))로 구성된다. F(k)F~(k)r',을 계산할 때 사용된 reduction block을 공유하고 있으며 변환 F공간 내에서 Shrinkage 함수가 θ이하의 값은 0으로 만들어줌으로써 sparsity를 가지게 한다. 또한, 각 ISTA-block의 개별적인 특성을 나타내기 위해 공유되지 않는 conv 연산을 적용하였다. 제안된 ISTA-block의 내부 구조는 학습파라미터 개수와 성능의 트레이드 오프를 고려하여 실험적으로 최적의 구조로 선정되었다. ISTA- Net은 모든 블록마다 6개의 3×3 콘볼루션 레이어를 사용한다. 반면에 제안한 모델은 ISTA-block마다 2개의 1×1 콘볼루션과 3개의 3×3 콘볼루션 레이어를 제외하고 모든 학습파라메터를 공유하기 때문에 상대적으로 적은 학습 파라메터수가 필요하다.

http://static.apub.kr/journalsite/sites/ask/2020-039-04/N0660390403/images/ASK_39_04_03_F7.jpg
Fig. 7.

F(k), shrinkage function and F~(k).

3.3 손실 함수

제안한 모델의 손실 함수는 Eq. (12)과 같이 복원 결과 xpred와 원본값 x 의 편차, 변환 행렬들의 역함수 특성 제한 조건들을 토대로 구성하였다. 즉, 주 손실 함수에 S~S=I,H=I,F~F=I 의 제한 조건 항목이 반영된 형태로 손실 함수가 구성된다.

$$\begin{array}{l}Loss=L_{main}+\gamma_1L_{H_{rip}}+\gamma_2L_{F_{rip}}+\gamma_3L_S,\\\left\{\begin{array}{l}L_{main}=\frac1{N_bN}\sum_{i=1}^{N_b}\left\|x_i-x_{pred_i}\right\|_2^2\\L_{H_{rip}}=\frac1{N_bN}\sum_{i=1}^{N_b}\sum_{k=1}^K\left\|\widetilde H^{(k)}(H^{(k)}(x_i^{'(k)}))-x_i^{'(k)}\right\|_2^2\\L_{F_{rip}}=\frac1{N_bN}\sum_{i=1}^{N_b}\sum_{k=1}^K\left\|\widetilde F^{(k)}(F^{(k)}(r_i^{'(k)}))-r_i^{'(k)}\right\|_2^2\\L_S=\frac1{N_bN}\sum_{i=1}^{N_b}\left\|\widetilde S(S(x_i))-x_i\right\|_2^2,\end{array}\right.\end{array}$$ (12)

여기서 N,Nb,K는 영상 패치 xi의 크기, 미니배치 개수, ISTA block 개수이다. γ1,γ2,γ3는 정규화 파라메터이다.

IV. 모의 실험

이 장에서는 기존 알고리즘들과의 정성적, 정량적인 성능 비교를 통해 제안한 알고리즘의 우수성을 평가한다. 정량적 평가로는 Peak Signal to Noise Ratio (PSNR) 수치와 파라메터 개수를 비교하였으며 복원 영상들간의 정성적 비교 평가도 수행하였다. 8비트 그레이 스케일 영상의 PSNR의 정의는 잡음 제거 영상과 원본 영상 사이의 Mean Square Error(MSE)로 표현할 수 있다.

$$PSNR=20\log_{10}\left(\frac{MAX_I}{\sqrt{MSE}}\right).$$ (13)

학습 영상은 측면주사 소나 영상 256×256 약 12,500장을 사용하였으며 테스트 영상은 256×256 크기의 5장을 이용하였다. 네트워크 훈련 시 미니배치 집합 Nb=2 로 설정하였으며 축소 블록의 감소하는 채널과 마지막 레이어를 제외하고 콘볼루션 레이어의 출력 채널 개수는 32이다. Adam optimization[11]최적화 함수와 학습 스텝율 0.001로 적용하였으며 정규화 상수 γ1,γ2,γ3는 모두 0.01을 사용했다. 제안 모델의 학습 시간은 약 36 h이 소모되었다. 실험 코드는 텐서플로를 사용하였으며 Intel Core i7-8700 CPU와 RTX2080Ti GPU를 이용하여 모델을 학습하였다.

4.1 ISTA block 개수에 따른 성능 변화

Fig. 8은 ISTA block 개수 K에 따른 제안 모델의 잡음 제거 테스트 결과이다. 테스트 영상은 5개의 측면주사 소나 영상을 사용했으며, ISTA block의 개수가 증가할수록 PSNR 성능이 수렴하는 것을 볼 수 있다. 본 논문에서는 성능과 모델의 메모리사용량 사이의 trade off를 고려하여 이후 실험에서는 K는 5로 고정하여 실험을 진행하였다.

http://static.apub.kr/journalsite/sites/ask/2020-039-04/N0660390403/images/ASK_39_04_03_F8.jpg
Fig. 8.

Graph of performance change of the proposed model according to the number of ISTA block K.

4.2 손실 함수에 따른 성능 변화

본 논문의 비선형 특징 표현 내의 압축 센싱 알고리즘에서 LHrip,LFrip,LS의 정규화 항목은 학습 기반 압축 센싱 기법의 특성을 나타낸다. Table 1은 정규화항목 사용에 따른 네 가지 모델의 성능을 보여준다. Loss1, loss2, loss3와 loss4의 모델은 각각 Lmain+γ1LHrip,Lmain+γ2LFrip,Lmain+γ1LHrip+γ2LFrip,Lmain+γ1LHrip+γ2LFrip+γ3LS를 사용하였다. 압축 센싱 기법의 특성을 반영한 모든 손실 함수를 사용한 loss 4가 측면주사 소나 영상 잡음 제거에서 가장 높은 PSNR을 보인다. 본 논문의 다음 실험에서는 loss4를 사용하여 실험 결과를 도출하였다.

Table 1.

Ablation study result in five side scan sonar images.

Loss loss1 loss2 loss3 loss4
PSNR 26.87 26.75 27.01 27.1

4.3 기존 방법들과의 성능 비교

기존 방법들과의 비교 모델은 대표적인 압축 센싱 기반 잡음 제거 알고리즘인 K-SVD와 CSR, 비압축 센싱 기반 알고리즘 BM3D,[12] 딥러닝 기반 잡음 제거 알고리즘 DnCNN,[13] 학습형 압축 센싱 기법인 ISTA-Net을 사용하였다. Table 2는 5개의 측면주사 소나 테스트 영상에 대한 잡음제거 결과이다. 제안하는 모델은 비 학습기반 방식( K-SVD, CSR, BM3D) 보다는 평균적으로 약 2 dB의 성능 향상을 나타냈으며 학습기반 방식(DnCNN, ISTA-Net) 보다는 평균적으로 약 0.2 dB ~ 0.4 dB의 성능 향상을 보여주었다. Fig. 9는 Table 2의 세 번째 측면주사 소나 영상에 대해 잡음 제거를 수행한 결과이다. 기존 압축 센싱 모델의 잡음 제거 영상 (c), (d)와 모델 기반 알고리즘의 잡음 제거 영상 (e)는 빨간색 영역의 해저면 부분이 과도한 스무딩 현상이 보였지만 학습기반 방식 및 제안한 방법에서는 과도한 스무딩 현상이 발생되지 않았다. 잡음의 세기가 강한 파란색 영역에서 학습기반 잡음 제거 알고리즘 (f)와 (g)는 왜곡된 잡음 결과 현상이 나타났다. 그러나 제안한 모델 (h)는 해저면과 객체의 부분을 적절하게 복원한 결과를 보여주었다.

Table 2.

Performances of the proposed method for five side scan sonar images.

K-SVD[2] CSR[3] BM3D[12] DnCNN[13] ISTA-Net[6] Ours
1 26.20 27.30 27.54 28.47 28.41 28.85
2 25.56 27.21 27.33 28.50 28.54 28.78
3 24.58 26.00 25.65 27.29 26.94 27.35
4 23.46 24.89 24.64 25.97 25.66 25.99
5 22.90 23.97 23.35 24.22 24.20 24.53
AVG 24.54 25.87 25.70 26.89 26.75 27.10
http://static.apub.kr/journalsite/sites/ask/2020-039-04/N0660390403/images/ASK_39_04_03_F9.jpg
Fig. 9.

(Color available online) Comparison of image denoising methods (visual quality and in PSNR dB gain), when applied to side scan sonar image. (a) is image that contains TVG noise. (b) is original image. (c) and (d) are the result of K-SVD and CSR that is compressive sensing method. (f) is the result of BM3D that filter based image denoising method. (g), (h) respectively is the result of DnCNN and ISTA-Net which is based on deep learning. (h) is the result of the proposed method.

4.4 메모리 사용량 및 실행 시간 비교

제안하는 방법은 측면주사 소나 영상의 잡음제거 성능을 향상하는 동시에 적은 복잡도를 가지도록 설계되었다. Table 3은 기존 잡음제거 알고리즘과 제안하는 방법의 테스트시 소비되는 평균 CPU 실행 시간과 모델 학습 파라메터수를 보여준다. 제안하는 방법에 비해 DnCNN-S의 학습 파라메터는 2배 이상이며 ISTA-Net의 경우는 1.5 배 이상이 사용되고 있다. Tables 2와 3을 통해 제안하는 방법은 기존 방식보다 모델 경량화 및 잡음 제거 성능 측면에서 우수한 모습을 볼 수 있었다.

Table 3.

The CPU runtime and number of parameters in each model.

Time (s) The number of Param. (K)
K-SVD [2] 46.12 -
CSR [3] 53.35 -
BM3D [12] 0.70 -
DnCNN [13] 0.99 558
ISTA-Net [6] 0.80 352
Ours 0.62 195

V. 결 론

본 논문에서는 측면주사 소나 영상 잡음 제거를 위한 학습 기반 압축 센싱 기법을 제안하였다. 제안기법은 ISTA 알고리즘과 딥러닝을 접목하였으며 성능 향상을 위해 학습네트워크의 비선형성을 강화시키는 구조를 가지고있다. 또한, 제안된 기법은 네트워크 구조 및 정규화를 통해 손실 함수를 제어함으로써 측면주사 소나 영상 잡음 제거에 적합하도록 하였다. 다양한 모의실험을 통해 잡음 제거 성능 및 메모리 효율성 측면에서 제안된 모델이 기존의 방법보다 효율적임을 입증하였다. 특히 기존의 딥러닝 접목 압축 센싱 방식과의 비교에서도 제안된 방식이 잡음 제거 및 메모리사용 측면에서 우수한 성능을 보여주고 있었다. 즉, 제안한 방식은 네트워크의 비선형성 강화를 통해 학습 기반 압축 센싱 기법의 향상을 가져오고 있다.

Acknowledgements

본 논문은 국방과학연구소의 연구과제인 “압축센싱소나 신호처리 특화연구실: 수중영상 신호처리 연구”의 연구 결과 중 일부이다(UD190005DD).

References

1

Y. Chen, K. Lee, B. Ku, S. Kim, and H. Ko, "Analyze the sonar image according to the frequency and altitude of side scan sonar," Proc. Korean Soc. Noise Vib. Eng. 2017, 308 (2017).

2

M. Aharon and M. Elad, "Image denoising via sparse and redundant representations over learned dictinaries," Proc. IEEE Trans. on Image Process. 15, 3736-3745 (2006).

10.1109/TIP.2006.88196917153947
3

W. Dong, X. Li, L. Zhang, and G. Shi, "Sparsity-based image denoising via dictionary learning and structural clustersing," Proc. IEEE Comput. Soc. Conf. Comput. Vis. Pattern Recognit. 457-464 (2011).

10.1109/CVPR.2011.5995478
4

J. A. Tropp and A. C. Gilbert, "Signal recovery from random measurements via orthogonal matching pursuit," Proc. IEEE Trans. on information theory, 4655-4666 (2007).

10.1109/TIT.2007.909108
5

K. Gregor and Y. LeCun, "Learning fast approximations of sparse coding," Proc. 27th International Conf. on Machine Learning, 399-406 (2010).

6

J. Zhang and B. Ghanem, "ISTA-Net: Interpretable optimization-inspired deep network for image compressive sensing," Proc. IEEE Cof. computer vision and pattern recognition, 1828-1837 (2018).

10.1109/CVPR.2018.00196
7

K. He, X. Zhang, S. Ren, and J. Sun, "Deep residual learning for image recognition," Proc. IEEE Cof. computer vision and pattern recognition, 770-778 (2016).

10.1109/CVPR.2016.9026180094
8

O. Ronneberger, P. Fischer, and T. Brox, "U-net: Convolutional networks for biomedical image segmentation," Proc. IEEE Cof. Medical image computing and computer-assisted intervention, 234-241 (2015).

10.1007/978-3-319-24574-4_28
9

C. Szegedy, S. Ioffe, V. Vangoucke, and A. Alemi, "Inception-v4, inception-resnet and the impact of residual connections on learning," Proc. Cof. 34th AAAI on Artificial Intelligence, 4278-4284 (2017).

10

P. Vincent, H. Larochelle, Y. Bengio, and P. Manzagol, "Extracting and composing robust features with denoising autoencoders," Proc. the 25th international Conf. on Machine learning, 1096-1103 (2008).

10.1145/1390156.1390294
11

D. P. Kingma and J. Ba, "Adam: A method for stochastic optimization," arXiv preprint, 1412.6980 (2014).

12

K. Dabov, A. Foi, V. Katkovnik, and K. Egiazarian, "Image denoising by sparse 3-D transform domain collavorative filtering," Proc. IEEE Trans. on Image Processing, 16, 2080-2095 (2007).

10.1109/TIP.2007.90123817688213
13

K. Zhang, W. Zuo, Y. Chen, D. Meng, and L. Zhang, "Beyond a gaussian denoiser: Residual learning of deep cnn for image denoising," Proc. IEEE Trans. on Image Processing, 26, 3142-3155 (2017).

10.1109/TIP.2017.266220628166495
페이지 상단으로 이동하기