Lofargram analysis and identification of ship noise based on Hough transform and convolutional neural network model

Junbeom Cho; Yonghoon Ha

doi:10.7776/ASK.2024.43.1.019

Preview

Research Article

The Journal of the Acoustical Society of Korea. 31 January 2024. 19-28
https://doi.org/10.7776/ASK.2024.43.1.019

Lofargram analysis and identification of ship noise based on Hough transform and convolutional neural network model

허프 변환과 convolutional neural network 모델 기반 선박 소음의 로파그램 분석 및 식별

Junbeom Cho¹

Yonghoon Ha¹^*

조 준범¹

하 용훈¹^*

¹국방대학교 국방과학학과

^{*Corresponding Author}

ABSTRACT

This paper proposes a method to improve the performance of ship identification through lofargram analysis of ship noise by applying the Hough Transform to a Convolutional Neural Network (CNN) model. When processing the signals received by a passive sonar, the time-frequency domain representation known as lofargram is generated. The machinery noise radiated by ships appears as tonal signals on the lofargram, and the class of the ship can be specified by analyzing it. However, analyzing lofargram is a specialized and time-consuming task performed by well-trained analysts. Additionally, the analysis for target identification is very challenging because the lofargram also displays various background noises due to the characteristics of the underwater environment. To address this issue, the Hough Transform is applied to the lofargram to add lines, thereby emphasizing the tonal signals. As a result of identification using CNN models on both the original lofargrams and the lofargrams with Hough transform, it is shown that the application of the Hough transform improves lofargram identification performance, as indicated by increased accuracy and macro F1 scores for three different CNN models.

Keywords

Passive sonar

Lofargram

Hough transform

Convolutional Neural Network (CNN)

Target identification

본 논문은 Convolutional Neural Network(CNN) 모델을 이용하여 선박 소음의 로파그램 분석을 통한 선박 식별 시 허프 변환을 적용함으로써 성능을 향상시키는 방안을 제안한다. 수동소나에 수신된 신호를 처리하면 시간-주파수 영역인 로파그램이 생성된다. 로파그램에는 선박이 방사하는 기계류 소음이 토널 신호로 나타나고 이를 분석하면 선박의 클래스를 특정할 수 있다. 그러나 로파그램의 분석은 숙달된 인원에 의해 진행되는 전문적이고 오랜 시간이 소요되는 작업이다. 또한, 로파그램에는 수중환경 특성 상 다양한 배경소음이 같이 전시되기 때문에 표적 식별을 위한 분석이 매우 어렵다. 이 문제를 해결하기 위해 로파그램에 허프 변환을 적용하여 선을 추가함으로써 토널 신호를 강조하였다. 원본 로파그램과 허프 변환을 적용한 로파그램에 대해 CNN 모델을 이용해 식별을 시도한 결과, CNN 모델의 정확도와 매크로 F1 점수를 통해 허프 변환을 적용한 것이 로파그램 식별 성능을 향상시켰음을 보여주었다.

키워드

수동소나

로파그램

허프 변환

Convolutional Neural Network (CNN)

표적 식별

MAIN

I. 서 론
II. 관련연구 및 이론적 배경
2.1 관련연구
2.2 로파그램
2.3 허프 변환
III. 데이터 및 CNN 모델
3.1 데이터 전처리
3.2 CNN 모델
IV. 실 험
4.1 실험 환경
4.2 실험 결과 및 분석
V. 결 론

I. 서 론

해군함정이 수중 표적을 탐지하기 위해 사용되는 소나에는 능동소나와 수동소나가 있다. 능동소나는 음파를 직접 방사하여 표적으로부터 후방산란되는 반향음으로 표적을 탐지하고, 수동소나는 표적이 방사하는 소음을 수신하여 표적을 탐지한다. 수동소나로 수신되는 소음에는 기계류 소음, 프로펠러 소음, 유체역학 소음이 있는데,^[1] 표적을 식별하기 위한 신호처리 및 전시 방법에는 로파(LOw Frequency Analysis Recording, LOFAR)와 데몬(Demodulation of Envelope Modulation On Noise, DEMON)을 사용한다.^[2] 로파는 Fig. 1과 같이 표적이 방사하는 소음의 협대역 토널 신호를 분석하여 특정 기계류 소음을 식별하는 방법이다.

https://cdn.apub.kr/journalsite/sites/ask/2024-043-01/N0660430103/images/ASK_43_01_03_F1.jpg

Fig. 1.

Underwater noise frequency from the target,^[1] (a) machinery noise (tonal signal), (b) propeller noise (broadband signal), (c) composite signal of (a) and (b).

수동소나로 수신된 소음의 신호처리를 통해 시간과 주파수를 축으로 전시되는 소음신호의 스냅숏 이미지인 로파그램을 얻을 수 있다. 이때 로파그램에 나타난 기계류 소음의 주파수 특성은 표적 선박의 클래스를 식별할 수 있는 음향징표로서 활용이 된다. 로파그램을 분석하여 선박의 클래스를 식별하는 것은 숙달된 소나 운용자에 의해 진행되는데, 이는 많은 시간이 소요되고 전문성이 필요한 작업이다. 이러한 제약을 해소하기위해 자동으로 로파그램을 식별할 수 있다면 시간을 단축할 수 있으며 비전문인원도 로파그램 분석이 가능할 것이다.

컴퓨터 비전 분야에서 활발히 이용되고 있는 Convolutional Neural Network(CNN) 기법은 필터를 이용하여 이미지에서 특징을 추출하고 클래스를 분류하기 때문에 로파그램과 같은 이미지 분류에 적합하다. 그러나 로파그램에는 수중환경 특성 상 표적에서 발생하는 신호 외에도 각종 배경소음 등이 포함되기도 한다. 소음을 줄이기 위해 정규화 과정을 거치지만, 그럼에도 표적의 신호와 유사한 강한 배경소음들이 일부 존재한다. 표적 외의 소음은 CNN 모델이 이미지 분류를 할 때 분류 성능을 낮추는 요소가 된다.

본 연구의 목적은 로파그램에 나타난 토널 신호의 구성을 바탕으로 선박을 식별하는 것이다. 전체적인 연구의 흐름은 Fig. 2와 같다. 식별 성능을 높이기 위해 로파그램 이미지에 허프 변환을 적용하여 표적의 토널 신호를 추출하고, 선을 그려주어 배경소음으로부터 토널 신호를 강조하였다. 이를 기반으로 원본 로파그램과 허프 변환이 적용된 로파그램을 각각 다양한 CNN 모델을 이용해 식별함으로써 정확도와 매크로 F1 점수를 산출하고, 이를 바탕으로 식별 성능을 비교하였다. 본 논문의 구성은 다음과 같다. 2장에서는 관련연구와 로파그램, 허프 변환에 대한 이론적 배경을 알아보고, 3장에서는 데이터 전처리 과정과 CNN 모델에 대해 소개하였다. 4장에서는 실험환경을 소개하고 CNN 모델에 따른 식별 결과를 분석하였다.

https://cdn.apub.kr/journalsite/sites/ask/2024-043-01/N0660430103/images/ASK_43_01_03_F2.jpg

Fig. 2.

(Color available online) Research flow.

II. 관련연구 및 이론적 배경

2.1 관련연구

인공지능 기술의 발전에 따라 소나 신호의 주파수 영역에서의 시계열 이미지에서 표적의 신호를 검출하기 위해 CNN을 적용하려는 연구가 활발하게 이루어지고 있다. Park et al.^[3]은 수동소나의 로파그램에서 다양한 크기로 추출한 토널 신호를 ResNet, DenseNet 등 5가지 모델로 학습하여 추출한 이미지에 토널 신호 포함 여부를 평가하였고, Kim et al.^[4]은 능동소나의 스펙트로그램에서 표적과 비표적을 CNN 모델로 분류하였다.

스펙트로그램에서 표적의 신호를 검출하는 연구뿐만 아니라 스펙트로그램 전체로 선박의 클래스를 분류하는 연구도 이루어졌다. Dominguez et al.^[5]은 스페인 대서양 연안에서 직접 녹음한 ShipsEar 데이터를 Cepstrum으로 전처리하여 기계학습 알고리즘 중 하나인 가우시안 혼합 모델로 분류를 시도했으며, Irfan et al.^[6]은 캐나다 태평양 해안에서 발생한 수중 소음을 직접 녹음한 DeepShip 데이터를 멜 스펙트로그램, Constant-Q Transform(CQT), Mel-Frequency Cepstral Coefficient(MFCC) 등으로 신호의 특징을 추출해 다양한 기계학습, 딥러닝 알고리즘으로 선박의 클래스 분류를 시도하였다. Park et al.^[7]은 수중 표적 분류기의 성능 향상을 위해 멜 스펙트로그램과 로그 멜 스펙트로그램 기법을 특성 스케일링 기법과 조합하여 데이터를 전처리하고 CNN 모델로 분류 성능을 비교하였다. 한편, Yang et al.^[8]과 Yao et al.^[9]은 Generative Adversarial Network(GAN)을 이용해 스펙트로그램 이미지를 증강하고 선박 클래스를 분류를 시도하였다.

2.2 로파그램

수동소나로 수신한 신호를 로파로 처리하면 기계류 소음에서 발생하는 신호의 성분을 분석할 수 있고, 이를 바탕으로 시간-주파수 영역의 로파그램 이미지를 얻을 수 있다. 로파 분석의 처리과정은 다음과 같다. 수신된 음성신호를 디지털신호로 변환하고, 일정한 크기의 Window 함수를 적용하는 Short Time Frourier Transform(STFT)을 수행하여 신호를 시간에 따른 주파수 정보로 나타낸다. 이 값을 제곱한 뒤 적분하면 Power Spectral Density(PSD)를 구할 수 있고, 정규화과정을 통해 소음을 제거한다. 이 과정을 거쳐 처리된 신호는 Fig. 3과 같이 시간-주파수 영역에서 Waterfall 형태로 전시된다.

https://cdn.apub.kr/journalsite/sites/ask/2024-043-01/N0660430103/images/ASK_43_01_03_F3.jpg

Fig. 3.

(Color available online) An example of a lofargram image.

로파그램에 나타나는 소음 신호에는 선박의 엔진과 크랭크축에서 발생하는 Crank Shaft Rate(CSR), Cylinder Firing Rate(CFR), Engine Firing Rate(EFR) 등이 있으며,^[10] 이러한 음향징표들은 Eqs. (1), (2), (3)과 같은 관계를 가진다.

(1)

C S R = \frac{E n g i n e R P M}{60 s} .

(2)

C F R = \{\begin{cases} C S R T w o - s t r o k e E n g i n e \\ C S R / 2 F o u r - s t r o k e E n g i n e \end{cases} .

(3)

E F R = N u m b e r O f C y l i n d e r \times C F R .

그 외에도 저주파 대역에서 발생하는 프로펠러에 의한 소음인 Blade Rate(BR), Propeller Shaft Rate(PSR)과 펌프와 같은 보기류 소음 등 다양한 소음원이 로파그램 상에 나타날 수 있다.

따라서 로파그램을 이용한 음향신호 분석 및 선박 식별을 위해서는 추진시스템과 보조기기에 관한 세부 정보를 필요로 한다. 그러나 본 연구에서 사용된 ShipsEar와 DeepShip 데이터셋은 선박의 엔진정보는 포함하고 있지 않기 때문에 음향징표 분석에 의한 선박 식별은 제한이 있다. 따라서 로파그램에 나타나는 전체적인 토널 신호의 구성으로 선박의 클래스 식별을 시도하였다.

2.3 허프 변환

허프 변환은 이미지 내의 선, 원 등의 주요 특징을 찾는 알고리즘^[11]으로 컴퓨터 비전 분야에서 주로 사용한다. 이미지 공간 상의 직선은 원점에서부터의 거리 ρ와 직선과 x축 사이의 각도 θ를 이용해 Eq. (4)와 같이 표현 가능하다.

(4)

x c o s θ + y s i n θ = ρ .

따라서, Fig. 4과 같이 x축과 y축으로 이루어진 이미지 공간에서의 직선은 ρ와 θ로 이루어진 이른바 허프 공간에서의 한 점으로 표현이 가능하다. 반대로 이미지 공간 상 한 점에서 그려질 수 있는 모든 직선은 허프 공간에서 곡선으로 표현된다.

https://cdn.apub.kr/journalsite/sites/ask/2024-043-01/N0660430103/images/ASK_43_01_03_F4.jpg

Fig. 4.

(Color available online) Image space and Hough space.

2차원 이미지에 허프 변환을 적용해 직선을 인식하는 과정은 Fig. 5와 같다. 우선 이미지의 외곽선을 추출하고, 외곽선의 각 픽셀들에서 그릴 수 있는 직선을 모두 허프 공간상에 누적한다. 그 중 임계값이 넘은 점 (θ, ρ)은 직선으로 인식하게 된다.

https://cdn.apub.kr/journalsite/sites/ask/2024-043-01/N0660430103/images/ASK_43_01_03_F5.jpg

Fig. 5.

(Color available online) Process of applying Hough transform (HT).

허프 변환의 임계값은 시각적 판단에 의해 결정된다.^[12] Fig. 6(a)와 같이 임계값이 너무 낮으면 로파그램 상 약하게 전시되는 배경소음도 추출될 수 있는 반면, Fig. 6(c)와 같이 너무 높으면 강하게 전시되는 표적 신호임에도 추출되지 않을 수 있다. 따라서 실험을 통해 Fig. 6(b)와 같이 최적 임계값을 설정하여 배경소음과 표적 신호의 구분이 가능하게 하였다.

https://cdn.apub.kr/journalsite/sites/ask/2024-043-01/N0660430103/images/ASK_43_01_03_F6.jpg

Fig. 6.

(Color available online) Difference in Hough transform application based on threshold.

III. 데이터 및 CNN 모델

3.1 데이터 전처리

본 연구에는 ShipsEar 데이터셋 일부와 DeepShip 데이터셋을 사용했다. ShipsEar은 2016년에 공개된 수중 방사소음 데이터셋으로 스페인 대서양 연안의 실제 환경에서 선박 소음을 녹음하였다. 11개 선박 클래스에 대해 90개의 파일로 구성되어 있다. DeepShip은 2021년에 공개된 수중 방사소음 데이터셋으로 태평양 북서부 연안에서 선박 소음을 녹음하였다. 4개 선박 클래스에 대해 총 265개 선박, 약 47 h 길이의 음원으로 구성되어 있다. 본 연구에서는 DeepShip에서 Cargo, Tanker, Passenger ship, Tug 클래스의 수중 방사소음 일부 데이터와 ShipsEar에서 Passenger ship 클래스의 수중 방사소음 데이터를 사용하였다. 수중 방사소음 데이터의 수와 길이는 Table 1과 같다.

Table 1.

Size of dataset.

Class	Duration (s)	Number of audio files
Cargo	17,835	59
Tanker	12,140	64
Passenger ship	15,391	70
Tug	16,866	32

수집된 음향 데이터는 1 min 길이로 분할하였고 STFT와 정규화를 거쳐 로파그램으로 생성하였다. 이때 샘플링 주파수는 32 kHz, 오버랩 50 %, 윈도우 크기 100으로 STFT를 수행하였다. 로파그램에는 저주파대역의 음향 신호가 표현될 수 있도록 주파수 대역을 2 Hz ~ 400 Hz로 설정하였다. 위 과정을 거쳐 이미지 크기가 256 × 256인 로파그램 928개(Cargo 267개, Tanker 178개, Passenger ship 218개, Tug 265개)를 생성하였다. 로파그램의 예시는 Fig. 7과 같다. 같은 선박의 다른 시간대의 로파그램임에도 불구하고 첫 번째 줄처럼 토널 신호가 명확하게 표현되는 로파그램이 있는 반면, 두 번째 줄과 같이 일부 로파그램은 배경소음이 강하게 존재하여 토널 신호가 명확하지 않은 것을 확인할 수 있다.

https://cdn.apub.kr/journalsite/sites/ask/2024-043-01/N0660430103/images/ASK_43_01_03_F7.jpg

Fig. 7.

(Color available online) Examples of lofargram images by ship class.

선박의 클래스를 식별하는 것은 선박이 방사하는 소음의 특징을 추출하여 수행할 수 있기 때문에^[13] 로파그램에 나타난 토널 신호의 구성으로 선박의 클래스를 식별할 수 있다. 하지만 강한 배경소음은 토널 신호의 구성을 불명확하게 만들어 로파그램 식별 시 CNN 모델의 식별 성능을 낮추는 요인이 될 수 있다. 본 연구에서는 식별 성능을 높이기 위해 로파그램 이미지에 허프 변환을 적용해 추정되는 표적의 토널 신호를 추출하였고, 이를 강조하기 위해 추가적으로 선을 표시하였다. 로파그램 상 나타나는 표적의 신호는 타 소음 성분들보다 강하게 전시되고 시간의 흐름에도 주파수 변화가 거의 없다. 이런 특성을 이용해 로파그램에 허프 변환 적용 시 기울기가 0인 직선에 대해서만 추출하고, 로파그램 상에 빨간선으로 표시하였다. 허프 변환을 적용한 이미지는 Fig. 8과 같다.

https://cdn.apub.kr/journalsite/sites/ask/2024-043-01/N0660430103/images/ASK_43_01_03_F8.jpg

Fig. 8.

(Color available online) Lofargram with Hough transform and component analysis.

허프 변환을 적용해 추출한 토널 신호는 다음과 같이 분석할 수 있다. Fig. 8(a)는 DeepShip 데이터 중 30번째 Cargo(선명 SEASPAN SWIFT)의 60 s ~ 120 s 사이 수중 소음의 로파그램이다. A 성분은 기본 주파수가 13 Hz이고 52 Hz까지 2 ~ 4번째 하모닉 주파수가 표시되었다. B 성분은 기본 주파수가 179 Hz이고 358 Hz에 2번째 하모닉 주파수가 존재한다. A 성분은 저주파 대역에 존재하는 점을 고려 시 엔진 및 프로펠러에서 발생한 신호, B 성분은 엔진과 연계된 기어류와 같은 기계류 소음으로 추정할 수 있다.

Fig. 8(b)는 DeepShip 데이터 중 20번째 Tug(선명 NORTH ARM)의 240 s ~ 300 s 사이 수중 소음의 로파그램이다. A 성분은 기본 주파수 15.2 Hz로 로파그램 상 76 Hz ~ 395.2 Hz에서 22번째 하모닉 주파수까지 나타나고, B 성분은 기본 주파수 91.5 Hz로 91.5 Hz ~ 366 Hz에서 하모닉 주파수가 나타났다. A 성분 사이에 강한 신호로 나타나는 B 성분이라는 점을 고려 시, A 성분은 선박의 기계류 소음의 CSR 또는 CFR, B 성분은 EFR로 추정할 수 있다. 또한 성분들의 관계를 통해 최대 회전율 약 900 r/min에 6개의 실린더를 가진 엔진으로 추정할 수 있다. A 성분의 18번째 하모닉 주파수 같은 경우 허프 변환을 적용하여도 추출되지 않는 모습을 볼 수 있는데, 이는 신호가 미약하여 배경소음과 토널 신호를 구분하기 위한 임계값을 넘지 못한 경우이다.

엔진정보를 바탕으로한 로파그램 분석은 토널 신호가 어떤 성분인지 파악하고, 이 성분의 구성으로 선박을 특정할 수 있다. 그러나 개별 성분을 알 수 없는 상황에서 허프 변환을 적용하여 표시한 선을 바탕으로 선박의 클래스를 식별할 수 있을 것이다.

생성한 이미지는 7:3비율로 훈련데이터와 테스트데이터로 분할하여 데이터셋을 구축하였으며, 데이터셋 구성은 Table 2와 같다.

Table 2.

Summary of dataset.

Class	Train	Test	Total
Cargo	186	81	267
Tanker	124	54	178
Passenger ship	152	66	218
Tug	185	80	265

3.2 CNN 모델

본 연구에서는 3가지 CNN 모델로 로파그램 식별을 시도하였다. 먼저 3 layers CNN 모델이다. 로파그램은 배경과 신호만 전시되는 단순한 이미지인 점을 고려하여 Table 3과 같이 3개의 합성곱층과 풀링층으로 이루어진 단순한 CNN 모델을 제시하였다. 합성곱층이 더 깊은 모델의 경우 학습에 소요되는 시간은 증가하였으나 식별 성능에는 큰 차이가 없었다.

Table 3.

Architectures of 3 layers CNN model.

Layer		Output Shape
Input	-	3 × 256 × 256
CNN	Channel: 32, kernel size = 3 × 3, Stride = 1, Padding = 1, activation = ReLU, 2 × 2 Maxpooling.	32 × 128 × 128
CNN	Channel: 64, kernel size = 3 × 3, Stride = 1, Padding = 1, activation = ReLU, 2 × 2 Maxpooling.	64 × 64 × 64
CNN	Channel: 128, kernel size = 3 × 3, Stride = 1, Padding = 1, activation = ReLU, 2 × 2 Maxpooling.	128 × 32 × 32
Flatten	-	1 × 131072
Fully-Connected	activation = ReLU.	512
Fully-Connected	activation = ReLU.	256
Fully-Connected	activation = ReLU.	128
Output	-	4

추가로 이미지 분류 연구에 활발하게 사용되고 있는 ResNet18모델과 DenseNet121모델을 사용하였다. 두 모델은 PyTorch에서 제공하는 Torchvision 패키지를 활용하여 구현하였다. 적은 데이터에 의한 과대적합을 방지하기 위해 학습된 모델의 가중치를 사용하는 전이학습을 활용하였다.

IV. 실 험

4.1 실험 환경

본 연구는 구글에서 제공하는 클라우드 기반 환경인 코랩 프로를 사용하였고 상세 사양은 Table 4와 같다.

Table 4.

Experimental environment.

CPU	Intel(R) Xeon(R) CPU @ 2.2 GHz
RAM	26 GB
GPU	NVIDIA A100
Python	3.10.6.

실험에 사용된 CNN 모델 구축에 PyTorch 2.0.1을 사용하였다. 학습횟수는 적은 데이터에 의한 과대적합을 방지하기 위해 Fig. 9과 같이 훈련 손실이 0에 수렴하며 더 이상 변화가 없는 50회로 설정하였다. 배치 크기는 16, 학습률은 0.0001로 설정하였고, 손실함수는 교차 엔트로피, 최적화 알고리즘은 Adam을 사용했다.

https://cdn.apub.kr/journalsite/sites/ask/2024-043-01/N0660430103/images/ASK_43_01_03_F9.jpg

Fig. 9.

(Color available online) Variation of training loss with epochs.

모델의 성능평가 지표로는 정확도와 매크로 F1 점수를 사용하였다. 매크로 F1 점수는 주로 이진 분류 모델의 성능평가 지표로 사용되는 F1 점수를 다중 분류 모델에 적용하는 방법 중 하나이다. 본 연구는 클래스가 4개인 다중 분류 문제이므로 Table 5과 같은 혼동 행렬을 기반으로 계산가능하며, 식은 Eqs. (5), (6), (7)과 같다.^[14]

(5)

A c c u r a c y = \frac{T P + T N}{T P + T N + F P + F N} .

(6)

F_{1} = \frac{T P}{T P + \frac{F P + F N}{2}} .

(7)

M a c r o F_{1} = \frac{1}{N} \sum_{i = 1}^{N} F_{1} S c o r e_{i} .

Table 5.

Confusuion matrix for multi-class classification.

		Prediction
		Class A	Class B	Class C	Class D
Reality	Class A	TP (A)	FP (B) FN (A)	FP (C) FN (A)	FP (D) FN (A)
	Class B	FP (A) FN (B)	TP (B)	FP (C) FN (B)	FP (D) FN (B)
	Class C	FP (A) FN (C)	FP (B) FN (C)	TP (C)	FP (D) FN (C)
	Class D	FP (A) FN (D)	FP (B) FN (D)	FP (C) FN (D)	TP (D)

혼동행렬은 예측과 실제값 사이의 관계를 행렬형태로 표현한 것이다. 실제와 예측이 모두 긍정이면 True Positive(TP), 모두 부정이면 True Negative(TN), 부정으로 예측했으나 실제 긍정이면 False Negative(FN), 긍정으로 예측했으나 실제 부정이면 False Positive (FP)로 표현한다. 정확도는 얼마나 정확하게 예측했는지 나타내는 지표이고, F1 점수는 정밀도와 재현율의 조화평균이다. 매크로 F1 점수는 클래스 별 F1 점수의 평균으로 계산한다.

4.2 실험 결과 및 분석

테스트 데이터는 로파그램 원본 이미지와 허프 변환을 적용한 로파그램 이미지로, 산출된 모델별 혼동행렬은 Fig. 10과 같다. 화물선을 유조선으로 혹은 유조선을 화물선으로 오인 식별한 경우를 제외하고는 대체로 선박의 클래스를 정답에 맞게 식별했다. 혼동행렬을 바탕으로 산출된 로파그램 원본 이미지와 허프 변환을 적용한 로파그램 이미지의 3 layers CNN, ResNet18, DenseNet121 모델의 정확도와 매크로 F1 점수는 Table 6과 같다.

https://cdn.apub.kr/journalsite/sites/ask/2024-043-01/N0660430103/images/ASK_43_01_03_F10.jpg

Fig. 10.

(Color available online) Confusion matrixes by models and images.

Table 6.

Comparison of accuracy and macro F1 score.

		Accuracy	Macro F1 score
3 layers CNN	Lofargram	75.44 %	0.7446
3 layers CNN	Lofargram with Hough transform	81.14 % (+5.70 %)	0.8029 (+0.0583)
ResNet18	Lofargram	81.85 %	0.8089
ResNet18	Lofargram with Hough transform	85.41 % (+3.56 %)	0.8469 (+0.0380)
DenseNet121	Lofargram	80.07 %	0.7953
DenseNet121	Lofargram with Hough transform	84.70 % (+4.63 %)	0.8345 (+0.0392)

로파그램 원본 이미지를 사용했을 때 정확도는 3 layers CNN 모델 75.44 %, ResNet18 모델 81.85 %, DenseNet121 모델 80.07 %인 반면, 허프 변환을 적용한 로파그램 이미지의 경우 3 layers CNN 모델 81.14 %, ResNet18 모델 85.41 %, DenseNet121 모델 84.70 %로 나타났다. 원본 이미지보다 허프 변환을 적용한 이미지를 사용했을 경우 정확도가 3.56 % ~ 5.70 % 상승한 것을 확인할 수 있다. 매크로 F1 점수도 허프변환 적용 이미지의 경우가 0.0431 ~ 0.059 더 높았다. 모델별로는 ResNet18 모델이 정확도와 F1 점수가 가장 높았고 DenseNet121, 3 layers CNN 순이었다. 로파그램에 허프 변환을 적용하여 토널 신호를 추출하고 이를 강조함으로써 CNN 모델의 정확도와 매크로 F1 점수가 높아지는 것을 알 수 있다.

연구 결과, CNN 모델의 로파그램 식별 성능을 향상시키기 위한 허프 변환 적용이 유의미한 결과를 보여주었다. 대잠전에서 저주파 대역의 분석을 통한 선박의 식별은 해군 함정의 생존성을 향상시키기 위한 중요한 요소이다. 인공지능을 이용한 로파그램의 식별은 소나 운용자에 의한 로파그램 분석 대비 신속할 뿐만 아니라, 허프 변환 적용을 통한 식별 성능 향상은 더 신뢰성있는 식별 결과를 도출함으로써 함의 생존성을 더욱 향상시켜주며, 지휘관의 지휘결심에 도움이 될 것이다.

V. 결 론

본 연구에서는 CNN 모델이 로파그램을 식별할 때 성능을 향상시키기 위해 허프 변환을 적용하는 방법을 제시하였다. 로파그램 내 토널 신호에서 선박의 정보를 파악할 수 있기 때문에 신호의 구성으로 선박의 클래스를 식별할 수 있다. 특징이 되는 토널 신호를 강조하기 위해 허프 변환을 적용하여 신호를 추출하고 선을 추가한 이미지를 다양한 CNN 모델로 식별했을 때, 모든 모델에서 원본 로파그램 대비 정확도와 매크로 F1 점수가 향상되었다. 이를 통해 로파그램의 토널 신호를 허프 변환으로 강조한 것이 CNN 모델의 식별 성능 향상에 효과가 있음을 알 수 있다.

연구 제한사항으로 첫째, 공개된 수중 소음 데이터셋으로 연구가 진행되었기 때문에 데이터 수가 제한되고 선박 클래스의 다양성이 부족하였으며 엔진정보의 부재로 토널 성분의 상세 분석이 제한되었다. 둘째, 허프 변환을 적용하는 방식으로 로파그램 상 직선 성분만을 추출하였기 때문에 선박의 속도 변화나 각종 보기류 소음 등에 의해 다양한 형태로 나타나는 신호는 추출할 수 없었다. 셋째, 허프 변환 시 지정하는 임계값은 실험적으로 설정되었는데, 데이터나 환경적인 상황이 달라지는 경우 임계값을 수정해야 할 수 있으며, 임계값 최적화에 대해서도 고려되어야 할 것이다. 향후 연구과제로서, 엔진정보가 포함된 테이터셋에 대해 토널 신호의 상세한 분석과, 다양한 데이터셋 확보를 바탕으로 직선 성분이 아닌 다양한 형태의 신호에 대해 허프 변환을 적용하여 학습 데이터의 구축이 가능하다면 선박의 클래스 뿐만 아니라 선박을 특정하고 선박의 상태를 파악할 수 있는 자동화 모델을 구현할 수 있을 것으로 기대된다. 또한, 실시간 음향분석체계에 적용하기 위해 본 연구에서의 학습 모델로 허프 변환 로파그램이 아닌 원본 로파그램을 식별하였을 때 성능을 향상시킬 수 있도록 추가 연구가 진행되어야 할 것이다.

References

R. J. Urick, Principles of Underwater Sound (McGraw-Hill, New York, 1975), pp. 299-310.

N. N. de Moura, J. M. de Seixas, and R. Ramos, "Passive sonar signal detection and classification based on independent component analysis," in Sonar Systems, edited by N. Z. Kolev (InTech, Available from: https://www.intechopen.com/chapters/18872, 2011). 10.5772/18286

J. Park and D.-J. Jung, "Deep convolutional neural network architectures for tonal frequency identification in a lofargram," Int. J. Control Autom. Syst. 19, 1103-1112 (2020). 10.1007/s12555-019-1014-4

D. W. Kim, J. W. Seok, and K. S. Bae, "Target/non-target classification using active sonar spectrogram image and CNN" (in Korean), J. IKEEE, 22, 1044-1049 (2018).

D. S. Dominguez, S. T. Guijarro, A. C. Lopez, and A. P. Gimenez, "ShipsEar: An underwater vessel noise database," Appl. Acoust. 113, 64-69 (2016). 10.1016/j.apacoust.2016.06.008

M. Irfan, Z. Jiangbin, S. Ali, M. Iqbal, Z. Masood, and U. Hamid, "DeepShip: an underwater acoustic benchmark dataset and a separable convolution based autoencoder for classification," Expert Syst. Appl. 183, 115270 (2021). 10.1016/j.eswa.2021.115270

K. M. Park and D. Kim, "Preprocessing performance of convolutional neural networks according to characteristic of underwater targets" (in Korean), J. Acoust. Soc. Kr. 41, 629-636 (2022).

H. Yang, H. Gu, J. Yin, and J. Yang, "GAN-based sample expansion for underwater acoustic signal," J. Phys. Conf. Ser. 1544, 012104 (2020). 10.1088/1742-6596/1544/1/012104

Q. Yao, Y. Wang, and Y. Yang, "Underwater acoustic target recognition based on data augmentation and residual CNN," Electronics, 12, 1206 (2023). 10.3390/electronics12051206

Y. C. Jung, B. U. Kim, S. K. An, W. J. Seong, K. H. Lee, and J. Y. Hahn, "An algorithm for submarine passive sonar simulator" (in Korean), J. Acoust. Soc. Kr. 32, 472-483 (2013). 10.7776/ASK.2013.32.6.472

R. O. Duda and P. E. Hart, "Use of the Hough transformation to detect lines and curves in pictures," Commun. ACM, 15, 11-15 (1972). 10.1145/361237.361242

J. Wang and P. J. Howarth, "Use of the Hough transform in automated lineament detection," IEEE Trans. Geosci. Remote Sensing, 28, 561-567 (1990). 10.1109/TGRS.1990.572949

S. Chen, S. Guan, H. Wang, N. Ye, and Z. Wei, "A new method of ship type identification based on underwater radiated noise signals," J. Mar. Sci. Eng. 11, 963 (2023). 10.3390/jmse11050963

M. Grandini, E. Bagli, and G. Visanim "Metrics for multi-class classification: an overview," arXiv preprint arXiv: 2008.05756 (2020).

The Journal of the Acoustical Society of Korea ISSN:1225-4428(Print) 2287-3775(Online) 한국음향학회지

Preview

Lofargram analysis and identification of ship noise based on Hough transform and convolutional neural network model

ABSTRACT

MAIN

Fig. 1.

Underwater noise frequency from the target,[1] (a) machinery noise (tonal signal), (b) propeller noise (broadband signal), (c) composite signal of (a) and (b).

Fig. 2.

(Color available online) Research flow.

Fig. 3.

(Color available online) An example of a lofargram image.

(1)

(2)

(3)

(4)

Fig. 4.

(Color available online) Image space and Hough space.

Fig. 5.

(Color available online) Process of applying Hough transform (HT).

Fig. 6.

(Color available online) Difference in Hough transform application based on threshold.

Table 1.

Size of dataset.

Fig. 7.

(Color available online) Examples of lofargram images by ship class.

Fig. 8.

(Color available online) Lofargram with Hough transform and component analysis.

Table 2.

Summary of dataset.

Table 3.

Architectures of 3 layers CNN model.

Table 4.

Experimental environment.

Fig. 9.

(Color available online) Variation of training loss with epochs.

(5)

(6)

(7)

Table 5.

Confusuion matrix for multi-class classification.

Fig. 10.

(Color available online) Confusion matrixes by models and images.

Table 6.

Comparison of accuracy and macro F1 score.

References

Underwater noise frequency from the target,^[1] (a) machinery noise (tonal signal), (b) propeller noise (broadband signal), (c) composite signal of (a) and (b).