• Review Article

    Study on improving passive sonar detection using acoustic vibration matching method for front and rear signal of complex sensor

    복합센서의 전후방 신호에 대한 음향진동 정합기법을 이용한 수동소나 탐지성능 향상에 대한 연구

    Dongwan Seo, Woosuk Chang, Donghyeon Kim, Eunghwy Noh, and Jeongeun Yang

    서동완, 장우석, 김동현, 노응휘, 양정은

    Recently, ship hull-mounted passive sonar system solution is needed in the perspective of improving target detection and elimination of vibration-induced noise. Our …

    함정 선체부착형 수동소나체계는 최근 표적탐지성능을 향상시키고자 함내 진동유기 소음을 제거하려는 연구가 활발히 진행중이다. 본 연구진은 신호처리의 관점에서 음향센서와 진동센서가 설치된 복합센서를 이용한 …

    + READ MORE
    Recently, ship hull-mounted passive sonar system solution is needed in the perspective of improving target detection and elimination of vibration-induced noise. Our research team suggests acoustic-vibration matching method using front and rear signal of a sensor as the improvement of the problem above. Thus in this paper, theoretical background about matching method and its application on finite element method based multi-physics simulation are described. Furthermore, it is shown that target detection and hull vibration performance are improved by using matching method under the condition of our sensor system. Finally, practicality and future research are discussed.


    함정 선체부착형 수동소나체계는 최근 표적탐지성능을 향상시키고자 함내 진동유기 소음을 제거하려는 연구가 활발히 진행중이다. 본 연구진은 신호처리의 관점에서 음향센서와 진동센서가 설치된 복합센서를 이용한 음향-진동 정합기법을 개선책으로 제시한다. 본 논문에서는 정합기법의 이론적 배경에 대해 기술한 후, 그것이 다중물리 유한요소해석 상에서 실현됨을 보였다. 나아가 정합기법을 센서 시스템에 적용할 시의 표적신호 수신감도 상승 및 진동유기 소음 제거 성능을 산출하였으며, 정합기법의 실용성과 향후 연구방향에 대해 논하였다.

    - COLLAPSE
    31 March 2024
  • Review Article

    Listening environment design of houses for the seniors aging at home

    고령자의 청력손실을 배려한 재가보호 주거시설의 음향설계

    Yu-Kyeong Jang and Yang-ki Oh

    장유경, 오양기

    Although hearing loss in the elderly is one of the common symptoms of aging, as the aging population continues to grow, policies …

    고령자 청력손실은 노령화에 따른 대표적 현상이다. 그러나 고령자를 위한 홈케어, 노인복지주택 등의 설계는 고령자의 이동성 확보 및 안전에 초점을 맞춰 시행되고 있어 …

    + READ MORE
    Although hearing loss in the elderly is one of the common symptoms of aging, as the aging population continues to grow, policies such as home care and welfare housing for the elderly are implemented with a focus on mobility, often overlooking the issue of hearing loss in the elderly. In this study, our aim is to enhance the quality of life for the elderly by improving the auditory environment within residential spaces, which plays a pivotal role in determining their overall well-being. We have proposed a technique that focuses on reducing reverberation, minimizing noise levels, and enhancing sound quality to improve the listening environment for the elderly, and we have verified its effectiveness. Building upon this, we have developed an acoustic design model for residential facilities catering to elderly home care.


    고령자 청력손실은 노령화에 따른 대표적 현상이다. 그러나 고령자를 위한 홈케어, 노인복지주택 등의 설계는 고령자의 이동성 확보 및 안전에 초점을 맞춰 시행되고 있어 청력상실 문제를 간과하는 경우가 많다. 본 연구에서는 주거공간 내 청취환경을 개선하여 노인의 삶의 질을 향상시키는 것을 목표로 한다. 노인들의 청취 환경 개선을 위해 잔향 감소, 소음 최소화, 음질 향상에 중점을 둔 기술을 제안하고 그 효과를 검증하였다. 이를 바탕으로 고령자의 청력손실을 배려한 재가보호 주거시설의 음향 설계 모델을 제안하고자 하였다.

    - COLLAPSE
    31 March 2024
  • Review Article

    Comparison of models for sound propagation of low frequency wind turbine noise

    풍력발전기의 저주파 소음 전파 모델 비교

    SungSoo Jung, Taeho Park, ByungKwon Lee, JinHyeong Kim, and TaeMuk Choi

    정성수, 박태호, 이병권, 김진형, 최태묵

    Low frequency noise emitted by wind turbines is one of the most noise complaints. In this study, the reliability of the models …

    풍력발전기에서 방사되는 저주파 소음은 가장 관심이 높은 불만족 사항 중의 하나이다. 이에 본 연구에서는 공학적으로 유용하게 사용할 수 있는 덴마크 모델과 ISO …

    + READ MORE
    Low frequency noise emitted by wind turbines is one of the most noise complaints. In this study, the reliability of the models was examined by comparing the measured sound pressure levels with the predicted levels based on Denish model and commercial programs of the SounPLAN and the ENPro based on ISO 9613. As a result of applying it to representative 3 MW wind turbines, on lnad, the measured and the predicted values differed within a maximum of 5 dB in the frequency range of 12.5 Hz to 80 Hz. It may be due to the change in the acoustic power levels because the wind turbines have been in operation for more than 7 years. However, considering that the Boundary Element Method (BEM) predicted value, which is known to be the most accurate in the low frequency band, the predicted values are well matched within 2.5 dB, the models of this study are expected to be used as deviation within 3 dB.


    풍력발전기에서 방사되는 저주파 소음은 가장 관심이 높은 불만족 사항 중의 하나이다. 이에 본 연구에서는 공학적으로 유용하게 사용할 수 있는 덴마크 모델과 ISO 9613에 기초한 상용 프로그램인 SoundPLAN과 ENPro에 의한 풍력발전기 저주파 소음 예측값들과 측정값을 비교함으로써 모델들에 대한 신뢰성을 살펴보았다. 육상에서 대표적인 3 MW급 풍력발전기를 대상으로 적용한 결과 주파수 12.5 Hz에서 80 Hz 범위에서 측정값과 예측값은 최대 5 dB 이내의 차이를 보였다. 이러한 원인으로는 대상 풍력발전기는 7년 이상 운영되었기 때문에 음향파워레벨의 변화가 생겼기 때문으로 추정할 수 있다. 하지만 저주파 대역에서 가장 정확하다고 할 수 있는 Boundary Element Method(BEM) 예측값과 다른 모델에 의한 예측값 그리고 측정값은 2.5 dB 이내로 잘 일치한 점을 고려할 때 본 연구 대상의 모델들은 3 dB 이내의 편차로 활용될 수 있을 것으로 기대된다.

    - COLLAPSE
    31 March 2024
  • Review Article

    Energy harvesting characteristics on curvature based PVDF cantilever energy harvester due to vortex induced vibration

    곡면을 가진 외팔보형 PVDF 에너지 하베스터의 와류유기진동으로 인한 에너지 수확 특성

    Woo-Jin Song and Jongkil Lee

    송우진, 이종길

    When designing an underwater Piezoelectric Energy Harvester (PEH), Vortex Induced Vibration (VIV) is generated throughout the cantilever through a change in curvature, …

    수중 압전 에너지 하베스터(Piezoelectric Energy Harvester, PEH) 설계시 곡률변화를 통해 외팔보형 전체의 와류유기진동(Vortex Induced Vibration, VIV)을 생성시키고, VIV의 생성으로 곡면형 외팔보 PEH에 …

    + READ MORE
    When designing an underwater Piezoelectric Energy Harvester (PEH), Vortex Induced Vibration (VIV) is generated throughout the cantilever through a change in curvature, and the generation of VIV increases the vibration displacement of the curved cantilever PEH, which is an important factor in increasing actual power. The material of the curved PEH selected a Polyvinyline Di-Floride (PVDF) piezoelectric film, and the flow velocity is set at 0.1 m/s to 0.50 m/s for 50 mm, 130 mm, and 210 mm with various curvatures. The strain energy change of PEH by VIV was observed. The smaller the radius of curvature, the larger the VIV, and as the flow rate increased, more VIV appeared. Rapid shape transformation due to the small curvature was effective in generating VIV, and strain energy, normalized voltage, average power, etc. To increase the amount of power of the PEH, it is considered that the average power will increase as the number of curved PEHs increases as well as the steep curvature is improved.


    수중 압전 에너지 하베스터(Piezoelectric Energy Harvester, PEH) 설계시 곡률변화를 통해 외팔보형 전체의 와류유기진동(Vortex Induced Vibration, VIV)을 생성시키고, VIV의 생성으로 곡면형 외팔보 PEH에 진동 변위가 증가한다는 것은 실제 전력을 증대 시키는 데 중요한 요소이다. 해석 모델인 곡면형 PEH의 재질은 Polyvinyline Di-Floride(PVDF) 압전 필름으로서 곡률이 다양한 50 mm, 130 mm, 210 mm 모델에 유속은 0.1 m/s ~ 0.50 m/s로 정하여 VIV에 의한 PEH의 스트레인 에너지 변화를 관찰하였다. 곡률 반경이 작을수록 큰 폭의 VIV가 나타났고, 유속이 증가할수록 VIV가 많이 나타났다. 작은 곡률로 인한 급격한 형상변환이 VIV의 생성에 효과적이었고 스트레인 에너지, 정규화 발생 전압, 평균 전력 등은 곡률이 증가할수록 감소하였다. PEH 자체의 전력량을 증대시키기 위해 급한 경사의 곡률 개선뿐만 아니라 곡률형 PEH의 개수가 늘어남에 따라 평균 전력도 상승할 것으로 사료된다.

    - COLLAPSE
    31 March 2024
  • Review Article

    Deep learning-based approach to improve the accuracy of time difference of arrival - based sound source localization

    도달시간차 기반의 음원 위치 추정법의 정확도 향상을 위한 딥러닝 적용 연구

    Iljoo Jeong, Hyunsuk Huh, In-Jee Jung, and Seungchul Lee

    정일주, 허현석, 정인지, 이승철

    This study introduces an enhanced sound source localization technique, bolstered by a data-driven deep learning approach, to improve the precision and accuracy …

    본 연구는 데이터 기반의 딥러닝 접근 방식을 통해 도달 방향 추정의 정확성과 정밀성의 개선을 통해 보다 강건하고 정확한 음원 위치 추적 기술을 …

    + READ MORE
    This study introduces an enhanced sound source localization technique, bolstered by a data-driven deep learning approach, to improve the precision and accuracy of direction of arrival estimation. Focused on refining Time Difference Of Arrival (TDOA) based sound source localization, the research hinges on accurately estimating TDOA from cross-correlation functions. Accurately estimating the TDOA still remains a limitation in this research field because the measured value from actual microphones are mixed with a lot of noise. Additionally, the digitization process of acoustic signals introduces quantization errors, associated with the sampling frequency of the measurement system, that limit the precision of TDOA estimation. A deep learning-based approach is designed to overcome these limitations in TDOA accuracy and precision. To validate the method, we conduct comprehensive evaluations using both two and three-microphone array configurations. Moreover, the feasibility and real-world applicability of the suggested method are further substantiated through experiments conducted in an anechoic chamber.


    본 연구는 데이터 기반의 딥러닝 접근 방식을 통해 도달 방향 추정의 정확성과 정밀성의 개선을 통해 보다 강건하고 정확한 음원 위치 추적 기술을 제안한다. 본 연구에서는 도달시간 차 기반의 음원 위치 추적법을 개선함을 목적으로 하며, 이를 위해 상호상관함수로부터 정확하고 정밀한 시간 지연을 추정한다. 실제 마이크로폰으로부터 계측된 값은 많은 잡음이 혼입된 형태이므로, 따라서 실제 도달시간 차이를 정확히 추정하는 것이 여전히 이 분야의 한계로 남아있다. 또한, 마이크로폰으로 부터 실제 신호를 계측하는 과정에서 신호는 디지털화가 되며, 계측 시스템의 샘플링 주파수에 의해 측정 정밀도가 한정되는 양자화 오류를 수반한다. 본 연구에서는 딥러닝 기반 접근법을 통해, 기존의 방법이 가지는 한계를 극복한다. 또한 본 연구에서는 획득된 상호상관함수로부터 시간 지연을 추정하는 원리를 분석하기 위해, 두 개 및 세 개의 마이크로폰으로 구성된 배열에 대한 검증을 수행한다. 마지막으로, 실험을 통해 본 방법의 실제 활용성을 검증한다.

    - COLLAPSE
    31 March 2024
  • Review Article

    Gram-Schmidt process based adaptive time-reversal processing

    그람슈미트 과정 기반의 적응형 시역전 처리

    Donghyeon Kim, Gihoon Byun, J. S. Kim, and Kee-Cheol Shin

    김동현, 변기훈, 김재수, 신기철

    Residual crosstalk has been considered as a major drawback of conventional time-reversal processing in the case of simultaneous multiple focusing. In this …

    잔여의 채널 간 간섭은 일반적인 시역전 처리 기반의 동시 다중 집속에서의 주요 문제점으로 고려되어진다. 본 논문에서는, 다수의 음원이 존재하는 수중 도파관환경에서의 채널 …

    + READ MORE
    Residual crosstalk has been considered as a major drawback of conventional time-reversal processing in the case of simultaneous multiple focusing. In this paper, the Gram-Schmidt process is applied to time-reversal processing to mitigate crosstalk in ocean waveguides for multiple probe sources. Experimental data-based numerical simulations confirm that nulls can be placed at multiple locations, and it is shown that different signals can be simultaneously focused at different probe source locations, ensuring distortionless responses in terms of active time-reversal processing. This focusing property is also shown to be much less affected by a reduction in the number of receivers than the adaptive time-reversal mirror method. The proposed method is shown to be effective in eliminating crosstalk in passive multi-input multi-output communications using sea-going data.


    잔여의 채널 간 간섭은 일반적인 시역전 처리 기반의 동시 다중 집속에서의 주요 문제점으로 고려되어진다. 본 논문에서는, 다수의 음원이 존재하는 수중 도파관환경에서의 채널 간 간섭을 완화하기 위해 그람-슈미트 과정을 시역전 처리에 적용하였다. 해상 실험 데이터 기반 수치 시뮬레이션을 통해 여러 위치로의 널 형성 및 서로 다른 음원의 위치에서의 각기 다른 신호의 왜곡 없는 동시 다중 집속이 가능함을 능동 시역전 처리 관점에서 검증하였다. 또한, 적응 시역전 처리 방법에 비해 수신기 개수의 감소에 상대적으로 적은 영향을 받는 것을 확인하였다. 제안된 알고리즘을 통해 수동 다중 입·출력 수중 통신에서의 채널 간 간섭이 효율적으로 제거됨을 해상 실험 데이터를 통해 보였다.

    - COLLAPSE
    31 March 2024
  • Review Article

    A relevance-based pairwise chromagram similarity for improving cover song retrieval accuracy

    커버곡 검색 정확도 향상을 위한 적합도 기반 크로마그램 쌍별 유사도

    Jin Soo Seo

    서진수

    Computing music similarity is an indispensable component in developing music search service. This paper proposes a relevance weight of each chromagram vector …

    음악 유사도 계산은 음악 검색 서비스 구현에서 중요한 구성 요소 중 하나이다. 본 논문은 커버곡 검색 성능을 제고하기 위해서, 크로마그램 벡터 별로 …

    + READ MORE
    Computing music similarity is an indispensable component in developing music search service. This paper proposes a relevance weight of each chromagram vector for cover song identification in computing a music similarity function in order to boost identification accuracy. We derive a music similarity function using the relevance weight based on the probabilistic relevance model, where higher relevance weights are assigned to less frequently-occurring discriminant chromagram vectors while lower weights to more frequently-occurring ones. Experimental results performed on two cover music datasets show that the proposed music similarity improves the cover song identification performance.


    음악 유사도 계산은 음악 검색 서비스 구현에서 중요한 구성 요소 중 하나이다. 본 논문은 커버곡 검색 성능을 제고하기 위해서, 크로마그램 벡터 별로 커버곡 검색 적합도를 구하여 음악 유사도 계산 시 가중치로 활용한다. 커버곡 검색 적합도는 확률 적합도 모델을 이용하여 구한다. 커버곡 검색에 도움이 될 수 있는 분별도가 높은 벡터에 높은 가중치를 부여하고, 흔하게 존재하여 분별도가 떨어지는 벡터에 낮은 가중치를 부여하는 방식으로 음악 유사도 함수를 유도한다. 두 가지 커버곡 실험 데이터셋에서 성능 비교를 수행하여 제안한 음악 유사도 함수가 커버곡 검색 성능을 개선시킬 수 있음을 보였다.

    - COLLAPSE
    31 March 2024
  • Review Article

    A study on improving the performance of the machine-learning based automatic music transcription model by utilizing pitch number information

    음고 개수 정보 활용을 통한 기계학습 기반 자동악보전사 모델의 성능 개선 연구

    Daeho Lee and Seokjin Lee

    이대호, 이석진

    In this paper, we study how to improve the performance of a machine learning-based automatic music transcription model by adding musical information …

    본 논문은 기계학습 기반 자동악보전사 모델의 입력에 음악적인 정보를 추가하는 방법을 통해 원하는 성능 향상을 얻는 방법을 다루었다. 여기서, 추가한 음악적인 정보는 …

    + READ MORE
    In this paper, we study how to improve the performance of a machine learning-based automatic music transcription model by adding musical information to the input data. Where, the added musical information is information on the number of pitches that occur in each time frame, and which is obtained by counting the number of notes activated in the answer sheet. The obtained information on the number of pitches was used by concatenating it to the log mel-spectrogram, which is the input of the existing model. In this study, we use the automatic music transcription model included the four types of block predicting four types of musical information, we demonstrate that a simple method of adding pitch number information corresponding to the music information to be predicted by each block to the existing input was helpful in training the model. In order to evaluate the performance improvement proceed with an experiment using MIDI Aligned Piano Sounds (MAPS) data, as a result, when using all pitch number information, performance improvement was confirmed by 9.7 % in frame-based F1 score and 21.8 % in note-based F1 score including offset.


    본 논문은 기계학습 기반 자동악보전사 모델의 입력에 음악적인 정보를 추가하는 방법을 통해 원하는 성능 향상을 얻는 방법을 다루었다. 여기서, 추가한 음악적인 정보는 각 시간 단위마다 발생하는 음고 개수 정보이며, 이는 정답지에서 활성화되는 음고 개수를 세는 방법으로 획득한다. 획득한 음고 개수 정보는 기존 모델의 입력인 로그 멜-스펙트로그램 아래에 연결하여 사용했다. 본 연구에서는 네 가지 음악 정보를 예측하는 네 종류의 블록이 포함된 자동악보전사 모델을 사용하였으며, 각 블록이 예측해야하는 음악 정보에 해당하는 음고 개수 정보를 기존의 입력에 추가해주는 간단한 방법이 모델의 학습에 도움이 됨을 확인했다. 성능 개선을 검증하기 위하여 MIDI Aligned Piano Sounds(MAPS) 데이터를 활용하여 실험을 진행하였으며, 그 결과 모든 음고 개수 정보를 활용할 경우 프레임 기준 F1 점수에서 9.7 %, 끝점을 포함한 노트 기준 F1 점수에서 21.8 %의 성능 향상을 확인하였다.

    - COLLAPSE
    31 March 2024
  • Review Article

    Optimal deployment of sonobuoy for unmanned aerial vehicles using reinforcement learning considering the target movement

    표적의 이동을 고려한 강화학습 기반 무인항공기의 소노부이 최적 배치

    Geunyoung Bae, Juhwan Kang, and Jungpyo Hong

    배근영, 강주환, 홍정표

    Sonobuoys are disposable devices that utilize sound waves for information gathering, detecting engine noises, and capturing various acoustic characteristics. They play a …

    소노부이는 수중에서 음파를 활용하여 정보 수집을 수행하는 장치로, 엔진 소음이나 다양한 음향 특성을 감지하여 수중 표적을 정확하게 탐지하는 대잠전에 효과적인 탐지체계이다. 다중상태 …

    + READ MORE
    Sonobuoys are disposable devices that utilize sound waves for information gathering, detecting engine noises, and capturing various acoustic characteristics. They play a crucial role in accurately detecting underwater targets, making them effective detection systems in anti-submarine warfare. Existing sonobuoy deployment methods in multistatic systems often rely on fixed patterns or heuristic-based rules, lacking efficiency in terms of the number of sonobuoys deployed and operational time due to the unpredictable mobility of the underwater targets. Thus, this paper proposes an optimal sonobuoy placement strategy for Unmanned Aerial Vehicles (UAVs) to overcome the limitations of conventional sonobuoy deployment methods. The proposed approach utilizes reinforcement learning in a simulation-based experimental environment that considers the movements of the underwater targets. The Unity ML-Agents framework is employed, and the Proximal Policy Optimization (PPO) algorithm is utilized for UAV learning in a virtual operational environment with real-time interactions. The reward function is designed to consider the number of sonobuoys deployed and the cost associated with sound sources and receivers, enabling effective learning. The proposed reinforcement learning-based deployment strategy compared to the conventional sonobuoy deployment methods in the same experimental environment demonstrates superior performance in terms of detection success rate, deployed sonobuoy count, and operational time.


    소노부이는 수중에서 음파를 활용하여 정보 수집을 수행하는 장치로, 엔진 소음이나 다양한 음향 특성을 감지하여 수중 표적을 정확하게 탐지하는 대잠전에 효과적인 탐지체계이다. 다중상태 시스템에서의 기존 소노부이 배치 방식은 고정된 패턴이나 휴리스틱 기반의 규칙에 의존하므로, 예측하기 힘든 수중 표적의 기동으로 인해 소노부이 투하 개수 및 작전 소요 시간 측면에서 효율적인 배치를 보장하지는 못한다. 본 논문에서는 기존 소노부이 배치 방식의 한계를 극복하기 위해, 수중 표적의 이동을 고려한 시뮬레이션 기반의 실험 환경에서 강화학습을 이용한 무인항공기의 소노부이 최적 배치를 제안한다. 제안한 방법은 Unity ML-Agents를 통해 Proximal Policy Optimization(PPO) 알고리즘을 이용하여 가상 작전환경과 실시간 상호작용하며 무인항공기를 학습한다. 소노부이 투하 개수 및 음원 및 수신기 간의 비용을 고려한 보상 함수를 설계하여 효과적인 학습이 가능하게 한다. 동일한 실험 환경에서 강화학습을 적용한 배치 방식과 기존 소노부이 배치 방식을 비교한 결과, 탐지 성공률, 투하된 소노부이 개수, 작전 소요 시간 측면에서 강화학습을 적용한 배치 방식이 가장 우수한 성능을 보였다.

    - COLLAPSE
    31 March 2024
  • Review Article

    Improving target recognition of active sonar multi-layer processor through deep learning of a small amounts of imbalanced data

    소수 불균형 데이터의 심층학습을 통한 능동소나 다층처리기의 표적 인식성 개선

    Young-Woo Ryu and Jeong-Goo Kim

    류영우, 김정구

    Active sonar transmits sound waves to detect covertly maneuvering underwater objects and detects the signals reflected back from the target. However, in …

    능동소나는 은밀하게 기동하는 수중 물체를 탐지하기 위해 음파를 송신하여 표적에서 반사되어 돌아오는 신호를 탐지한다. 그러나 능동소나의 수신 신호에는 표적의 반향음 외에도 해저면/해수면의 …

    + READ MORE
    Active sonar transmits sound waves to detect covertly maneuvering underwater objects and detects the signals reflected back from the target. However, in addition to the target's echo, the active sonar's received signal is mixed with seafloor, sea surface reverberation, biological noise, and other noise, making target recognition difficult. Conventional techniques for detecting signals above a threshold not only cause false detections or miss targets depending on the set threshold, but also have the problem of having to set an appropriate threshold for various underwater environments. To overcome this, research has been conducted on automatic calculation of threshold values through techniques such as Constant False Alarm Rate (CFAR) and application of advanced tracking filters and association techniques, but there are limitations in environments where a significant number of detections occur. As deep learning technology has recently developed, efforts have been made to apply it in the field of underwater target detection, but it is very difficult to acquire active sonar data for discriminator learning, so not only is the data rare, but there are only a very small number of targets and a relatively large number of non-targets. There are difficulties due to the imbalance of data. In this paper, the image of the energy distribution of the detection signal is used, and a classifier is learned in a way that takes into account the imbalance of the data to distinguish between targets and non-targets and added to the existing technique. Through the proposed technique, target misclassification was minimized and non-targets were eliminated, making target recognition easier for active sonar operators. And the effectiveness of the proposed technique was verified through sea experiment data obtained in the East Sea.


    능동소나는 은밀하게 기동하는 수중 물체를 탐지하기 위해 음파를 송신하여 표적에서 반사되어 돌아오는 신호를 탐지한다. 그러나 능동소나의 수신 신호에는 표적의 반향음 외에도 해저면/해수면의 잔향, 생물 소음 및 기타 잡음 등이 섞여 있어 표적 인식을 어렵게 한다. 기존의 문턱값 이상의 신호를 탐지하는 기법은 설정한 문턱값에 따라 오탐지가 발생하거나 표적을 놓치는 경우가 발생할 뿐 아니라 다양한 수중환경마다 적절한 문턱값을 설정해야하는 문제가 있다. 이를 극복하기 위해 Constant False Alarm Rate(CFAR) 등의 기법을 이용한 문턱값의 자동산출과 진보된 형태의 추적 필터 및 연계 기법을 적용한 연구가 수행되었지만, 상당수의 탐지가 발생하는 환경에서는 그 한계가 있다. 최근 심층학습 기술이 발달함에 따라 수중 표적 탐지분야에도 이를 적용하기 위한 노력이 있었으나, 분류기 학습을 위한 능동소나 데이터의 획득이 매우 어려워 데이터가 희소할 뿐 아니라, 극소수의 표적과 상대적 다수의 비표적으로 인한 데이터의 불균형성으로 어려움이 있다. 본 논문에서는 탐지 신호의 에너지 분포 영상을 이용하되, 데이터의 불균형성을 고려한 방식으로 분류기를 학습하여 표적과 비표적을 구분하는 기법을 기존 소나처리 기법에 추가하여 표적의 오분류를 최소화하면서 비표적을 제거하여 능동소나 운용자의 표적 인식을 용이하게 하였다. 그리고 동해에서 수행한 해상실험에서 획득한 능동소나 데이터를 통해 제안 기법의 유효성을 검증하였다.

    - COLLAPSE
    31 March 2024
  • Review Article

    Passive sonar signal classification using graph neural network based on image patch

    영상 패치 기반 그래프 신경망을 이용한 수동소나 신호분류

    Guhn Hyeok Ko, Kibae Lee, and Chong Hyun Lee

    고건혁, 이기배, 이종현

    We propose a passive sonar signal classification algorithm using Graph Neural Network (GNN). The proposed algorithm segments spectrograms into image patches and …

    본 논문에서는 그래프 신경망을 이용한 수동소나 신호 분류 알고리즘을 제안한다. 제안하는 알고리즘은 스펙트로그램을 영상 패치로 분할하고, 인접 거리의 영상 패치 간 연결을 …

    + READ MORE
    We propose a passive sonar signal classification algorithm using Graph Neural Network (GNN). The proposed algorithm segments spectrograms into image patches and represents graphs through connections between adjacent image patches. Subsequently, Graph Convolutional Network (GCN) is trained using the represented graphs to classify signals. In experiments with publicly available underwater acoustic data, the proposed algorithm represents the line frequency features of spectrograms in graph form, achieving an impressive classification accuracy of 92.50 %. This result demonstrates a 8.15 % higher classification accuracy compared to conventional Convolutional Neural Network (CNN).


    본 논문에서는 그래프 신경망을 이용한 수동소나 신호 분류 알고리즘을 제안한다. 제안하는 알고리즘은 스펙트로그램을 영상 패치로 분할하고, 인접 거리의 영상 패치 간 연결을 통해 그래프를 표현한다. 이후, 표현된 그래프를 이용하여 그래프 합성곱 신경망을 학습하고 신호를 분류한다. 공개된 수중 음향 데이터를 이용한 실험에서 제안된 알고리즘은 스펙트로그램의 선 주파수 특징을 그래프 형태로 표현하며, 92.50 %의 우수한 분류 정확도를 갖는다. 이러한 결과는 기존의 합성곱 신경망과 비교하여 8.15 %의 높은 분류 정확도를 갖는다.

    - COLLAPSE
    31 March 2024
  • Review Article

    A study on the application of residual vector quantization for vector quantized-variational autoencoder-based foley sound generation model

    벡터 양자화 변분 오토인코더 기반의 폴리 음향 생성 모델을 위한 잔여 벡터 양자화 적용 연구

    Seokjin Lee

    이석진

    Among the Foley sound generation models that have recently begun to be studied, a sound generation technique using the Vector Quantized-Variational AutoEncoder …

    최근에 연구되기 시작한 폴리(Foley) 음향 생성 모델 중 벡터 양자화 변분 오토인코더(Vector Quantized-Variational AutoEncoder, VQ-VAE) 구조와 Pixelsnail 등 생성모델을 활용한 생성 기법은 …

    + READ MORE
    Among the Foley sound generation models that have recently begun to be studied, a sound generation technique using the Vector Quantized-Variational AutoEncoder (VQ-VAE) structure and generation model such as Pixelsnail are one of the important research subjects. On the other hand, in the field of deep learning-based acoustic signal compression, residual vector quantization technology is reported to be more suitable than the conventional VQ-VAE structure. Therefore, in this paper, we aim to study whether residual vector quantization technology can be effectively applied to the Foley sound generation. In order to tackle the problem, this paper applies the residual vector quantization technique to the conventional VQ-VAE-based Foley sound generation model, and in particular, derives a model that is compatible with the existing models such as Pixelsnail and does not increase computational resource consumption. In order to evaluate the model, an experiment was conducted using DCASE2023 Task7 data. The results show that the proposed model enhances about 0.3 of the Fréchet audio distance. Unfortunately, the performance enhancement was limited, which is believed to be due to the decrease in the resolution of time-frequency domains in order to do not increase consumption of the computational resources.


    최근에 연구되기 시작한 폴리(Foley) 음향 생성 모델 중 벡터 양자화 변분 오토인코더(Vector Quantized-Variational AutoEncoder, VQ-VAE) 구조와 Pixelsnail 등 생성모델을 활용한 생성 기법은 중요한 연구대상 중 하나이다. 한편, 딥러닝 기반의 음향 신호의 압축/복원 분야에서는 기존의 VQ-VAE 구조에 비해 잔여 벡터 양자화 기술이 더 적합한 것으로 보고되고 있으며, 따라서 본 논문에서는 폴리 음향 생성 분야에서도 잔여 벡터 양자화 기술이 효과적으로 적용될 수 있을지 연구하고자 한다. 이를 위하여 본 논문에서는 기존의 VQ-VAE 기반의 폴리 음향 생성 모델에 잔여 벡터 양자화 기술을 적용하되, Pixelsnail 등 기존의 다른 모델과 호환이 가능하고 연산 자원의 소모를 늘리지 않는 모델을 고안하여 그 효과를 확인하고자 하였다. 효과를 검증하기 위하여 DCASE2023 Task7의 데이터를 활용하여 실험을 진행하였으며, 그 결과 평균적으로 0.3 가량의 Fréchet audio distance 의 향상을 보이는 것을 확인하였다. 다만 그 성능 향상의 정도가 제한적이었으며, 이는 연산 자원의 소모를 유지하기 위하여 시간-주파수축의 분해능이 저하된 영향으로 판단된다.

    - COLLAPSE
    31 March 2024
  • Review Article

    Complex nested U-Net-based speech enhancement model using a dual-branch decoder

    이중 분기 디코더를 사용하는 복소 중첩 U-Net 기반 음성 향상 모델

    Seorim Hwang, Sung Wook Park, and Youngcheol Park

    황서림, 박성욱, 박영철

    This paper proposes a new speech enhancement model based on a complex nested U-Net with a dual-branch decoder. The proposed model consists …

    본 논문에서는 이중 분기 디코더를 갖는 복소 중첩 U-Net 기반의 새로운 음성 향상 모델을 제안하였다. 제안된 모델은 음성 신호의 크기와 위상 성분을 …

    + READ MORE
    This paper proposes a new speech enhancement model based on a complex nested U-Net with a dual-branch decoder. The proposed model consists of a complex nested U-Net to simultaneously estimate the magnitude and phase components of the speech signal, and the decoder has a dual-branch decoder structure that performs spectral mapping and time-frequency masking in each branch. At this time, compared to the single-branch decoder structure, the dual-branch decoder structure allows noise to be effectively removed while minimizing the loss of speech information. The experiment was conducted on the VoiceBank + DEMAND database, commonly used for speech enhancement model training, and was evaluated through various objective evaluation metrics. As a result of the experiment, the complex nested U-Net-based speech enhancement model using a dual-branch decoder increased the Perceptual Evaluation of Speech Quality (PESQ) score by about 0.13 compared to the baseline, and showed a higher objective evaluation score than recently proposed speech enhancement models.


    본 논문에서는 이중 분기 디코더를 갖는 복소 중첩 U-Net 기반의 새로운 음성 향상 모델을 제안하였다. 제안된 모델은 음성 신호의 크기와 위상 성분을 동시에 추정할 수 있도록 복소 중첩 U-Net으로 구성되며, 디코더는 스펙트럼 사상과 시간 주파수 마스킹을 각각의 분기에서 수행하는 이중 분기 디코더 구조를 갖는다. 이때, 이중 분기 디코더 구조는 단일 디코더 구조에 비하여, 음성 정보의 손실을 최소화하면서 잡음을 효과적으로 제거할 수 있도록 한다. 실험은 음성 향상 모델 학습을 위해 보편적으로 사용되는 VoiceBank + DEMAND 데이터베이스 상에서 이루어졌으며, 다양한 객관적 평가 지표를 통해 평가되었다. 실험 결과, 이중 분기 디코더를 사용하는 복소 중첩 U-Net 기반 음성 향상 모델은 기존의 베이스라인과 비교하여 Perceptual Evaluation of Speech Quality(PESQ) 점수가 0.13가량 증가하였으며, 최근 제안된 음성 향상 모델들보다도 높은 객관적 평가 점수를 보였다.

    - COLLAPSE
    31 March 2024