Application of deep learning for accurate source localization using sound intensity vector

Iljoo Jeong; In-Jee Jung; Seungchul Lee

doi:10.7776/ASK.2024.43.1.072

Preview

Research Article

The Journal of the Acoustical Society of Korea. 31 January 2024. 72-77
https://doi.org/10.7776/ASK.2024.43.1.072

Application of deep learning for accurate source localization using sound intensity vector

음향인텐시티 벡터를 통해 정확한 음원 위치 추정을 위한 딥러닝 적용

Iljoo Jeong¹

In-Jee Jung²^*

Seungchul Lee³^*

정 일주¹

정 인지²^*

이 승철³^*

¹포항공과대학교 기계공학과

²한국표준과학연구원 물리표준본부

³한국과학기술원 기계공학과

^{*Corresponding Author}

ABSTRACT

Recently, the necessity for sound source localization has grown significantly across various industrial sectors. Among the sound source localization methods, sound intensimetry has the advantage of having high accuracy even with a small microphone array. However, the increase in localization error at high Helmholtz numbers have been pointed out as a limitation of this method. The study proposes a method to compensate for the bias error of the measured sound intensity vector according to the Helmholtz numbers by applying deep learning. The method makes it possible to estimate the accurate direction of arrival of the source by applying a dense layer-based deep learning model that derives compensated sound intensity vectors when inputting the sound intensity vectors measured by a tetrahedral microphone array for the Helmholtz numbers. The model is verified based on simulation data for all sound source directions with 0.1 < kd < 3.0. One can find that the deep learning-based approach expands the measurement frequency range when implementing the sound intensimetry-based sound source localization method, also one can make it applicable to various microphone array sizes.

Keywords

Sound source localization

Deep-learning

Sound intensimetry

Sound intensity vector compensation

최근 여러 산업 분야에서 음원 위치 추정의 필요성이 커지고 있다. 기존 음원 위치 추정 방법들 중에서, 음향 인텐시티 계측법은 작은 마이크로폰 어레이에서도 높은 정확도를 가지는 장점이 있다. 그러나, 높은 헬름홀츠 수에서의 위치 추정 오차 증가는 이 방법의 한계로 지적되어 왔다. 본 연구에서는 이러한 헬름홀츠 수에 따른 인텐시티 편향 오차를 딥러닝을 통해 보상하는 방법을 제안한다. 제안된 방법은 정사면체 마이크로폰 어레이에서 헬름홀츠 수에 대해 측정된 음향인텐시티 벡터를 입력했을 때, 보상된 음향 인텐시티 벡터를 도출하는 밀집 층 기반의 딥러닝 모델을 적용하여 정확한 음원 위치의 추정을 가능케 한다. 본 연구의 제안 모델은, 0.1 < kd < 3.0의 모든 음원 방향에 대한 시뮬레이션 데이터를 기반으로 검증하였다. 이를 통해, 딥러닝 기반 접근 방식은 음향 인텐시티 벡터 기반의 음원 추정법을 적용하는데 있어서 측정 주파수 범위를 확장하고 다양한 크기를 갖는 마이크로폰 어레이에 적용할 수 있음을 확인하였다.

키워드

음원 위치 추정

딥러닝

음향인텐시티법

음향 인텐시티 벡터 보상

MAIN

I. 서 론
II. 음향 인텐시티 측정법
III. 문제 정의
IV. 딥러닝 기반 음향 인텐시티 벡터 보상
V. 결과 및 토의
5.1 실험 설정
5.2 음향 인텐시티 벡터 보상 결과
VI. 결 론

I. 서 론

음원 위치 추정 기술은 국방 시스템, 로봇, 스마트 인프라 등 다양한 산업에서 활용되어온 기술로써, 최근 가상 현실 또는 스마트 홈 기술 등을 통해 그 중요성이 더욱 강조되고 있다.^[1,2]

음원의 도달 방향(Direction of Arrival, DoA) 추정 방법 중 대표적으로는 마이크로폰 어레이를 통해 도달시간 차를 이용하는 방법 및 빔포밍이 널리 사용된다.^[3,4] 이러한 방법에서 마이크로폰에 도달하는 위상차를 정밀하게 구분하기 위해서 측정하고자 하는 소리의 파장에 비례하여 마이크로폰 어레이의 크기가 결정되므로, 따라서 낮은 주파수를 포함하여 광범위한 주파수 특성을 갖는 음원에 대한 위치 추정을 수행하기 위해서 시스템 구현에 큰 공간이 필요하다.

음향 인텐시티 측정법은, 마이크로폰에서 측정되는 음압의 유한차분에 따라 계산되는 입자속도를 기반으로 능동음향인텐시티 벡터를 추정하여 음원의 위치를 계산하는 방식이다. 유한차분에 따른 오차를 줄이기 위해 마이크로폰 간격이 작은 형태의 모듈이 사용되므로, 비교적 좁은 공간에도 구현이 가능한 장점이 있다.^[5,6] 그러나, 마이크로폰 간격에 비해 짧은 파장을 가지는 소리에 대해서는, 측정 원리에 따라 인텐시티 계산 오차가 커지게 되므로 음원 위치 추정을 수행할 수 있는 주파수 대역이 제한된다. 따라서 이러한 문제를 해결하기 위해 신호처리 및 마이크로폰 어레이 설계 방법이 제안되었다.^[7,8] 또한 딥러닝 기술은 데이터에 내재된 규칙을 학습하는 이점이 있으며, 따라서 음원 위치 추정 분야에서도 이러한 기술이 많이 적용되고 있다.^[9,10]

본 연구에서는 마이크로폰 어레이를 통해 음향 인텐시티를 계산하는 데 있어, 딥러닝을 적용하여 모든 주파수 대역에서 높은 정확도로 음원의 위치를 추정하는 방법을 제안한다. 정사면체 형태의 마이크로폰 어레이가 적용되었으며, 다양한 크기를 갖는 어레이에 대해 적용하기 위해서 헬름홀츠 수에 대한 추정 성능을 비교한다. 결과적으로 본 연구에서 제안하는 딥러닝 모델은 측정을 통해 계산된 인텐시티 벡터를 헬름홀츠 수에 대하여 보상하는 것을 목적으로 한다.

II. 음향 인텐시티 측정법

마이크로폰 어레이로부터 계산되는 능동 음향 인텐시티 벡터는, 음향 중심을 기준으로 데카르트 좌표의 x, y, z축 방향의 벡터 성분으로 계산되며,^[11] 이를 기반으로 음향 중심에 도달하는 음원 방향에 대한 추정이 가능하다. 실제 음원 전파에 따른 음향인텐시티 벡터와 측정을 통해 계산되는 인텐시티 벡터 사이의 관계를 다음의 식으로 표현할 수 있다.

(1)

I_{b i a s e d} = f_{m e a s u r e} (k d, I_{G T}),

여기서 $I_{b i a s e d}$ 는 p-p 방법으로 측정된 인텐시티 벡터이고, $I_{G T}$ 는 마이크로폰 어레이의 음향 중심에 도달하는 음원 도달 방향에 대한 방향벡터를 나타내며, kd는 헬름홀츠 수를 나타내고, 여기서 k는 파수, d는 마이크로폰 간격이다. $I_{b i a s e d}$ 는 특히 높은 kd 에서 불규칙한 어레이 방향 응답으로 인해 음향인텐시티 벡터를 통한 음원 위치 추정 결과에서 공간 편향을 초래한다.^[8] 이러한 위치추정 오차는 p-p 방법에 따라 입자속도를 계산하는 과정에서 발생하는 유한차분오차에 기인하며, 따라서 kd 가 원주율에 가까워질수록 추정 오차가 커진다.

Fig. 1은 kd = 3.0에서 각 인텐시티 벡터 성분 I_x, I_y, I_z에 대한 측정 오차를 나타낸다.

https://cdn.apub.kr/journalsite/sites/ask/2024-043-01/N0660430108/images/ASK_43_01_08_F1.jpg

Fig. 1.

(Color available online) The calculated intensity vector by using tetrahedron microphone array at kd = 3.0. (a) $I_{G T}$ , (b) $I_{b i a s e d}$ , (c) $I_{b i a s e d} - I_{G T}$ . Here, each row represents x, y, and z-directional vector component in that order.

III. 문제 정의

본 연구의 목표는 음향 인텐시티 측정에 따른 인텐시티의 편향을 보상하여 정확한 음향 인텐시티를 추정하는 것이다. 이를 위해 $I_{G T}$ 를 통해 측정된 인텐시티 벡터 $I_{b i a s e d}$ 를 보상하기 위해 아래와 같이 오차를 보상하는 모델을 수식으로 표현하면 다음과 같다.

(2)

f_{c o m p .} (k d, I_{b i a s e d}) = I_{c o m p .},

여기서 $I_{c o m p .}$ 는 딥러닝 모델 $f_{c o m p .}$ 을 적용하여 계산된 보상된 인텐시티 벡터를 나타낸다. 한편, 제안하는 딥러닝 모델은 헬름홀츠 수에 대한 함수로써, 다양한 크기의 정사면체 어레이에 본 모델을 적용할 수 있도록 하였다.

IV. 딥러닝 기반 음향 인텐시티 벡터 보상

본 연구에서는 음향 인텐시티 벡터에서 나타나는 오차를 보상하기 위해 밀집 층 기반의 딥러닝 모델의 적용을 제안한다.

Fig. 2는 3차원의 $I_{b i a s e d}$ 및 1차원의 kd를 입력받아, 모델 내에서 32차원 및 64차원의 고차원으로 확장하여 특징을 학습하고, 최종적으로 3차원의 $I_{c o m p .}$ 를 출력하는 딥러닝 모델을 나타낸다.

https://cdn.apub.kr/journalsite/sites/ask/2024-043-01/N0660430108/images/ASK_43_01_08_F2.jpg

Fig. 2.

(Color available online) Proposed deep learning-based model for sound intensity vector compensation. The input is biased intensity components and Helmholtz number, and the output is compensated intensity components. Both intensities are unit vector form which represents DoA information of sound source. Here, the numbers in parentheses represent the dimensions of the dataset.

여기서, 선형계층 및 안정적 학습을 위한 배치정규화 및 시그모이드 활성화 함수가 적용되었다. 제안된 모델은 특징을 고차원으로 확장하고 다시 축소하는 과정을 통해, 음향 인텐시티 보상을 위한 복잡한 패턴을 고차원 공간에서 효과적으로 학습하며, 이를 통해 정확한 보상을 수행할 수 있도록 한다.

모델 학습을 위한 손실 함수는, 평균절대오차( $L_{M A E}$ )와 단위 벡터 손실 함수( $L_{u n i t}$ )로 구성된 복합 손실 함수를 사용하며 다음과 같다.

(3)

L = L_{M A E} + λ L_{u n i t},

여기서 $L_{M A E}$ 는 $I_{b i a s e d}$ 와 $I_{G T}$ 간의 오차를 최소화하는 것을 목표로 하며, $L_{u n i t}$ 는 예측된 $I_{c o m p .}$ 의 크기를 1로 제한하여 단위 벡터가 되도록 학습을 조력한다.

(4)

L_{u n i t} = | | | I_{c o m p .} | |_{2} - 1 | .

두 손실 함수 간의 가중 계수는 𝜆 = 0.1 및 학습률은 0.001로 설정되었으며, 모델 최적화는 Adam Optimizer를 사용하여 수행되었다.^[12] 하이퍼 파라미터는 학습과정에서의 검증을 통해 선정되었는데, 여기서 가중 계수 𝜆는 단위 벡터 손실함수가 평균 절대오차의 수렴을 조력할 수 있는 값으로 선정되었으며, 학습률은 전체 손실값을 효율적으로 감소시키는 값으로 선정되었다.

V. 결과 및 토의

5.1 실험 설정

딥러닝 기반의 인텐시티 벡터 계산 방법에 대한 유효성을 검증하기 위해서 시뮬레이션을 수행하였으며, 이를 위해 d = 0.14 m 인 정사면체 마이크로폰 어레이를 선정하였고 Fig. 3에 나타내었다. 테스트에 적용할 음원으로는, 방위각 𝜙 = [-180°, 180°], 고도각 𝜃 = [-90°, 90°] 범위에서 전파되는 평면파를 고려하였으며, 헬름홀츠 수 범위 kd = [0.1, 3.0]에 해당하는 주파수 범위 f = [40 Hz, 1170 Hz]의 대역 제한 백색 잡음 신호를 갖는 음원에 대한 위치추정 과정을 모사하였다.^[7] 제안 모델의 학습을 위해, 전체 방위각 범위 [-180°, 180°], 고도각 범위 [-90°, 90°], 그리고 kd 범위 [0.1, 3.0] 에 대하여 300,000개의 데이터 셋을 학습데이터로 사용하였다.

https://cdn.apub.kr/journalsite/sites/ask/2024-043-01/N0660430108/images/ASK_43_01_08_F3.jpg

Fig. 3.

(Color available online) Configuration of the tetrahedral microphone array to implement sound intensimetry. Here, m₁, m₂, m₃, and m₄ indicate the position of the microphones.

$I_{c o m p .}$ 와 $I_{G T}$ 사이의 평균제곱오차(Mean Squared Error, MSE) 및 DoA 오차를 통해 제안된 모델의 성능을 평가하였다. 여기서 음원 도달 방향 오차는 인텐시티 벡터 사이의 각도 거리에 해당하며 다음과 같이 계산된다.

(5)

D O A e r r o r = \cos^{- 1} (\frac{I_{c o m p .} ∙ I_{G T}}{| | I_{c o m p .} | | | | I_{G T} | |}) .

5.2 음향 인텐시티 벡터 보상 결과

Fig. 4와 Table 1은 제안된 모델을 통한 음원 추정 테스트 결과에 대한 MSE와 DoA 오차를 나타낸다. 본 결과는 64,800개의 음원 방향에 대한 평균값을 나타낸다. 실험결과를 통해 전체 헬름홀츠 수 범위 내에서 MSE 및 DoA 오차가 크게 감소되는 것을 관찰할 수 있다. 딥러닝이 적용되지 않은 결과에서는 높은 kd에서 위치 추정 오차가 크게 발생하지만, 딥러닝 적용 결과에서는 추정 오차가 크게 저감되는 것을 볼 수 있고, 특히 kd < 2.7 범위에서는 평균 DoA 오차가 0.5°보다 낮은 것을 확인할 수 있다. 그러나 kd = 1 인 경우, 딥러닝 모델을 통해 계산된 결과의 MSE가 더 크게 나타나는 것을 볼 수 있는데, 이는 제안 모델이 높은 kd에서 발생하는 큰 오차를 보상하는 방향으로 학습 됨에 따른 것으로 볼 수 있다. 향후 연구에서는 이러한 오차의 원인을 분석하고, 세부보정을 통해 학습 모델을 개선할 수 있을 것으로 생각된다.

https://cdn.apub.kr/journalsite/sites/ask/2024-043-01/N0660430108/images/ASK_43_01_08_F4.jpg

Fig. 4.

(Color available online) Averaged MSE and DoA error with respect to Helmholtz numbers.

Table 1.

Quantitative analysis of the test result for kd is 1, 2 and 3.

Evaluation metric		kd = 1	kd = 2	kd = 3
MSE	Biased	2.22E-05	5.40E-04	7.52E-03
MSE	Compen.	1.02E-04	1.02E-04	4.19E-03
DoA error (°)	Biased	0.43	2.16	8.05
DoA error (°)	Compen.	0.23	0.22	1.14

Fig. 5는 kd = 2에서 $I_{b i a s e d}$ 와 $I_{c o m p .}$ 의 인텐시티 벡터 구성 요소의 추정 오차에 대한 결과를 나타낸다. 선행연구에 따르면 음원 위치 추정 오차는 인텐시티 벡터의 방향 구배에 비례하므로,^[8] Fig. 5(b)와 같이 딥러닝 모델을 통한 계산 결과에서 인텐시티 오차의 크기가 줄어든 것이 결국 위치 추정 오차가 줄어들게 된 직접적인 원인임을 확인할 수 있다.

https://cdn.apub.kr/journalsite/sites/ask/2024-043-01/N0660430108/images/ASK_43_01_08_F5.jpg

Fig. 5.

(Color available online) The calculated intensity vector by using tetrahedron microphone array at kd = 2.0. (a) $I_{b i a s e d} - I_{G T}$ , (b) $I_{c o m p .} - I_{G T}$ . Here, each row represents x, y, and z-directional vector component in that order.

VI. 결 론

본 연구에서는 마이크로폰 어레이를 이용하여 음향 인텐시티 벡터를 추정하는 방법에 딥러닝을 적용하여, 높은 헬름홀츠 수에서 나타나는 편향 오차를 저감함으로써 정확한 음원 위치 추정을 수행하였다. 이를 통해, 주로 낮은 헬름홀츠 수 대역에 해당하는 환경에만 적용되었던 한계를 극복하고, 더 높은 주파수 대역까지 측정 범위를 확장 시킬 수 있다.

정사면체 어레이는 4개의 마이크로폰을 사용하여 3차원에 대한 측정이 가능하므로 공간 효율성이 높다. 한편, 본 연구에서 제시하는 딥러닝 모델은 헬름홀츠 수에 대해 적용되며, 따라서 다양한 크기를 갖는 정사면체 어레이를 활용하는데 있어서 범용성을 추구하고, 특히 kd < 3에서 높은 정확도로 음원의 위치를 추정할 수 있음을 시뮬레이션을 통해 검증하였다. 따라서, 본 기술은 가상 현실, 스마트 홈 기술, 로봇공학, 그리고 국방 시스템과 같이 복잡한 음향 환경에서의 음원 추적 및 고해상도 음향 이미징 분야 등 유용하게 적용될 수 있다. 향후 연구에서는 본 딥러닝 기반 추정 방법을 실제 실험 결과에 적용하고 검증을 수행함으로써, 장점에 비해 다소 제약이 많은 인텐시티 추정 기반의 음원 위치 추정법의 활용성을 높일 수 있을 것으로 기대한다.

Acknowledgements

본 연구는 한국표준과학연구원의 연구 과제(KRISS- 2023-GP2023-0002, KRISS-2023-GP2023-0004-05)의 지원을 받아 수행되었습니다.

References

P. Chiariotti, M. Martarelli, and P. Castellini, "Acoustic beamforming for noise source localization-reviews, methodology and applications," MSSP, 120, 422-448 (2019). 10.1016/j.ymssp.2018.09.019

C. Sun and Y. Liu, "Spherical reverse beamforming for sound source localization based on the inverse method," Sensors, 19, 2618 (2019). 10.3390/s1911261831181841PMC6603625

J. H. DiBiase, H. F. Silverman, and M. S. Brandstein, Microphone Arrays (Springer Berlin, Heidelberg, 2001), pp. 157-180. 10.1007/978-3-662-04619-7_8

M. Risoud, J.-N. Hanson, F. Gauvrit, C. Renard, P.-E. Lemesre, N.-X. Bonne, and C. Vincent, "Sound source localization," Eur. Ann. Otorhinolaryngol. Head Neck Dis. 135, 259-264 (2018). 10.1016/j.anorl.2018.04.00929731298

G. Pavic, "Measurement of sound intensity," J. Sound Vib. 51, 533-545 (1977). 10.1016/S0022-460X(77)80050-3

I.-J Jung and J.-G Ih, "Comparison of the sound source localization methods appropriate for a compact microphone array" (in Korean), J. Acoust. Soc. Kr. 31, 47-56 (2020).

I.-J Jung and J.-G Ih, "Compensation of inherent bias errors in using the three-dimensional acoustic intensimetry for sound source localization," J. Sound Vib. 461, 114918 (2019). 10.1016/j.jsv.2019.114918

I.-J Jung and J.-G Ih,, "Combined microphone array for precise localization of sound source using the acoustic intensimetry," MSSP. 160, 107820 (2021). 10.1016/j.ymssp.2021.107820

A. Kujawski, G. Herold, and E. Sarradj, "A deep learning method for grid-free localization and quantification of sound sources," J. Acoust. Soc. Am. 146, EL225-EL231 (2019). 10.1121/1.512602031590523

S. Y. Lee, J. Chang, and S. Lee, "Deep learning-based method for multiple sound source localization with high resolution and accuracy," MSSP. 161, 107959 (2021). 10.1016/j.ymssp.2021.107959

J.-C. Pascal and J.-F. Li, "A systematic method to obtain 3D finite-difference formulations for acoustic intensity and other energy quantities," J. Sound Vib. 310, 1093-1111 (2008). 10.1016/j.jsv.2007.08.029

D. P. Kingma and J. L. Ba, "Adam: A method for stochastic optimization," arXiv preprint arXiv:1412. 6980 (2014).

The Journal of the Acoustical Society of KoreaISSN:1225-4428(Print) 2287-3775(Online)한국음향학회

Preview

Application of deep learning for accurate source localization using sound intensity vector

ABSTRACT

MAIN

(1)

Fig. 1.

(Color available online) The calculated intensity vector by using tetrahedron microphone array at kd = 3.0. (a) IGT, (b) Ibiased, (c) Ibiased-IGT. Here, each row represents x, y, and z-directional vector component in that order.

(2)

Fig. 2.

(3)

(4)

Fig. 3.

(Color available online) Configuration of the tetrahedral microphone array to implement sound intensimetry. Here, m1, m2, m3, and m4 indicate the position of the microphones.

(5)

Fig. 4.

(Color available online) Averaged MSE and DoA error with respect to Helmholtz numbers.

Table 1.

Quantitative analysis of the test result for kd is 1, 2 and 3.

Fig. 5.

(Color available online) The calculated intensity vector by using tetrahedron microphone array at kd = 2.0. (a) Ibiased-IGT, (b) Icomp.-IGT. Here, each row represents x, y, and z-directional vector component in that order.

Acknowledgements

References

(Color available online) The calculated intensity vector by using tetrahedron microphone array at kd = 3.0. (a) $I_{G T}$ , (b) $I_{b i a s e d}$ , (c) $I_{b i a s e d} - I_{G T}$ . Here, each row represents x, y, and z-directional vector component in that order.

(Color available online) Configuration of the tetrahedral microphone array to implement sound intensimetry. Here, m₁, m₂, m₃, and m₄ indicate the position of the microphones.

(Color available online) The calculated intensity vector by using tetrahedron microphone array at kd = 2.0. (a) $I_{b i a s e d} - I_{G T}$ , (b) $I_{c o m p .} - I_{G T}$ . Here, each row represents x, y, and z-directional vector component in that order.