Research Article

The Journal of the Acoustical Society of Korea. 31 July 2019. 406-413
https://doi.org/10.7776/ASK.2019.38.4.406

ABSTRACT


MAIN

  • I. 서 론

  • II. 간섭함수기반의 다중 주파수 밴드 음질향상 시스템

  • III. 스펙트럼 차감법과 결합된 간섭함수 기반의 다중 주파수 밴드 음질향상 시스템

  • IV. 성능 평가

  • V. 결 론

I. 서 론

주변 잡음 환경에서 음성 통화시 음성신호의 품질 저하 및 명료성의 저하를 경험한다. 음성 통신 품질을 향상시키기 위해 음성 부호화 과정 전에 사전 처리로 잡음 억제 기능을 수행하고 있다.[1] 하나의 마이크로폰을 사용하여 주변잡음을 제거하는 방법 뿐 아니라 입력 신호의 파워 레벨의 차이를 이용한 휴대 전화 잡음 감소 방법,[2] 두 개의 마이크로폰 환경에서 간섭과 음성 존재 확률을 이용한 잡음 파워 스펙트럼 추정 방법,[3] 두 개의 마이크로폰을 갖는 휴대 전화를 위한 채널 예측 기반의 잡음 감소 알고리즘[4]등 여러 음성 품질 향상 기술들이 연구되어 왔다.

본 논문에서는 주변 잡음을 억제하기 위해 두 개의 마이크로폰을 사용한다. 단말기의 하단 부에 배치되는 하나의 마이크로폰과 상단부 또는 장치의 뒷면에 배치되는 또 하나의 마이크로폰을 사용하여 음질 개선을 수행한다.

두개의 마이크로폰으로 부터 입력된 음성 신호는 주파수 영역의 신호로 변환하여 N개의 주파수 밴드 스펙트럼을 구성한다. 각 밴드 별로 두 채널 신호들 간의 상관정도를 나타내는 간섭함수[5]를 구하여 신호대잡음비를 추정한다.[6] 신호대잡음비 추정치를 Wiener filter[7]에 적용하여 이득 함수를 얻고 합성과 복원 과정을 통해 잡음이 억제된 출력신호를 얻게 된다.

이러한 두채널 간섭함수를 이용한 음성향상 방식은 두 채널 입력 잡음 간의 상관성이 적을 때 좋은 성능을 내지만 두 채널 입력 잡음 간의 상관성이 크면 잘 동작되지 않는 단점을 가지고 있다. 단일 채널 주변 잡음 제거 방법인 스펙트럼 차감법은 음성 구간에서는 잡음을 잘 억제하지 못하는 단점이 있지만 잡음 구간에서는 허용 가능한 음성 왜곡으로 음성 품질을 향상시킨다는 장점을 가지고 있다.

본 논문에서는 스펙트럼 차감법과 다중 주파수 밴드 간섭함수 음성 향상 시스템의 장점을 결합한 새로운 음성 향상 시스템을 제안한다. 두 방식을 통해 얻은 이득 함수를 결합함으로써 잡음 억제와 음성 왜곡 간의 균형을 맞출 수 있다. 하나의 마이크로폰 신호에서 스펙트럼 차감법을 통해 얻은 이득함수와 간섭함수기반의 다중 주파수 밴드 신호대잡음비 추정 시스템에서 얻은 이득함수를 가중 결합하여 최종 이득함수를 얻는다. 최종 이득함수는 합성과 복원 과정에 사용하여 음성 향상이 된 시간 영역의 출력신호를 얻는다.

본 논문은 II장에서 간섭함수 기반의 다중 주파수 밴드 음질 향상 시스템(Coherence Function Noise Suppression, CF-NS)에 대해서 설명하고, III장에서 제안하는 스펙트럼 차감법과 결합된 간섭함수 기반의 다중 주파수 밴드 음질 향상 시스템에 대해서 설명하고, IV장에서 제안하는 방법의 성능평가, V장에서는 결론에 대하여 서술한다.

II. 간섭함수기반의 다중 주파수 밴드 음질향상 시스템

음질 향상 시스템의 입력 단의 위치 구성은 Fig. 1에 나타나 있다. Fig. 1과 같이 소음과 음성 신호가 공간적으로 분리된 두 개의 작은 간격의 무지향성 마이크로폰에 입력된다. 음성과 잡음 신호는 사람을 중심으로 각도 θ 만큼 떨어져 위치한다. 마이크로폰에 의해 취득된 신호는 다음과 같이 정의 될 수 있다.

http://static.apub.kr/journalsite/sites/ask/2019-038-04/N0660380405/images/ASK_38_04_05_F1.jpg
Fig. 1.

Placement of two microphones and sound sources.

$$y_i(m)=x_i(m)+n_i(m)\;\;\;\;\;(i=1.2).$$ (1)

i는 마이크로폰의 지수, m은 샘플 지수, xn은 각각의 마이크로폰의 음성과 잡음 신호를 나타낸다. 시간영역의 입력신호를 주파수 영역의 신호로 변환하기 위해 Eq. (1)의 양변에 FFT(Fast Fourier Transform)를 적용하면 Eq. (2)와 같이 주파수 도메인에서 표현 될 수 있다.

$$Y_i(w,k)=X_i(w,k)+N_i(w,k)\;\;\;(i=1,2)\;.$$ (2)

k는 프레임 지수, w는 각주파수를 의미한다.

주파수 영역의 신호로 표현된 Eq. (2)를 다중 주파수 밴드로 분할하여 2밴드, 4밴드, 8밴드, 16밴드와 같이 N개의 주파수 밴드로 분할한 후 각 밴드별로 간섭함수를 구한 후 신호대잡음비 추정 잡음 억제 알고리즘을 수행한다.

간섭함수는 두 임의의 프로세스 사이에 선형 관계의 척도이다. 이것은 특정 주파수에서 두 신호의 상관 정도를 나타낸다. 두 개의 입력 신호 간의 간섭함수는 다음과 같이 정의된다.

$$\Gamma_{y1y2(j)}(w,k)=\frac{\Phi_{y1y2(j)}(w,k)}{\sqrt{\Phi_{y1y1(j)}(w,k)\Phi_{y2y2(j)}(w,k)}}.$$ (3)
$$\begin{array}{l}\Phi_{y_iy_i(j)}(w,k)=\lambda\Phi_{y_iy_i(j)}(w,k-1)+(1-\lambda)\left|Y_i(w,k)\right|^2\;\;\;(i=1,2)\;,\end{array}$$ (4)
$$\begin{array}{l}\Phi_{y1y2(j)}(w,k)=\lambda\Phi_{y1y2(j)}(w,k-1)+(1-\lambda)\;Y_1(w,k)\;Y_2^\ast(w,k).\end{array}$$ (5)

Φuv는 CSD(Cross-Power Spectral Density), Φuu는 PSD (Power Spectral Density), j는 밴드의 지수, *는 공액복소수 연산자를 의미한다.

간섭함수의 크기는 목표 음성 신호가 특정 주파수에서 존재 혹은 부재 여부를 확인하는 객관적인 값으로 여러 연구에 사용되었다[8],[9]. 간섭함수를 수치화하였을 때 간섭함수는 두 신호 간에 상관관계가 있는 경우 1에 가까운 값을 ,비 상관관계가 있는 경우 0에 가까운 값을 나타낸다.

간섭함수는 잡음 영역을 기반으로 하여 분석적으로 모델링 될 수 있다. 확산 잡음 영역에서 간섭함수는 실수이고, 두 마이크 사이의 거리가 감소함으로써 그 값이 증가한다. 확산 잡음 영역에서 두 개의 입력 신호들의 간섭함수에서 마이크로폰 간격의 영향은 [10]에 보고되었다. 두 개의 입력 신호들의 간섭함수는 다음과 같이 주어진다.

$$\begin{array}{l}\Gamma_{y1y2}(j)\simeq\;\lbrack\cos(w\tau)+j\sin(w\tau)\rbrack\frac{SNR(j)}{1+SNR(j)}+\lbrack\cos(w\tau\cos\theta)+j\sin(w\tau\cos\theta)\rbrack\frac{SNR(j)}{1+SNR(j)}.\end{array}$$ (6)

Eq. (6)에서 τ=fs(d/c), c≃ 340 m/s 소리의 속도, fs는 샘플링 주파수, d는 마이크의 간격, θ는 잡음 신호의 각도를 나타낸다. N개의 밴드에서 각 밴드별로 구한 간섭함수를 이용하여 SNR 추정을 하게 된다. 실수와 허수 부분에 따라 SNR로 정리하여 다음과 같이 나타낸다.

$$SNR(j)=\frac{\cos\beta-R(j)}{R(j)-\cos\alpha}.$$ (7)
$$SNR(j)=\frac{\sin\beta-I(j)}{I(j)\;-\sin\alpha}.$$ (8)

R(j)는 간섭함수 Γy1y2(j)의 실수 부분이고, I(j)는 간섭함수 Γy1y2(j)의 허수부분이다. 또한 α=ωτ, β=αcosθ이다. SNR(j)를 구하는 Eqs. (7)과 (8)을 동일하게 놓고 다음과 같이 방정식을 구한다.

$$\begin{array}{l}(I(j)-\sin\alpha)\cos\beta+(\cos\alpha-R(j))\sin\beta+R(j)\sin\alpha-i(j)\cos\alpha=0.\end{array}$$ (9)

Eq. (9)에서, 미지수는 β뿐이다. 따라서 β를 구하기 위하여 치환과정과 cos2β=1−cos2β를 이용하여 다음과 같은 방정식을 얻는다.

$$\begin{array}{l}(A(j)^2+B(j)^2)\sin^2\beta+2B(j)C(j)\sin\beta+(C(j)^2-A(j)^2)=0.\end{array}$$ (10)

근의 공식을 활용하여 Eq. (10)의 근을 구해준다.

$$\sin\beta(j)=\frac{-B(j)C(j)\pm\left|A(j)\right|\sqrt{{A(j)}^2+{B(j)}^2-{C(j)}^2}}{{A(j)}^2+{B(j)}^2}.$$ (11)

Eq. (11)에서 sinβ(j)를 구하여 Eq. (8)에 대입하면 SNR(j)를 구할 수 있다. 그 다음 각 밴드에서 구한 SNR(j)를 이용하여 Wiener filter에 적용하여 이득함수를 얻을 수 있다.

$$G_{coh}(j)=\sqrt{\frac{SNR(j)}{SNR(j)+1}}.$$ (12)

Wiener filter는 신호와 잡음이 섞여 있는 정상 입력에 대한 필터출력과 예측된 희망 출력과의 평균 제곱 오차를 최소로 하는 기준으로 설계되어진 최적의 필터이다. 각각의 밴드에서 Wiener filter를 통해 나온 이득함수를 원래의 주파수 밴드별로 배치시켜 전 밴드의 이득함수로 만들어 준다.

III. 스펙트럼 차감법과 결합된 간섭함수 기반의 다중 주파수 밴드 음질향상 시스템

스펙트럼 차감법과 결합된 간섭함수 기반의 다중 주파수 밴드 음질 향상 시스템 Coherence Spectrum Hybrid-Noise Suppression, CSH-NS)은 Fig. 2에 나타나 있다. 한 개의 마이크로폰을 이용하여 음성과 잡음이 섞인 입력 신호를 얻는다.

http://static.apub.kr/journalsite/sites/ask/2019-038-04/N0660380405/images/ASK_38_04_05_F2.jpg
Fig. 2.

Noise suppression algorithm using multi-frequency band coherence function and spectral subtraction method (CSH-NS).

$$y_2(m)=x_2(m)+n_2(m).$$ (13)

FFT를 이용하여 주파수 영역의 신호로 변환한다.

$$Y_2(w,k)=X_2(w,k)+N_2(w,k).$$ (14)

음성은 배경 잡음과 상관관계가 없는 것으로 가정하고 다음과 같은 과정을 얻을 수 있다.

$$\left|Y_2(w,k)\right|^2=\left|X_2(w,k)\right|^2+\left|N_2(w,k)\right|^2.$$ (15)

음성은 입력 된 신호로부터 추정된 잡음을 감산함으로써 다음과 같이 얻을 수 있다.

$$\left|{\widehat X}_2(w,k)\right|^2=\left|Y_2(w,k)\right|^2-\left|{\widehat N}_2(w,k)\right|^2.$$ (16)

잡음 스펙트럼 N^(ω)2의 추정치는 최근 음성의 일시 정지 프레임을 평균화함으로써 얻을 수 있다.

$$\left|{\widehat N}_2(w,k)\right|^2=\frac1M\sum_{j=k-M+1}^k\left|Y_2(w,j)\right|^2.$$ (17)

M은 음성이 일시 정지된 연속 프레임 수를 나타낸다.

Eq. (17)에 구한 잡음 스펙트럼을 이용하여 이득함수를 다음과 같이 구할 수 있다.

$$G_{SS}(w,k)=\left\{max\left(0,1-\frac{\left|{\widehat N}_2(w,k)\right|^2}{\left|Y_2(w,k)\right|^2}\right)\right\}^{1/2}.$$ (18)

Gss(ω)는 이득함수이고, SSF(Spectral Subtraction Filter)로 사용된다.

다중 주파수 밴드 간섭함수 이득함수 Eq. (12)와 스펙트럼 차감법 시스템을 통해 얻은 이득 함수 Eq. (18)을 이용하여 다음과 같은 새로운 이득함수를 얻을 수 있다.

$$G_{fin}(w,k)=\alpha G_{coh}(w,k)+(1-\alpha)G_{ss}(w,k).$$ (19)

이득함수의 가중된 결합은 잡음 억제와 음성 왜곡의 균형을 결정하는데 돕는 역할을 한다. 최종적으로 얻은 이득함수와 입력신호를 이용하여 OLA (OverLap-Add)를 통해 신호를 합성시킨 후 합성된 주파수 영역의 신호를 시간영역의 신호로 변환하기 위하여 IFFT(Inverse Fast Fourier Transform)를 적용한다. 이 과정을 통해 음성 향상을 위한 잡음을 억제시킨 출력신호를 얻게 된다.

IV. 성능 평가

제안하는 CSH-NS 방법의 성능 평가는 ITU-T에서 제공하는 음질 평가 방법인 PESQ 평가법을 사용한다.[11] 제안된 CSH-NS 방법은 다중 주파수 밴드 CF- NS 방법과 전대역 CS-NS 방법을 비교 성능 시험되었다. 두 마이크로폰의 거리를 15 cm 간격으로 배열시키고, FFT point는 256 point, 프레임 중첩은 50 %, 샘플링 주파수는 16 kHz, 주파수 밴드는 16 밴드로 설정하였다. 잡음 신호로 (1) 시장에서 사람들이 웅성거리는 소리, (2)지하철이 역에 들어오는 소리, (3)소방차소리 (4) 자동차 안에서의 소음 4 종류의 주변잡음 환경에서 시험되어졌다. 음성 신호들을 원음과 각각 혼합하여 4개의 신호대주변잡음비를 갖는 환경에서 시험되어졌다.

Fig. 3은 잡음 신호로 시장에서 사람들이 웅성거리는 소리를 원음과 섞어 비교 시험한 PESQ결과이다. 간섭함수 기반의 다중 주파수 밴드 시스템과 제안하는 스펙트럼 차감법과 결합된 간섭함수 기반의 다중 주파수 밴드 시스템을 신호 대 주변 잡음의 크기별로 PESQ 값으로 각각 비교하였다. 전체적으로 제안하는 방법에서 PESQ 수치가 상승하였고 5 dB 신호대주변잡음비 환경에서 최고 0.170이 상승된 결과를 볼 수 있었다.

http://static.apub.kr/journalsite/sites/ask/2019-038-04/N0660380405/images/ASK_38_04_05_F3.jpg
Fig. 3.

PESQ Performance evaluation of the proposed CSH-NS algorithm in a market buzz background noise.

Fig. 4는 잡음 신호로 지하철이 역에 들어오는 소리를 원음과 혼합하여 비교 시험한 PESQ 결과이다. 제안된 방법에서 전체적으로 PESQ 수치가 상승하였고 10 dB 신호대주변잡음비 환경에서 최고 0.217 증가한 결과를 볼 수 있었다.

http://static.apub.kr/journalsite/sites/ask/2019-038-04/N0660380405/images/ASK_38_04_05_F4.jpg
Fig. 4.

PESQ Performance evaluation of the proposed CSH-NS algorithm in subway background noise.

Fig. 5는 잡음신호로 소방차 소리를 원음과 혼합하여 비교 시험한 PESQ 값을 나타내었다. 제안된 방법에서 전체적으로 PESQ 수치가 상승되었고 5 dB 신호대주변잡음비 환경에서 최고 0.209 음질 개선을 볼 수 있었다. 이러한 PESQ 결과에서 볼 수 있듯이 여러 잡음이 혼합된 음성 환경에서 제안하는 스펙트럼 차감법과 결합된 간섭함수 다중 주파수 밴드 방식 CSH-NS이 간섭함수 기반의 다중 주파수 밴드 방식 CF-NS보다 잡음 억제 성능이 향상되어 음성의 품질 PESQ 값이 0.17-0.21 정도 향상된 것을 볼 수 있었다.

http://static.apub.kr/journalsite/sites/ask/2019-038-04/N0660380405/images/ASK_38_04_05_F5.jpg
Fig. 5.

PESQ Performance evaluation of the proposed CSH-NS algorithm in fire truck background noise.

Fig. 6(d)은 자동차 안에서 잡음 환경에서 음질비교 시험 한 PESQ 값을 나타내었다. 제안된 방법에서 전체적으로 PESQ 수치가 상승되었고 5 dB 신호대주변잡음비 환경에서 최고 0.185 음질 개선을 볼 수 있었다.

http://static.apub.kr/journalsite/sites/ask/2019-038-04/N0660380405/images/ASK_38_04_05_F6.jpg
Fig. 6.

PESQ Performance evaluation of the proposed CSH-NS algorithm in car background noise.

Fig. 7에서 시장 잡음 환경에서 출력음성의 스펙트로그램을 볼 수 있다. Fig. 7(b)는 원음에 시장에서 웅성거리는 소리가 혼합된 음성을 이용하여 간섭함수 기반의 다중 주파수 밴드 시스템(CF-NS) 에 적용한 스펙트로그램 결과이며, Fig. 7(c)는 원음에 시장에서 웅성거리는 소리가 혼합된 음성을 제안하는 스펙트럼 차감법이 결합된 간섭함수 기반의 CSH-NS에 적용한 스펙트로그램결과이다.

http://static.apub.kr/journalsite/sites/ask/2019-038-04/N0660380405/images/ASK_38_04_05_F7.jpg
Fig. 7.

The spectrogam (a) original sound, (b) 16- band CF-NS algorithm in market buzz background noise, (c) proposed CSH-NS algorithm in market buzz background noise.

출력 음성의 스펙트로그램에서 제안한 CSH-NS 방식과 간섭함수 기반의 다중 주파수 밴드 시스템 CF-NS 방식의 결과를 비교해 보았을 때 그림에 표시된 부분(0.4 s ~ 1.7 s 부분)에서 새롭게 제안된 시스템이 잡음을 잘 억제하여 원음에 더 가깝게 복원 된 것을 확인할 수 있었다.

Fig. 8에서 소방차 잡음 환경에서 출력음성의 스펙트럼을 볼 수 있다. Fig. 8(b)는 원음에 소방차 소리가 혼합된 음성에서 간섭함수 기반의 다중 주파수 밴드 시스템(CF-NS)에 적용한 스펙트로그램 결과이며, Fig. 8(c)는 원음에 소방차 소리가 혼합된 음성에서 제안된 스펙트럼 차감법이 결합된 간섭함수 기반의 CSH-NS에 적용한 스펙트로그램 결과이다.

http://static.apub.kr/journalsite/sites/ask/2019-038-04/N0660380405/images/ASK_38_04_05_F8.jpg
Fig. 8.

The spectrogam (a) original sound, (b) 16- band CF-NS algorithm in fire truck background noise, (c) proposed CSH-NS algorithm in fire truck background noise.

간섭함수 기반의 다중 주파수 밴드 시스템과 제안하는 방법의 결과를 비교해 보았을 때 그림에 표시된 부분( 0.5 s ~ 0.6 s 부분과 1.4 s ~ 1.6 s 부분)에서 제안된 방법이 잡음을 더 잘 억제하여 원음에 더 가깝게 복원됨을 확인할 수 있었다.

V. 결 론

본 논문에서는 밀접한 간격의 두 마이크로폰 배열 환경에서 입력신호를 주파수 영역의 신호로 변환하여 N개의 주파수 밴드로 할당한다. 각 밴드에서 간섭함수기반의 신호대잡음비 추정을 통해 얻은 이득함수와 스펙트럼 차감법을 이용하여 얻은 이득함수를 결합하여 새로운 이득함수 방법을 제안하였다. 예측된 이득함수은 음성 합성과 복원과정에 사용되어 잡음을 억제시키는 방법을 제안하였다.

시장에서 웅성거리는 소리, 지하철 들어오는 소리, 소방차 소리, 자동차 안 주변 잡음 환경에서 스펙트로그램 결과를 확인하였을 때 기존의 다중 주파수 밴드 알고리즘에 비해 제안하는 스펙트럼 차감법을 결합한 다중 주파수 밴드 알고리즘이 원음과 더 유사한 신호로 복원 되는 것을 알 수 있었다. PESQ 품질평가에서도 시장에서 웅성거리는 환경에서 최고 0.170, 지하철 환경에서 최고 0.217, 소방차 소리 환경에서 최고 0.209의 PESQ 값이 향상됨을 확인할 수 있었다.

Acknowledgements

본 연구는 교육과학기술부가 지원하는 한국연구재단 기초과학연구프로그램(NRF-2017R1D1A3B030 27961)지원으로 수행되었음(This research was supported by Basic Science Research Program through the National Research Foundation of Korea(NRF) funded by the Ministry of Education, Science and Technology).

References

1
M. Jelinek and R. Salami, "Noise reduction method for wideband speech coding," Proc. 12th European Signal Processing Conference, 1959-1962 (2004).
2
M. Jeub, C. Herglots, C. Nelke, C. Beaugeant, and P. Vary, "Noise reduction for dual-microphone mobile phones exploiting power level differences," Proc. IEEE International Conference on Acoustics, Speech, and Signal Processing(ICASSP), 1693-1696 (2012).
10.1109/ICASSP.2012.6288223
3
C. M. Nelke, C. Beaugeant, and P. Vary, "Dual microphone noise PSD estimation for mobile phones in hands-free position exploiting the coherence and speech presence probability," Proc. IEEE International Conference on Acoustics, Speech, and Signal Processing(ICASSP), 7279-7283 ( 2013).
10.1109/ICASSP.2013.6639076
4
K. Lee, J. Cho, and Y. Park, "Channel prediction- based noise reduction algorithm for dual-microphone mobile phones," IEEE Transactions on Consumer Electronics, 393-491 (2014).
10.1109/TCE.2014.6937323
5
N. Yousefian, K. Kokkinakis, and P. C. Loizou, "A coherence-based algorithm for noise reduction in dual-microphone application," Proc. Eur. Signal Process. Conf. (EUSIPCO'10), 1904-1908 (2010).
6
I. Oh and I. Lee, "Multi frequency band noise suppression system using signal-to-noise ratio estimation" (in Korean), J. Acoust. Soc. Kr. 35, 102-109 (2016).
10.7776/ASK.2016.35.2.102
7
T. V. Bogaert, S. Doclo, J. Wouters, and M. Moonen, "Speech enhancement with multichannel Wiener filter techniques in multi-microphone binaural hearing aids," J. Acoust Soc. Am. 360-371 (2009).
10.1121/1.302306919173423
8
R. Le Bouquin, A. Azirani, and G. Faucon, "Enhancement of speech degraded by coherent and inchoherent noise using a cross-spectral estimator," IEEE Trans. Speech Audio process, 484-487 (1997).
10.1109/89.622576
9
R. Le. Bouquin and G. Faucon, "Using the coherence function for noise reduction," IEE Proc. I - Communications, Speech and Vision, 276-280 (1992).
10.1049/ip-i-2.1992.0038
10
M. Brandstein and D. Ward, Microphone Arrays: Signal Processing Techniques and Applications (Springer- Verlag, Berlin, 2001), pp. 61-85.
10.1007/978-3-662-04619-7
11
ITU-T Recommendation, Perceptual evaluation of speech quality (PESQ), an objective method for end- to-end speech quality assessment of narrow-band telephone networks and speech codecs, ITU-T Recommendation, 2001.
페이지 상단으로 이동하기