2-5-4
実環境におけるサブバンドピークホールド
音源方向推定法の有効性の検討*
佐藤耕平,○金田豊(東京電機大・工)
1
はじめに
4
音源方向推定技術の問題点として,室内反
射音による推定精度の低下が挙げられる.本
研究では,反射音耐性がある手法として知ら
れている PHAT 法(または CSP 法)[1]と,筆者
らが提案したサブバンドピークホールド
(SB-PH)法[2]とを,反射音が強い実環境にお
いて性能比較したので報告する.
2
時間差に基づく音源方向推定
図 1 に示すように,θ s 方向から音波が到来
する時,受音信号 x 1 (t ) , x 2 (t ) に生じる時間
差 τ s から到来方向 θ s を求めることができる.
時間差τs の推定は、2つのマイクロホン受音
信号 x1 (t ), x 2 (t ) の相互相関関数 φ12 (τ )
φ12 (τ ) = ∑ x1 (t ) ⋅ x2 (t + τ )
反射音の影響改善
4.1 PHAT 法(CSP 法)
反射音の影響を軽減する方法として PHAT
法が知られている[1].この方法は,平滑化さ
れた相関関数を白色化することで,相関関数
のピークを鋭くする.その結果,複数の反射
音ピークが分離され,直接音の相関値の最大
化を図るものである(図 2(e)(f)).
しかし,有限帯域での白色化であるので,
狭い時間間隔の反射音ピークの融合は避ける
ことはできず,性能向上には限界がある.
x1 (t )
音源
θs
d
(1)
x2 (t ) = x1 (t − τ s )
t
ξ = d sin θ s
が最大値をとるτの値として求められる.
3
図1
反射音の影響
3.1 パルス音の相関関数
図 2(a)に,パルス音が到来した場合の受音
信号 x 1 (t ) , x 2 (t ) のモデルを示す.直接音は
τ s の時間差で受音されるが,反射音は音源と
は異なる方向から到来するため,τ s とは異な
った時間差で受音される.
この 2 つの信号の相関関数は図 2(b)のよう
に複数のピークを持つ.具体的には,直接音
同士,反射音同士,および直接音と反射音同
士の相関である.通常,直接音は反射音に比
べてエネルギーが大きいので,直接音同士の
相関値 φ12 (τ s ) が最大となる.
3.2 音声信号の相関関数
信号が音声の場合の相互相関関数は,音声
の自己相関関数(図 2(c))を図 2(b)に畳み込ん
だものになる.音声の自己相関関数は時間軸
上に広がったものであるので,これを畳み込
むと,図 2(b)が平滑化され,複数のピークが
融合されるのでパルスの密度の高い時刻が高
い値を持つようになり,最大値が τ s とは異な
るものとなる(図 2(d)).
時間差に基づく音源方向推定の原理
直接音 反射音
(a)
x1(t)
t
x2(t)
t
φ12 (τ)
(b)
τ
τs
0
τs
0
τs
(d)
(c)
τ
t
(e)
(f)
t
(g)
τ
ピークホールド
0
τs
0
τs
(h)
t
τ
t
図2
反射音の影響とピークホールド処理
*
A study of the effectiveness of sub-band peak-hold sound source direction estimation method in a real
environment, by SATO, Kohei and KANEDA, Yutaka (Tokyo Denki University).
日本音響学会講演論文集
- 725 -
2010年3月
4.2 サブバンドピークホールド(SB-PH)法
筆者らは直接音の振幅を保持することで反
射音をマスクする(図 2(g))ピークホールド
処理を提案した[2].ピークホールド後の信号
の時間差分をとれば,直接音の立ち上がり部
分が検出され,反射音の影響のない相関関数
を得ることができる(図 2(h))
.
音声は周波数によって立ち上がり時間が異
なるのでサブバンド信号に分割しピークホー
ルド処理を行う.処理の流れを図 3 に示すブ
ロック図に従って説明する.まず①短時間フ
ーリエ変換(STFT)より信号をサブバンド化し,
②時変振幅スペクトル|Xi(ω,t)|を出力する.次
に各バンドに対して③ピークホールド処理
(PH)を行い.大きな複合反射音の対策のため
の④対数操作(log)を行い,⑤時間差分(Diff)
を取ることでサブバンド信号の立ち上がりを
取り出す.これらの⑥相互相関関数(Cor)の⑦
総和をとり,時間差を推定する.
5
x1 (t ) X 1 (ω , t )
X 1 (ω , t )
⑤
STFT
abs
PH
log
①
②
③
④
Diff
⑦
⑥
x2 (t )
STFT
abs
X 2 (ω , t )
X 2 (ω , t )
図3
PH
∑
Cor
Diff
log
SB-PH 処理のブロック図
表1
実験条件
部屋の寸法
残響時間
SN 比
マイクロホン間隔 d
音源距離 r
音源方向 θs
3.3[W]×5.8[D]×2.4 [H] [m]
0.5 s
30 dB
0.3 m
1m, 2m
-60, -30, 30, 60 deg.
音響、信号、野球など
男性話者による 30 発声
音声
sound source
microphone
評価実験
2
6
5.8 m
図4
99
100
本実験の配置図
100
50
100
96.7
100
Percent correct[%]
100
80
60
40
20
80
60
40
20
0
0
PHAT
SB-PH SB-PHP
PHAT
SB-PH SB-PHP
(a) 音源距離 1m
(b) 音源距離 2m
(反射音の影響小)
(反射音の影響大)
図5
実験結果
参考文献
むすび
本報告では,反射音の強いコンクリート壁
付近で方向推定実験を行い,SB-PH 法が従来
法である PHAT 法と比べて有効であることを
示した.これまで複数の環境で評価実験を行
ってきたが,今回のような環境は従来法との
差が大きく,反射音の強い小室は SB-PH 法の
有効性が顕著な環境の一つと考えられる.
日本音響学会講演論文集
3.3 m
Percent correct[%]
先の報告[2]では 30m 程度の会議室で評価
2
を行ったが,今回は 20m と狭くて壁面がコ
ンクリートまたはガラス窓の強い反射音が多
く存在する環境で,PHAT 法,と SB-PH およ
びサブバンド信号に位相成分を付加した
SB-PHP 法[3]の評価実験を行った.実験条件
は,表 1 と図 4 に示す.
実験結果を図 5 に示す。推定方向が正解方
向に対して±5°となったものを正答とした.
図5(a)は音源距離が 1m の場合の結果で,い
ずれの方法もほぼ 100%の正答率となってい
る.一方,図 5(b)は音源距離が 2m の場合で
ある.音源距離が大きくなると直接音のエネ
ルギーが低下するため反射音の影響が大きく
なり,PHAT 法の正答率は大幅に低下した.
しかし,反射音をマスクする効果を持った
SB-PH ならびに SB-PHP 法では、1m の場合と
同様にほぼ 100%の正答率が得られた.
[1] M.Brandstein ほか, Microphone Arrays,
Springer, New York (2001) pp.157-180.
[2] 鈴木ほか、日本音響学会誌、65, 10, (2009).
[3] 佐藤ほか、音講論, 3-Q-19, (2009.9).
- 726 -
2010年3月
ダウンロード

実環境におけるサブバンドピークホールド 音源方向推定法の有効性の検討*