音響信号処理特論
これからの音響信号処理
- 高次統計量に基づく非線形信号処理の最適化 -
猿渡 洋
(奈良先端大)
Speech and Acoustics Processing
Laboratory
Graduate School of Information Science, Nara Institute of Science and Technology
音響信号処理の昔とこれから
昔
規範 二乗誤差最小
信号
ガウス分布
処理 線形フィルタ
例 エコーキャンセラ
最近
これから
高次統計量
高次統計量
任意の分布
任意の分布
線形フィルタ
非線形フィルタ
ICA
???
NAIST, Speech and Acoustics Processing Laboratory
2
研究背景
スペクトル減算法
代表的な単一チャネル非線形雑音抑圧技術
<メリット> ・強力な雑音抑圧性能
・アルゴリズムが簡潔で汎用性が高く演算量が少ない
<デメリット>・ミュージカルノイズの発生
処理前
Frequency [Hz]
Frequency [Hz]
► スペクトル減算法によるスペクトログラムの変化と音色の変化
処理後
Time [sec]
NAIST, Speech and Acoustics Processing Laboratory
Time [sec]
3
研究背景
 スペクトル減算法は音質面で問題を抱えている
ミュージカルノイズ
非線形処理特有の歪み
トーンを感じる残留雑音成分であり,独特の音色が非常に耳障り
<現状>
» 発生原因が不確か
雑音環境で発生程度が異なるなど挙動がよくわかっていない
» 評価尺度が存在しない
有効性が保証されている対策手法がない
対策手法の効果を評価できず,統一的な議論が困難
<研究目的>
ミュージカルノイズの定量的な評価手法の構築
NAIST, Speech and Acoustics Processing Laboratory
4
アプローチ
 スペクトル減算法の考察を通して,非線形処理一般で利用
できる評価尺度の構築を目指す
 スペクトル減算法の処理強度を強くするほどミュージカル
ノイズが多く発生することが経験的に知られている
 処理強度との関係を明らかにし評価尺度の要素として取り込む
 統計量を利用した評価尺度の構築を目指す
 ミュージカルノイズと統計量が深い関係を持つことを発見
 計算量の削減
 あらゆる信号に対して適用できる汎用性
 統計量を安定的に計算するために信号のモデリングを行う
 生データでは外れ値に敏感すぎて値が荒れる
NAIST, Speech and Acoustics Processing Laboratory
5
スペクトル減算法
(Spectral Subtraction: SS)
 パワードメインSS
パワードメインのSSでは,
FFT
Noise
Estimation
Subtraction
Flooring
IFFT
という式で出力を得る.
ここで,パワーが負のグリッドが生じた場合
Flooring
のように,フロアリングと呼ばれる処理で
パワーを置き換えてやる.
パラメータは以下の通り.
:減算係数 (処理強度パラメータ)
[処理フロー]
:フロアリング係数
NAIST, Speech and Acoustics Processing Laboratory
6
SSの運用とパラメータ
 パラメータはヒューリスティックに決定される
 減算係数は通常,1から2程度の値がよく用いられる
 フロアリング係数は通常,0.1未満の値がよく用いられる
 SSの利用者は「SNR改善量」や「聞いた感じ」によって
最適と思われる減算係数を決める
 SSの利用者は最適な減算係数を探した経験から,
「音源ごとに最適と思われる減算係数が異なる」事を知っている
 フロアリングは強力過ぎた処理を和らげる働きをする
 過減算したグリッドを観測信号の定数倍(r)のパワーで補正する
 SNR改善量に対してマイナスに働く
NAIST, Speech and Acoustics Processing Laboratory
7
ミュージカルノイズの原因に関する仮説
 ミュージカルノイズの原因成分の仮説
 スペクトログラム上で「ごま塩雑音」として観測される成分
Frequency [Hz]
→周囲の成分と比較して卓越したパワーを持つ成分:トーン成分※
SS前
処理以前からトーン成分
Frequency [Hz]
Time [sec]
周囲のグリッドが抑圧され
トーン成分化
SS後
<仮説>
Time [sec]
※パワーの卓越度合いをトーン度とし,
トーン度の大きい時間-周波数グリッド
をトーン成分と呼ぶこととする.
トーン成分の評価によりミュージカルノイズを評価可能
NAIST, Speech and Acoustics Processing Laboratory
8
ミュージカルノイズと確率密度関数(PDF)の関係
 ガウス分布と比べて,より急峻な分布に従う乱
数からなる雑音の音色は?
Probability
ガウス分布
↓
スーパーガウス分布(やや尖った形状)
↓
スーパーガウス分布(尖った形状)
と信号の従うPDF形状を変化させて
作成した音源.
3秒ごとに,より急峻な分布に変わる.
※非線形処理は一切行っていない
ミュージカルノイズはPDF形状と強い関係をもつ
NAIST, Speech and Acoustics Processing Laboratory
9
SSとPDFの変形
 トーン成分を統計的に評価するためにSSによる統計量の
変化を明らかにする
フロアリング
減算
Step 1
[SS処理]
雑音パワースペクトルの期待値を
推定雑音パワースペクトルとする
Step 2
[SS処理] 推定雑音を減算する
[PDF変形] ゼロ方向へ平行移動する
Step 3
[SS処理] フロアリング(パワーをゼロにおく)
[PDF変形] パワーゼロ未満の確率をパワーゼロ
に積み重ねる
処理後の信号のPDF
処理前の信号のPDF
NAIST, Speech and Acoustics Processing Laboratory
10
PDFにおけるトーン成分
 トーン成分は卓越したパワーを持つ成分
PDFの裾に寄与する成分
small
Frequency [Hz]
power
large
パワーの小さなグリッドは
青く囲まれた部分に寄与し,
パワーの大きなグリッドは
赤く囲まれた部分に寄与する
SS前
SS後
Time [sec]
中庸なパワーの成分が減りパワーの小さな
成分とパワーの大きな成分に二極化される
<トーン成分の評価>
NAIST, Speech and Acoustics Processing Laboratory
ゼロ付近と裾に注目することで評価可能
11
高次統計量の導入
 PDFのゼロ付近と裾を評価できる統計量を導入する
カートシス(尖度)
PDFの裾の広さとPDF全体に占める裾の割合の尺度
※
はn次のモーメント,
をPDFとすると
» 裾が広く割合が大きいほど大きな値となる
 トーン成分が多くトーン度が大きいほどカートシスは大きい
※パワードメインの信号を考えるため,PDFは片側分布である
NAIST, Speech and Acoustics Processing Laboratory
12
ミュージカルノイズ原因成分の選別
 ミュージカルノイズ=非線形処理で生じたトーン成分
Frequency [Hz]
 音声や音楽など処理に関係なく存在しているトーン成分はミュー
ジカルノイズとは知覚されない
SS前
各グリッドのトーン度の変化を利用し
ミュージカルノイズ原因成分を選別する
Frequency [Hz]
Time [sec]
SS後
処理以前からトーン成分
評価対象外
評価対象
周囲のグリッドが抑圧され
トーン成分化
Time [sec]
<方針>
13
NAIST, Speech and Acoustics Processing Laboratory
非線形処理によるカートシスの変化量を評価尺度とする
ガンマ分布による信号のモデリング
 ガンマ分布
パワードメインの音声・雑音信号のモデリングによく使われる分布
:形状母数(shape parameter)
:尺度母数(scale parameter) とすると,
ガンマ分布は,
と表現される.
ただし、
また,ガンマ分布の期待値は
NAIST, Speech and Acoustics Processing Laboratory
14
ガンマ分布の性質と信号のモデリング例
 ガンマ分布の特徴
 片側分布のモデリングに適している
 c2分布などをモデリングできる
→ガウス性雑音のパワースペクトルはc2分布,音声のパワー
スペクトルはより鋭い分布に従うことが知られている
 ガンマ関数に基づいており数学的な利便性が高い
▪再帰的な性質など
 モデリング例
・ガウシアンノイズのパワースペクトルの場合
ガンマ分布の形状母数が1の場合に相当する
※尺度母数は分布形状に関係しない
NAIST, Speech and Acoustics Processing Laboratory
15
ガンマ分布による実環境音のモデリング
 実環境音の形状母数とカートシス
(出展) 電子協騒音DB
カートシス:およそ10~50,形状母数:およそ0.1~0.6
形状母数が小さいほどカートシスは大きくなる
NAIST, Speech and Acoustics Processing Laboratory
16
ガンマ分布の母数推定
 母数推定
 生データから母数推定を行うことでモデル分布を得る
 形状母数と尺度母数を最尤推定法により推定
形状母数と分布形状
は に関する期待値演算子
尺度母数と分布形状
NAIST, Speech and Acoustics Processing Laboratory
17
SS前後の信号のモデリング
 SSによる分布形状の変化を定式化
以下,
とし,
原信号の分布
を適用している
SS後の信号の分布
NAIST, Speech and Acoustics Processing Laboratory
18
SS処理によるカートシス変化
(原信号のカートシス)
 原信号のカートシス
n次モーメントは,
よって,カートシスの分子(4次モーメント)は
と変数変換すると,
形状母数+モーメントの次数
NAIST, Speech and Acoustics Processing Laboratory
19
SS処理によるカートシス変化
(原信号のカートシス)
同様にして,カートシスの分母(2次モーメント)
ゆえに,原信号のカートシス(
)は,
NAIST, Speech and Acoustics Processing Laboratory
20
SS処理によるカートシス変化
(SS後の信号のカートシス)
 SS処理後のカートシス
n次モーメントは,
テイラー展開により
カートシスの分子(4次モーメント)は,
と変数変換し,2次までで近似すると,
NAIST, Speech and Acoustics Processing Laboratory
21
SS処理によるカートシス変化
(SS後の信号のカートシス)
カートシスの分母(2次モーメント)は,
0次で打ち切ったテイラー展開を利用して
カートシスは分布形状に依存する統計量で,期待値
のスケールに
依存しないため,
と正規化し簡単化する.
以上より,SS後の信号のカートシス(
)に関して以下が成立する.
※分母を大きく見積もり,全体で真の値より小さく見積もっている
また,数値計算により
を確認した.
NAIST, Speech and Acoustics Processing Laboratory
22
SS処理によるカートシス変化
 SS処理によるカートシス変化
SS後の信号のカートシスは指数部分が支配的であり,
式の形から,変化量には比の対数が妥当と思われる.
対数カートシス比(Log Kurtosis Ratio)を考えると,
となる.これは
対数カートシス比を評価尺度として提案する
• 原信号の形状母数(a)
• 処理強度(b)
のみの多項式からなる尺度である.
NAIST, Speech and Acoustics Processing Laboratory
23
対数カートシス比
 対数カートシス比はミュージカルノイズ発生度合が
▪ 原信号の形状母数(a)
▪ 減算係数(b)
に依存することを意味している
» (例)形状母数(a)を固定した場合
対数カートシス比は減算係数にのみ依存し,減算係数が大きい
ほどミュージカルノイズ発生度合も大きい
経験則として一般的に知られている
» (例)減算係数(b)を固定した場合
対数カートシス比は原信号の形状母数にのみ依存し,原信号の
PDF形状がなだらかなほど(形状母数(a)が大きいほど)
ミュージカルノイズ発生度合も大きい
新たな発見
NAIST, Speech and Acoustics Processing Laboratory
24
主観評価実験
 目的:主観値(ミュージカルノイズスコア※)と客観値(対数カートシス比)
の対応の調査
※ ミュージカルノイズスコア: ミュージカルノイズ発生度合の主観スコア
(0:Natural,…,4:Harmful の5段階)
信号長
音源
雑音
音声
雑音推定
SS条件 減算係数
フロアリング
参照音
評価
評価規範
被験者
10 [sec.]
電子協騒音DB から4種
JNAS 4文(男女各2名)
無音声区間の時間平均パワー
{0,0.4,0.8,1.2,1.6,2.0}
0
電子協騒音DBから5種とSSを
適用したものの計10音源
ミュージカルノイズスコア※
男性8名、女性1名
NAIST, Speech and Acoustics Processing Laboratory
25
実験に使用した音源
減算量と対数カートシス比の関係
音源 /環境 /カートシス /形状母数
Noise1 /駅 /17 /0.27
Noise3 /展示会場 /38 /0.12
Noise2 /人ごみ /28 /0.19
Noise4 /病院 /56 /0.1
<音源固定>
減算係数:大→対数カートシス比:大
<減算係数固定> NAIST,
原信号のカートシス:大→対数カートシス比:小
26
Speech and Acoustics Processing Laboratory
結果 (1/2)
 減算量,音源とミュージカルノイズスコアの関係
Musical Noise Score
Harmful
Natural
<音源固定>
減算係数:大→ミュージカルノイズスコア:大
<減算係数固定>原信号のカートシス:大→ミュージカルノイズスコア:小
27
NAIST, Speech and Acoustics Processing Laboratory
結果 (2/2)
 対数カートシス比,減算係数とミュージカルノイズスコア
Correlation:0.84
Correlation:0.65
Musical Noise Score
Harmful
Natural
対数カートシス比は原信号の形状母数を勘案できる分相関が強い
原信号のPDF形状でミュージカルノイズ発生度合が異なる
28
NAIST, Speech and Acoustics Processing Laboratory
形状母数とミュージカルノイズ発生度合
ミュージカルノイズ発生度合
は原信号のカートシスと関係
している
減算係数:1.6 のとき
カートシス
17 → 28 → 38 → 56
原信号のカートシスが大きい場合ほど
明らかにミュージカルノイズ発生度合が小さい
NAIST, Speech and Acoustics Processing Laboratory
29
まとめ
 ミュージカルノイズ評価尺度として対数カートシス比を
提案し,主観値と相関が強いことを確認した
 ミュージカルノイズの発生度合いが原信号の分布形状に
依存することを発見した
 原信号のカートシスが大きいほどミュージカルノイズは発生しに
くく、小さいほど発生しやすい
→白色雑音などはミュージカルノイズが非常に発生しやすく,
音声などは発生しにくい(経験則と一致している)
 スペクトル減算法において処理強度とカートシスの関係
を明らかにした
 スペクトル減算法においてカートシスは必ず増加する
NAIST, Speech and Acoustics Processing Laboratory
30
ダウンロード

講義資料6-2