音響的特徴に基づく
楽器の階層表現の獲得と
それに基づくカテゴリーレベルの
楽器音認識の検討
北原 鉄朗† 後藤 真孝†† 奥乃 博†
†京都大学大学院情報学研究科知能情報学専攻
††科技団さきがけ21/産業技術総合研究所
4-5 Aug. 2003
1.研究の背景
 音楽情報検索の重要性
⇒ディジタル音楽配信の普及などにより,
個人が入手できる音楽音響信号が急増
1.研究の背景
 音楽情報検索の重要性
⇒ディジタル音楽配信の普及などにより,
個人が入手できる音楽音響信号が急増
 音楽音響信号に対するタグ付けの重要性
⇒検索の時間短縮
自動・半自動・手動で付与したタグを
組み合わせることで,より複雑な検索
タグとは...
音楽などのマルチメディアデータに対して,その内容
を記述したデータ.音楽の場合,使用楽器,ジャンル,
サビの出現箇所(時刻)など.
2.研究の目的
 音楽音響信号に対する楽器タグの付与
<inst begin=00:00:00 end=02:10:00>piano</inst>
<inst begin=00:03:50 end=02:10:00>violin</inst>
<inst begin=01:40:00 end=01:56:00>flute</inst>
……
① 特にクラシック音楽では,使用楽器は楽曲を特徴
づける重要なファクターである
e.g. 「ピアノソナタ」「弦楽四重奏」
⇒「ピアノソナタの曲を検索」のようなタスクで有用
② 楽器名をキーとした頭出しに有用
e.g. 「フルートが弾き始めるところから聴きたい」
③ 聴取者の好みや感性に依存しない
2.研究の目的
 楽器タグの付与を自動化したい
⇒音からの楽器名の同定(音源同定)が必要
2.研究の目的
 楽器タグの付与を自動化したい
⇒音からの楽器名の同定(音源同定)が必要
学習データ
 音源同定の典型的なアプローチ
=あらかじめ用意された各楽器の音響信号と
比較して,特徴空間上で最も近い楽器を選ぶ
p(X|wpiano)
Feature Extraction
w = argmax p(w|X)
(e.g. Decay speed, = argmax p(X|w) p(w)
Spectral centroid)
p(X|wflute)
<inst>piano</inst>
2.研究の目的
 楽器タグの付与を自動化したい
⇒音からの楽器名の同定(音源同定)が必要
学習データ
 音源同定の典型的なアプローチ
=あらかじめ用意された各楽器の音響信号と
学習データにない楽器が出てきたら
比較して,特徴空間上で最も近い楽器を選ぶ
どうするの?
p(X|wpiano)
Feature Extraction
w = argmax p(w|X)
(e.g. Decay speed, = argmax p(X|w) p(w)
Spectral centroid)
p(X|wflute)
<inst>piano</inst>
3.未知楽器の問題
 学習データにない楽器(未知楽器)が入力され
たときに,それをどう扱うかという問題
 実際のタグ付けでは不可避な問題
実際の音楽では,オーケストラ用楽器,民族楽器,
シンセサイザーによる合成音など多種多様な楽音
が使用され,これらの学習データを網羅的に収集
するのは困難
 先行研究では指摘されてこなかった
3.未知楽器の問題
人間ならどうするか (奥義!内観の術!)
たとえば,バイオリンとビオラの音をシンセサイ
ザー上で合成して作った音を初めて聴いたとき,
人はその音をどう理解するか
3.未知楽器の問題
人間ならどうするか (奥義!内観の術!)
たとえば,バイオリンとビオラの音をシンセサイ
ザー上で合成して作った音を初めて聴いたとき,
人はその音をどう理解するか
我々の予測:
「楽器名はわからないけど,弦楽器系」
⇒一段抽象度の高いレベルで音をとらえる
今回の目的=これを計算機上で実現する
3.未知楽器の問題
 本研究における解決策:
既知楽器⇒楽器名レベルで認識
未知楽器⇒カテゴリーレベルで認識
 具体的には・・・
(1) 楽器名レベルで認識
(2) (1)の結果が本当に正しいかどうか判定
(「既知」か「未知」かの判定に相当)
(3) (2)でFalse(=未知)と判定されたら,
カテゴリーレベルで再認識
4.楽器カテゴリーの設計
 音源同定に適した楽器カテゴリーとは?
⇒楽器の音響的類似性を総合的にとらえた
楽器カテゴリー
従来からある楽器の発音機構に基づく階層表現が
使えるのでは?
4.楽器カテゴリーの設計
楽器の発音機構に基づく階層表現
大分類
中分類
小分類
打弦楽器
撥弦楽器
──
弦楽器
擦弦楽器
無簧楽器
木管楽器 単簧楽器
管楽器
複簧楽器
──
金管楽器
打楽器 (省略)
(省略)
属する楽器
PF
CG, UK, AG
VN, VL, VC
PC, FL, RC
SS, AS, TS, BS, CL
OB, FG
TR, TB
(省略)
4.楽器カテゴリーの設計
 音源同定に適した楽器カテゴリーとは?
⇒楽器の音響的類似性を総合的にとらえた
楽器カテゴリー
従来からある楽器の発音機構に基づく階層表現が
使えるのでは?
4.楽器カテゴリーの設計
 音源同定に適した楽器カテゴリーとは?
⇒楽器の音響的類似性を総合的にとらえた
楽器カテゴリー
従来からある楽器の発音機構に基づく階層表現が
使えるのでは?
楽器の発音機構に基づく階層表現は,
必ずしも音響的類似性をとらえていない.
e.g. バイオリンとギターはともに弦楽器だが
音響的には大きく異なる
No!
4.楽器カテゴリーの設計
 音源同定に適した楽器カテゴリーとは?
⇒楽器の音響的類似性を総合的にとらえた
楽器カテゴリー
⇒楽器の音響的類似性に基づく階層表現を
自動獲得し,そこから楽器カテゴリーを作成
従来からある楽器の発音機構に基づく階層表現が
使えるのでは?
楽器の発音機構に基づく階層表現は,
必ずしも音響的類似性をとらえていない.
e.g. バイオリンとギターはともに弦楽器だが
音響的には大きく異なる
No!
4.楽器カテゴリーの設計
楽器階層の獲得における課題と解決
策
課題1 使用する特徴空間によって結果が変化
課題2 音高などにより特徴空間上の位置が変化
4.楽器カテゴリーの設計
楽器階層の獲得における課題と解決
策
課題1 使用する特徴空間によって結果が変化
音源同定で用いるものと同じ特徴空間を使用
⇒任意の音源同定システムに対して,
適切な階層表現を自動的に獲得
課題2 音高などにより特徴空間上の位置が変化
各楽器多数の音響信号を用意し,各楽器の
分布に対して階層的クラスタリング
⇒各楽器1音のみに比べ,各楽器の
特徴空間上の位置関係を適切に把握可能
4.楽器カテゴリーの設計
使用する特徴空間
音源同定に用いるものと同じ特徴空間を使用
⇒[北原,音情研2002]で用いたものを使用
 「周波数重心」,「パワー包絡線の近似直線の傾
き」など,129個の特徴量を抽出
 主成分分析で79次元(累積寄与率:99%)に圧縮し,
さらに線形判別分析で18次元に圧縮
周波数重心
Piano
周波数重心
Flute
4.楽器カテゴリーの設計
使用する特徴空間
音源同定に用いるものと同じ特徴空間を使用
⇒[北原,音情研2002]で用いたものを使用
 「周波数重心」,「パワー包絡線の近似直線の傾
き」など,129個の特徴量を抽出
 主成分分析で79次元(累積寄与率:99%)に圧縮し,
さらに線形判別分析で18次元に圧縮
Piano
減衰
パワー包絡線 近似直線
Flute
非減衰
近似直線
パワー包絡線
4.楽器カテゴリーの設計
使用する楽器音の音響信号
1楽器あたり130~700個,計6,247個を使用
 19種類のオーケストラ楽器の実楽器音データを
「RWC-MDB-I-2001」から抜粋
 半音ごとに全音域収録
 各楽器,3楽器個体,3種類の音の強さ
 通常の奏法のみ使用
以上のデータから得られる各楽器の特徴空間上の
分布を多次元正規分布で近似し,各楽器間の
マハラノビス汎距離を使って階層的クラスタリング
4.楽器カテゴリーの設計
楽器カテゴリー設計結果
大分類 中分類
小分類
ウクレレ以外
減衰系
──
楽器
ウクレレ
──
弦楽器
サックス
クラリネット
持続系
楽器 管楽器 リコーダー
低音系+α
高音系
属する楽器
PF, CG, AG
UK
VN, VL, VC
SS, AS, TS
CL
RC
TR, TB, BS, FG
OB, PC, FL
5.処理の流れ
(1) 楽器名レベルで認識
(2) (1)の結果が本当に正しいか判定
(Falseなら「未知楽器である」とみなす)
認識対象音から学習データ(分布)までのマハラ
ノビス距離がしきい値以内ならTrue
(3) (2)の結果がFalseならカテゴリーレベルで再認識
p(X|wpiano)
このマハラノビス距離を
しきい値処理
p(X|wflute)
6.評価実験
 既知楽器なら楽器名レベルで,
未知楽器ならカテゴリーレベルで認識
 学習データ,評価用データともに
単音を1つ1つ個別に収録したものを使用
 認識(楽器名・カテゴリーともに)では,
129次元の特徴空間をPCAで79次元に,
LDAでさらに18次元に圧縮したものを使用
 既知/未知の判定では,129次元の特徴空間
をPCAで23次元に圧縮したものを使用
 既知/未知の判定で用いるしきい値は40
6.評価実験
使用データベースの詳細
 学習データ:自然楽器音
(RWC-MDB-I-2001から抜粋した
19楽器6,247音のうち,ランダムに半分を選択)
 既知楽器の評価データ:自然楽器音
(上記の残り半分)
 未知楽器の評価データ:電子楽器音
(ヤマハ製MU2000に収録されている
- エレクトリックピアノ(ElecPf),
- シンセストリングス(SynStr),
- シンセブラス(SynBrs).
※各々2バリエーションずつ使用)
6.評価実験
実験結果
楽器名レベルで正解
カテゴリーレベルで正解
不正解
既知楽器
未知楽器
0%
20%
40%
60%
80%
100%
 誤り率は,既知楽器で約20%,未知楽器で約23%.
 このような楽器音理解は,情報統合においても有用
e.g. 音から「楽器名はわからないが弦楽器」と同定
画像から「ある民族楽器」
⇒弦楽器に属する新たな楽器として再学習
6.評価実験
未知楽器のカテゴリーレベルの認識
Recognition Rates
100%
80%
60%
40%
20%
SynBrs B
SynBrs A
SynStr B
SynStr A
ElecPf B
Conv.
Prop.1
ElecPf A
0%
 提案手法によって得
られた楽器カテゴリー
を用いることで,未知
楽器を精度良く認識
 楽器の発音機構に基
づく分類は,(機械的
発音機構の持たな
い)
電子楽器には有効で
ないことを示唆
6.評価実験
楽器音の「既知」か「未知」かの判定
100%
Accuracy
80%
60%
40%
既知楽器
未知楽器
20%
0%
Threshold: 50
40
30
25
Feat. Space:
PCA (23dim.)
40
30
25
PCA (18dim.)
40
30
25
PCA+LDA
(18dim.)
PCA (23dim) において,約85%の正解率
6.評価実験
楽器音の「既知」か「未知」かの判定
100%
Accuracy
80%
60%
40%
既知楽器
未知楽器
20%
0%
Threshold: 50
40
30
25
Feat. Space:
PCA (23dim.)
40
30
25
PCA (18dim.)
40
30
25
PCA+LDA
(18dim.)
「既知を正しく既知」と「未知を正しく未知」はトレードオフ
⇒応用に応じた適切なしきい値設定の必要性
6.評価実験
楽器音の「既知」か「未知」かの判定
100%
Accuracy
80%
60%
40%
既知楽器
未知楽器
20%
0%
Threshold: 50
40
30
25
Feat. Space:
PCA (23dim.)
40
30
25
PCA (18dim.)
40
30
25
PCA+LDA
(18dim.)
PCA+LDAは精度低
∵LDAは学習データの分離を良くする次元圧縮法
7.ま と め
 音源同定における新たな問題を提起
「未知楽器の問題」
(学習データにない楽器をどう扱うか)
 解決策:未知楽器をカテゴリーレベルで認識
⇒人間が初めて聴いた音に感じるような「楽器
名は分からないが弦楽器系」という認識を実現
 このような認識で用いるカテゴリー設計のため,
音響的類似性に基づく楽器の階層表現を
自動獲得する手法を提案
ダウンロード

音響的特徴に基づく楽器の階層表現とそれに基づくカテゴリー