音声情報とベイジアンネットを
用いた感性情報処理システム
室蘭工業大学 大学院工学研究科
博士前期課程 情報工学専攻
久保研究室
原 正一
発表目次
1.
2.
3.
4.
研究背景・目的
構築するシステムの概要
実施した予備実験の説明
今後の計画
2
人 対 機械のコミュニケーションの
円滑化を目指して

コンピュータシステムの急速な普及


よりフレンドリで親しみやすいユーザインタ
フェースが求められてきている
(カウンセリング,ペットロボットなど)
ユーザの状態に応じて,システムの応答を
変化させる

コンピュータによる人間の心身状態の認識
3
従来研究のアプローチ

状態認識のための情報源
表情や動作
 音声の韻律や発話内容
などから感情をモデル化
↓


感情は曖昧で,厳密にモデル化するほど
識別可能ではない
4
感性情報処理の実現

目的


音声を入力とし,感情・疲労度などの心身状態
を推定して出力するシステムの構築
方法


音声・感情間の関連をベイジアン
ネットによってモデル化
そのモデルにより推論を行う
5
ベイジアンネット


複数の確率変数の
間の依存関係を非
循環性有向グラフに
よって表す
その間の定量的な関
係を条件付き確率で
表現したモデル
A
B
C
6
システム概要
音声
音声特徴量
抽出
クライアント
感情・疲労度
ベイジアン
ネット
7
音声特徴量の抽出①
(システムの入力)
500

ピッチ


声帯振動の基本周波数
高低の印象を与える
0
0
0.715011
Time (s)

振幅


音声波形における振動
する波の変動量
声の大きさを表す
1
0
-0.8466
0
0.715011
Time (s)
8
音声特徴量の抽出②
(システムの入力)

ホルマント周波数


音声生成における声道
の共振によって生じる
母音の特定に利用される
5000
4000
3000
2000
1000
0
0
0.715011
Time (s)

スペクトル

信号を構成している
周波数成分の分布
60
40
20
0
11025
Frequency (Hz)
9
感情・疲労度(システムの出力)
プルチックの基本感情
 疲労度
以下の5組を出力とする
喜び - 平静 - 悲しみ
受容 - 平静 - 嫌悪
恐れ - 平静 - 怒り
予期 - 平静 - 驚き
疲労 - 普通 - 快調

喜び
受容
予期
恐れ
怒り
驚き
嫌悪
悲しみ
10
推定システムのベイジアンネット
i4
音声特徴量と感情・疲労度の
データをもとにして,構造決定
したベイジアンネットを用意する
o1
i1
i5
o2
入力
(音声)
特徴量
抽出
(量子化)
出力
(感情,疲労度)
i2
o3
i6
以下の式にて推論を行う
o4
i3
in
o5
データから構造学習されたBN
(心身状態認識モデル)
11
音声資料の収集


知り合い同士の2名のユーザの会話を録音
し,サンプルデータを収集する
手順




録音時間の目安について通知し,なるべく普段ど
おりに会話してもらう
その会話をそれぞれ別々に記録する
記録後,会話中の感情・疲労度などを,話者本人
へのアンケートによって調べる
会話の音声データを感情・疲労度ごとに分類し,
サンプルデータとする
12
予備実験
(音声特徴量間の関連性のモデル化)

目的




システムに利用するアプリケーションの特
性の把握
実験環境の検証(本実験での使用に耐えう
るか)
特徴量,及びその量子化法に関する妥当
性の検証
録音からモデル構築までの一連の流れの
習熟
13
予備実験 環境

ソフトウェア





会話: MSN messenger service の音声チャット
録音: Rockoon
音声特徴量抽出: Praat
ベイジアンネットモデル構築: BayoNet
ハードウェア


ヘッドセットマイク
オンボードのサウンドカード
14
得られた音声資料

被験者


男6 女2)
録音設定


8人(20代
サンプリングレート 22.05 kHz
16 bit モノラルチャネル
データ

会話データを10秒毎に切断したもの
113サンプル
15
利用した音声特徴量






第1ホルマント(F1)
第2ホルマント(F2)
ピッチの最高値/平均値(Pi_Ma/Av)
ピッチの最高値ー最低値(Pi_Ra)
振幅の最大値/平均値(Po_Ma/Av)
音圧レベル最大の周波数(Spe)
全6ノード
16
ベイジアンネットモデル構築



6ノードはそれぞれ3つの状態を持つと設定
(平均値をもとに高い,普通,低い)
113サンプルのデータをもとに BayoNet により
モデル構築
ネットワークの構造選択は MDL 基準により決
定
17
予備実験 結果
パターン1
0 ← if v < Ave – σ
1 ← if Ave – σ ≦ v < Ave + σ
2 ← if Ave + σ ≦ v
v :特徴量
Ave:平均値
σ :標準偏差
パターン2
0 ← if v < Ave – (σ/2)
1 ← if Ave – (σ/2) ≦ v < Ave + (σ/2)
2 ← if Ave + (σ/2) ≦ v
18
予備実験 考察



ノイズが入るため,ノイズの影響を調べる必要
がある
確率変数の割り当て方でネットワークが簡単
に変化
→ 割り当て方は色々なパターンを試すべき
ホルマント周波数は標準偏差が小さい
→ 喋り方による影響が少なく,
感情の推定に向かない可能性
19
今後の計画






音声資料の収集
システムの構築
構築したシステムの有効性の検証
システムの性能向上
Webサービス化
入力データの多様化
20
ダウンロード

Document