構音障害者の音声認識の検討
神戸大学工学部
松政 宏典,滝口 哲也,有木 康雄
追手門学院大学経済学部
李 義昭
神戸大学発達科学部
中林 稔堯
研究背景

音声認識の多様化



子供、高齢者
車内
福祉分野への情報技術の適用



音声合成
手話認識
文字認識
研究目的

言語障害者は3万4000人
(平成13年度
厚生労働省)

障害者(聴覚・言語障害)を対象とした音声認識が
少ない。

音声に頼るしかない場合は?
音声認識の実現
課題

構音障害者では、発話スタイルが異なるため、
従来のモデルでは認識が困難
構音障害者モデルの作成

構音障害者において、最初の発話スタイルが、
他発話に比べ、変動する場合がある。
変動成分の抑圧のための
PCAを用いた徴量抽出方法
脳性マヒとは

受胎から生後4週以内の新生児までの間に生じた、
脳の非進行性病変に基づく、永続的な、しかし
変化しうる運動および姿勢の異常である。その
症状は満2歳までに発現する。(厚生省)
*分類
1)痙直型
2)アテトーゼ型 (10~15%)
3)失調型
4)緊張低下型
5)固縮型
6)混合型
アテトーゼ型とは



大脳基底核に損傷を受けたことによる、随意筋機
能障害であり、アテトーゼ(不随意運動)が生じ
る。
意図的な動作を行う際や緊張状態においてアテ
トーゼが出やすい。
アテトーゼ型脳性マヒでは、知能障害を合併して
いないケースや比較的知能 障害の程度が軽いケー
スも多い。
収録データ

210単語 (ATR音素バランス単語)

連続発話

音声例
・あけがた
・はなはだ
図差し替え
汎用モデルでの認識
100
90.0
90
認識率[%]
80
70
60
50
40
30
20
10
2.9
0
構音障害者
健常者
→従来の汎用モデルでは構音障害者の音声認識が困難
構音障害者モデルでの発話毎の認識率
100
認識率[%]
95
89.1
90
91.4
91.0
87.6
85
80
77.1
75
70
65
1回目
2回目
3回目
4回目
5回目
→最初の意図的な動作のため発話スタイルが不安定
提案手法
DCTではなく、スペクトル上でPCAを用いる。
PCAによる発話スタイル変動成分の抑圧(1)
X n (w); 観測音声
Sn (w) ; 安定した音声
H n (w) ; 発話スタイル変動成分
2回目以降
X n (w)  Sn (w)
1回目発話
X n (w)  Sn (w)  H n (w)
抑圧
log X n (w)  log Sn (w)  log H n (w)
PCAによる発話スタイル変動成分の抑圧(2)
2回目以降の発話
∥
安定した音声
1回目発話
写像
Sˆ  VX n
∥
調音不安定音声
安定した音声を用いて、PCAで求めた主軸Vの部
分空間に写像する。
空間の低次に音声成分が、高次には発話スタイ
ル変動成分が集まる。
実験内容
 MLLR+MAP推定による話者適応
 PCAを用いた発話スタイル変動にロバスト
な特徴量抽出法
実験条件
ハミング窓長
分析周期
音響モデル


25msec
10msec
monophone
モデル適応には2回目の発話を用いる。
PCAには2~5回目発話の安定した音声のフィ
ルタバンク出力 24 次元を用いる。
モデル適応結果
70
60
認識率 [%]
50
210使用
150使用
100使用
80使用
60使用
40使用
20使用
40
30
20
10
0
0
1
2
3
4
5
6
7
適応回数
少量データでの適応が困難
8
9
10
PCAとMFCCの比較(1回目発話)
より有効的な特徴量抽出
が可能である。
85.2
86
84
認識率 [%]
PCAを用いることで
6.1%の改善
(79.1%→85.2%)
82
80
79.1
MFCC
78
PCA
76
MFCC
PCA
発話毎の認識率比較(17次元)
95
92.9
90.5
認識率[%]
90
87.6
85
80
92.9
88.1
89.5
90.5
83.8
MFCC
78.6
PCA
75
1回目
2回目
3回目
4回目
5回目
まとめ・課題

1回目の不安定な発話に対して、PCAを用いて特
徴量を抽出することで、より有効的な特徴量が
得られる。
PCAのカーネル化
 構音障害者用の音素モデル
 対象者を増やす

END
→ → → →補助
1回目と他発話の違い
<例>
 はっぴゃく
 はんぎゃく
PCA(Principal Component Analysis)
x2
y
空間選択;分散が最大空間
を順次選択
有効性
低次-------高次
大 ------- 小
X1
図図
発話毎の認識率
構音障害者の場合1回目の認識率が著しく低下する。
1回目は最初の意図的な動作であり緊張状態のため
アテトーゼが生じ、調音が困難となっているため
発話スタイルが不安定と考えられる。
単語認識結果
99.2
100
87.2
90.0
認識率 [%]
80
60
40
20
汎用モデル
2.9
特定話者モデル
構音障害者
健常者
0
特定話者モデルの作成
音素数
混合分布数
テストデータ
54 音素
6
1050(210単語×5回)
<作成例>
認識
モデル作成(学習)
従来手法での問題点

汎用モデルでは認識が困難
適応データ数
(2回目発話)
0
40
100
210
認識率 [%]
2.9
22.5
42.9
61.3
少量データでの適応が困難
 精度の向上には大量のデータが必要

モデル適応

MLLR(Maximum Likelihood Linear Regression)法
μ̂ Aμ b

̂ ;適応後平均ベクトル
 ;適応前平均ベクトル
MAP(Maximum A Posteriori)推定法
ˆ  arg max g (|)
 arg max f (| ) g ( )
 ;適応データ
ˆ ;推定パラメータ
 ;パラメータ(既知)←MLLR法で求めたものを使用
PCAとMFCCの比較(1回目発話)
85.2
認識率[%]
86
82
78
80.0
81.9
79.1
83.8
83.3
78.6
78.1
77.1
76.2
74
MFCC
PCA
70
11次元
13次元
15次元
17次元
19次元
全発話での結果
認識率[%]
90
89.6
89.0
89
88
87
87.4
86.8
87.6
89.1
89.1
87.8
88.0
87.4
MFCC
PCA
86
85
11次元
13次元
15次元
17次元
19次元
MFCC(Mel Frequency Cepstrum Coefficient)
f
Mel ( f )  2595 log10 (1 
)
700

音の高さに対する人間の感覚尺度 → メル尺度(Mel Scale)
周波数の対数におおよそ対応

人間の周波数に対する音の高さの感覚

低周波数 → 細かい
レ
ベ
ル
高周波数 → 粗い
・・ ・
・・・
m1
m2
各帯域フィルタの出力 m j と,
離散コサイン変換(DCT)を
用いて,MFCC係数が計算さ
れる.
mj
m j 1
mN
メル周波数
2 N
  i



cMFCC (i) 
m
cos
j

0
.
5



j
N j 1
 N

想定される質問
 一度写像した音声を逆写像したら、安定
した音声と同じように聞こえるのか?
 今後・・・
 今回でも約40分ほどのデータ収録をし
ている。負担が大きいので話者適応を目
指した方がよいのでは?
 今回はアプローチ方法の一つとして特定話者モデ
ルを作成した。
音素数による違い
母音・子音に違いは無い。
54音素の場合はより音は細かく表示可能。
<例>こんにゃく
54音素;k oN ny a- k u+
43音素 ; k o N ny a
ku
ダウンロード

発話障害者においての音声認識