音声合成
音声合成技術の用途
•PHSや携帯電話での音声通信
•電話応答サービスの音声
•しゃべる玩具
音声合成の原理
音声合成の仕組みと人の発声の仕組み
DudleyのVocoder(1931)
音源の生成
音声合成フィルタ
音声スペクトル
/h/
/a/
/sh/
/i/
スペクトル包絡と微細構造
T
T: ピッチ周期
スペクトル
=
スペクトル包絡
+
F1
F2
f0=1/T
微細構造
F3
F4
Fi: ホルマント周波数
f0 : ピッチ周波数
有声音と無声音のスペクトル
有声音
無声音
周期性あり
周期性なし
調波構造あり
調波構造なし
音源信号
波形
自己相関係数
音声
パルス的な波形になる
T
予測残差
T
スペクトル
音声信号モデル
S ( )  G( ) H ( )
スペクトル包絡
パルス音源スペクトル
ノイズ音源スペクトル
音源パラメータ
T
音声合成
フィルタ
音声スペクトル
音声の基本パラメータ
母音のスペクトル包絡
音声合成デジタルフィルタ
xt  -a1xt -1 - a2 xt -2
音声信号
音源信号
- ap xt - p  et
a1 , a2 ,
, a p 線形予測係数
(スペクトルパラメータ)
線形予測分析法
周波数領域
時間領域
1
A( z )
xn
xn  p
定式化
n
x n 1
1
X ( z) 
E ( z) 
A( z )
p
xn    ai xn i  en
i 1
2
0
解法
1
p 1
r1
r0

rp  2
 rp 1
 rp  2
 
 r0
ただし、自己相関関数
1
p
1   ai z  i
E ( z) 、 z
 e jT
i 1
予測残差電力 en が最小
Fr
G
r
G

G
G
Hr
周波数
予測残差のスペクトルが平坦
IFa I Fr I
J
G
aJ G
rJ
J
G
J
 GJ
J G
J
J
G
J
Ha J
KG
Hr J
K
KG
1
1
2
2
3
3
ri   xn xn i
n
X ( z)
A( z )
周波数
音源分析
波形
自己相関係数
N
r   xt xt 
音声
t 1
xt
et  xt  a1xt -1  a2 xt -2
T
予測残差
ピーク値が大きい時
は有声、小さい時は
無声
 ap xt - p
ピッチ周期
et
予測残差の
平均振幅
T
スペクトル
音声合成の特徴
•少ない数の音声パラメータから自然な音声を合成
•音韻(声の音色)と韻律(声の高さ)を別の音声パ
ラメータで制御できる
•人間の音声生成過程に対応した合成
•音声波形を再現するのではなく、音声スペクトルを
再現(人間の聴覚特性を利用)
原音声と合成音声の波形
音声波形
合成音声波形
音声分析合成系
7bit
40bit
5bit
1bit
分析フレームを20msとすると、ビットレートは
(40+5+1+7)×50フレーム=2650bit/sec
音声波形をそのまま送ると64000bit/secで25倍となる
音声分析合成法の利点と問題点
少ない情報量で音声を伝達できる
音声波形をそのまま送る(PCM方式)と毎秒64000ビット
の情報量が必要になるのに対して、音声のパラメータだけ
を送る音声合成法では毎秒2650ビットの情報量ですむ
同じ通信回線で20人が話すことができる
音声に特化しすぎている
声以外の音を伝えることができない、
周囲騒音があると音声の品質が劣化する
人によって音声の品質がばらつく
通信用途にはそのまま使えない
分析合成系と波形符号化
PHS
携帯電話
ISDN
分析合成系と波形符号化
分析合成系
合成フィルタ
パルス・ノイズ音源信号
PCM
音声信号
音声信号
4bit/sample
音声信号
量子化
16,12,8,6,4,2,1 bit/sample
予測符号化(ADPCM)
予測残差信号
量子化
合成フィルタ
2bit/sample
1bit/sample
音声信号
携帯電話の音声通信方法
パルス、雑音音源の
代わりに、予測残差
信号を音源に用いる
音源信号生成
音声合成
フィルタ
ダウンロード

声を合成する仕組み