統語構造に基づく入力文分割と、そのハイブリッド音声翻訳への応用
(株)東芝 研究開発センター
釜谷 聡史
概要
・入力文を統語構造に基づいて分割し、各断片を規則/用例翻訳で最良の方法に切り替えて訳出
・旅行ドメインの話し言葉翻訳において、規則/用例の単体翻訳性能に比べて6.0~13.4%の改善を確認
背景
・実用的な話し言葉翻訳の実現への要求
・任意の表現を
・正確で自然な表現に
豊かな
知識・ノウハウの
蓄積
・東芝の翻訳技術
・The翻訳シリーズ
・文書を対象とした規則ベース翻訳
・概念トランスファ方式
翻訳したい
規則ベース翻訳
用例ベース翻訳
~ 統語森駆動・概念トランスファ方式 ~
~ チャンクベース用例翻訳 ~
・長所/短所
・特徴
・特徴
・Chunk (Phrase)単位の処理
↑頑健な訳文生成
↑細かな翻訳制御が可能
↓やや硬い不自然な訳
・節の構造中心の解析文法
- 非文法構造を区別、許容
・Robust GLR Parsing
- 統語森上で最尤解を推定
・話し言葉と書き言葉の
依存構造間差異を吸収
- 従来の翻訳知識の最大活用
(1) C
(2) NP
(3) NPweak
(4) VP
(5) VP
(6) VP
VP
N CM
N
NP V
NPweak VP
V
(7) Cweak
(8) Cweak
(9) S
(10) S
(11) SC
(12) SC
・長所/短所
→ 高精度化
↑自然で正確な訳出
↓用例数の制約
・複数用例の統合
NPweak
NP
Cweak
C
SC SC
VP CP
・翻訳信頼度を計算
ˆ
T  arg max C (T )
C : Clause, SC : Subordinate Clause
NP: Noun Phrase, VP Verb Phrase
CP : Conjunctive Particle, N : Noun, V : Verb
T
C(T )   A * A(T )   F * F (T )
文法の一例
T : 翻訳結果
C(T): 信頼度
F(T): 3-gram model
A(T): 翻訳確率
文分割とハイブリッド翻訳
統語森構造=分割候補構造
(i)S
(h)C
<h2>
<h1>
(f)SC
・各断片の用例翻訳候補
・断片間の関係を保存、訳出
・非連続区間への用例適用
・各構文構造の尤度を評価
- 部分森構造変換
(g)C
(b)SC
(c)SC
森
(d)C
(a)NP
は
統語森
統語森
(e)SC
私
・用例翻訳結果と確信度
節a
サ変V
森
Transfer
?
節a+必須
森
サ変V
森
しなくちゃいけない
サイズ
が
大きい
ので
気に入っ
た
けど
やめ
ます
- 統語森係り受け解析
用例の最適割当推定
(i)S
 p( 彼, c ,  が, 面白い, c )
cC
・確信度最大
・係り受け構造保存
(h)C
(g)C
 p( 彼, c ,  が, 行く, c )
cC
 p( 彼, c ,  が, 勧める , c )
cC
(e)SC
(b)SC
(c)SC
・話し言葉の特徴を捉えて
意味を絞り込む
・曖昧性を保持したまま
森から森に構造変換
(d)C
(a)NP
・統語森上で最尤依存構造を推定
- 意味クラス+共起モデル
- 表層文字列に基づく構造制約
彼が 勧めるので 行ったが 面白かった
B類
C類
節の包含関係の分類を応用した尤度
私
は
サイズ
が
大きい
ので
気に入っ
た
けど
やめ
ます
(a)+(d) I just can’t buy it.
(b) It’s so big for me.
トランスファ/生成
I like it, but it’s so big for me, so I just can’t buy it.
本手法の利点
・全ての解釈を考慮した、最尤の訳文生成が可能
・少ない用例でも、その適用可能性が高まる
・断片間の統語的・意味的情報を反映した訳出が可能
評価
実験
まとめ
翻訳方向 = 日本語→英語
用例翻訳 = 用例数:123,819対
評価指標 = NIST/BLEU
○評価セットA (open)
1000文、平均13.4文字/文
EBMT
RBMT
Hybrid MT
NIST
BLEU
4.9372 0.2403
4.4644 0.1885
5.0474 0.2511
旅行ドメイン
旅行ドメイン
正解訳=各1文
○評価セットB (open)
200文、平均20.5文字/文
EBMT
RBMT
Hybrid MT
NIST
BLEU
3.8798 0.1351
3.8191 0.1252
4.1127 0.1597
・ハイブリッド方式を提案
・規則翻訳と用例翻訳とを連携
・規則ベースの文の分割と、統合の制御
・実験により効果を確認
・今後の課題
・分割単位の拡張
・用例選択性能の改善
ダウンロード

ポスター