日中機械翻訳における
名詞訳語の選択
鳥取大学大学院工学研究科
展瑜 徳久雅人 池原悟 村上仁一
研究の背景
●機械翻訳の問題:名詞の訳語選択
例:あんなに働いてよく体が続くものだ
<身体><体格>・・・<体力>
●従来の方法:
日英翻訳の場合:意味属性による翻訳方式
「結合価文法による動詞と名詞の訳語選択能力の評価」(金出地 2003)
具体
例:彼は友人を家まで送った.
訳語候補
「家族」
family
「居住施設」 house
「家屋」
house
人
家族
場所
具体物
居住施設 家屋
●本研究の考え:日中翻訳において名詞訳語選択
目
的
日本語の基本名詞に対して訳語の多義構造
日中翻訳における「意味属性体系」の
識別能力
日中機械翻訳のための意味属性体系の提案
日本語基本名詞の訳語の多義構造
●対
象: IPALの基本名詞1,081語
「計算機用日本語名詞辞書IPAL解説編
情報処理振興事業協会技術センター 1996」
●使用辞典: 日中辞典 「北京・対外経済貿易大学と商務印
書館及び日本小学館の共同編集
1987」
●出力データ:「対応表」
IPAL辞書の日本語基本名詞の訳語の対応表
番
号
日本語の単語
単語読 単語表
み
記
811 は
歯
814
はいけ
背景
い
86
うま
馬
対応する訳語
中国語訳語
齿,牙,牙齿
齿
日本語例文
対応する日本語の解釈
判別のための例
〔動物の〕
歯の根
〔器具などの〕
歯車
万里の長城を背景にして写真を
背景
〔絵や写真などのバック〕
とる
布景
〔舞台装置〕
背景を変える
后盾,靠山
〔うしろだて〕
彼にはなんら政党背景がない
幕后的形势,背景 〔背後の情勢〕
江戸時代を背景にした話
马
〈動〉
馬から落ちる
脚凳子
踏み台
馬に乗って電球をはずす
马
将棋
馬に勝つ
木马,鞍马
〈体〉
馬が跳べるか
訳語
の多
義数
2
4
4
●日本語基本名詞の中国語訳語多義分布
(対象:1081語基本名詞)
件数
500
450
400
350
300
250
200
150
100
50
0
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30
多義数
最大多義数:30, 多義:60%の基本名詞
●日英中の結果と比較
(1,081語の多義について)
IPAL辞書 ALT辞書 日中辞典
(日本語)
(英語)
(中国語)
2.13
1.88
2.6
平均多義数
18
12
30
最大多義数
例:「手」の多義: 10
5
30
日、英の結果:「日英機械翻訳における名詞の訳語選択」(桐沢
2000)
意味属性の語義識別能力
●意味属性による訳語選択
単語の「意味的用法」が分かれば,その単語がどの
語義で使用されたか判断できる可能性がある
訳 見出し語
し
分
け
木
可
能
訳
し
分 ユニフォーム
け
不
可
能
意味属性
訳語語義
例文
樹木
材木
楽器
树木
木头
梆子
木を植える
木で造った家
木を入れる
衣服
运动服
制服
工作服
スポーツ着
制服
仕事着
●日中において既存意味属性の適用性
意味属性体系の量的な有効性
(対象:1081語基本名詞)
意味属性が対応し
ない訳語があるか
対応する数
件
数
531
108
全ての訳語に意味
属性が対応
1対1で対応
重複し対応
49.6%
10.1%
意味属性が1つ不足 172
16.1%
意味属性の対応し 意味属性が2つ不足
ない訳語がある
意味属性が3つ不足
4つ以上不足
割合
100
9.3%
60
5.6%
98
9.2%
問
題
あ
り
訳語の多義から見た名詞の分類
(対象:多義を持つ見出し語,638語)
番
号
問
題
あ
り
分類
日中割合
1
訳し分け可能
1 5 .5 %
2
訳し分け一部可能
48.0%
3
絞り込み可能
5.3%
名詞の例
見出し語
意味属性
訳語
「帽子」
斗笠
傘
「雨具」
伞
「あご」
(上下)腭
顎
「あご(頭部)」
下巴
钓鱼钩 的倒须
麻
「作物」
大麻
麻
「繊維」
麻纤维
「糸」
麻纱
「布」
4
絞り込み不可能
11.1%
豆
5
訳し分け不可能
18.8%
蜜柑
「穀物」
「果樹」「果物」
夏布
豆
黄豆
腰子
橘子
柑橘
「正」
6
訳出不可能
0.5%
主
7
未定義
0.6%
一言
表面
脸
一句话
●考
察
中国語は語義が広い
原因
意味属性の粒度が不適切
訳語が他の品詞
対応する意味属性がなし
意味の包含関係の差
日中翻訳のための意味属性体系
意味属性の拡張
●既存の意味属性の再配置 (252語)
例:見出し語
手
意味属性
訳語語義
拡張した意味属性
594
手
1035 方法
1166 権利
592
腕
手
手段
归……所有
臂
-
-
-
手掌
笔迹
手指头
・
・
・
-
・
・
・
・
・
・
(手里的)棋子[牌] 921
596 手のひら
1097 筆跡
598 手の指
遊び道具・運動具
既存意味
属性体系
●意味属性の細分類 (48語)
例:日本語
鳥
意味属性
「538 鳥」
中国語
鸟
鸡
536
動物
537
獣
538
鳥
538 鳥
538.1 鳥<野禽類>
538.2 鳥<家禽類>
<鸟> 雀,烏等
<鸡> 鶏,家鴨等
●新しい意味属性の追加 (10語)
例:
686 植物(部分)
687 芽・苗
690 根
・・・・・・
697 花
700 実・種子・穂
704 樹皮・果皮
705 細胞
686 植物(部分)
・・・・・・
697 花
700 実・種子・穂
704 樹皮・果皮
704zy 木質部 (追加した意味属
性)
705 細胞
図:木の断面図
●意味属性を拡張した効果
意味属性の量的な有効性
割合
(対象:1081語基本名詞)
80.0%
70.0%
60.0%
50.0%
40.0%
30.0%
20.0%
10.0%
0.0%
71.5%
前
後
49.0%
1対1
10.0% 8.4%
16.0%
10.9%
重複
1つ不足
9.3%
4.9%
2つ不足
問題あり
5.6%
9.2%
2.3%
1.9%
3つ不足
4つ以上
対応数
訳語の多義から見た名詞の分類
番
号
分類
1 訳し分け可能
(対象:多義を持つ見出し語,638語)
名詞の例
日中割合
日英
前
後 見出し語 意味属性
訳語
割合
15.5% 59.5%
4 訳し分け一部可能 48.0% 2.7%
問
題
あ
り
22.8%
傘
右
2 絞り込み可能
5.3%
3 訳し分け不可能
18.8% 14.7%
蜜柑
5 未定義
0.6%
一言
0.5%
麻
「帽子」
「雨具」
「右」
「文章(部分)」
「閥」
-
斗笠
伞
右边
上文
右倾
胜过的
麻
「作物」
大麻
「繊維」
麻纤维
「糸」
麻纱
「布」
夏布
橘子
「果樹」「果物」
柑橘
一句话
55%
24%
13%
日英割合:「日英機械翻訳における名詞の訳語選択」(桐沢 2000)
まとめ
●日中翻訳において意味的用法による名詞の
訳語選択
– 日英のための意味属性体系を日中に適用
– 拡張すべき点を考察
– 拡張を行い,訳し分けの効果を確認
結果: 訳語が一意に決まる場合
全単語1,081語の場合: 49%
71%
多義のある638語の場合:15.5%
59.5%
●結論: 日中翻訳にも「意味属性体系」が有効
ダウンロード

日中機械翻訳における 名詞訳語の選択 - 計算機C研究室