第12回
自然言語処理
1
自然言語の特徴

プログラミング言語:
- 計算機の処理手順の記述が目的(文語のみ)
- 一意性、完全性を保証

自然言語:
- 人間同士のコミュニケーションが目的
(文語、口語)
- 人間の持つ知識(常識)を前提
- 一意性、完全性は保証されない
2
当初の解析アプローチ
「辞書」(単語が意味する概念を基本的概
念で説明,品詞などの文法的役割に関す
る知識)を重視
 比較的簡単な「文法」で解釈
 汎用性のある解析手法への指向
→ 組合せ的爆発による頓挫
「現代の錬金術」(H.Dreyfus, 1965)

3
SHRDLU (T.Winograd, 1971)
自然言語による質問応答エキスパートシステム
~ 「積み木の世界」
vs. ELIZA, MYCIN
(単純穴埋め方式)
Which cubes is sitting
on the table ?
→
THE LARGE ONE
WHICH SUPPORTS
THE RED PYRAMID.
4
SHRDLU の解釈例


Pick up a big red block.
Will you please stack up both of the red blocks and
either a green cube or a pyramid?
・・・
領域限定(積み木の世界)により,複雑な構造の文
も解析可能化
例)
block: 名詞,動詞,形容詞
塊,まな板,積み木,競り台,型,版木,滑車,街区,・・
5
自然言語理解処理の流れ
1.
2.
3.
4.
入力文を、動詞、名詞などのカテゴリーに分割
(形態素解析)
文法を参照して、文の構造を解析
(統語・構文解析 parsing)
文の意味を解析
文脈(状況を含む)を参照して、談話を理解
3,4は未だホットな研究分野
6
形態素解析
文を構成する最小単位(形態素)を
求める
膠着語:単語の切れ目に空白が無し ex.)日本語



字種切り法
例外)「切れ目」,「申し送り」← 余分な分割!
「第九回知識工学講義」 ← 切れない!
最長一致法
例外)にわ のばら がさいた
形態素辞書利用法
7
自然言語における文法





文の構造: 句構造(Phase Structure)
句構造を木表現したもの: 句構造木
構造を支配している規則: 句構造規則
α→β1 β2 β3・・ βn
α:非終端記号,
βi:非終端記号または終端記号(単語)
句構造規則の集合: 文法
句構造を求めること: 統語解析(構文解析)
8
文法の種類:
句構造規則の記号の現れ方への制約
1.
帰納的可算文法(0型文法):
制約無し.高い表現能力
2.
文脈依存文法(1型文法):
規則の右側の記号数は左側の記号数以上
ex) A B → C D E
3.
文脈自由文法(2型文法):
規則の左側には単一の非終端記号のみ
ex) A → a B C
4.
正規文法(3型文法):
規則の左側には単一の非終端記号,右側には一つの
終端記号,または一つの終端記号と非終端記号
ex) A → a, A → a B
9
Chomskyの標準形
文脈自由文法(2型文法)のうち,
句構造規則を以下の2種類に限定
① A → B C (A, B, Cは非終端記号)
② A → a (Aは非終端記号, aは終端記号)
任意の文脈自由文法は,
Chomskyの標準形に変換可能
10
句構造で用いられる非終端記号

限定詞:DETerminer

名詞:Noun

名詞句:Noun Phrase

動詞:Verb

動詞句:Verb Phrase

前置詞:PREPosition
11
具体例

The boy saw the girl in the bed.
2通りの解釈:
the boy saw the girl in
the bed
(少年がベットにいる場合)
The boy saw the girl in the bed
(少女がベットにいる場合)
12
使われた文法






S → NP VP
NP → DET N
NP → NP PP
(右)
VP → V NP
VP → VP PP
PP → PREP NP
再帰的規則あり






DET → the
N → boy
N → girl
N → bed
V → saw
PREP → in
13
統語解析 (parsing)
文法に基づいて句構造を定めること
*)プログラミング言語にも適用される
句構造規則: プロダクション規則


プロダクション規則の適用の向きによる分類
- トップダウン (top-down)
- ボトムアップ (bottom-up)
探索法による分類
- 縦型・深さ優先 (depth-first search)
- 横型・幅優先 (breadth-first search)
14
トップダウン縦型探索法
左辺から右辺への書換えとみなし、
規則のSから出発して入力文に到達
問題点:
再帰的規則があると多くの部分解グラフが生成
されてしまう。
15
NP書換えの第1規則(NP→DET N)を適用したが、
remainが空で無いので、棄却
トップダウン縦型探索処理の例
1.
部分解グラフ(p)
残りの文(remain)
S
the boy saw the girl in the bed
NP VP
2.
3.
4.
5.
6.
7.
8.
9.
DET
DET
DET
DET
DET
DET
DET
N
N
N
N
N
N
N
VP
the boy saw the girl in the bed
V NP
saw the girl in the bed
V DET N
the girl in the bed
V NP PP
the girl in the bed
V DET N PP
the girl in the bed
V DET N PERP NP
in the bed
V DET N PREP DET N
the bed
16
ボトムアップ横型探索法
右辺から左辺への書換えとみなし、
入力文から出発して規則のSに到達
・CYK (Cocke-Younger-Kasami)法
・チャート法 (chart parsing)
問題点:
最初から長い記号(単語)を扱うため、処理量が
多くなってしまう。
17
CYK表の例
the
boy
saw
the
girl
in
the
bed
18
意味処理
文の意味を表現する





未だ研究中
論理式 ~ 一階述語論理
格文法
意味ネットワーク
フレーム
概念依存構造
19
格文法
(1960年代、C.Filmore)
文の意味を表す構成要素に着目し、この役
割を記述することにより文の意味を表現








動作主格(A): 動作を誘発
経験者格(E): 心理事象を体験
道具格(I): 出来事の直接原因、心理事象を誘発
対象格(O): 動作の対象
源泉格(S): 動作の起点
目標格(G): 動作の終点
場所格(L): 動作が起こる場所
時間格(T): 動作が起こる時間
20
格文法の例
述語: broke
I broke the cup in the kitchen this morning.
A (動作主格) O(対象格)
L (位置格) T (時間格)
動詞に対する格のパターンを予め準備しておく
21
概念依存構造(1970年代、R.C.Schank)
構成要素間の関係をネットワークで表現
述語を11種類の動作(ACT)に分類、
更に、動作主(A)、対象(O)、受益者(R)、
方向(D)、状態(S) で表現
格構造より抽象化された表現
Saigo moved from Tokyo to Kagoshima in 1873.
Saigo
A
PTRANS
Saigo
物理的な移動
O
Tokyo
D
Kagoshima
22
概念依存構造におけるACT(11種類)
PTRANS オブジェクトを物理的に移動する
ATRANS 抽象的なオブジェクトを移動する
PROPEL オブジェクトに物理的な力を加える
MOVE 身体の一部を動かす
INGEST 動物がオブジェクトを体内に取り込む
EXPEL 動物が体内のオブジェクトを体外に出す
GRASP オブジェクトを物理的につかむ
SPEAK 音を生成する
ATTEND 刺激に対して感覚器の注意を集中する
MTRANS 情報の伝達を行なう
MBUILD 思考によって新しい情報を伝達する
23
言語行為 (J.L.Austin,1962)
言語の利用: 何らかの効果をもたらす行為の遂行
~ 遂行的発話(発話イベントが世界の状態に
実際的な変化をもたらす.
言語行為の階層性
1.発話行為: 言葉を発すること
~声に出す,紙に書く,キーボードより打ち込む,・・
2.発話内行為:発話自体が遂行する行為
~ 主張する,命令する,依頼する,約束する,・・
3.発話媒介行為:
発話により結果的に遂行する行為
~ 怖がらせる,納得させる,・・
24
言語行為理論の課題
合理的エージェントの設計
1.言語行為の種類と分類?
2.言語行為の成功/不成功の条件?
3.言語表現と言語行為の対応?
言語行為の分類(J.R.Searle,1969)
1.主張型: 情報の伝達
2.要求型(質問含):世界の状態を発話内容に合致(聞き手)
3.約束型:世界の状態を発話内容に合致(話し手)
4.表出型: 話し手の心理状態の表出
5.宣言型:世界の状態を発話内容に合致(発話内容を実現)
25
ダウンロード

(1):自然言語処理