The 26th Annual Conference of the Japanese Society for Artificial Intelligence, 2012
3I1-R-9-9
オントロジーと HPSG を利用した日本語文の含意判定モデルの提案
A Suggestion of a Model for Recognizing Textual Entailment
of Japanese Sentence using Techniques of Ontology and HPSG
松下 裕
山口 高平
Yu MATSUSHITA
Takahira YAMAGUCHI
慶應義塾大学
Keio University
This paper proposes a model for linguistic semantics, where the principle of compositionality is assumed between lexemes
and the sentence, and lexical semantics is provided from data sources which are achieved to be sharable, context-rich or selfdescriptive owing to the terms and techniques of Web Ontology. Studying on Recognizing Textual Entailment (RTE) tasks
with Japanese sentences is intended to show how the semantics be composed through Head-Driven Phrase Structure
Grammar, with the lexical-level semantic features and clearly specified syntactics, derived from ontologies.
1. はじめに
2. Web オントロジーと語彙
自然言語処理に統計的手法が用いられるようになって久しく,
近年は元来の記号論的手法と相互に洗練し合うことで,形態素
解析や構文解析,係り受け解析の技術では大変高い精度を得
られるソフトウェアが多く開発されている.このような状況のもと
日本でも,文や談話の意味論を大規模な言語資源に即して行
う試みが,少しずつ始められている.
近年の意味論へのアプローチは,チャンク同士の依存関係
(係受け)の分析結果に基づき,各項の予め定義された深層格
タグの系列,さらには照応関係の解消も含めた述語項構造へ
のマッピング,あるいはラベリングをきっかけとしたものが主流で
ある.ここから例えば,事態のオントロジー([乾 07])など高位の
意味論を行う研究が日本では行われている.
本稿で述べる方法論は,こういった現在主流のアプローチと
は異なる方向性を示すもので,深い意味解析に関する議論を
構文論から極力切り離し,語彙の意味論,および文の意味論の
構成を,別の場所で自由に議論する基盤を与えることを目的と
している.このために本稿では,極力形式的な表現を保ちつつ
意味を扱うプロセスに示唆のある素性文法,特に HPSG を再考
することを考え,RDF グラフとオントロジーの技術を援用すること
で,意味論的な操作や議論の可能性を含みつつも意味を持た
ない,言わば意味論の素のようなものを構成する.
これは,例えば述語項構造解析やその扱いに対して直接的
に貢献するものは何もないし,大規模な入力に対する処理速度
や,頻出のパターンを多く含むサンプルの解析精度に関しては,
統計的手法から発展した現在主流の手法,およびそれらの今
後の発展形に敵うべくもない.しかしながらそういった手法の届
かない,発話コンテクストや言語の生成的側面が大きく関るよう
な言語現象に対し,より記号論の本質的な問題に対峙する姿
勢,およびその土台となる,本稿で提案するようなモデルが必
要となる場面が,今後必ず現れるだろう.
本稿では,Web の情報資源のメタ情報記述で利用されること
を想定して設計された Web オントロジーの技術を,自然言語の
語彙と語彙の意味の表現に援用し,これとの整合性を保ちつつ,
意味論を HPSG の理論により構成するモデルを提案する.これ
を RTE(テキスト含意判定)タスクに対する実験を通して,モデル
の有用性を検討する.
Web オントロジーによって語彙意味論を表現する手法につ
いて,いくつかの要素技術の紹介を補足しながら示す.
2.1 RDF と OWL
RDF1(Resource Description Framework)は,Web の情報資源
に関するメタ情報を,形式的に明確な形で表現するための枠組
みである.RDF は有向グラフによる意味ネットワークの形を取り,
ある情報資源(以下リソース)と別のリソースとの関係をノードから
ノードへの有向リンク(プロパティと呼ぶ)で表現し,これを多対多
で展開することができる.RDF においてリソースは,リテラルによ
る表現を除き全て URI2で名前付けされ,実用上の一意識別子
が与えられる.
RDF は本質的に一階述語論理に依っており,この有向リンク
はアリティ 2 の述語記号に対応する.加えて RDF は,リソース
をクラスによってグループ化することができ,こちらは単項述語
記号に対応する.これらは通常のリソースとしても扱うことができ,
他のリソースとの関係の記述が可能である.
RDF に関して特筆すべきこととして,空白ノードの存在がある.
これを含む表明を記述すると,空白ノードを変数とみなし,その
周りの関係を制約として変数を束縛するような存在量子化を表
現することができる.またプロパティ,クラス共にその外延(引数
としたときグラフが真となるリソースの集合)の包含関係を記述す
ることができ,これにより特定のスコープ内の全称量子化を記述
することができる.これらの機能により,RDF によって状況意味
論や DRT を直接表現することも可能である.
OWL3は RDF の構文上に構成されたオントロジー記述言語
である.OWL は基本的に RDF の意味論を全て継承しながら,
クラスを制約ベースで表明するための語彙や,リソース同士の
(同一性ではなく)同義性を表現することで複数のオントロジーを
連携させるための仕組みが追加されている.
RDF の枠組みでは,上位の言語を含むこれらの機能を全て
保持したまま,クラスとプロパティを含む独自の語彙を定義する
ことが可能であり,これを完全な形での再配布および公開する
手段が提供されている.
1
2
連絡先:松下裕,山口高平,慶應義塾大学理工学部
〒223-8522 神奈川県横浜市港北区日吉 3-14-1
TEL:045-566-1614
[email protected], [email protected]
3
-1-
http://www.w3.org/TR/rdf-concepts/
http://tools.ietf.org/html/rfc3986
http://www.w3.org/TR/owl-ref/
The 26th Annual Conference of the Japanese Society for Artificial Intelligence, 2012
20
なお以上に示したそれぞれの技術は,W3C
W3C1 勧告によりその
文法と意味論が規格化されており,少なくとも形式的な解釈は,
少なくとも形式的な解釈は,
常に一意的に与えられるようになっている.
ここで意味素性を,語彙のオントロジーから取得することを考
意味素性を,語彙のオントロジーから取得することを考
える.基本的に素性文法の素性構造は,素性値として素性構
造の埋めこみを含むあらゆる表現をとることができる.従って本
稿では,オントロジーで表明されたリソースへの参照をここに
で表明されたリソースへの参照をここに用
意することを提案する.こうすることで,
こうすることで,単一化経路の恩恵を損
なうことなく,オントロジーの意味論を文の構成的意味論に利用
意味論を文の構成的意味論に利用
する土台を確保することができる.
2.2 オントロジーと語彙
以上で述べたオントロジーの技術には,これ
これを再利用する手
段があり,語彙の意味論を行うために,既存の
既存の資源を利用する
ことができる.そして日本語には,いくつか既に
既に語彙の面である
程度の網羅性を持ったオントロジー資源が公開されている
程度の網羅性を持ったオントロジー資源が公開されているので
ある.代表的なものとして,オントロジーとしての整備
,オントロジーとしての整備にはまだ不
足があるものの,日本語 WordNet2がまず考えられる.
がまず考えられる.あるいは
固有表現や即時性に対応するために,日本語
日本語 Wikipedia オン
トロジー3[玉川 11]の階層関係を利用するのも
のもよいだろう.もし必
要な語彙を含み,様々なプロパティを擁するオントロジー
オントロジーがあれ
ば,Web オントロジーの基礎的な機能である名前付けと上位下
位関係のみを取捨選択し,利用してもよい.
オントロジー意味論の連携
3. 単一化文法,およびオントロジー意味論
モデルの提案
図 2 単一化経路の例
単一化
以下より,Web オントロジーによる意味論から
から,単一化文法,
特に HPSG の方法論を通して文の意味論を構成していく方法
を示す.
一方ここまでの議論だけでは,
では,文の意味を構成する手法とし
て不十分な点がある.すなわち,一つ一つの単一化の操作に
て不十分な点がある.すなわち,
おける,意味素性の操作,扱いが
が未だ明確に示されておらず,
これを与える必要がある.
ここでの重要な目標は,最終的に文のレベルの意味
最終的に文のレベルの意味表現を
構成する際に,それを少なくとも RDF のモデル,意味論に整合
可能なものとすることである.文の意味論に
文の意味論に対して,オントロジー
が供給した語彙の意味素を構造化した形で
構造化した形での表現を与えること
ができてこそ,かつその構造が,
,RDF に整合的であればこそ,
オントロジーに表明した意味関係
意味関係を,意味論の議論に利用する
準備ができたと言えるのである.ここでは,
ここでは,2 つの手法を示す.
3.1 HPSG および JPSG
Head-Driven Phrase Structure Grammar (= HPSG)は,LFG や
GPSG における,主辞の概念,語彙指向の素性表現と単一化,
の素性表現と単一化,
X-bar 理論の抽象化手法等をバランスよく継承した
手法等をバランスよく継承した句構造文法
の一種である.特筆すべきは句構造規則が,ある親範疇 M に
対して,主辞 H とその補語 C を考えた時,以下の
以下の局所的な親と
子の部分木に関する規則のみに抽象化されることと言える.
されることと言える.
(1) 状況意味論の一般的なアプローチ
図 1 HPSG の句構造規則
まずは,状況意味論の研究から発展した
,状況意味論の研究から発展した構成意味論の一般
的な手法をみる.詳細な説明および
.詳細な説明およびスコープの曖昧性などの問
題は省略し,簡単のため英文を例に取ると
英文を例に取ると,例えば次の図 3 の
ようなものになる.
この句構造規則のあり方は,単一化のプロセスを
単一化のプロセスを明解にさせる
と同時に,主辞に大きな役割が与えられてい
に大きな役割が与えられていることからも分かる
通り,文法に依存文法的な性質を与えることにも繋がっている.
与えることにも繋がっている.
統語範疇の素性表現への還元を徹底することで,
同様に文の根を開始記号ではなく動詞範疇
動詞範疇
ることもでき,実際これ以後の分析ではそれを採用する.
,実際これ以後の分析ではそれを採用する.
JPSG(Japanese Phrase Structure Grammar)
Grammar)は,HPSG
語の事情にあわせて変形させた文法理論であり,
[Gunji 87],新しいものでは[大谷 2000]などで研究されている
で研究されている
JPSG
性のデータ構造を配列でなく集合とすることで
関わらない係り受け関係の捕捉を行う.
3.2 意味素性のすり替えと集約
図 3 状況意味論的な構成意味論
語彙の意味から文の意味を構成するにあたって,
語彙の意味から文の意味を構成するにあたって,HPSG では
意味素性を導入している.意味素性は,他の
他の品詞などの素性と
同様に語彙に埋め込まれ,単一化/下位範疇化の経路を経て
様に語彙に埋め込まれ,単一化/下位範疇化の経路を経て
文へと構成される.このプロセスは意味論にとって,少なくとも
は意味論にとって,少なくとも一
つの明確な示唆を与えるものである.
構文木上の中間表現にλ演算式が現れているが,これは
式が現れているが,これは意味
を関数適用の連続によって構成
構成・表現するための,形式論理的
な措置である.ここにオントロジーの意味論を導入するのは難し
ここにオントロジーの意味論を導入するのは難し
いが,この過程の計算を自動化するのは難しくないし,文
いが,この過程の計算を自動化するのは難しくないし,文全体
の意味表現(計算結果)を RDF 上に展開するのも簡単である.
上に展開
ここでむしろ問題なのは,このアプローチを採るために,文法
このアプローチを採るために,文法
的な語彙,すなわち冠詞や否定
的な語彙,すなわち冠詞や否定表現,あるいはもしかすると一
部の助動詞に関して,その論理表現を
部の助動詞に関して,その論理表現を予め知っておく必要があ
り,さらにこれには,オントロジーによる語彙提供が貢献するの
は難しいという点にある.また,日本語に限らず
日本語に限らず,文法的な語彙
1
http://www.w3.org/
http://nlpwww.nict.go.jp/wn-ja/
3 http://wikipedia-ont.sourceforge.jp/
2
-2-
The 26th Annual Conference of the Japanese Society for Artificial Intelligence, 2012
20
は,その他の一般的な語彙にも増してその意味論的解釈が割
一般的な語彙にも増してその意味論的解釈が割
れるところである.本稿ではこういった語彙に関しても,
こういった語彙に関しても,他の語
彙と同様に,オントロジーへの参照に抽象化された意味素性を
割り当て,構成のプロセスとは切り離された議論が行われる
議論が行われるべき
であると考える.
ノードとして存在することが特徴的である.
詞の意味の表現が,ノードとして存在する
ここで,RDF では可能世界意味論
可能世界意味論に従い,リソース同士の関係
性やリソースそれ自身の性質が,
,RDF によって何かを述べる前
から決定しているということに注意する
に注意する.即ち例えば図 5 におけ
る「鳥が飛ぶ」に相当するノード(文の根の直下の最も右側のノ
ード)に関して,ここに head の他 sbj の文法的関係をもったノー
ドが接続されているが,実のところこのノードは, リンクの先の
ドが接続されているが,実のところこのノードは,sbj
ノードが表す概念をもともと内包しているものだということである.
即ち,「飛ぶ」という動詞はもともと匿名の
もともと匿名の<飛ぶ者>というエンテ
ィティに対する<sbj>のインターフェースを持つ
のインターフェースを持つスロットを含み,
例のように実際にプロパティで関係付けられることで,これが具
体化されるという解釈になる.そして文の根のノード
そして文の根のノードは,こういっ
た動詞範疇のクラスを全て継承するので,その意味でこのノー
ドには,文の意味が集約されるということになる.この性質に留
ということになる.この性質に留
意することは,後の含意判定モデルについての議論においても,
非常に重要である.
ところで,このグラフを通常の RDF パーサで解釈する場合,
head プロパティで表現された関係が,クラス-サブクラス関係で
プロパティで表現された関係が,クラス
あることを保証するべく新たな意味論的条件,すなわち公理を
システムに加える必要がある.しかしながら,言語仕様において
定められた語彙拡張のシステムを超えた範囲で,悪戯に公理を
拡張することは望まれないため,通常の RDF(-S)の枠組みの中
で用いられる“rdfs: subClassOf”を用いて,これを表現すべきで
”を用いて,これを表現すべきで
ある.とはいえ本稿において,head
head プロパティを用いて表現を
簡略化することに支障はないため,以後のグラフ表現において
いため,以後のグラフ表現において
も,これを用いていくこととする.
(2) RDF の意味論を利用したアプローチ
そこで,構文木全体を RDF グラフで表現する手法を考える.
おおよそ表層格に相当するような構文論的な関係を表すプロ
パティを導入し,語彙リソース同士を接続する.
パティを導入し,語彙リソース同士を接続する.一方,文法的語
彙に関してもこのグラフに含め,オントロジーから
オントロジーから提供することを
考える.注意したいのは,この場合文法的語彙には他の語彙同
注意したいのは,この場合文法的語彙には他の語彙同
様,識別子と,可能ならば階層関係さえあればよいというこ
様,識別子と,可能ならば階層関係さえあればよいということで
ある.そしてここに,単一化を表現するための head プロパティを
導入する.これらを用いると,HPSG の構文木構造全体を,構成
はそのまま RDF グラフで表すことができる.
ここに意味素性の集約のプロセスを与えるために,
ここに意味素性の集約のプロセスを与えるために,単一化を
示す head リンクに特殊な役割を与える.すなわち,対象
に特殊な役割を与える.すなわち,対象ノード
のタイプ同士が,クラス-サブクラス関係となることを保証する.
となることを保証する.先
に述べたとおり,HPSG において文は全ての単一化操作の結果
全ての単一化操作の結果
が流入するところの動詞範疇である.従って単一化のリンクを,
クラスの継承関係に落としこめば,文の根のノードには理論的
文の根のノードには理論的
に,文の全てのノードの情報が集約されるはずである.
に,文の全てのノードの情報が集約されるはずである.これによ
り構成されたグラフの例が以下である.ただし語彙項目が直接
ただし語彙項目が直接
記述されている部分は,状況意味論に従ってその語彙クラスの
インスタンスであるとする.
4. RTE による思考実験
以上の提案モデルが実際の意味論のタスクにどう貢献する
か 見 る た め , こ れ を テ キ ス ト 含 意 判 定 (Recognizing Text
Entailment = RTE)に用いることを考える.テキスト含意判定は
に用いることを考える.テキスト含意判定は 2
つの文の含意関係,即ち,一方の文の意味内容がもう一方の
,一方の文の意味内容がもう一方の
文の意味内容より,語彙の役割や関係,あるいは
語彙の役割や関係,あるいは常識を参照す
ることで,推論可能かどうかを判定する課題である.この課題は
単純ながら,人間の扱う「意味」に関する結論を急ぐことなく,
人間の扱う「意味」に関する結論を急ぐことなく,一
方で言語現象と意味との関わりを確かに問う,興味深い課題で
ある.本稿ではこれに対して,提案モデルにおける,
提案モデルにおける,構文構造
からの一次的な変換である RDF グラフでアプローチする可能
性を論ずる.
提案モデルによる文の含意関係判定
による文の含意関係判定の手法について,文の
根にあたるノードを比較することが有効だと考えられる.提案で
述べた通り,このノードは理論上文中の
このノードは理論上文中の全ての動詞による叙述
構造を継承している.従ってこのノード同士の比較をしたとき,
従ってこのノード同士の比較をしたとき,
それらがクラス-サブクラス関係にあるならば,
サブクラス関係にあるならば,2 文間に含意関係
があると認めてよいだろう.これら
これらのノード間でクラス-サブクラス
関係が成立する条件として,もっとも単純なのは,
もっとも単純なのは,RDF グラフの
どちらか一方がもう一方のグラフの部分グラフとなることである.
空白ノードに関しては RDF の言語
言語仕様によって,スコーレム化
の操作を用いて,同じ制約をもった空白ノードを含む部分グラ
,同じ制約をもった空白ノードを含む部分グラ
フ同士を等価とするよう,設定されている.
されている.
加えて大変重要な条件は,ある
,あるグラフの部分構造について
他の構成が全く同一な条件で,ただ一箇所の語彙に関して
他の構成が全く同一な条件で,ただ一箇所の語彙に関して異
なるという状態があった場合,語彙
語彙を供給したオントロジーにお
いてそれら語彙の関係が宣言されていれば,それが部分構造
語彙の関係が宣言されていれば,それが部分構造
全体の関係に直接反映されるという
全体の関係に直接反映されるというものである.
図 4 構文木の RDF グラフによる表現
あるいは,日本語の語順の自由性を更に尊重し,以下のように
日本語の語順の自由性を更に尊重し,以下のように
してもよいだろう.
図 5 並列補語を尊重したモデル
この構文木の叙述構造におけるリソース同士
同士の関係につい
て,もう少し詳しく見てみる.提案モデルの構文木においては,
みる.提案モデルの構文木においては,
通常プロパティ,あるいは二項述語記号によって記述される
あるいは二項述語記号によって記述される動
-3-
The 26th Annual Conference of the Japanese Society for Artificial Intelligence, 2012
20
図 6 語彙の関係によって含意判定できるタスク(グラフは簡易形)
文木を RDF グラフで表現するモデルを提案した.そして,この
グラフで表現するモデルを提案した.
モデルの性質を見るために,日本語文のテキスト含意判定タ
スクへの適用可能性について一見した
一見した.
本稿における語彙の意味についての
意味についての扱いは,単語や形態
素レベルの意味論から構成的に意味を構築する
構成的に意味を構築する生成意味論
[Pustejovsky 95]に近いものである
ものである.生成意味論は,語彙に関
する知識獲得の困難,ならびに語彙から意味への集約プロセ
スに対する不信から,単一化文法と共に 90 年代に廃れていっ
た経緯がある.本稿のモデルは
は今後,語彙についての扱いの
自由度を生かして,あらゆる言語資源
言語資源を,横断的に(意味論に
限らず)有効利用する可能性に
可能性についても展望する.すなわち,
タグ付きコーパスなど今まで意味論で用いる事が困難だった
今まで意味論で用いる事が困難だった
言語資源を,意味論で何らかのタスクで利用する道を
意味論で何らかのタスクで利用する道を探ること,
あるいは,系統的扱いが容易な語彙のレベルで,
あるいは,系統的扱いが容易な語彙のレベルで,理論体系や
実装手法の異なる研究者・研究グループ
研究グループ間での意味論的言
語資源の共有を可能にすること
ことなどである.
また,本稿で提案したモデル
モデルがさらに大きな意義を持つとす
れば,意味の議論が,汎用の上位
汎用の上位オントロジーの議論の文脈
や,あるいは実世界指向のシステムにおける
実世界指向のシステムにおける,センサ情報の
記号化の文脈等,人間の意味処理に関する根本的な透察の
場で行われる時であり,そういった
そういった領域への接近も当然,目指
していくつもりである.
この条件により,例えば上図の例題で含意関係を検出すること
の例題で含意関係を検出すること
ができる.例文は「旧経団連は政治献金のあっせんを廃止し
例文は「旧経団連は政治献金のあっせんを廃止し
た。」および「旧経団連は政治献金のあっせんを中止した。
政治献金のあっせんを中止した。」で
あり,ただしここでは,語彙「廃止する」が「中止する」の
が「中止する」のサブク
ラス,または逆あるいは等価なクラスであることを仮定している.
であることを仮定している.
しかしながらこの手法を選択した場合,付加的な構造,およ
付加的な構造,およ
び語彙のクラス関係による含意に関しては判定できても,
び語彙のクラス関係による含意に関しては判定できても,付加
の仕方を無差別化しても等価とならないような
を無差別化しても等価とならないような同義表現,ある
いは言い換え表現については,このモデルだけでは判定不能
このモデルだけでは判定不能
となる.
加えて以下のように,誤った判定を与える場合もある.
以下のように,誤った判定を与える場合もある.以下
では「その鳥は飛べる。」および「その鳥は飛べた。」という
「その鳥は飛べる。」および「その鳥は飛べた。」という 2 文
に関して,このモデルを用いると,後ろの文は前の文を含意す
後ろの文は前の文を含意す
ると結論づけられるが,これは現実的な実感に合わない.
参考文献
図 7 誤った含意判定を与えるケース
ケース
[乾 07] 乾健太郎,竹内孔一,藤田篤,
乾健太郎,竹内孔一,藤田篤 "含意関係計算のため
の事態オントロジーの開発に向けて 電子情報通信学会,
の事態オントロジーの開発に向けて",
言語理解とコミュニケーション研究会 信学技法, Vol.106 ・
言語理解とコミュニケーション研究会,
No.518, pp.233-244 (2007)
[Pustejovsky 95] James Pustejovsky,
Pustejovsky The Generative Lexicon.
The MIT Press (1995).
[ 玉 川 11] 玉 川 奨, 森 田 武 史, 山 口 高 平, "日 本語
Wikipedia からプロパティを備えたオントロジーの構築",人
からプロパティを備えたオントロジーの構築
工知能学会論文誌 特集論文「近未来チャレンジ」 Vol.26
No.4 pp.504-517 (2011)
[Gunji 87] Gunji, T (郡司隆男
郡司隆男), Japanese Phrase Structure
Grammar: A Unification--Based Approach (Studies in
Natural Language and Linguistic Theory),
Theory) Kluwer
Academic Print on Demand (1987)
[大谷 2000] 大谷朗, 宮田高志,
宮田高志 松本裕治,"HPSG にもとづく
実用日本語文法について ", 自然言語処理, Vol7, No.5,
pp.19-39, 11 (2000)
これは実際,特筆すべき事態である.まず,あるノードに
実際,特筆すべき事態である.まず,あるノードに
head 以外のプロパティが付加する場合,それがもとのグラフを
含意する場合としない場合が,現実的にはあることである.もう
あることである.もう
一つは,これが RDF グラフに通常仮定できる
グラフに通常仮定できる単調性の定理と
の矛盾であり,この問題を語彙レベルの関係の宣言の有無に
語彙レベルの関係の宣言の有無に
帰着できないということである.このことから意味論の集約プロ
意味論の集約プロ
セスに関して,クラス・サブクラス関係に執着せず
執着せず,より柔軟な
扱いを導入することが望まれると言える.
5. おわりに
本稿では自然言語,特に日本語の意味論を語彙意味論よ
の意味論を語彙意味論よ
り構成的に得るため,語彙の意味論的関係をオントロジーの
の意味論的関係をオントロジーの
技術によって柔軟な扱いを許す形で宣言し,これを素性文法
の意味素性,特に素性の単一化プロセスについて充分な示唆
のある HPSG におけるそれに埋め込むことで,構成性原理の
下で文の意味論を扱うためのコンセプトを提案した.
を提案した.加えて,
HPSG の方法論から意味論的集約のプロセスを得るため,構
-4-
ダウンロード

PDFファイル