BioIE のための
自然言語処理技術
東京大学 辻井研究室
JST研究員 鶴岡 慶雅
Outline
• 言語処理資源
– GENIAコーパス
• 言語処理ツール
–
–
–
–
最大エントロピー法
バイオテキスト用品詞タガー
バイオテキスト用専門用語タガー
HPSGパーザ
• 応用
– MEDLINEからの遺伝子・疾患関係の抽出
言語資源の構築
• 言語処理研究のためのリソース
– ドメイン知識
– コーパスベースの技術のための学習データ
– システムの汎用性を評価するめの評価データ
• 現在開発中のリソース
– GENIA リソース
• オントロジー:ドメイン固有概念を体系化
• コーパス:概念の実テキスト上での表現
GENIAコーパスの概要
•
MEDLINE アブストラクト 4,000件
– ヒト血球細胞における転写因子に関する論文
(Human, Blood cells, Transcription factors)
•
•
XML形式
現在開発中のコーパス(赤字は公開中)
–
–
–
–
専門用語とその意味(Kim et al 2003)
品詞(Tateisi et al 2004)
構文木
照応(Institute of Infocomm Research, Singapore)
GENIA専門用語コーパス
The peri-kappa B site mediates human immunodeficiency
DNA
virus
virus type 2 enhancer activation in monocytes …
cell_type
• GENIAオントロジーに基づく意味クラスを付与
• 規模
– アブストラクト 2,000件
– 用語数
92,723語
– 総異なり数 36,568語
GENIA品詞コーパス
The peri-kappa B site mediates human immunodeficiency
DT
NN
NN NN
VBZ
JJ
NN
virus type 2 enhancer activation in monocytes …
NN NN CD
NN
NN
IN
NNS
• 個々のトークンに品詞タグを付与
• 規模
– アブストラクト 2,000件
– 20,544文
– 50,1054単語(Penn Treebank の約半分)
GENIA構文木コーパス
S
VP
VP
PP
NP
NP
ADJP
CD3-episilon expression is controlled by a downstream T lymphocyte-specific enhancer element
•
•
Penn TreeBank の基準に基づき木構造を付与
規模
– アブストラクト 200件
– 12月までに500件
– 年度末に1500件(15,000文、Penn Treebankの約3分の1)
Outline
• 言語処理資源
– GENIAコーパス
• 言語処理ツール
–
–
–
–
最大エントロピー法
バイオテキスト用品詞タガー
バイオテキスト用専門用語タガー
HPSGパーザ
• 応用
– MEDLINEからの遺伝子・疾患関係の抽出
最大エントロピー法による
機械学習
• Log-linear model
素性の重み
素性関数
1
 F

qx   exp  i f i x 
Z
 i 1

不等式制約による最大エントロピー法 (Kazama and Tsujii 2003)
• Gaussian prior と似たような効果
• 学習結果(パラメータ)がスパースになるためモデルサイズが小さい
• 実行時速度・プログラムサイズの点で高い実用性
品詞タグ付け
The peri-kappa B site mediates human immunodeficiency
DT
NN
NN NN
VBZ
JJ
NN
virus type 2 enhancer activation in monocytes …
NN NN CD
NN
NN
IN
NNS
• 新聞記事などに対しては高精度のタガーが利用
可能
– Brill’s tagger, TnT tagger, MX POST, etc.
– 約97%
• 汎用タガーはMEDLINEでは精度がでない
TnT tagger (Brants 2000)
によるタグ付け誤り例
… and membrane potential after mitogen binding.
CC
NN
NN
IN
NN
JJ
… two factors, which bind to the same kappa B enhancers…
CD NNS WDT NN TO DT JJ NN NN NNS
… by analysing the Ag amino acid sequence.
IN VBG DT VBG JJ NN
NN
… to contain more T-cell determinants than …
TO VB RBR JJ
NNS
IN
Stimulation of interferon beta gene transcription in vitro by
NN
IN JJ
JJ NN
NN
IN NN IN
GENIAコーパスでの
TnT tagger の精度
• いくつかのタグを同一視して評価
精度
オリジナル
NNP = NN, NNPS = NNS
84.4%
90.0%
LS = NN
91.3%
JJ = NN
94.9%
実質的には94%前後?
GENIA tagger
• 確率モデル
– Maximum Entropy Markov Model (MEMM)



  P t t

w 
P t1n w1n   P ti t1i 1w1n
i
i i 1
n
1
i
分類問題なので最大エントロピー法で機械学習
学習
• 素性
t 1  X
t 1wi  X
wi  X
wi 1  X
wi 1wi  X
wi wi 1  X
the first letterof wi is uppercase
X is suffix of wi , X  5
• 訓練コーパス
– Wall Street Journal (WSJ)
39,832文
– GENIA corpus
18,508文
タグ付け精度
• GENIA tagger
(参考)TnT tagger
学習コーパス
WSJ
GENIA
学習コーパス
WSJ
GENIA
WSJ
97.0
84.3
WSJ
96.7
84.3
GENIA
75.2
98.1
GENIA
80.1
97.9
WSJ+GENIA
96.9
98.1
WSJ+GENIA
96.5
97.5
特化した場合と比較して
ほとんど精度低下なし
特化した場合よりも 0.2 ~ 0.4
ポイント程度精度低下
固有表現認識(NER)
• 文の中で, 固有表現(人名, 地名, ..., タンパク質名などの情報
抽出にとって重要なオブジェクト)が現れている場所を認識しそ
のタイプを判定する
“Thus, CIITA not only activates the expression of class II genes but
DNA
PROTEIN
recruits another B cell-specific coactivator to increase transcriptional
activity of class II promoters in B cells.”
DNA
CELL TYPE
IOB tagging
個々の単語に対するタグ付けタスクとして捉える:
( IOB tagging; Ramshaw and Marcus 1995)
Number of glucocorticoid receptors in lymphocytes …
O
O B-PROTEIN I-PROTEIN O B-CELLTYPE
B-X: タイプXの固有表現の始まり
I-X: タイプXの固有表現の中
O: それ以外
部分単語列判定モデル
W1
W2
W3
W4
• 可能な部分単語列を分類するタスクと考える
– MEMMやCRFなどでは扱えない素性を導入できる
– ただし 1文あたり単語数の2乗個の分類 ⇒ 多すぎ
る
• 効率的な学習
– named entity の一部になる確率が低い単語を含む部
分単語列を除外 ⇒ 学習可能に
学習
• 素性
• 学習器
wb  2 wb 1  X
wb  2  X
wb 1we 1  X
wb 1  X
we 1we  2  X
we 1  X
wb  X
we  2  X
we  X
wi  X , i  b, i  e
t he first and t he last let t erof wi are
uppercase
X is suffix of we , X  5
– Maximum entropy model
• LMVM
• cutoff = 0
• Gaussian prior = 1000
• 訓練データ:
– 2000 abstracts
– shared task の training
set
– 1/10 を development set
として利用
テストセットでの精度
• Shared task at Coling 2004 BioNLP workshop
Recall
Precision F-score
SVM+HMM (Zho
2004)
76.0
69.4
72.6
本手法
MEMM (Fin 2004)
71.5
71.6
70.2
68.6
70.8
70.1
CRF (Set 2004)
70.3
69.3
69.8
HPSGパージング
• HPSG
HEAD: verb
SUBJ: <>
COMPS: <>
– 少ない文法規則
– 大量の語彙項目
– 項構造を出力
Subject-head schema
HEAD: verb
SUBJ: <noun>
COMPS: <>
語彙項目
Head-modifier schema
HEAD: noun
SUBJ: <>
COMPS: <>
HEAD: verb
SUBJ: <noun>
COMPS: <>
Mary
walked
HEAD:
adv
MOD: verb
slowly
• 文法 (Miyao et al.
2004)
– 確率モデル
• Log-linear
• コーパスから学習
Phrase structure
s
vp
vp
np
pp
dt
np
DT
NN
The
company
vp
vp
VBZ VBN
is
run
pp
np
IN
PRP
by
him
Predicate-argument structure
s
vp
vp
np
arg2
mod
dt
np
DT
NN
The
company
vp
vp
VBZ VBN
is
pp
arg1
run
pp
np
IN
PRP
by
him
述語・項構造を利用した
情報検索
Parsing MEDLINE by Enju
• Enju の GENIA Treebank での精度評価
全ての文
文法でカバーされている文
文数
1,556
LP / LR
82.8 / 81.5
UP / UR
86.4 / 85.1
1,104
86.8 / 86.5
88.7 / 88.4
Outline
• 言語処理資源
– GENIAコーパス
• 言語処理ツール
–
–
–
–
最大エントロピー法
バイオテキスト用品詞タガー
バイオテキスト用専門用語タガー
HPSGパーザ
• 応用
– MEDLINEからの遺伝子・疾患関係の抽出
対象テキスト
• MEDLINEアブストラクト 150万件
– 疾患と遺伝子の関係を記述していそうな論文
– MeSH Term による絞込み
• “Disease Category” AND (“Amino Acids, Peptides, and
Proteins” OR “Genetic Structures”)
• パージング
– HPSGパーザを利用して全ての文を解析
– 実行環境: PCクラスタ(100 processors with GXP)
– 時間: 約10日間
テキストに記述されている疾患・
遺伝子関係
These results suggested that targeted disruption
of Cyp19 caused anovulation and precocious
depletion of ovarian follicles
Furthermore, AML cells with methylated
p15(INAK4B) tended to express higher levels
of DNMT1 and 3B.
学習データ
• 遺伝子・疾患の共起に対して専門家が「関係
あり/なし」のアノテーション
All foals with OLWS were homozygous for the Ile118Lys EDNRB mutation,
and adults that were homozygous were not found.
Dominant radial drusen and Arg345Trp EFEMP1 mutation.
The 5 year overall survival (OS) and event-free survival (EFS) were 94 and
90 +/- 8%, respectively, with a median follow-up of 48 months.
These data may indicate that formation of parathyroid adenoma in young
patients is related to a mechanism involving EGFR.
:
述語・項構造を利用した素性
ARG1
gene/disease
ARG2
X
disease/gene
• These results suggested that targeted disruption of
Cyp19 caused anovulation and precocious depletion
of ovarian follicles.
• Furthermore, AML cells with methylated
p15(INAK4B) tended to express higher levels of
DNMT1 and 3B.
疾患・遺伝子関係抽出精度
• 学習/評価データ: 2,253文
• 10-fold cross validation
素性
なし
recall
precision f-score
1.0
0.351
0.520
+ bag of words
0.733
0.682
0.706
+ local context
0.733
0.695
0.714
+ 述語・項構造
0.759
0.710
0.733
DGA explorer
まとめ
• バイオテキスト用品詞タガー
– PTBとGENIAコーパスを利用して学習
– Precision: 97%
• バイオテキスト用専門用語タガー
– F-score: 70.8%
• Enju on the GENIA treebank
– LP/LR: 82.8% / 81.5%
• MEDLINEからの遺伝子・疾患関係の抽出
– F-score: 73%
公開ソフトウェア・リソース
• GENIA
–
–
–
–
–
–
–
専門用語コーパス
品詞コーパス
構文木コーパス
照応コーパス(公開予定, シンガポール大)
品詞タガー
専門用語タガー(予定)
HPSGによるパーズ結果(MEDLINE10万件)
• Enju(HPSGパーザ)
• MEDUSA(項構造を利用した情報検索システ
ム)
• LiLFeS
ダウンロード

verb