集中講義(東京大学)「化学システム工学特論第3」
バイオインフォマティクス的手法による化合物の性質予測
(5)
遺伝子発現データ解析
タンパク質-リガンド・ドッキング
阿久津 達也
京都大学 化学研究所
バイオインフォマティクスセンター
内容

遺伝子発現データの解析



DNAマイクロアレイ
遺伝子発現データを用いた腫瘍細胞分類
タンパク質ーリガンドのドッキング

ドッキングの各手法/ソフトウェア紹介


DOCK、AutoDock、FlexX、ICM、GOLD
プロファイルを用いた結合予測(SH3-SPOT)
遺伝子発現データの解析

DNAチップ・DNAマイクロアレイ


多数の遺伝子の発現量を同時測定可能
遺伝子発現データ解析

クラスタリング


遺伝子ネットワーク推定


どの遺伝子が似ているか?
どの遺伝子がどの遺伝子を制御しているか?
腫瘍細胞分類

腫瘍のより細かな分類、抗がん剤の適切投与
遺伝子発現データを用いた
腫瘍細胞分類


発現データを観
測することにより、
腫瘍細胞の詳細
な分類を行う
抗がん剤の適切
な投与などに応
用できる可能性
腫瘍細胞
DNAマイク
ロアレイ
Type A
腫瘍の
タイプ
Type B
Eric Landerらの研究I

(1999)
急性白血病の分類
6800個程度の遺伝子の発現データを
利用
 72サンプル
 ALL (acute lymphoblastic leukemias)
 AML (acute myeloid leukemias)

Eric Landerらの研究II





急性白血病のデータ(Golub et al, 1999)
38+34の患者の6817遺伝子の発現量を
AffymetrixのDNAチップで計測
ALL と AML のクラス分け
B-CELL ALL と T-CELL ALL のクラス分け
多数決により決定(ただし、差が少ない場合に
は判定不能とする)
Eric Landerらの研究III

クラス予測



クラス発見



与えられたデータがどの既知クラスに入るかを推定
(重み付き)多数決により推定
新たな腫瘍のタイプを発見
自己組織化マップ(クラスタリング技法の一種)を利用
Informative Gene



クラス予測に有用な遺伝子セット
クラス分けとの相関に基づき選択
Feature Selection (AI分野で数多くの研究)
発現データからの細胞分類
Sample1
Sample2
Sample3
Sample4
Sample5
Sample6
Sample7


遺伝子1
遺伝子2
遺伝子3
遺伝子4
遺伝子5
遺伝子6
タイプ
1.1
2.2
1.3
0.8
4.5
2.6
4.8
4.6
4.1
5.0
2.5
4.3
2.1
5.3
3.9
4.5
0.4
0.5
0.8
0.3
4.3
3.4
4.8
3.5
ALL
0.9
0.9
1.7
0.2
3.0
2.5
2.7
0.5
1.1
1.1
2.8
3.1
0.4
1.2
0.2
3.7
4.3
4.2
AML
ALL
ALL
ALL
AML
AML
実際には発現量はアナログ値
(遺伝子2の発現量)+(遺伝子3の発現量)+(遺伝子4の発現量)>10.0
⇒ALL と推定
分類規則の学習法

判別分析


決定木


人工知能分野で多くの研究
ニューラルネットワーク




統計分野で古くから利用
生物の神経回路網との類似に基づく
脳科学とも深い関連
古くから研究されていたが1980年代から多くの研究
サポートベクタマシン

1995年頃より人工知能、パターン認識などの分野で多く
の研究
サポートベクタマシン


分類のための学習方式
特徴





正負の例(トレーニングデータ)
からマージンを最大化するパ
ラメータを学習
過学習を起こしにくい
様々なカーネルを利用可能
二次計画法を利用(最適性の
保証)
バイオインフォマティクスに
おいても既に様々な応用
テストデータ
margin
SVMによる腫瘍細胞分類(クラス予測)


ALLを正例、AMLを負例とし
て与えて、超平面を学習
新たなサンプルがきたらば、
超平面のどちらにあるかを
判定し、ALLかAMLかを予測


超平面: x+y=k
サンプル (xi,yi)
 xi+yi > k なら ALL
 xi+yi > k なら AML
サンプル
k
x+y = k
ALL
AML
決定木

YES, NO を繰り
返すことにより
分類
xi > 10.0 ?
YES
NO
yi < 5.0 ?
yi > 15.0 ?
YES
ALL
NO
AML
YES
AML
NO
ALL
内容

遺伝子発現データの解析



DNAマイクロアレイ
遺伝子発現データを用いた腫瘍細胞分類
タンパク質ーリガンドのドッキング

ドッキングの各手法/ソフトウェア紹介


DOCK、AutoDock、FlexX、ICM、GOLD
プロファイルを用いた結合予測(SH3-SPOT)
二つのドッキング問題

Rough Docking


多くのリガンドのスクリーニングに利用
幾何的なアルゴリズムに基づく場合が多い


ドッキンググラフ、Geometric Hashing
Detailed Docking


より精密な配置を計算
様々な配置についてのエネルギー計算が必要
DOCK


UCSFのKuntzらが1982年頃より開発
二つの部分に大きく分けられる

SPHGEN


MATCH
リガンドを球集合にマッチするように回転平行移動
実際には複数のMATCHを求めてスコアづけする。また、
MATCHの際に化学的性質を考慮するなど、様々な工夫が
なされている。


タンパク質構造から球の集合を生成
DOCK: SPHGEN




タンパク質の
Connolly Surface を
計算
Active site をカバー
するように球を配置
球をクラスタリングし、
重複する球や大きな
球を削除
球を性質により分類
DOCK: MATCH




点のペア(pi,qj),(pi’,qj’)は以下
の条件を満たせばマッチ
| d(pi,pi’) – d(qj,qj’)| ≦ ε
互いにマッチする点集合を計
算
(pi,qj)を頂点とし、上記条件を
満たすペアの間に辺を置く
⇒ドッキンググラフ G
ドッキンググラフで最大クリー
ク(最大完全部分グラフ)探
索
P
Q
1
4
2
a
c
3
G
(一部)
b
(2,a)
(4,b)
(3,b)
(3,c)
(3,a)
(4,c)
最大クリーク



最大クリーク:頂点数最
大の完全部分グラフ
完全グラフ:どの2頂点
間にも辺があるグラフ
NP困難だが、1万頂点く
らいのグラフなら最適解
も計算可能
AutoDock



Scripps Institute の Morris らが開発
エネルギー極小となる配置を計算
特徴




原子位置などを格子上に限ることによりエネルギー
計算を効率化
Amber に基づく経験的なエネルギー関数
探索のための様々な手法
リガンドの flexibility も扱える
AutoDock:探索機能

大域探索





Simulated Annealing
Distributed SA
Genetic Algorithm
局所探索
大域探索と局所探索の組み合わせ

Lamarckian GA
FlexX


GMDのRarey, Lengauerらが開発
特徴



リガンドの flexibility が扱える
Pose clustering という geometric hashing に似た手
法を用いてリガンドの部分構造が結合可能な(複数
の)位置を計算
リガンドの部分構造を incremental に組み合わせる

現在の部分構造(+配置)に、スコアが最も高くなるような
配置の部分構造を組み合わせる
Geometric Hashing




画像認識などで良く
用いられる
三角形を重ね合わ
せる ⇒ 一意に回
転平行移動が決まる
各三角形ペアごとに
回転平行移動を計
算し、投票
投票数の多い回転
平行移動を解とする
win
bin-A
bin-B
GOLD




Sheffield大の G. Jones らが開発
配置の探索に遺伝的アルゴリズムを利用
回転角や原子の結合位置を遺伝子として記述
エネルギーなどを用いて fitness スコアを計算
1
3
OH
2
3
5
NH2
4
ICM
NYUの Abagyan らが開発
 リガンドの各結合の回転角を変化させる
(Internal Coordinate Mechanics)
 Metropolis アルゴリズムを利用


ただし、Simulated Annealing とは異なる
ドッキング予測の評価

CASP (CASP2)


http://predictioncenter.llnl.gov/casp2/Casp2.html
CAPRI (主にタンパク質どうしのドッキング)


http://capri.ebi.ac.uk/
Proteins 誌に特集号
プロファイルを用いた結合予測(1)



タンパク配列(SH3ドメイン)が
与えられた時、どのペプチドと
結合しやすいかを予測
タンパク質配列の残基位置と
ペプチドの位置の各組み合わ
せについてプロファイルを作成
入力された配列とペプチドの組
み合わせに対し、プロファイル
からスコアを計算 ⇒スコアの
高いペプチドと結合すると予測
SH3-SPOT
protein
P2
P-1
P0
P1
プロファイルを用いた結合予測(2)
seq1
seq2
seq3
N G E
E G Q
E - D
94
95
96
W
W
W
マルチプル
アライメント
97
P2
P1
P0
A C D E
P-1
protein
d
peptide d < 3A
d ≧3A
A
C
D
E
まとめ

遺伝子発現データの解析



DNAマイクロアレイ
遺伝子発現データを用いた腫瘍細胞分類
タンパク質ーリガンドのドッキング

ドッキングの各手法/ソフトウェア紹介


DOCK、AutoDock、FlexX、ICM、GOLD
プロファイルを用いた結合予測(SH3-SPOT)
参考文献

発現データを用いた細胞分類


Golub et al.: Science, 286, 531 (1999)
ドッキング







Ewing & Kuntz: J. Comp. Chem., 18, 1176 (1997) DOCK
Morris et al.: J. Comp. Chem., 19, 1639 (1998)
AutoDock
Rarey et al.: J. Mol. Biol., 261, 470 (1996)
FlexX
Abagyan et al.: J. Comp. Chem., 15, 488 (1994) ICM
Jones et al.: J. Mol. Biol., 267, 727 (1997)
GOLD
Amato et al.: J. Comp. Biol., 10, 239 (2003)
Robotics
Brannetti et al.: J. Mol. Biol., 298, 313 (2000)
SH3-SPOT
ダウンロード

発現データからのガン細胞分類