たかがアセンブリ?―次世代シーケンス解析はじめの一歩―
末永 光 *・小山 芳典
超並列 DNA 配列決定装置(いわゆる次世代シーケン
サー)の加速度的な進展の恩恵を受け,研究者の誰もが
手軽にゲノム情報を得ることが可能となった.そして研
究プロジェクト全体に占めるコストと研究開発の重点
は,配列決定そのものよりも,その後のデータ解析に移
行しつつある 1).
次世代シーケンスデータ解析は大きく次の三つの工程
からなる.
(1)読まれた配列データ(リード)のアセ
ンブリ,(2)タンパク質をコードしている領域(ORF)
の同定や機能の推定(アノテーション),
(3)遺伝子発
現ネットワーク解析や比較ゲノム解析などの高次解析.
アセンブリは,その後のゲノム解析の精度を決定づける
重要なはじめの一歩である.にもかかわらず,一見意味
,
(3)に
のある解析データを次々に生み出す工程の(2)
比べると,いくぶん地味な作業で,それゆえ「たかがア
センブリ」と軽視されているのではないだろうか.そこ
で本稿においては,普段あまり陽の目を見ないアセンブ
リ工程に焦点をあててみたい.なお,アセンブリには,
未知のゲノム配列を再構築する de novo と,既知のゲノ
ム配列にリードを重ね合わせるマッピングの二つに分け
られるが,本稿でいうアセンブリとは,de novo アセン
ブリに特化した記述とする.
アセンブリは,しばしば,びりびりに破れた本を復元
する作業に例えられる.紙片は細かく膨大である(100
万∼ 1 億以上のリード)
.また,本には誤植がつきもの
である(読み取りのエラー).しかも内容は一角獣の生
態である(これまで読んだことがないということ:de
novo).感覚的に de novo アセンブリ工程の困難さが想像
いただけたと思う.この復元作業の担い手がアセンブ
ラーと呼ばれるプログラムであり,復元された文字
(DNA)配列を Contig と呼ぶ.ところで,このアセン
ブラーには Newbler や Velvet 以外にもさまざまなもの
が存在していることはご存じであろうか? Wikipedia の
“Sequence assembly”の項を確認すると,現在我々は 40
以上ものアセンブラーを利用できるらしい 2).シーケン
サーの機種やライセンスなどがとりあえずの選択基準と
なろう.しかし PCR を行う際にポリメラーゼが重要な
ファクターになるのと同様に,使用するアセンブラーに
よって得られる配列結果がまったく異なるのである.
Roche 社の 454 システムから得られた trascriptome の
配列データ(741,387 本のリード,約 2 億塩基)を 6 種
のプログラム(CAP3,CLC,MIRA,Newbler ver. 2.3,
Newbler ver. 2.5,SeqMan)でアセンブリし,その結果
を比較した論文が報告された 3).結果をいかに評価する
か実のところは難しい課題であるが,
「より長い Contig,
既知リファレンスゲノム配列との良好なアライメント」
などの指標を用いた場合,
「総合優勝は Newbler 2.5 で,
その他はまあ同程度に優秀,ただし Newbler 2.3 はイケ
テナイ」という結論だ.ただし,ここで重要なのは順位
ではなく,
「異なるアセンブラーを用いると異なる配列
が生まれる」という(当たり前の)結果である.産出さ
れた全 Contig の長さの指標(N50 で表す)はもちろん
ばらばらであるが,Contig の数も 12,000 から 36,000,
合計塩基数は 14.5 Mb から 21.4 Mb と壮大なばらつきぶ
りを示した.これは,重複された Contig や不完全長な
Contig が含まれている可能性も示唆している.ただし
繰り返しになるが,未知配列を復元する(de novo)ので
あるから,各々の Contig の信頼性を評価することは難
しい.逆にスタートの時点でこれだけ異なると,ゴール
ではそれぞれどんな考察が出来上がるのかむしろ比べて
みたい興味に駆られる.
いずれにせよ,
取り扱う配列デー
タと目的によって最適なアセンブラーは異なるというこ
とを認識し,研究者はその都度ベストなアセンブラーを
選択していくべきである.
さらに同論文では,Contig の信頼性の確立という悩
ましい課題への対策についても示されている.
「異なる
アルゴリズムをもつアセンブラーから共通の Contig が
できたら,それはすごく信頼性が高いのではないか」と
いう発想のもとで,
“二次アセンブリ”を推奨している.
つまり,
(i)まず異なる 2 種のプログラムでアセンブリ
を行う.
(ii)次に得られた 2 グループの Contig どうしの
(iii)こ
アセンブリを,第 3 のプログラムを用いて行う.
うして得られた“Robust contig”はより長く良質である.
最近,Minia というメモリ使用量が極端に少ないアセ
ンブラーが,フランスの学生によって開発された 4).我々
にとっては,Minia 自体よりも,これで使用されたアル
ゴリズムが他のプログラムにも応用され,一人ひとりの
研究者が,普通のデスクトップパソコンで利用できる時
代がもうすぐきそうなことに意味があると思う.
次世代シーケンス解析がもっとも力を発揮する研究対
象のひとつは,環境試料(メタゲノム)だと思う.しか
し,リファレンスとなる微生物の種類も数もまったく不
明というかなりやっかいな相手である.そういった五里
霧中の状況の中で,
上記を参考にアセンブリ戦略を立て,
可能な限り良質の Contig を準備して解析のスタート地
点に立つことが,現在我々ができる最善の策ではないだ
ろうか.
1) Sboner, A. et al.: Genome Biol., 12, 125 (2011).
2) http://en.wikipedia.org/wiki/Sequence_assembly
3) Kumar, S. and Blaxter, M. L.: BMC Genomics, 11, 571
(2010).
4) http://minia.genouest.org
* 著者紹介 産業技術総合研究所生物プロセス研究部門(主任研究員) E-mail: [email protected]
28
生物工学 第92巻
ダウンロード

たかがアセンブリ?―次世代シーケンス解析はじめの一歩―