超高速ネットワークのためのデータ・レゼボワール
東京大学大学院理学系研究科
情報科学専攻
平木 敬
2001年1月9日
概要
•
•
•
•
•
•
•
ネットワーク(LAN,WAN) の方向性
SUPER SINET計画
東大における理学研究へのネットワーク利用
超高速ネットワーク通信の困難点
データレゼボワ-ルの概要
基本方式・基本設計
今後の課題
情報システムのあり方
• 過去から現在まで
– 1964年 汎用計算機システム元年
• IBM360
• CDC6600
• HITAC5020
2MFLOPS, 1Mバイトメモリ
0.65MFLOPS,
(CDC6600)
256Kバイトメモリ (HITAC5020)
– 2000年 MPP時代 (ASCIを除く)
• IBM SP Power3 1.4TFLOPS,375MHz 1336CPU,1.3TB
• 日立 SR-8000
1TFLOPS, 896CPU (112PE)
• 36年で、約100万倍の速度向上、100万倍のメモリ増大
• 大域ネットワーク
– 50Kbps(1969)から 10Gbps(2000))
30年で20万倍の速度増加
CDC6600
IBM/360 モデル67
IBM SP Power3
SR-8000
(著作権法に触れています。ごめんなさい ⇒ KEK)
2050
2040
2030
2020
2010
2000
WWW
イ
ー
サ
ネ
ッ
ト
1990
1980
汎
用
コ
ン
ピ
ュ
ー
タ
1970
電
子
計
算
機
の
誕
生
1960
1950
1940
情報システムの変身
• 過去4回の大きな変革
現
在
Loadmap of LAN and WAN
FLOPS
Loadmap of computing systems
30
10
32G
27
10
1G
1Y
1Z
Parallel
Computers
1E
1M
1P
8K
4K
1T
32M
Vector Computers
64K
16K
Processor Chips
1K
256
1G
64
16
1M
70
80
90
2000
2010 2020
2030
2040
2050
科学研究における情報システム利用形態
• Numerical Intensive Computation (NIC)
–
–
–
–
シミュレーション、QCD計算、物性理論計算
入力パラメータ:少量、モデル計算中心:大計算量、可視化出力
スーパーコンピュータは、NICに特化した形態
ネットワーク利用:遠隔使用、画像出力、メールやWebなど
• Data Intensive Computation
–
–
–
–
–
実験データ解析、予測、診断
観測データ、精密画像、人工衛星データ:大容量入力
データ並列型の計算(並列化に向く)→ クラスタの利用
同一データセットによる、計算の繰り返し
ネットワーク利用:データ通信、分散データベース
• Bandwidth Intensive Computation
–
–
–
–
動画像、Grid、クラスタ計算
ネットワークバンド幅が、情報処理の主なボトルネック
ネットワーク利用:プロセス間通信、リアルタイム画像
短レイテンシ、高バンド幅
東大
Internet
天文台
100Mbps
高エネ研
UTnet
現在の方法
科技庁
(磁気テープによる
データ通信)
100Mbps
気象庁
Computing
Servers
すばる
宇宙研
CERN
例えば、10Gbps
実質 10Gbps 使うとして
100 TB/day
4.5 TB/hour
たとえば
1 時間に DLT 100 本 程度
full-animation 100 本程度(polygon)
たとえば地震計16000台(1台 64Kbps @気象庁)
10Gbpsは将来への中間地点
10Gbpsは計算機屋には楽でない
•
•
•
•
•
ネットワーク制御 (error rate, latency +
ネットワークI/F (パケットの授受)
I/Oバスバンド幅
Software Overhead(OS,ライブラリ)
Disk I/O (read 20MB/ドライブ
write 10MB/ドライブ)
Data Resevoir の必要性
Window 制御)
10Gbps通信制御
Ethernet
基本パケット長 = 1.5Kバイト
NIC
NIC
100ms (東大 ⇔ CERN)
10μs
6ms(東大 ⇔ KEK)
100μs
100μs
125 MB
7.5 MB
125KB
12.5KB
8
83
83K
5K
10μs
やっかいな問題
•
•
•
•
•
Slow Startによるウィンドウサイズ成長(小さいファイルの場合)
誤り発生によるウィンドウサイズの縮小
自己相関による多数ストリームの不安定性
QoSの協調動作(総合的バンド幅保証)
信頼性層バッファの大規模化
TCPウィンドウ
送信側
ACK
受信側
スーパーSINETによるデータ通信
東大
Data Cache
Server
一橋
Internet
天文台
Data Storage
Stations
高エネ研
科技庁
Computing
Servers
UTnet
気象庁
すばる
宇宙研
CERN
スーパーSINET
関連部分
一般的な処理の流れ
(バランスの一般法則)
1TIPS(TFLOPS)
1TB Memory
100GB Disk
10GIPS(GFLOPS)
10GB Memory
1TB Disk
80命令/バイト入出力
1Gbps
10GIPS
10GB Memory
100TB Disk
10Gbps
8000命令/バイト入出力
10Gb/s
1~10Gbps
10GIPS
10GB Memory
100TB Disk
8命令/バイト入出力
Performance of MBCF on 100BASE-TX
Hardware
Work Station
SPARCstation 20 (85 MHz SuperSPARC × 1)
NIC
Sun Microsystems Fast Ethernet SBus Adapter 2.0
Network
OS
SMC TigerStack 100 5324TX (non-switching 100BASE-TX HUB)
Bay Networks BayStack 350T (switching 100BASE-TX HUB)
SSS-CORE Ver. 1.1
MBCF/100BASE-TX , Peak Band-width (Unit: Mbyte/sec)
data size (byte)
MBCF_WRITE, Half-duplex
4
0.31
16
1.15
64
4.31
256
8.56
1024
11.13
1408
11.48
MBCF_WRITE, full-duplex
0.34
1.27
4.82
9.63
11.64
11.93
MBCF/100BASE-TX , One way latency (μsec)
data size (byte)
MBCF_WRITE
MBCF_FIFO
MBCF_SIGNAL
4
24.5
32
49
16
27.5
32
52.5
64
34
40.5
60.5
256
60.5
73
93
1024
172
210.5
227.5
Peak Bandwidth on 100BASE-TX
Round-trip latency on 100BASE-TX
Performance of MBCF
Hardware
Workstation
NIC
Network
OS and protocol
Sun Microsystems Ultra 60 (450 MHz UltraSPARC-II × 1)
Sun Microsystems GigabitEthernet/P 2.0 Adapter
(direct connection by a cross cable)
SSS-CORE Ver. 2.3
MBCF
Solaris 2.6
TCP/IP
MBCF/1000BASE-SX , Peak band-width (Mbyte/sec)
data size (byte)
4
16
64
256
1024
1408
MBCF
2.29 5.67 22.30 55.41 78.22 80.92
TCP/IP
0.09 0.43 1.67
5.56
12.79 20.21
MBCF/1000BASE-SX , One way latency (μsec)
data size (byte)
4
16
64
256
1024
MBCF
9.6
11.0
11.5
16.2
35.9
TCP/IP
95.08
95.22
95.39
99.45
114.15
Peak Bandwidth by 1000BASE-SX (MBCF_WRITE)
One way latency with 1000BASE-SX(MBCF_WRITE)
ハードウェア解とソフトウェア解
•
ハードウェアによる超高速単一データストリームの実現
–
–
専用ネットワークプロセッサによるプロトコル処理
ワイヤスピードの実現
•
•
•
•
•
計算機内部バスバンド幅による制限
ディスクとのバンド幅による制限
バッファ領域
TCPのウィンドウ制御の問題点
ソフトウェアによる超高速単一データストリームの実現
–
–
クラスタ計算システムによるデータ転送
L4スイッチングによる単一データストリーム化とワイヤスピードの実現
•
•
•
TCPの統一のとれた制御
ストレージレベルでのネットワーク化
流量制御、特に遠距離通信における衝突の制御
超高速ネットワークプロセッサ
•
超高速ネットワークの有効利用への障壁
–
–
–
–
–
–
光通信方式
光・電気インタフェース
プロセッサへのインタフェース
信頼性ある長距離プロトコル
プログラムとのインタフェース
暗号化/復号化通信
→
→
→
→
→
→ 1000Gbpsまで
10Gbpsまで
0.5Gbps で限界
0.15Gbps で限界
0.2Gbps で限界
数10Mbps で限界か?
現状では超高速ネットワークの効率的活用は無理
ギガビット・イーサネットを最大能力で生かすネットワーク方式
(メモリベースプロセッサ:MBP2 の研究・開発)
MBP2プロジェクト
• ギガビット・イーサネットを用いる
• ユーザレベル通信用ネットワークインタフェースVLSIの
新規開発
• MBCF、TCP/IPのインタフェースカード上での実現
• 暗号化/復号化のハードウェア的実現
• フィールドプログラマブル
・ゲートアレイを用いた
プロトタイプ
現在のクラスタ計算システム
• Beowulf class cluster
• Single user system
• MPI based message passing communication
• Gang scheduling
• Linux and Windows
• multi-image operating environment
• Very high overheads due to kernel structure
• Lack of migration capability
• Use of specialized network hardware
•
e.g. myrinet
• memory mapped communication
高速ネットワークを利用したい理学系プロジェクト
実験
現在、テープでデータを物理的に運んでいる
理学系で15 project 程度( over Gbit は2か3)
グラフィックス/CAD (full-screen, interactive)
現在、画像サイズ/rate /リアルタイム性を我慢
大域cluster コンピュータ
100Mbps~1G bpsで PC-cluster が組める。
(SR8000 cluster はおそらく非現実的)
理研
理学系研究科
原子核科学
研究センタ
物理学専攻
生物科学専攻
原研
高エネルギー実験データ
素粒子物理
国際研究センタ
医科学研究所
生物化学専攻
地球惑星科学専攻
放医研
学内研究センタ
CERN
(ジュネーブ)
高エネ研
ゲノム情報
三島
岡崎
京大
地震研
天文学専攻
天文学教育
研究センタ
化学専攻
海半球研究センタ
(気象庁)
気候システム
研究センタ
地殻化学研究センタ
情報科学専攻
海外
データベース
地震・気象情報
すばる
(米国・ハワイ)
フェルミ・ラボ
(米国・イリノイ)
天文観測データ
国立天文台
木曾観測所
宇宙科学研
初期宇宙
研究センタ
地球シミュレーション
衛星観測データ
地球変動研究所
空間情報科学
研究センター
人工衛星観測データ
情報基盤センター
地質調査所
衛星観測データ
新情報処理開発機構
Global Grid
高エネ研
工業技術院
原研
超高速ネットワークを要する理学系の研究プロジェクト
富士通研究所
関連プロジェクト
研究プロジェクト名
地球シュミレータプロ
ジェクト
海半球計画(OHP)
地球環境(気候・大
気)の研究
地震・火山噴火予知計
画
気象予測
目的
計算機シュミレーションに
よる地球環境の解明
地球の内部構造と内部過程
の解明
人工衛星による地球・大気
の構造の解明
波形データからの地震・火
山噴火予知
非揚水型溶存ガス多成分分
析
人工衛星からのデータによ
る気象予測
関連研究機関
地球変動研究所
海半球研究セン
タ
気候システムセ
ンタ
各地の地震観測
所
各地の地下水観
測施設
気候センター,
気象庁
フェルミ研究所
など
SDSS(Sloan Digital
Sky Survey)計画
宇宙の地図の作成
スーパーノバ計画
超新星爆発の観測
Suprime-cam プロジェ
クト
30分角撮影カメラによる ハワイ(すばる
観測
望遠鏡)
カナダに計測器
気球を使った宇宙線の測定
を持込
Bessプロジェクト
各地天文台
データ量
2 週間で 10 テラ. 50テ
ラのテープアーカイブ
1回のプログラムで、2週
間1テラの出力
100ヵ所で1秒ごと遠隔
測定、DAT50本程度
DLTを100本、5本から
10本ごとに分割作業
一回の観測で5本から10
本のDLT
8000万画素
40GB/day
現在は数日に一回テープの
運搬
スーパーカミオカンデ
ニュートリノの観測
素粒子・原子核実験
CERN 加速器 LEP
CERN
50±20 DAT/month
CERN 加速器 LHC
CERN
100MB/sec
国内加速器による実験
KEKなど
20GB/day
Data Resevoir
・
格納速度
10Gをリアルタイム保証するストレージシステムを、学内の計算ファシ
リティに分散して配置することはコスト面から現実的でない
・バンド幅保証
通信データのキャッシングは、バンド幅保証が困難な学内ネットワークの先
ではなく、東大への入り口で行うことが必要である。
・拡張性
シングルストリームの超高速性が要請される幹線ネットワーク接続と 、運
用に弾力性があり、かつ多数の通信が錯綜する学内ネットワーク接続のイ
分離
・信頼性
極高速ネットワーク上でのTCP通信は、非常に高い信頼性と、最適化された
TCPプロトコル制御が求められる。学内レベルではレイテンシが2桁以上
小さいため、信頼性/バンド幅保証に関する制約を著しく小さくすることが
可能であり、また既存機器とのコンパチビリティや運用上の最適パラメータ
設 定でも問題が発生しない
データレザボワールの基本要件
•
•
•
•
遠隔ノード間でのファイルの共有
遠距離通信と近距離通信の分離
10Gbps バンド幅の最大限の利用(いわゆるワイヤ・スピード)
近距離での高バンド幅NFSの実現
– 汎用ハードウェアの利用
– 汎用ソフトウェアの活用
CPU能力
メモリ量
ディスク数
I/Oバス数
NIC数
⇒ パケット処理、NFS処理
⇒ バッファ領域、NFSキャッシュ領域
⇒ 必要なバンド幅の実現
⇒ 必要なバンド幅の実現
⇒ 必要なバンド幅の実現
ネットワーク/ディスク系のストライピングが必須
データレザボワールの実現方式
NFS ポート
NIC メモリ NIC
NIC
NIC
CPU メモリ
CPU
CPU
NIC
SWITCH
NIC
CPU
メモリ
解1)SMPを用いたファイル共有
解2)SANを用いたファイル共有
解3)ローカルディスクを持つクラスタを用いたファイル共有
SMPを用いたデータレゼボワ-ル
ファイル転送/同期
UFS
NFS
NFS ネットワーク
STRIPING層
・ 高価 (SMPのため)
・ メモリ共有が活用されない
・ プログラミングが容易(OSソースがある
場合)
SANを用いたデータレゼボワ-ル
ファイル転送/同期
STRIPING層
STRIPING層
UFS
NFS
NFS ネットワーク
SANのスイッチ
または
双頭FCディスク
ファイル
分割制御
ファイル転
送/同期
ファイル
分割制御
ファイル転
送/同期
ストライ
ピング層
UFS
UFS
ストライ
ピング層
NFS
NFS
ストライ
ピング層
UFS
NFS
ファイル転
送/同期
ファイル
分割制御
ストライ
ピング層
UFS
NFS
ファイル転
送/同期
ファイル
分割制御
ストライ
ピング層
UFS
NFS
クラスタを用いたデータレゼボワ-ル
NFS ネットワーク
Super SINET
10Gbps
Data Resevoirの構成
例:64way SMP
16GE NIC
L4 Switch
100TBディスク
Gigabit
Ethernet 1Gbps
Network Router
Data Cache
Server
Data Storage
Station
例:32ノードクラスタ
Myrinet+GE
10TBディスク
Computing
Servers
バンド幅の計算例
GEの実効転送能力
300Mbps = 37.5MB/s
PCIバスの実効転送能力
CPU
Memory
528MB/s / 4 = 132MB/s
GE・I/F
CPUの処理能力
2 × 1GHz /4 = 500Mops
PCI64/66(528MB/s)
SCSI
I/F
Ultra160(160MB/s)
メモリバス転送能力
133MHz × 8 / 8 = 133MB/s
タイム・スケジュール
• スーパー・SINET
2002年初めから稼動予定
• データレザボワール・パイロットモデル
– 1Gbpsネットワークに対応
– 基本ソフトウェア要素の構築
– 東大理学系 ⇔ KEK, 国立天文台で実験運用
– 2001年10月 試験開始
– 2002年4月 運用開始
• データ・レザボワール(10Gbpsモデル)
– (予算獲得に成功すれば)2003年3月 試験開始
– 2004年4月 運用開始
– ノード数:約64
– ディスク容量 10Tバイト程度
プロジェクトを支える体制
実験 → 共同実験施設、データのリアルタイム入出力
ネットワーク → 100Gbpsの実現へ
情報科学技術
・
・
・
・
・
・
OS技術(特に、負荷分散、マイグレーション)
セキュリティ技術
高速通信プロトコル技術
Grid用コンパイラ技術
パーフォーマンスツール群
可視化、アニメーション方式
情報科学系のメンバー
平木、稲葉、玉造
ダウンロード

Presentation slide