XC50システム

1. 概要

ここでは本プロジェクトが運用する並列スーパーコンピュータシステムであるCray XC50について説明しています。 この機器の利用を希望する方は、下記の要項に従って利用申請を行ってください。

Cray XC50 (スカラ型並列計算機)

  • システム概要
    • ノード数 1005
    • Intel Xeon Skylake 6148 2.4GHz x 40 cores x 1005 nodes = 40200 cores
    • 計 3.087 Pflops
    • 主記憶 385.9 TB, 384 GB/node
    • ディスク 6.5 PB

2. 利用申請

  • XC50システムの利用を希望される方は「XC50募集要項」を御覧ください。

3. 利用方法など

4. システム情報

システム全体 理論性能 3.087 Pflops
ノード数 1005
総コア数 40200
総主記憶容量 385.9 TB
ストレージ 6.5 PB
インターコネクト Aries,隣接ノード間通信 32GB/s
ネットワークトポロジー Dragonfly, 階層的All-to-All,バイセクションバンド幅によるB/F=0.0013
消費電力 697kW
計算ノード CPU Intel Xeon Gold 6148 (Skylake, 20 cores, 2.4GHz, 1.536 TFlops) x 2基
コア数 2 (CPU数) x 20個 (各CPUが持つコア数) = 40個
主記憶容量 DDR4-2666, 容量: 384GB/node, バンド幅: 256GB/s/node, B/F=0.083
熱設計電力 475W

5. キュー構成

XC50のキューは下記のようにlarge, bulk, test各キューに大別されます。またカテゴリXC-Sに採択された利用者はこの分類とは別に、XC50の全ノードを用いた大規模なジョブ実行が一定の時間にわたり認めれらます。 カテゴリXC-Sで可能となる大規模実行の詳細は募集要項ページの当該項目をご覧ください。

largeキュー
このキューは各カテゴリごとに以下の設定値でジョブを実行できるキューです。

カテゴリ XC-A XC-B+ XC-B XC-MD XC-Trial
キュー名 large-a large-bp large-b large-md large-t
最大同時利用可能コア数 20000 3440 1040 800 120
単一ジョブ最大コア数 20000 3440 520 400 120
最大同時投入数 無制限 無制限 無制限 無制限 無制限
最大同時実行数(括弧内は混雑した場合の値) 10(1) 10(1) 10(1) 10(1) 5(1)
継続時間 24 hour 24 hour 24 hour 24 hour 4 hour

bulkキュー
このキューは各カテゴリごとに以下の設定値でジョブを実行できるキューです。 largeキューと比べ、最大同時利用可能コア数が少ないかわりに、混雑した場合にも最大同時実行数が変わらないのが特徴です。

カテゴリ XC-A XC-B+ XC-B XC-MD
キュー名 bulk-a bulk-bp bulk-b bulk-md
最大同時利用可能コア数 2240 1040 560 200
単一ジョブ最大コア数 560 520 280 80
最大同時投入数 無制限 無制限 無制限 無制限
最大同時実行数 10 10 10 10
継続時間 12 hour 12 hour 12 hour 12 hour

testキュー
このキューは各カテゴリごとに以下の設定値でジョブを実行できるキューです。 largeキューと比べ、最大同時利用可能コア数は大きく、最大同時実行数,継続時間は小さく設定されています。 主にコードの並列化効率,スケーリング等を調べるために使われることを想定されています。

カテゴリ XC-A XC-B+ XC-B XC-MD
キュー名 test-a test-bp test-b test-md
最大同時利用可能コア数 20000 10000 1040 1040
単一ジョブ最大コア数 20000 10000 1040 1040
最大同時投入数 3 3 3 3
最大同時実行数 1 1 1 1
継続時間 0.5 hour 0.5 hour 0.5 hour 0.5 hour

(注)「同時利用可能最大コア数」とは、一人のユーザが同時に実行するジョブで使用しているコア数の合計の最大値です。  例)同時利用可能最大コア数が2400の場合、最大で、2400コア使用のジョブ1本、あるいは1200コア使用のジョブ2本、を実行できます。 同時に実行できるジョブ本数には上限を設けます(例: 800コアx4本、ジョブをサブミットしても、3本までしか同時実行されない、など)。