XD2000におけるOpenMP性能向上方法
XD2000において、OpenMP性能が十分ではないという問題が報告されていましたが、ジョブスクリプトを編集することで性能を向上させられることがわかりました。
具体的には以下を追記します。
XD2000において、OpenMP性能が十分ではないという問題が報告されていましたが、ジョブスクリプトを編集することで性能を向上させられることがわかりました。
具体的には以下を追記します。
XD2000ユーザのみなさま
XD2000 の Cray Programming Environment (CPE) 環境において計算実行に不具合があり、皆様にはご迷惑をおかけしております。
調査の結果、上記の現象ではMPIプロセス総数が64以上の場合にMPI_Init以降の処理が実行されなくなっていることがわかりました。
根本的な解決には至っていないため暫定策となりますが、以下のように ジョブスクリプトを変更することで、CPE 環境でMPIプログラムを実行することが可能です。
PrgEnv-cray, PrgEnv-gnu, PrgEnv-intel にて MPI_Init以降の処理に進むことが確認されています。
(1) PMIの置き換え
export SLURM_MPI_TYPE=pmi2
export LD_LIBRARY_PATH=/lib64:${LD_LIBRARY_PATH}
(2) Cray MPICHの設定変更
export FI_OFI_RXM_USE_SRX=0
export FI_VERBS_PREFER_XRC=0
XD2000ユーザのみなさま
XD2000 の Cray Programming Environment 環境において計算実行に不具合があり、皆様にはご迷惑をおかけしております。
みなさまには Intel oneAPI環境での計算実行をお願いしているところですが、Intel oneAPI環境においてもジョブのステイタスがRのままジョブが進まなくなる事例が複数報告されています。
こちらの事例は再現性はなく、またある程度計算が進んだあとでも発生することが判明しています。
本事象の原因もまだ解明されておらず、事例が発生しているみなさまにはご迷惑をおかけし申し訳ありません。
今後の調査の参考のため、もしお使いのコードで本事象が確認された場合は、実行ファイルのディレクトリの情報とともに以下の問い合わせページからお問い合わせください。
https://www.cfca.nao.ac.jp/consult
どうぞよろしくお願いいたします。
国立天文台CfCA GPUクラスタ利用者各位
平素より当方の計算機システムをご利用いただき、どうも有り難うございます。
GPU機材は12月6日に運用を再開しましたが、その際に手順が確認できておらず
現在、cfca-work のユーザ認証が古いまま運用されています。
また、運用再開時にDGX A100 2台に不具合が発生し、トラブルシュートのために
1台が運用を外れたままになっています。
これらの正常化が可能になりましたので、明日、9時から17時までの予定で
臨時保守を行わせていただきます。作業開始時刻に実行されているジョブについては
キャンセルさせていただきますので予めご承知おき下さい。
また作業の進捗によって運用再開時刻については前後する可能性がございます。
早期再開、遅延については web ページのお知らせ欄に記載いたしますので、
適宜ご確認下さい。前日の連絡となり申し訳ありませんが、
ご理解とご協力をお願い申し上げます。
不明点がございましたら以下のフォームからお問い合わせください。
https://www.cfca.nao.ac.jp/inquiry
(NOTE: English contents follow the Japanese ones)
国立天文台CfCA 計算サーバ(GP-PC)利用者各位
平素より当方の計算機システムをご利用いただき、どうも有り難うございます。
大変遅くなりましたが、先ほど計算サーバ(GP-PC)の供用を再開いたしました。
しかし設定未了な部分がまだ多く、以下はそれを含めた注意点となります。
・既報のように、これまでの中規模サーバ(SPC)と計算サーバ(GP-PC)のノード群が統合されました。
いずれのノードにも m000.cfca.nao.ac.jp からジョブを投入して頂くことになります。
ジョブ管理アプリとしては引き続きpbsをご利用いただきます。
・現時点では、qsubコマンドに -m オプションを付加してもジョブの開始時や終了時のメールが送信されません。
これはCfCA内のメール送信経路が未設定なためです。
この問題は一両日中に解決され、メールが送信されるようなるはずです。
・旧計算サーバ系のキューは従来と不変です (long, mid, short, openmp)。
(NOTE: English contents follow the Japanese ones)
国立天文台CfCA 計算サーバ利用者各位
平素より当方の計算機システムをご利用いただき、どうも有り難うございます。
さて、計算サーバの供用再開は既報の通りまだ少し先になります。
しかし解析サーバは既に供用が再開され、そこでは /mwork1 および /mwork2 以下のファイルが見えるようになっています。
この場所にあるファイルにアクセスが必要な方はご利用ください。
各利用者のホームディレクトリにあるファイルにもアクセスできます。
計算ノードに関しても既報の通り、従来の中規模サーバのノードが統合される予定です。
そのための準備作業が鋭意進んでおりますが、こちらは今しばらくのお時間を要します。
こちらにつきましては引き続きご理解とご協力をお願い申し上げます。
不明点がございましたら以下よりお問い合わせください。
https://www.cfca.nao.ac.jp/inquiry
Dear users of the GP-PC system at CfCA/NAOJ,
国立天文台天文シミュレーションプロジェクト(CfCA) GP-PC(計算サーバ)の利用者各位,
Dear fellow users of the CfCA GP-PC farm,
2024年7月20日 18:30 JST頃、国立天文台三鷹(東京都)近辺への落雷が原因と思われる短時間の停電が発生しました。
このためにCfCAが運用する機材のうち計算サーバを含む幾つかが停止しました。
計算サーバは今朝ほど運用を再開しましたが、停電発生時に実行されていた以下のPBSジョブは強制終了されています。
何本かは自動的に再投入されましたが、再投入されていないジョブもあります。
またこの停電の日の午前中には何台かの計算ノードがハードウェア障害が発生し、本状の末尾に添付したPBSジョブが強制終了されています。
共同利用者の皆様にはご迷惑をお掛けしたことをお詫び申し上げます。
本件に関するご質問やご意見は以下のウェブフォームからお寄せください。
https://www.cfca.nao.ac.jp/inquiry
XC50ユーザのみなさま
いつもXC50をご利用いただきまして誠にありがとうございます。
XC50からXD2000への移行に伴ってファイルシステム(work領域)もリプレイスされます。
その際XC50システムのwork領域内のデータはXD2000システムにコピーされず破棄されます。
必要なデータは8月末の運用終了までに手元やファイルサーバ等に移動するようにしてください。
なおXC50のhome領域内のデータはXD2000システムのhome領域にコピーされますが,
念の為バックアップをお願いいたします。
8月末までのwork領域のデータ引き上げが難しい場合は,
以下の問い合わせフォームからご相談下さい。
http://www.cfca.nao.ac.jp/inquiry
天文シミュレーションプロジェクト
XC50ユーザの皆さま
平素よりCfCAの共同利用計算機をご利用いただきありがとうございます。
本日11:05分頃、XC01が一時的にダウンしました。
XC01は復旧しましたが、その影響でPBS_MOMデーモンがダウンしました。
その際にXC01で実行中または起動しようとした以下のジョブに影響がありました。
お手数ですがジョブの状態をご確認ください。
XC50利用者各位
いつもCfCAの共同利用計算機をご利用いただきましてありがとうございます。
3月26日(火)10:00-15:00の日程で、東京ー水沢回線の中継地点のデータセンター移設作業が行われます。
この影響により、上記時間帯のうち2時間程度はXC50への接続および三鷹機材から /xc-work への接続ができなくなります。
なお、その時点でXC50に投入・実行されているジョブには影響ありません。
ご迷惑をおかけして申し訳ございませんが、よろしくお願いいたします。
天文シミュレーションプロジェクト