XD2000におけるMOFEDの改修の結果について

XD2000ユーザーの皆様へ

先日お知らせしたとおり、6月3日にXD2000において MOFED の改修を実施いたしました。

その結果、事象A(Kernel Panic)については再発しないことを確認いたしました。一方で、事象C(Intel oneAPI 環境でのジョブ停止)については、残念ながら改修後も継続していることが判明しております。

なお、事象Cは Cray 環境では発生しません。そのため、Intel oneAPI 環境をご利用中の方には、Cray 環境への切り替えをお願いいたします。Cray 環境でも Intel コンパイラーは使用可能ですので、以下の手順をご参照ください。

■ 環境設定方法
bashの場合、tcshの場合それぞれで以下のように環境設定してください。oneAPI用のコマンドは使用しないでください。
【bashをご利用の場合】
$ source /work/opt/local/bin/enable-cpe.sh
【tcshをご利用の場合】
$ source /work/opt/local/bin/enable-cpe.csh

【Intelコンパイラーを使用する場合】
以下のモジュール切り替えを実行してください。
$ module switch PrgEnv-cray PrgEnv-intel

■ バッチスクリプトへの推奨設定
以下の記述は必須ではありませんが、ジョブの実行開始時間が早くなる可能性があるため、記載を推奨いたします。
【bashをご利用の場合】
export SLURM_MPI_TYPE=pmi2
export LD_LIBRARY_PATH=/lib64:${LD_LIBRARY_PATH}
【tcshをご利用の場合】
setenv SLURM_MPI_TYPE pmi2
setenv LD_LIBRARY_PATH /lib64:${LD_LIBRARY_PATH}

※以前は以下の環境変数も推奨しておりましたが、今回のアップデート以降は不要となっております。
export FI_OFI_RXM_USE_SRX=0
export FI_VERBS_PREFER_XRC=0
これらを記載していても支障はありませんが、省略していただいて問題ありません。

■ 今後の方針
事象Cが oneAPI 環境でのみ発生することから、今後のマニュアルでは oneAPI 環境関連の記述を削除する予定です。Cray 環境でのご利用をお願いいたします。

■ 障害の整理

⚪︎事象A:Kernel Panic が発生する
2025年6月1日までは事象Aを回避するための設定を行っておりました。今回の改修によりその設定を行わずとも事象Aが起こらなくなることを確認しました。

⚪︎事象B:Cray環境においてMPIジョブの実行ができない
※この問題はすでに解決済みです。

⚪︎事象C:Intel oneAPI 環境においてジョブが停止する
スケジューラー上では「実行中」と表示されるものの、出力が停止し、実際には計算が進行していない状態となります。

事象CはoneAPI環境でのみ起こるので、Intelコンパイラーが使用可能なCray環境でのジョブ実行を推奨しております。