XD2000ユーザーの皆様へ
平素よりXD2000をご利用いただき、誠にありがとうございます。
◽︎メンテナンスについて
先日、事象Aに対応可能な Infiniband ドライバー(MOFED)の改修版がベンダーよりリリースされました。これを受け、6/2に予定されていた通常の定期メンテナンスに加え、6/3にMOFEDの改修版を導入する予定です。
つまりメンテナンス期間は以下のようになります。
2025年6月2日(月)09:00 ~ 6月3日(火)17:00
XD2000への導入後には動作確認を行い、万一想定外の問題が発生した場合は、現行の環境に戻す対応を行います。今回のメンテナンスは通常より長時間となりますが、皆様のご理解とご協力を賜りますようお願い申し上げます。
◽︎MOFEDの改修に至る経緯
以前のニュースレターでもご案内しましたとおり、現在XD2000において複数の障害が発生しております。内容がやや複雑なため、それぞれの障害に名称を付けてご説明いたします。
⚪︎事象A:Kernel Panic が発生する
現在、XD2000では事象Aを回避するための設定を行っております。そのため、事象A自体は発生しておりません。
一方、事象Aを回避する設定を行った結果として、以下のような新たな障害(事象B・C)が確認されております。
⚪︎事象B:Cray環境においてMPIジョブの実行ができない
※この問題はすでに解決済みです。
⚪︎事象C:Intel oneAPI 環境においてジョブが停止する
スケジューラー上では「実行中」と表示されるものの、出力が停止し、実際には計算が進行していない状態となります。
現在、事象CはoneAPI環境でのみ起こるので、Intelコンパイラーが使用可能なCray環境でのジョブ実行を推奨しております。
MOFEDの改修はこの事象Aを解決するためのものです。ベンダーのテスト環境においては、改修版によって事象Aが解消されたことが確認されております。改修後事象Aを回避する設定をやめることで事象Cの改善も期待しております。
◽︎メンテナンス後のご対応について
メンテナンス後にジョブ実行で問題が確認されましたら、お手数ですが問い合わせページよりご連絡ください。なお、事象Cに関しては、事象Aの回避設定に起因するという仮説に基づいております。そのため、仮説が正しくなければ今回の対応後も事象Cが継続する可能性がございます。その場合には改めてご連絡ください。
今後ともどうぞよろしくお願いいたします。