You are here

ゲストさん、ようこそ。 ログインはこちら / アカウント作成はこちら

Information

XC50システム運用再開とジョブ再投入のお願い

国立天文台天文シミュレーションプロジェクト
Cray XC50利用者各位

9月21日(金) 19:00に
XC50が停電による運用停止状態から復旧しました。
以下ではアナウンスでは
本日午後に復旧としておりましたが、
復旧が遅れて大変申し訳ありません。
http://www.cfca.nao.ac.jp/newsletter/20180921powerfailure

この停電に伴い、これまで投入されていたジョブが"全て"異常終了しております。
つまり、qstatにおけるRの状態のものだけではなく、
Q状態、H状態のジョブも異常終了しております。

お手数ですが、もう一度投入いただけるよう、よろしくお願いいたします。

本メールに関するご質問やご意見は以下のページからお寄せ下さい。
http://www.cfca.nao.ac.jp/inquiry/

XC50障害情報

国立天文台天文シミュレーションプロジェクト 利用者各位

9月20日に障害の影響を受けた可能性があるジョブの一覧

国立天文台天文シミュレーションプロジェクト 利用者各位

9月20日5:00から同日14:30頃にかけて、XC50システムのLusterファイルシステムにおいて
evictと呼ばれる不具合(Lustreサーバ-Lustreクライアント間の通信でタイムアウトが生じ、その後に再接続が成功しない)が断続的に発生しました。
この障害により、影響を受けたおそれのあるジョブの一覧は以下の通りです。
大変お手数をおかけしますが、ジョブの出力ファイルに破損がないか、ご確認のほどお願いいたします。

不具合の頻発によりご迷惑をおかけしていることを深くお詫び申し上げます。
原因の解明および不具合の解決まで今しばらくお待ちいただけますよう、お願い申し上げます。

水沢地区の停電によるXC50の運用停止

国立天文台天文シミュレーションプロジェクト
Cray XC50利用者各位

平素よりXC50システムを御利用いただき、どうも有り難うございます。
さて9月20日(木) 21:50-22:12頃、XC50が設置されている
国立天文台水沢VLBI観測所近辺で中規模な停電が発生いたしました。
現時点に於いて電力供給は復帰していますが、
立ち上げに際して電源設備の点検等が必要となるため、
XC50システムの起動には未だ至っておりません。
システムの全復旧は本日(21,金)午前から昼の時間帯となる予定です。
利用者各位には再び大きな御不便をお掛けしますが、
何とぞ御理解と御協力を頂きたく、よろしくお願い申し上げる次第です。
システムが復旧し次第、詳細について改めて広報いたします。

本メールに関するご質問やご意見は以下のページからお寄せ下さい。
http://www.cfca.nao.ac.jp/inquiry/

XC50障害情報

国立天文台天文シミュレーションプロジェクト XC50利用者各位

9月19日(木) 13:56 JSTから15:00 JSTにかけて、
Cray XC50の複数の計算ノードにおいてIOエラーが発生しました。
本件により影響を受けた可能性のあるジョブは以下の通りです。
お手数をおかけしますが、出力ファイルに破損がないかご確認いただけますようお願い申し上げます。
なお不具合への対応のため、近日中にXC50を一時的に停止させていただく可能性があります。
利用者の皆様にご迷惑をおかけしていることをお詫び申し上げます。

本メールに関するご質問やご意見は以下のページからお寄せ下さい。
http://www.cfca.nao.ac.jp/inquiry/

解析サーバ・ファイルサーバの運用再開について

国立天文台天文シミュレーションプロジェクト
共同利用計算機をご利用の皆様

空調機の障害によりさる7月末から停止・縮退を行っておりました
解析サーバおよびファイルサーバにつきまして
本日(平成30年9月13日(木))より全機器の運用を再開いたしました。
利用者の皆様には長期に渡り非常に大きな御迷惑をお掛けしたことを
心よりお詫び申し上げます。
なおファイルサーバの新規利用および容量拡張の申請の受け付けは
やや先の再開となる見込みです。

本メールに関するご質問やご意見は以下のページからお寄せ下さい。
http://www.cfca.nao.ac.jp/inquiry/

9月1日から3日に障害の影響を受けた可能性があるジョブの一覧

国立天文台天文シミュレーションプロジェクト 利用者各位

9月1日6:20から9月3日9:00にかけて、XC50システムのLusterファイルシステムにおいて
evictと呼ばれる不具合(Lustreサーバ-Lustreクライアント間の通信でタイムアウトが生じ、その後に再接続が成功しない)が断続的に何度か発生しました。
この障害により、影響を受けたおそれのあるジョブの一覧は以下の通りです。
大変お手数をおかけしますが、ジョブの出力ファイルに破損がないか、ご確認のほどお願いいたします。

多発する不具合により大変なご迷惑をおかけしており、申し訳ございません。
原因の解明および不具合の解決まで、今しばらくお待ちいただけますよう、お願い申し上げます。

XC50システム運用再開

XC50システム利用者各位、

XC50システムに関しまして、8/6(月)から行なっておりました
定期保守作業および大規模実行が終了しましたので、
本日19:00にXC30システムの運用を再開いたしました。
現在は通常通りログイン,ジョブ投入等が可能となっております。

定期保守前には大規模な入出力エラーが起こっており、
多くのジョブがエラー終了しております。ご注意ください。
現在走っているジョブが少ないので追加していただければ幸いです。

入出力エラーに関しては、まだ原因がつかめておりません。
問題の切り分けのために、定期保守ごとに設定を変更しています。
利用者の皆様には長期に渡り御不便をお掛けいたしましたことを
お詫び申し上げます。

本メールに関するご質問やご意見は以下のページからお寄せ下さい。
http://www.cfca.nao.ac.jp/inquiry/

XC50障害情報

国立天文台天文シミュレーションプロジェクト 利用者各位

8月31日17:02、ネットワークノードと計算ノード間でタイムアウトが発生し、
この直後に多数の計算ノードにおいてIOエラーが生じました。
また、9月1日6:20以降も断続的に同様のエラーが発生しております。
これらの対応のため、
9月1日14:10の段階で一時的に新規ジョブの実行を停止させていただいております。
先ごろから頻発しております不具合により、ユーザーの皆様には
ご不便、ご迷惑をおかけしており申し訳ございません。

本件により影響を受けた可能性のあるジョブは以下の通りです。
お手数をおかけしますが、出力ファイルに破損がないかご確認いただけますようお願い申し上げます。

本メールに関するご質問やご意見は以下のページからお寄せ下さい。
http://www.cfca.nao.ac.jp/inquiry/

Pages

Subscribe to RSS - Information