9月20日に障害の影響を受けた可能性があるジョブの一覧 国立天文台天文シミュレーションプロジェクト 利用者各位 9月20日5:00から同日14:30頃にかけて、XC50システムのLusterファイルシステムにおいて evictと呼ばれる不具合(Lustreサーバ-Lustreクライアント間の通信でタイムアウトが生じ、その後に再接続が成功しない)が断続的に発生しました。 この障害により、影響を受けたおそれのあるジョブの一覧は以下の通りです。 大変お手数をおかけしますが、ジョブの出力ファイルに破損がないか、ご確認のほどお願いいたします。 不具合の頻発によりご迷惑をおかけしていることを深くお詫び申し上げます。 原因の解明および不具合の解決まで今しばらくお待ちいただけますよう、お願い申し上げます。
水沢地区の停電によるXC50の運用停止 国立天文台天文シミュレーションプロジェクト Cray XC50利用者各位 平素よりXC50システムを御利用いただき、どうも有り難うございます。 さて9月20日(木) 21:50-22:12頃、XC50が設置されている 国立天文台水沢VLBI観測所近辺で中規模な停電が発生いたしました。 現時点に於いて電力供給は復帰していますが、 立ち上げに際して電源設備の点検等が必要となるため、 XC50システムの起動には未だ至っておりません。 システムの全復旧は本日(21,金)午前から昼の時間帯となる予定です。 利用者各位には再び大きな御不便をお掛けしますが、 何とぞ御理解と御協力を頂きたく、よろしくお願い申し上げる次第です。 システムが復旧し次第、詳細について改めて広報いたします。 本メールに関するご質問やご意見は以下のページからお寄せ下さい。 http://www.cfca.nao.ac.jp/inquiry/
XC50障害情報 国立天文台天文シミュレーションプロジェクト XC50利用者各位 9月19日(木) 13:56 JSTから15:00 JSTにかけて、 Cray XC50の複数の計算ノードにおいてIOエラーが発生しました。 本件により影響を受けた可能性のあるジョブは以下の通りです。 お手数をおかけしますが、出力ファイルに破損がないかご確認いただけますようお願い申し上げます。 なお不具合への対応のため、近日中にXC50を一時的に停止させていただく可能性があります。 利用者の皆様にご迷惑をおかけしていることをお詫び申し上げます。 本メールに関するご質問やご意見は以下のページからお寄せ下さい。 http://www.cfca.nao.ac.jp/inquiry/
解析サーバ・ファイルサーバの運用再開について 国立天文台天文シミュレーションプロジェクト 共同利用計算機をご利用の皆様 空調機の障害によりさる7月末から停止・縮退を行っておりました 解析サーバおよびファイルサーバにつきまして 本日(平成30年9月13日(木))より全機器の運用を再開いたしました。 利用者の皆様には長期に渡り非常に大きな御迷惑をお掛けしたことを 心よりお詫び申し上げます。 なおファイルサーバの新規利用および容量拡張の申請の受け付けは やや先の再開となる見込みです。 本メールに関するご質問やご意見は以下のページからお寄せ下さい。 http://www.cfca.nao.ac.jp/inquiry/
9月1日から3日に障害の影響を受けた可能性があるジョブの一覧 国立天文台天文シミュレーションプロジェクト 利用者各位 9月1日6:20から9月3日9:00にかけて、XC50システムのLusterファイルシステムにおいて evictと呼ばれる不具合(Lustreサーバ-Lustreクライアント間の通信でタイムアウトが生じ、その後に再接続が成功しない)が断続的に何度か発生しました。 この障害により、影響を受けたおそれのあるジョブの一覧は以下の通りです。 大変お手数をおかけしますが、ジョブの出力ファイルに破損がないか、ご確認のほどお願いいたします。 多発する不具合により大変なご迷惑をおかけしており、申し訳ございません。 原因の解明および不具合の解決まで、今しばらくお待ちいただけますよう、お願い申し上げます。
XC50システム運用再開 XC50システム利用者各位、 XC50システムに関しまして、8/6(月)から行なっておりました 定期保守作業および大規模実行が終了しましたので、 本日19:00にXC30システムの運用を再開いたしました。 現在は通常通りログイン,ジョブ投入等が可能となっております。 定期保守前には大規模な入出力エラーが起こっており、 多くのジョブがエラー終了しております。ご注意ください。 現在走っているジョブが少ないので追加していただければ幸いです。 入出力エラーに関しては、まだ原因がつかめておりません。 問題の切り分けのために、定期保守ごとに設定を変更しています。 利用者の皆様には長期に渡り御不便をお掛けいたしましたことを お詫び申し上げます。 本メールに関するご質問やご意見は以下のページからお寄せ下さい。 http://www.cfca.nao.ac.jp/inquiry/
XC50障害情報 国立天文台天文シミュレーションプロジェクト 利用者各位 8月31日17:02、ネットワークノードと計算ノード間でタイムアウトが発生し、 この直後に多数の計算ノードにおいてIOエラーが生じました。 また、9月1日6:20以降も断続的に同様のエラーが発生しております。 これらの対応のため、 9月1日14:10の段階で一時的に新規ジョブの実行を停止させていただいております。 先ごろから頻発しております不具合により、ユーザーの皆様には ご不便、ご迷惑をおかけしており申し訳ございません。 本件により影響を受けた可能性のあるジョブは以下の通りです。 お手数をおかけしますが、出力ファイルに破損がないかご確認いただけますようお願い申し上げます。 本メールに関するご質問やご意見は以下のページからお寄せ下さい。 http://www.cfca.nao.ac.jp/inquiry/
XC50 計算ノードで生じたIOエラーのお知らせと影響を受けたジョブについて 国立天文台・天文シミュレーションプロジェクト XC50システム利用者各位 いつも国立天文台・天文シミュレーションプロジェクトのXC50システムをご利用いただき、誠にありがとうございます。 8月28日にXC50システムの計算ノードにおきまして、複数回にわたりIOエラーが発生いたしました。 本IOエラーにより影響を受けたジョブを以下に記載いたしますので、当該ジョブを実行していたユーザはジョブの結果や出力ファイルのご確認をお願いいたします。 なお、エラーによる被害拡大を防ぐため、8月28日3時48分から4時38分まで、また9時46分から10時27分までの間の新規ジョブの実行開始を停止させていただきました。 エラーの発生原因もまだ完全に特定できてはおりませんので、全てのユーザの皆様に今一度出力ファイルに破損がないかをご確認いただきますようお願い申し上げます。 あわせて、本エラーによる被害規模を把握するため、出力ファイルに破損が確認された場合にはお手数ですがご報告いただけますと幸いです。 ユーザの皆様に多大なご迷惑おかけいたしますことを深くお詫び申し上げます。 今後とも天文シミュレーションプロジェクトXC50システムのご利用をよろしくお願いいたします。