You are here

ゲストさん、ようこそ。 ログインはこちら / アカウント作成はこちら

Information

XC50障害情報

国立天文台天文シミュレーションプロジェクト XC50利用者各位

9月19日(木) 13:56 JSTから15:00 JSTにかけて、
Cray XC50の複数の計算ノードにおいてIOエラーが発生しました。
本件により影響を受けた可能性のあるジョブは以下の通りです。
お手数をおかけしますが、出力ファイルに破損がないかご確認いただけますようお願い申し上げます。
なお不具合への対応のため、近日中にXC50を一時的に停止させていただく可能性があります。
利用者の皆様にご迷惑をおかけしていることをお詫び申し上げます。

本メールに関するご質問やご意見は以下のページからお寄せ下さい。
http://www.cfca.nao.ac.jp/inquiry/

解析サーバ・ファイルサーバの運用再開について

国立天文台天文シミュレーションプロジェクト
共同利用計算機をご利用の皆様

空調機の障害によりさる7月末から停止・縮退を行っておりました
解析サーバおよびファイルサーバにつきまして
本日(平成30年9月13日(木))より全機器の運用を再開いたしました。
利用者の皆様には長期に渡り非常に大きな御迷惑をお掛けしたことを
心よりお詫び申し上げます。
なおファイルサーバの新規利用および容量拡張の申請の受け付けは
やや先の再開となる見込みです。

本メールに関するご質問やご意見は以下のページからお寄せ下さい。
http://www.cfca.nao.ac.jp/inquiry/

9月1日から3日に障害の影響を受けた可能性があるジョブの一覧

国立天文台天文シミュレーションプロジェクト 利用者各位

9月1日6:20から9月3日9:00にかけて、XC50システムのLusterファイルシステムにおいて
evictと呼ばれる不具合(Lustreサーバ-Lustreクライアント間の通信でタイムアウトが生じ、その後に再接続が成功しない)が断続的に何度か発生しました。
この障害により、影響を受けたおそれのあるジョブの一覧は以下の通りです。
大変お手数をおかけしますが、ジョブの出力ファイルに破損がないか、ご確認のほどお願いいたします。

多発する不具合により大変なご迷惑をおかけしており、申し訳ございません。
原因の解明および不具合の解決まで、今しばらくお待ちいただけますよう、お願い申し上げます。

XC50システム運用再開

XC50システム利用者各位、

XC50システムに関しまして、8/6(月)から行なっておりました
定期保守作業および大規模実行が終了しましたので、
本日19:00にXC30システムの運用を再開いたしました。
現在は通常通りログイン,ジョブ投入等が可能となっております。

定期保守前には大規模な入出力エラーが起こっており、
多くのジョブがエラー終了しております。ご注意ください。
現在走っているジョブが少ないので追加していただければ幸いです。

入出力エラーに関しては、まだ原因がつかめておりません。
問題の切り分けのために、定期保守ごとに設定を変更しています。
利用者の皆様には長期に渡り御不便をお掛けいたしましたことを
お詫び申し上げます。

本メールに関するご質問やご意見は以下のページからお寄せ下さい。
http://www.cfca.nao.ac.jp/inquiry/

XC50障害情報

国立天文台天文シミュレーションプロジェクト 利用者各位

8月31日17:02、ネットワークノードと計算ノード間でタイムアウトが発生し、
この直後に多数の計算ノードにおいてIOエラーが生じました。
また、9月1日6:20以降も断続的に同様のエラーが発生しております。
これらの対応のため、
9月1日14:10の段階で一時的に新規ジョブの実行を停止させていただいております。
先ごろから頻発しております不具合により、ユーザーの皆様には
ご不便、ご迷惑をおかけしており申し訳ございません。

本件により影響を受けた可能性のあるジョブは以下の通りです。
お手数をおかけしますが、出力ファイルに破損がないかご確認いただけますようお願い申し上げます。

本メールに関するご質問やご意見は以下のページからお寄せ下さい。
http://www.cfca.nao.ac.jp/inquiry/

XC50 計算ノードで生じたIOエラーのお知らせと影響を受けたジョブについて

国立天文台・天文シミュレーションプロジェクト
XC50システム利用者各位

いつも国立天文台・天文シミュレーションプロジェクトのXC50システムをご利用いただき、誠にありがとうございます。

8月28日にXC50システムの計算ノードにおきまして、複数回にわたりIOエラーが発生いたしました。
本IOエラーにより影響を受けたジョブを以下に記載いたしますので、当該ジョブを実行していたユーザはジョブの結果や出力ファイルのご確認をお願いいたします。
なお、エラーによる被害拡大を防ぐため、8月28日3時48分から4時38分まで、また9時46分から10時27分までの間の新規ジョブの実行開始を停止させていただきました。

エラーの発生原因もまだ完全に特定できてはおりませんので、全てのユーザの皆様に今一度出力ファイルに破損がないかをご確認いただきますようお願い申し上げます。
あわせて、本エラーによる被害規模を把握するため、出力ファイルに破損が確認された場合にはお手数ですがご報告いただけますと幸いです。

ユーザの皆様に多大なご迷惑おかけいたしますことを深くお詫び申し上げます。
今後とも天文シミュレーションプロジェクトXC50システムのご利用をよろしくお願いいたします。

ファイルサーバ再稼働延期のお知らせ

国立天文台天文シミュレーションプロジェクト
共同利用計算機をご利用の皆様,

空調機のトラブルによって運用を停止しております,
解析サーバの一部およびファイルサーバにつきまして,
先週のニュースレターで平成30年8月27日(月)より全ての解析サーバと
ファイルサーバの運用を再開する予定とお伝えいたしました.
( http://www.cfca.nao.ac.jp/newsletter/20180820fileserver )
しかし,修理が終了し再稼働した直後に再び当該空調機が異常停止しました.
現時点ではメーカーによる調査が行われているとのことですが,
再修理の可否および時期は共に未定です.

ファイルサーバの運用再開の予定

国立天文台天文シミュレーションプロジェクト
共同利用計算機をご利用の皆様,

空調トラブルによる
解析サーバの縮退運用および
ファイルサーバの運用停止について,
ご不便おかけしております.
これまでの状況に関しては以下の報告をご覧ください.
http://www.cfca.nao.ac.jp/newsletter/20180731fileserver

この度,空調の修理の目処が立ち,
8月27日の月曜から全解析サーバ,
ファイルサーバの運用を再開する予定です.
工事が早く終わればその分運用再開を前倒しします.
また,天候が非常に悪い場合,
工事が延期される場合もありますので,
その時にはまたアナウンスいたします.

この度はお盆休みが挟まったこともあり,
工事の日程がなかなか決まりませんでした.
ご連絡が遅くなったこと,申し訳ありませんでした.

天文台ネットワーク復旧のお知らせ

国立天文台天文シミュレーションプロジェクト 利用者各位

いつも当プロジェクトの計算機をご利用いただきありがとうございます.
8月12日22時頃に発生した国立天文台でネットワークの障害は現在回復しています.
しかし障害発生から13日中夜にかけてのメールおよびウェブフォームからの
問い合わせが,遅延または不着となっている可能性があります.
1週以上経過しても応答がない場合には,お手数ですが
再送いただけますようお願い申し上げます.

本メールに関するご質問やご意見は以下のページからお寄せ下さい。
http://www.cfca.nao.ac.jp/inquiry/

Pages

Subscribe to RSS - Information