You are here

ゲストさん、ようこそ。 ログインはこちら / アカウント作成はこちら

Information

9月1日から3日に障害の影響を受けた可能性があるジョブの一覧

国立天文台天文シミュレーションプロジェクト 利用者各位

9月1日6:20から9月3日9:00にかけて、XC50システムのLusterファイルシステムにおいて
evictと呼ばれる不具合(Lustreサーバ-Lustreクライアント間の通信でタイムアウトが生じ、その後に再接続が成功しない)が断続的に何度か発生しました。
この障害により、影響を受けたおそれのあるジョブの一覧は以下の通りです。
大変お手数をおかけしますが、ジョブの出力ファイルに破損がないか、ご確認のほどお願いいたします。

多発する不具合により大変なご迷惑をおかけしており、申し訳ございません。
原因の解明および不具合の解決まで、今しばらくお待ちいただけますよう、お願い申し上げます。

XC50システム運用再開

XC50システム利用者各位、

XC50システムに関しまして、8/6(月)から行なっておりました
定期保守作業および大規模実行が終了しましたので、
本日19:00にXC30システムの運用を再開いたしました。
現在は通常通りログイン,ジョブ投入等が可能となっております。

定期保守前には大規模な入出力エラーが起こっており、
多くのジョブがエラー終了しております。ご注意ください。
現在走っているジョブが少ないので追加していただければ幸いです。

入出力エラーに関しては、まだ原因がつかめておりません。
問題の切り分けのために、定期保守ごとに設定を変更しています。
利用者の皆様には長期に渡り御不便をお掛けいたしましたことを
お詫び申し上げます。

本メールに関するご質問やご意見は以下のページからお寄せ下さい。
http://www.cfca.nao.ac.jp/inquiry/

XC50障害情報

国立天文台天文シミュレーションプロジェクト 利用者各位

8月31日17:02、ネットワークノードと計算ノード間でタイムアウトが発生し、
この直後に多数の計算ノードにおいてIOエラーが生じました。
また、9月1日6:20以降も断続的に同様のエラーが発生しております。
これらの対応のため、
9月1日14:10の段階で一時的に新規ジョブの実行を停止させていただいております。
先ごろから頻発しております不具合により、ユーザーの皆様には
ご不便、ご迷惑をおかけしており申し訳ございません。

本件により影響を受けた可能性のあるジョブは以下の通りです。
お手数をおかけしますが、出力ファイルに破損がないかご確認いただけますようお願い申し上げます。

本メールに関するご質問やご意見は以下のページからお寄せ下さい。
http://www.cfca.nao.ac.jp/inquiry/

XC50 計算ノードで生じたIOエラーのお知らせと影響を受けたジョブについて

国立天文台・天文シミュレーションプロジェクト
XC50システム利用者各位

いつも国立天文台・天文シミュレーションプロジェクトのXC50システムをご利用いただき、誠にありがとうございます。

8月28日にXC50システムの計算ノードにおきまして、複数回にわたりIOエラーが発生いたしました。
本IOエラーにより影響を受けたジョブを以下に記載いたしますので、当該ジョブを実行していたユーザはジョブの結果や出力ファイルのご確認をお願いいたします。
なお、エラーによる被害拡大を防ぐため、8月28日3時48分から4時38分まで、また9時46分から10時27分までの間の新規ジョブの実行開始を停止させていただきました。

エラーの発生原因もまだ完全に特定できてはおりませんので、全てのユーザの皆様に今一度出力ファイルに破損がないかをご確認いただきますようお願い申し上げます。
あわせて、本エラーによる被害規模を把握するため、出力ファイルに破損が確認された場合にはお手数ですがご報告いただけますと幸いです。

ユーザの皆様に多大なご迷惑おかけいたしますことを深くお詫び申し上げます。
今後とも天文シミュレーションプロジェクトXC50システムのご利用をよろしくお願いいたします。

ファイルサーバ再稼働延期のお知らせ

国立天文台天文シミュレーションプロジェクト
共同利用計算機をご利用の皆様,

空調機のトラブルによって運用を停止しております,
解析サーバの一部およびファイルサーバにつきまして,
先週のニュースレターで平成30年8月27日(月)より全ての解析サーバと
ファイルサーバの運用を再開する予定とお伝えいたしました.
( http://www.cfca.nao.ac.jp/newsletter/20180820fileserver )
しかし,修理が終了し再稼働した直後に再び当該空調機が異常停止しました.
現時点ではメーカーによる調査が行われているとのことですが,
再修理の可否および時期は共に未定です.

ファイルサーバの運用再開の予定

国立天文台天文シミュレーションプロジェクト
共同利用計算機をご利用の皆様,

空調トラブルによる
解析サーバの縮退運用および
ファイルサーバの運用停止について,
ご不便おかけしております.
これまでの状況に関しては以下の報告をご覧ください.
http://www.cfca.nao.ac.jp/newsletter/20180731fileserver

この度,空調の修理の目処が立ち,
8月27日の月曜から全解析サーバ,
ファイルサーバの運用を再開する予定です.
工事が早く終わればその分運用再開を前倒しします.
また,天候が非常に悪い場合,
工事が延期される場合もありますので,
その時にはまたアナウンスいたします.

この度はお盆休みが挟まったこともあり,
工事の日程がなかなか決まりませんでした.
ご連絡が遅くなったこと,申し訳ありませんでした.

天文台ネットワーク復旧のお知らせ

国立天文台天文シミュレーションプロジェクト 利用者各位

いつも当プロジェクトの計算機をご利用いただきありがとうございます.
8月12日22時頃に発生した国立天文台でネットワークの障害は現在回復しています.
しかし障害発生から13日中夜にかけてのメールおよびウェブフォームからの
問い合わせが,遅延または不着となっている可能性があります.
1週以上経過しても応答がない場合には,お手数ですが
再送いただけますようお願い申し上げます.

本メールに関するご質問やご意見は以下のページからお寄せ下さい。
http://www.cfca.nao.ac.jp/inquiry/

計算サーバ供用再開のお知らせ

国立天文台天文シミュレーションプロジェクト 計算機共同利用者各位

平素より当方の計算機システムを御利用いただき、どうも有り難うございます。
過日(8月13日(月)15時過ぎ)発生した落雷による停電のために停止していた
計算サーバの運用を先ほど開始いたしました。
停電の直前に投入・実行されていたPBSジョブの一覧を以下に添付します。
一部のジョブについては自動的な再投入が行われておりますが、
出力結果などについてご検証ください。
利用者各位に大きな御不便をお掛けしたことをお詫び申し上げます。

本メールに関するご質問やご意見は以下のページからお寄せ下さい。
http://www.cfca.nao.ac.jp/inquiry/

[ご意見募集] largeキューの優先順位の上昇

国立天文台天文シミュレーションプロジェクト 利用者各位

昨年度のユーザーズミーティングにて、
XC30では1000並列以上の大きなジョブが非常に流れにくく、
申請書に書いた課題を達成できないという意見が多く寄せられました。

現在は演算性能がアップグレードされ、コア数が増えたので、
状況は少し改善されていますが、
やはり傾向としては大きなジョブが流れにくいように思います。

この点を改善するため、
主に大きな並列数のジョブを投入するのに使われる
largeキューの優先順位を上げることを検討しています。
現設定では、largeキューとbulkキューの優先順位は同等です。
新設定では、largeキューの優先順位は
bulkキューで例えば1日待った場合の優先順位と等しくなります。
どの程度優先するのかのパラメータの設定は、
様子を見ながら最適なものを探りたいと考えています。

また,これはカテゴリにより優先順位を変えるものではありません.
カテゴリAのlargeキューとカテゴリBのlargeキューの優先順位は同じです.

Pages

Subscribe to RSS - Information