You are here

ゲストさん、ようこそ。 ログインはこちら / アカウント作成はこちら

Information

計算サーバ供用再開のお知らせ

国立天文台天文シミュレーションプロジェクト 計算機共同利用者各位

平素より当方の計算機システムを御利用いただき、どうも有り難うございます。
過日(8月13日(月)15時過ぎ)発生した落雷による停電のために停止していた
計算サーバの運用を先ほど開始いたしました。
停電の直前に投入・実行されていたPBSジョブの一覧を以下に添付します。
一部のジョブについては自動的な再投入が行われておりますが、
出力結果などについてご検証ください。
利用者各位に大きな御不便をお掛けしたことをお詫び申し上げます。

本メールに関するご質問やご意見は以下のページからお寄せ下さい。
http://www.cfca.nao.ac.jp/inquiry/

[ご意見募集] largeキューの優先順位の上昇

国立天文台天文シミュレーションプロジェクト 利用者各位

昨年度のユーザーズミーティングにて、
XC30では1000並列以上の大きなジョブが非常に流れにくく、
申請書に書いた課題を達成できないという意見が多く寄せられました。

現在は演算性能がアップグレードされ、コア数が増えたので、
状況は少し改善されていますが、
やはり傾向としては大きなジョブが流れにくいように思います。

この点を改善するため、
主に大きな並列数のジョブを投入するのに使われる
largeキューの優先順位を上げることを検討しています。
現設定では、largeキューとbulkキューの優先順位は同等です。
新設定では、largeキューの優先順位は
bulkキューで例えば1日待った場合の優先順位と等しくなります。
どの程度優先するのかのパラメータの設定は、
様子を見ながら最適なものを探りたいと考えています。

また,これはカテゴリにより優先順位を変えるものではありません.
カテゴリAのlargeキューとカテゴリBのlargeキューの優先順位は同じです.

計算サーバ,GRAPE停止中

国立天文台天文シミュレーションプロジェクト 利用者各位

先ほど(8月13日(月)15時過ぎ)発生した落雷により,
国立天文台三鷹キャンパス全域で瞬時電圧低下(瞬電)が起きました.
UPSが瞬電に耐えられたため,解析サーバは現在も継続して動いておりますが,
(ログインノード以外の)計算サーバやGRAPEは停止しました.
XC50は水沢にありますので影響ありません.

停止した機器については,
これから臨時メンテナンスをしてから立ち上げますので,
復旧までは少々お時間いただくことになります.
ご不便おかけして申し訳ありませんが,
ご理解いただければと思います.

本メールに関するご質問やご意見は以下のページからお寄せ下さい。
http://www.cfca.nao.ac.jp/inquiry/

ネットワーク障害

国立天文台天文シミュレーションプロジェクト 利用者各位

昨日8月12日の22時ごろから、国立天文台でネットワークの障害が発生しております。
一旦は復調したようですが、まだ不安定な状態が続いており、
VPNサーバへの接続やCfCAのwebページの閲覧ができないときがある可能性があります。

ご迷惑をおかけしますが、VPNサーバへの接続等ができない場合には、
少し時間をおいて再度お試しいただけますよう、お願いいたします。

本メールに関するご質問やご意見は以下のページからお寄せ下さい。
http://www.cfca.nao.ac.jp/inquiry/

8月3日から6日に障害の影響を受けた可能性があるジョブの一覧

国立天文台天文シミュレーションプロジェクト 利用者各位

8月3日夜から8月6日朝にかけて、XC50システムのLusterファイルシステムにおいて、
evictと呼ばれる不具合(Lustreサーバ-Lustreクライアント間の通信でタイムアウトが生じ、その後に再接続が成功しない)が多発しました。
この障害により、影響を受けたおそれのあるジョブの一覧は以下の通りです。
大変お手数をおかけしますが、ジョブの出力ファイルに破損がないか、ご確認のほどお願いいたします。

本件では多大なるご迷惑をおかけしており、誠に申し訳ございません。
現在調査を続けておりますが、原因の解明および不具合の解決まで、今しばらくお待ちいただけますよう、お願い申し上げます。

XC50システムのファイル入出力の状況

国立天文台天文シミュレーションプロジェクト 利用者各位

8/3 19:53頃から8月6日9:00のメンテナンス前まで,
XC50システムにおいてファイルの入出力に問題が生じ,
多くのジョブが影響を受け,異常終了しています.

この問題の根本的な原因はつかみきれてはいないものの,
データ入出力の負荷が高いときに問題が起きる傾向にあるため,
ファイル入出力一回あたに扱うデータ量を落とす設定にし,
短時間に負荷が集中しないように
ファイルシステムの設定を変更をしています.

この変更によって問題が完全に解決しているのかどうかは
今後経過をみないといけませんが,
現時点ではデータ入出力のエラーは起きておりません.
ジョブの投入を再開していただければ幸いです.

また,解析サーバからマウントされている
個人用のファイルサーバの運用については
お盆明けに再開予定です.
詳しい日程がわかり次第ご連絡いたします.
それまでにファイルサーバのデータが
必要になった場合にはご連絡ください,
1日間立ち上げます,

ネットワークメンテナンスのお知らせ(2018年8月11日)

国立天文台天文シミュレーションプロジェクト
XC50システム利用者各位

いつも当プロジェクトの計算機をご利用いただきありがとうございます.
東京-水沢間の通信経路である,NII SINET のメンテナンスのため,
2018年8月11日,午前0時から2時の間に最大1時間程度
水沢-東京間の100Gbps回線が遮断されます.
この間はxc50へのアクセス,ならびに
解析サーバからのxc-workへのアクセスがご利用になれません.
ご不便をおかけしますがご了承いただけますようお願い申し上げます.

本メールに関するご質問やご意見は以下のページからお寄せ下さい。
http://www.cfca.nao.ac.jp/inquiry/

XC50障害情報

国立天文台天文シミュレーションプロジェクト 利用者各位

先日8月3日4:30頃からXC50でデータ入出力に問題が起こり,
多くのジョブが影響を受けたとご報告しましたが,
その後も入出力エラーが続いており,ジョブが異常終了する現象が継続しております.

Lustreファイルサーバの一部が異常な挙動を示しているのは把握しておりますが,
根本的な原因はつかめておりませんので,
明日のメンテナンスでLustreの製造元であるDDNと連絡をとりながら
解決したいと思っています.

つきましては,今から明日のメンテナンス(8/6 9:00から8/8 20:00を予定)まで
新しいジョブをスケジューリングするのを停止いたします.
現状,上記の一部の異常な挙動をしているサーバへの書き込みに
運良くあたらなかったジョブは正常終了するのですが,
数時間以上のジョブでそこにあたらないことは
稀でもはや多くのジョブが異常終了しているためです.

トラブルが相次いで申し訳ありません.

XC50障害情報

国立天文台天文シミュレーションプロジェクト 利用者各位

8月3日4:30頃から10:00頃にかけて、XC50のLustreファイルシステムで
何度かevictが発生しました(Lustreサーバ-Lustreクライアント間の通信でタイムアウトが生じ、その後に再接続が成功しない不具合)。
本件により以下のジョブは影響を受けた可能性があります。
これらのジョブの出力ファイルに破損がないか、ご確認をお願いいたします。
大変ご迷惑をおかけしたことを、深くお詫び申し上げます。

Pages

Subscribe to RSS - Information