現在地

ゲストさん、ようこそ。 ログインはこちら / アカウント作成はこちら

Information

ファイルサーバの運用再開の予定

国立天文台天文シミュレーションプロジェクト
共同利用計算機をご利用の皆様,

空調トラブルによる
解析サーバの縮退運用および
ファイルサーバの運用停止について,
ご不便おかけしております.
これまでの状況に関しては以下の報告をご覧ください.
http://www.cfca.nao.ac.jp/newsletter/20180731fileserver

この度,空調の修理の目処が立ち,
8月27日の月曜から全解析サーバ,
ファイルサーバの運用を再開する予定です.
工事が早く終わればその分運用再開を前倒しします.
また,天候が非常に悪い場合,
工事が延期される場合もありますので,
その時にはまたアナウンスいたします.

この度はお盆休みが挟まったこともあり,
工事の日程がなかなか決まりませんでした.
ご連絡が遅くなったこと,申し訳ありませんでした.

天文台ネットワーク復旧のお知らせ

国立天文台天文シミュレーションプロジェクト 利用者各位

いつも当プロジェクトの計算機をご利用いただきありがとうございます.
8月12日22時頃に発生した国立天文台でネットワークの障害は現在回復しています.
しかし障害発生から13日中夜にかけてのメールおよびウェブフォームからの
問い合わせが,遅延または不着となっている可能性があります.
1週以上経過しても応答がない場合には,お手数ですが
再送いただけますようお願い申し上げます.

本メールに関するご質問やご意見は以下のページからお寄せ下さい。
http://www.cfca.nao.ac.jp/inquiry/

計算サーバ供用再開のお知らせ

国立天文台天文シミュレーションプロジェクト 計算機共同利用者各位

平素より当方の計算機システムを御利用いただき、どうも有り難うございます。
過日(8月13日(月)15時過ぎ)発生した落雷による停電のために停止していた
計算サーバの運用を先ほど開始いたしました。
停電の直前に投入・実行されていたPBSジョブの一覧を以下に添付します。
一部のジョブについては自動的な再投入が行われておりますが、
出力結果などについてご検証ください。
利用者各位に大きな御不便をお掛けしたことをお詫び申し上げます。

本メールに関するご質問やご意見は以下のページからお寄せ下さい。
http://www.cfca.nao.ac.jp/inquiry/

[ご意見募集] largeキューの優先順位の上昇

国立天文台天文シミュレーションプロジェクト 利用者各位

昨年度のユーザーズミーティングにて、
XC30では1000並列以上の大きなジョブが非常に流れにくく、
申請書に書いた課題を達成できないという意見が多く寄せられました。

現在は演算性能がアップグレードされ、コア数が増えたので、
状況は少し改善されていますが、
やはり傾向としては大きなジョブが流れにくいように思います。

この点を改善するため、
主に大きな並列数のジョブを投入するのに使われる
largeキューの優先順位を上げることを検討しています。
現設定では、largeキューとbulkキューの優先順位は同等です。
新設定では、largeキューの優先順位は
bulkキューで例えば1日待った場合の優先順位と等しくなります。
どの程度優先するのかのパラメータの設定は、
様子を見ながら最適なものを探りたいと考えています。

また,これはカテゴリにより優先順位を変えるものではありません.
カテゴリAのlargeキューとカテゴリBのlargeキューの優先順位は同じです.

計算サーバ,GRAPE停止中

国立天文台天文シミュレーションプロジェクト 利用者各位

先ほど(8月13日(月)15時過ぎ)発生した落雷により,
国立天文台三鷹キャンパス全域で瞬時電圧低下(瞬電)が起きました.
UPSが瞬電に耐えられたため,解析サーバは現在も継続して動いておりますが,
(ログインノード以外の)計算サーバやGRAPEは停止しました.
XC50は水沢にありますので影響ありません.

停止した機器については,
これから臨時メンテナンスをしてから立ち上げますので,
復旧までは少々お時間いただくことになります.
ご不便おかけして申し訳ありませんが,
ご理解いただければと思います.

本メールに関するご質問やご意見は以下のページからお寄せ下さい。
http://www.cfca.nao.ac.jp/inquiry/

ネットワーク障害

国立天文台天文シミュレーションプロジェクト 利用者各位

昨日8月12日の22時ごろから、国立天文台でネットワークの障害が発生しております。
一旦は復調したようですが、まだ不安定な状態が続いており、
VPNサーバへの接続やCfCAのwebページの閲覧ができないときがある可能性があります。

ご迷惑をおかけしますが、VPNサーバへの接続等ができない場合には、
少し時間をおいて再度お試しいただけますよう、お願いいたします。

本メールに関するご質問やご意見は以下のページからお寄せ下さい。
http://www.cfca.nao.ac.jp/inquiry/

8月3日から6日に障害の影響を受けた可能性があるジョブの一覧

国立天文台天文シミュレーションプロジェクト 利用者各位

8月3日夜から8月6日朝にかけて、XC50システムのLusterファイルシステムにおいて、
evictと呼ばれる不具合(Lustreサーバ-Lustreクライアント間の通信でタイムアウトが生じ、その後に再接続が成功しない)が多発しました。
この障害により、影響を受けたおそれのあるジョブの一覧は以下の通りです。
大変お手数をおかけしますが、ジョブの出力ファイルに破損がないか、ご確認のほどお願いいたします。

本件では多大なるご迷惑をおかけしており、誠に申し訳ございません。
現在調査を続けておりますが、原因の解明および不具合の解決まで、今しばらくお待ちいただけますよう、お願い申し上げます。

XC50システムのファイル入出力の状況

国立天文台天文シミュレーションプロジェクト 利用者各位

8/3 19:53頃から8月6日9:00のメンテナンス前まで,
XC50システムにおいてファイルの入出力に問題が生じ,
多くのジョブが影響を受け,異常終了しています.

この問題の根本的な原因はつかみきれてはいないものの,
データ入出力の負荷が高いときに問題が起きる傾向にあるため,
ファイル入出力一回あたに扱うデータ量を落とす設定にし,
短時間に負荷が集中しないように
ファイルシステムの設定を変更をしています.

この変更によって問題が完全に解決しているのかどうかは
今後経過をみないといけませんが,
現時点ではデータ入出力のエラーは起きておりません.
ジョブの投入を再開していただければ幸いです.

また,解析サーバからマウントされている
個人用のファイルサーバの運用については
お盆明けに再開予定です.
詳しい日程がわかり次第ご連絡いたします.
それまでにファイルサーバのデータが
必要になった場合にはご連絡ください,
1日間立ち上げます,

ネットワークメンテナンスのお知らせ(2018年8月11日)

国立天文台天文シミュレーションプロジェクト
XC50システム利用者各位

いつも当プロジェクトの計算機をご利用いただきありがとうございます.
東京-水沢間の通信経路である,NII SINET のメンテナンスのため,
2018年8月11日,午前0時から2時の間に最大1時間程度
水沢-東京間の100Gbps回線が遮断されます.
この間はxc50へのアクセス,ならびに
解析サーバからのxc-workへのアクセスがご利用になれません.
ご不便をおかけしますがご了承いただけますようお願い申し上げます.

本メールに関するご質問やご意見は以下のページからお寄せ下さい。
http://www.cfca.nao.ac.jp/inquiry/

ページ

RSS - Information を購読