You are here

ゲストさん、ようこそ。 ログインはこちら / アカウント作成はこちら

Information

計算サーバ,GRAPE停止中

国立天文台天文シミュレーションプロジェクト 利用者各位

先ほど(8月13日(月)15時過ぎ)発生した落雷により,
国立天文台三鷹キャンパス全域で瞬時電圧低下(瞬電)が起きました.
UPSが瞬電に耐えられたため,解析サーバは現在も継続して動いておりますが,
(ログインノード以外の)計算サーバやGRAPEは停止しました.
XC50は水沢にありますので影響ありません.

停止した機器については,
これから臨時メンテナンスをしてから立ち上げますので,
復旧までは少々お時間いただくことになります.
ご不便おかけして申し訳ありませんが,
ご理解いただければと思います.

本メールに関するご質問やご意見は以下のページからお寄せ下さい。
http://www.cfca.nao.ac.jp/inquiry/

ネットワーク障害

国立天文台天文シミュレーションプロジェクト 利用者各位

昨日8月12日の22時ごろから、国立天文台でネットワークの障害が発生しております。
一旦は復調したようですが、まだ不安定な状態が続いており、
VPNサーバへの接続やCfCAのwebページの閲覧ができないときがある可能性があります。

ご迷惑をおかけしますが、VPNサーバへの接続等ができない場合には、
少し時間をおいて再度お試しいただけますよう、お願いいたします。

本メールに関するご質問やご意見は以下のページからお寄せ下さい。
http://www.cfca.nao.ac.jp/inquiry/

8月3日から6日に障害の影響を受けた可能性があるジョブの一覧

国立天文台天文シミュレーションプロジェクト 利用者各位

8月3日夜から8月6日朝にかけて、XC50システムのLusterファイルシステムにおいて、
evictと呼ばれる不具合(Lustreサーバ-Lustreクライアント間の通信でタイムアウトが生じ、その後に再接続が成功しない)が多発しました。
この障害により、影響を受けたおそれのあるジョブの一覧は以下の通りです。
大変お手数をおかけしますが、ジョブの出力ファイルに破損がないか、ご確認のほどお願いいたします。

本件では多大なるご迷惑をおかけしており、誠に申し訳ございません。
現在調査を続けておりますが、原因の解明および不具合の解決まで、今しばらくお待ちいただけますよう、お願い申し上げます。

XC50システムのファイル入出力の状況

国立天文台天文シミュレーションプロジェクト 利用者各位

8/3 19:53頃から8月6日9:00のメンテナンス前まで,
XC50システムにおいてファイルの入出力に問題が生じ,
多くのジョブが影響を受け,異常終了しています.

この問題の根本的な原因はつかみきれてはいないものの,
データ入出力の負荷が高いときに問題が起きる傾向にあるため,
ファイル入出力一回あたに扱うデータ量を落とす設定にし,
短時間に負荷が集中しないように
ファイルシステムの設定を変更をしています.

この変更によって問題が完全に解決しているのかどうかは
今後経過をみないといけませんが,
現時点ではデータ入出力のエラーは起きておりません.
ジョブの投入を再開していただければ幸いです.

また,解析サーバからマウントされている
個人用のファイルサーバの運用については
お盆明けに再開予定です.
詳しい日程がわかり次第ご連絡いたします.
それまでにファイルサーバのデータが
必要になった場合にはご連絡ください,
1日間立ち上げます,

ネットワークメンテナンスのお知らせ(2018年8月11日)

国立天文台天文シミュレーションプロジェクト
XC50システム利用者各位

いつも当プロジェクトの計算機をご利用いただきありがとうございます.
東京-水沢間の通信経路である,NII SINET のメンテナンスのため,
2018年8月11日,午前0時から2時の間に最大1時間程度
水沢-東京間の100Gbps回線が遮断されます.
この間はxc50へのアクセス,ならびに
解析サーバからのxc-workへのアクセスがご利用になれません.
ご不便をおかけしますがご了承いただけますようお願い申し上げます.

本メールに関するご質問やご意見は以下のページからお寄せ下さい。
http://www.cfca.nao.ac.jp/inquiry/

XC50障害情報

国立天文台天文シミュレーションプロジェクト 利用者各位

先日8月3日4:30頃からXC50でデータ入出力に問題が起こり,
多くのジョブが影響を受けたとご報告しましたが,
その後も入出力エラーが続いており,ジョブが異常終了する現象が継続しております.

Lustreファイルサーバの一部が異常な挙動を示しているのは把握しておりますが,
根本的な原因はつかめておりませんので,
明日のメンテナンスでLustreの製造元であるDDNと連絡をとりながら
解決したいと思っています.

つきましては,今から明日のメンテナンス(8/6 9:00から8/8 20:00を予定)まで
新しいジョブをスケジューリングするのを停止いたします.
現状,上記の一部の異常な挙動をしているサーバへの書き込みに
運良くあたらなかったジョブは正常終了するのですが,
数時間以上のジョブでそこにあたらないことは
稀でもはや多くのジョブが異常終了しているためです.

トラブルが相次いで申し訳ありません.

XC50障害情報

国立天文台天文シミュレーションプロジェクト 利用者各位

8月3日4:30頃から10:00頃にかけて、XC50のLustreファイルシステムで
何度かevictが発生しました(Lustreサーバ-Lustreクライアント間の通信でタイムアウトが生じ、その後に再接続が成功しない不具合)。
本件により以下のジョブは影響を受けた可能性があります。
これらのジョブの出力ファイルに破損がないか、ご確認をお願いいたします。
大変ご迷惑をおかけしたことを、深くお詫び申し上げます。

今後のファイルサーバの運用に関するお知らせ

国立天文台天文シミュレーションプロジェクト
共同利用計算機をご利用の皆様,

空調トラブルによる
解析サーバの縮退運用および
ファイルサーバの運用停止について,
ご不便おかけしております.

ファイルサーバの運用再開の目処について
多く問い合わせをいただいておりますので,
それにお答えしたいと思います.

ファイルサーバの排熱量を考えると,
全ファイルサーバを,今の不安定な空調の状態で運用することはできません.
完全な再開は空調のメンテナンス後となります.
空調の業者からはオーバーホールが必要というよりは
部品交換で対処可能と聞いており,
常識的には1,2週間から1ヶ月で対応できるものと思われますが,
部品の欠品などによる想定外の遅れも考えられますので,
上記の日程で絶対に再開できるとお約束することはできません.

解析サーバの一部,運用再開

国立天文台天文シミュレーションプロジェクト
共同利用計算機をご利用の皆様,

機器の不調が相次ぎご不便をおかけしております.
下記のようにお知らせした三鷹機材の障害ですが,
2台ある計算機室の空調のうちの1台のトラブルによるもので,
計算機室の温度が異常に高くなり,危険な状態でした.
http://www.cfca.nao.ac.jp/newsletter/%E4%B8%89%E9%B7%B9%E5%9C%B0%E5%8C%BA%E9%9A%9C%E5%AE%B3%E6%83%85%E5%A0%B1

現在,空調は2台とも問題なく動いているものの,
根本的な原因は機器の老朽化であるため.再発の恐れがあります.
今回問題を起こした空調の修理か新しい空調の増設を行うまでは,
計算機を縮退して運用していきたいと思います.

本日はひとまず解析サーバ
an01.cfca.nao.ac.jp
an02.cfca.nao.ac.jp
の運用を再開しました.
今後も計算機室の温度を確認しつつ,
動かす機材を増やしていきたいと思います.

Pages

Subscribe to RSS - Information