三鷹地区の停電による共同利用計算機の一部停止

国立天文台 天文シミュレーションプロジェクト
共同利用計算機をご利用の皆様

昨日(令和元(2019)年9月11日(水))17:30頃に国立天文台三鷹地区に於いて
落雷が原因と思われる短時間の停電が発生しました。
これにより本プロジェクトが運用する共同利用計算機群も一部が停止し、
復旧作業が進められております。幸いUPS群が電圧低下に耐えられたため
それらに接続されていた機材(解析サーバ等)の多くは稼動を続けましたが、
一部のファイルサーバなどは停電の影響を受け、停止しています。
計算サーバやGRAPE/GPUも停止し、投入されていたジョブは強制終了されました。
なおCray XC50は水沢地区にありますので、本件による直接の影響はありません。

計算サーバについては先ほど復旧作業が終わり、通常の運用に戻っております。
強制終了されたジョブ数が非常に多いので、以下に設けた一覧をご覧ください。
【機材停止の直前に計算サーバで投入・実行されていたPBSジョブ群】
https://www.cfca.nao.ac.jp/node/1136

計算サーバ以外の運転停止した機器については状況の詳細を検証した上で、
本日(9月12日)午前より復旧作業が開始される予定です。
利用者各位には大きな御不便をお掛けしていることを深くお詫び申し上げます。
本メールに関するご質問やご意見は以下のページからお寄せください。
http://www.cfca.nao.ac.jp/inquiry/

--
国立天文台 天文シミュレーションプロジェクト