現在地

ゲストさん、ようこそ。 ログインはこちら / アカウント作成はこちら

7/24-25 XC50, 計算サーバ臨時保守作業と利用者登録のお知らせ

国立天文台 天文シミュレーションプロジェクト
XC50システムおよび計算サーバをご利用の皆様、
また利用者登録をお待ちの皆様

いつも当プロジェクトの計算機をご利用いただきありがとうございます.
利用者登録を含む、臨時保守作業のため
一部の計算機を停止する必要があるためお知らせいたします.

現在、三鷹ー水沢間のネットワークが不調で,
XC-trialおよび計算サーバの
利用者登録ができないという問題があります.
また、計算サーバもデータの出力等に問題を抱え,
頻繁にジョブが異常終了しております.
この臨時保守作業は上記の問題の解決に向けたものです.

1.利用者情報管理サーバーの三鷹,水沢での独立運用
現在,三鷹と水沢にはそれぞれ利用者情報を扱うサーバがたてられており,
そこでパスワードやシェル等の情報を管理しています.
三鷹のサーバと水沢のサーバで情報を同期させておりますが,
現在,ネットワークの不具合でこの同期がうまくいきません.
そのせいで利用者登録が終了せず,
XC-trialや計算サーバの随時申請をした方々の
利用開始を最大で3週間もお待たせしている状況です.
誠に申し訳ありません.

この状況を打開するため,三鷹のサーバと水沢のサーバの運用を切り離し,
独立に運用することにします.臨時メンテナンス後は以下の点にご注意ください.

XCでの登録情報の変更は解析サーバ,計算サーバに反映されません,逆も同様です.
XCでパスワードやシェルを変更した場合,解析サーバ,計算サーバには反映されません.
この状況が回復した場合のことを考え,解析サーバにて同じ処理をしてください.
新パスワードを打ち間違えたりしますと,ややこしい問題が生じますので,ご注意ください.

ネットワークの問題が解決した場合には,
解析サーバ,計算サーバで設定した情報を
正規のものとして残す予定ですので,
XCだけ設定を変更し,解析サーバの設定を変更しないのは,
後々混乱を生じます.ご注意ください.

基本的に解析サーバにてパスワード,シェルを変更し,
XCも利用する場合には,XCで同じ設定変更をするようお願いします.

2. XC50

停止期間(予定)
平成30年7月24日午前09時から
平成30年7月24日午後15時

上記の利用者情報の管理設定を変更する際に問題が起こると,
XC50が出力しているファイルの所有者の情報がデタラメになってしまいます.
そのことをさけるため,上記の日時においてXC50のジョブを一度止め,
利用者情報を更新後にリランします.上記の期間にはログインもできませんので,
ご注意ください.

3. 計算サーバ

停止期間(予定)
平成30年7月24日午前10時から
平成30年7月25日午後17時

ネットワーク負荷が高い場合にノードが不安定になり,
「実行が終了してもジョブが正常に終了しない」などの問題が発生しておりました.
安定性およびIO性能向上のため,下記のことを行います.
- ネットワーク機器の交換
- 一部機材の電源更新
- 試験的な作業領域の増設

作業開始時に実行中のジョブは強制終了されます.
強制終了されたジョブは投入時の設定によっては
自動的に再投入されます(Job ID は不変です)が,
自動的な再投入の有無に関わらず出力ファイルを確認するなどし,
必要な場合にはあらためて再投入などを行って頂くようお願い申し上げます.

計算サーバ利用者の皆様にはご不便をおかけしますが,
ご理解いただけますようお願い申し上げます.