You are here

ゲストさん、ようこそ。 ログインはこちら / アカウント作成はこちら

Information

今後のファイルサーバの運用に関するお知らせ

国立天文台天文シミュレーションプロジェクト
共同利用計算機をご利用の皆様,

空調トラブルによる
解析サーバの縮退運用および
ファイルサーバの運用停止について,
ご不便おかけしております.

ファイルサーバの運用再開の目処について
多く問い合わせをいただいておりますので,
それにお答えしたいと思います.

ファイルサーバの排熱量を考えると,
全ファイルサーバを,今の不安定な空調の状態で運用することはできません.
完全な再開は空調のメンテナンス後となります.
空調の業者からはオーバーホールが必要というよりは
部品交換で対処可能と聞いており,
常識的には1,2週間から1ヶ月で対応できるものと思われますが,
部品の欠品などによる想定外の遅れも考えられますので,
上記の日程で絶対に再開できるとお約束することはできません.

解析サーバの一部,運用再開

国立天文台天文シミュレーションプロジェクト
共同利用計算機をご利用の皆様,

機器の不調が相次ぎご不便をおかけしております.
下記のようにお知らせした三鷹機材の障害ですが,
2台ある計算機室の空調のうちの1台のトラブルによるもので,
計算機室の温度が異常に高くなり,危険な状態でした.
http://www.cfca.nao.ac.jp/newsletter/%E4%B8%89%E9%B7%B9%E5%9C%B0%E5%8C%BA%E9%9A%9C%E5%AE%B3%E6%83%85%E5%A0%B1

現在,空調は2台とも問題なく動いているものの,
根本的な原因は機器の老朽化であるため.再発の恐れがあります.
今回問題を起こした空調の修理か新しい空調の増設を行うまでは,
計算機を縮退して運用していきたいと思います.

本日はひとまず解析サーバ
an01.cfca.nao.ac.jp
an02.cfca.nao.ac.jp
の運用を再開しました.
今後も計算機室の温度を確認しつつ,
動かす機材を増やしていきたいと思います.

三鷹地区障害情報

国立天文台天文シミュレーションプロジェクト
共同利用計算機をご利用の皆様、

7月29日(日)14:30現在、一部の計算機室の空調機故障のため
解析サーバとファイルサーバをすべて停止しております。
復旧には時間がかかる可能性があります。
利用者の皆様には大きなご不便をお掛けしますが、
皆様のご理解とご協力をよろしくお願い申し上げます。
計算サーバ、GRAPE、XC50は運用を継続中です。

本件に関するご質問やご意見は以下のページからお寄せください。
http://www.cfca.nao.ac.jp/inquiry/

国立天文台天文シミュレーションプロジェクト

計算サーバの保守作業が終了しました

計算サーバの保守作業が終了しました。
事前に広報した時間に対して終了が遅延いたしましたことをお詫び致します.
長時間にわたり御不便をお掛け致しましたが計算サーバの保守作業が終了し、
通常の運用に戻りました。利用者各位のご協力に感謝を申し上げます。
今回の保守に際し、システムに対して以下の変更が加えられております。

○ 試験的な作業領域 /mwork3 が追加されました。
/mwork2/よりも細かいファイルの書き込み速度が向上しておりますので、御利用ください。
/mwork2/と同様に、ご自分のサブディレクトリをお作りになって御利用ください。

mkdir /mwork3/ユーザ名

なおこのファイルシステムは現時点では試験的に運用されているため、
以下の制限があることを御了承ください。

XC50 メンテナンス期間延長のお詫びと運用再開のお知らせ

国立天文台・天文シミュレーションプロジェクト
XC50システム利用者各位

いつも国立天文台・天文シミュレーションプロジェクトのXC50システムをご利用いただき、誠にありがとうございます。

本日実施いたしましたXC50のメンテナンスが当初予定していた時刻よりも延長され、16時30分頃に終了いたしました。
現在はXC50の運用を再開しております。
ユーザの皆様に多大なご迷惑おかけいたしましたことを深くお詫び申し上げます。

また、メンテナンスに伴い停止していたジョブの一部がリランできませんでした。
以下にリランできなかったジョブの一覧を掲載いたしますので、当該ジョブを実行されていた方はご確認をお願いいたします。

今後とも天文シミュレーションプロジェクトXC50システムのご利用をよろしくお願いいたします。

本メールに関するご質問やご意見は以下のページからお寄せ下さい。
http://www.cfca.nao.ac.jp/inquiry/

7/24-25 XC50, 計算サーバ臨時保守作業と利用者登録のお知らせ

国立天文台 天文シミュレーションプロジェクト
XC50システムおよび計算サーバをご利用の皆様、
また利用者登録をお待ちの皆様

いつも当プロジェクトの計算機をご利用いただきありがとうございます.
利用者登録を含む、臨時保守作業のため
一部の計算機を停止する必要があるためお知らせいたします.

現在、三鷹ー水沢間のネットワークが不調で,
XC-trialおよび計算サーバの
利用者登録ができないという問題があります.
また、計算サーバもデータの出力等に問題を抱え,
頻繁にジョブが異常終了しております.
この臨時保守作業は上記の問題の解決に向けたものです.

XCへのネットワーク接続の不安定とその解決のための試験

国立天文台・天文シミュレーションプロジェクト
XC50システム利用者各位

7月初旬からXCへのネットワーク接続が不安定になっています。
sshがtimeoutするなどの現象が確認されており、
パケットロスも見られています。

このネットワークの不安定さから
XCのユーザー登録のコマンドが正しく実行されず、
ユーザー登録が現在行えない状況です。
XC-trialに申し込んだ方は、
いつ返事がくるのか待っていると思いますが、
このような状況なので、
アカウント登録がいつまでも行えず、大変申し訳ありません。
下記のように接続の安定化に向けて努力をしていますので、
もうしばらくお待ちいただくようお願い申しあげます。

XC50からの出力ファイルご確認のお願い

国立天文台・天文シミュレーションプロジェクト
XC50システム利用者各位

いつも国立天文台・天文シミュレーションプロジェクトのXC50システムをご利用いただき、誠にありがとうございます。

XC50システムにおきまして、大規模なジョブを実行した際にI/Oによりネットワーク通信での遅延が生じてLustreファイルシステムがタイムアウトとなる現象が確認されました。
このエラーが発生したことにより、XC50システムより出力されたファイルの一部が破損した事例が報告されています。
以下に5/29の定期保守作業以降に記録されたエラーログとそのノードで実行されていたジョブを記載いたしますので、
該当するジョブを投入していたユーザは出力ファイルの確認をお願いいたします。

また、ログインノードにおいて生じたエラーにつきましてはユーザの特定ができませんでした。
エラーの発生原因もまだ完全に特定できてはおりませんので、全てのユーザの皆様に今一度出力ファイルに破損がないかをご確認いただきますようお願い申し上げます。
あわせて、本エラーによる被害規模を把握するため、出力ファイルに破損が確認された場合にはお手数ですがご報告いただけますと幸いです。

XC50障害情報

国立天文台天文シミュレーションプロジェクト 利用者各位

先ほどXC50システムの定期保守作業が終了しましたが、
システム運用停止時に実行されていたジョブのうち、
以下のジョブにつきましては、リランすることができませんでした。
お手数をおかけしますが、ジョブの状態をご確認ください。

XC50システム保守作業終了のお知らせ

国立天文台天文シミュレーションプロジェクト 利用者各位

XC50 システムのメンテナンスが長期化し、大変申し訳ありません。
先ほどメンテナンスは終了いたしました。

また、後日詳細を連絡いたしますが、
ファイルシステムに高負荷がかかったとき、
ファイルが欠損する現象が確認されています。
今一度ご自分のファイルのご確認をよろしくお願いいたします。

現在、ファイルシステムの設定を変えることで
この問題に対処中です。
今しばらくはご注意のほどよろしくお願いします。

この件に関する問い合わせは 
http://www.cfca.nao.ac.jp/inquiry
からお寄せください。

Pages

Subscribe to RSS - Information