ネットワークメンテナンスのお知らせ(2018年8月11日) 国立天文台天文シミュレーションプロジェクト XC50システム利用者各位 いつも当プロジェクトの計算機をご利用いただきありがとうございます. 東京-水沢間の通信経路である,NII SINET のメンテナンスのため, 2018年8月11日,午前0時から2時の間に最大1時間程度 水沢-東京間の100Gbps回線が遮断されます. この間はxc50へのアクセス,ならびに 解析サーバからのxc-workへのアクセスがご利用になれません. ご不便をおかけしますがご了承いただけますようお願い申し上げます. 本メールに関するご質問やご意見は以下のページからお寄せ下さい。 http://www.cfca.nao.ac.jp/inquiry/
XC50障害情報 国立天文台天文シミュレーションプロジェクト 利用者各位 先日8月3日4:30頃からXC50でデータ入出力に問題が起こり, 多くのジョブが影響を受けたとご報告しましたが, その後も入出力エラーが続いており,ジョブが異常終了する現象が継続しております. Lustreファイルサーバの一部が異常な挙動を示しているのは把握しておりますが, 根本的な原因はつかめておりませんので, 明日のメンテナンスでLustreの製造元であるDDNと連絡をとりながら 解決したいと思っています. つきましては,今から明日のメンテナンス(8/6 9:00から8/8 20:00を予定)まで 新しいジョブをスケジューリングするのを停止いたします. 現状,上記の一部の異常な挙動をしているサーバへの書き込みに 運良くあたらなかったジョブは正常終了するのですが, 数時間以上のジョブでそこにあたらないことは 稀でもはや多くのジョブが異常終了しているためです. トラブルが相次いで申し訳ありません.
XC50障害情報 国立天文台天文シミュレーションプロジェクト 利用者各位 8月3日4:30頃から10:00頃にかけて、XC50のLustreファイルシステムで 何度かevictが発生しました(Lustreサーバ-Lustreクライアント間の通信でタイムアウトが生じ、その後に再接続が成功しない不具合)。 本件により以下のジョブは影響を受けた可能性があります。 これらのジョブの出力ファイルに破損がないか、ご確認をお願いいたします。 大変ご迷惑をおかけしたことを、深くお詫び申し上げます。
今後のファイルサーバの運用に関するお知らせ 国立天文台天文シミュレーションプロジェクト 共同利用計算機をご利用の皆様, 空調トラブルによる 解析サーバの縮退運用および ファイルサーバの運用停止について, ご不便おかけしております. ファイルサーバの運用再開の目処について 多く問い合わせをいただいておりますので, それにお答えしたいと思います. ファイルサーバの排熱量を考えると, 全ファイルサーバを,今の不安定な空調の状態で運用することはできません. 完全な再開は空調のメンテナンス後となります. 空調の業者からはオーバーホールが必要というよりは 部品交換で対処可能と聞いており, 常識的には1,2週間から1ヶ月で対応できるものと思われますが, 部品の欠品などによる想定外の遅れも考えられますので, 上記の日程で絶対に再開できるとお約束することはできません.
解析サーバの一部,運用再開 国立天文台天文シミュレーションプロジェクト 共同利用計算機をご利用の皆様, 機器の不調が相次ぎご不便をおかけしております. 下記のようにお知らせした三鷹機材の障害ですが, 2台ある計算機室の空調のうちの1台のトラブルによるもので, 計算機室の温度が異常に高くなり,危険な状態でした. http://www.cfca.nao.ac.jp/newsletter/%E4%B8%89%E9%B7%B9%E5%9C%B0%E5%8C%… 現在,空調は2台とも問題なく動いているものの, 根本的な原因は機器の老朽化であるため.再発の恐れがあります. 今回問題を起こした空調の修理か新しい空調の増設を行うまでは, 計算機を縮退して運用していきたいと思います.
三鷹地区障害情報 国立天文台天文シミュレーションプロジェクト 共同利用計算機をご利用の皆様、 7月29日(日)14:30現在、一部の計算機室の空調機故障のため 解析サーバとファイルサーバをすべて停止しております。 復旧には時間がかかる可能性があります。 利用者の皆様には大きなご不便をお掛けしますが、 皆様のご理解とご協力をよろしくお願い申し上げます。 計算サーバ、GRAPE、XC50は運用を継続中です。 本件に関するご質問やご意見は以下のページからお寄せください。 http://www.cfca.nao.ac.jp/inquiry/ 国立天文台天文シミュレーションプロジェクト
計算サーバの保守作業が終了しました 計算サーバの保守作業が終了しました。 事前に広報した時間に対して終了が遅延いたしましたことをお詫び致します. 長時間にわたり御不便をお掛け致しましたが計算サーバの保守作業が終了し、 通常の運用に戻りました。利用者各位のご協力に感謝を申し上げます。 今回の保守に際し、システムに対して以下の変更が加えられております。 ○ 試験的な作業領域 /mwork3 が追加されました。 /mwork2/よりも細かいファイルの書き込み速度が向上しておりますので、御利用ください。 /mwork2/と同様に、ご自分のサブディレクトリをお作りになって御利用ください。 mkdir /mwork3/ユーザ名 なおこのファイルシステムは現時点では試験的に運用されているため、 以下の制限があることを御了承ください。
XC50 メンテナンス期間延長のお詫びと運用再開のお知らせ 国立天文台・天文シミュレーションプロジェクト XC50システム利用者各位 いつも国立天文台・天文シミュレーションプロジェクトのXC50システムをご利用いただき、誠にありがとうございます。 本日実施いたしましたXC50のメンテナンスが当初予定していた時刻よりも延長され、16時30分頃に終了いたしました。 現在はXC50の運用を再開しております。 ユーザの皆様に多大なご迷惑おかけいたしましたことを深くお詫び申し上げます。 また、メンテナンスに伴い停止していたジョブの一部がリランできませんでした。 以下にリランできなかったジョブの一覧を掲載いたしますので、当該ジョブを実行されていた方はご確認をお願いいたします。 今後とも天文シミュレーションプロジェクトXC50システムのご利用をよろしくお願いいたします。 本メールに関するご質問やご意見は以下のページからお寄せ下さい。 http://www.cfca.nao.ac.jp/inquiry/
7/24-25 XC50, 計算サーバ臨時保守作業と利用者登録のお知らせ 国立天文台 天文シミュレーションプロジェクト XC50システムおよび計算サーバをご利用の皆様、 また利用者登録をお待ちの皆様 いつも当プロジェクトの計算機をご利用いただきありがとうございます. 利用者登録を含む、臨時保守作業のため 一部の計算機を停止する必要があるためお知らせいたします. 現在、三鷹ー水沢間のネットワークが不調で, XC-trialおよび計算サーバの 利用者登録ができないという問題があります. また、計算サーバもデータの出力等に問題を抱え, 頻繁にジョブが異常終了しております. この臨時保守作業は上記の問題の解決に向けたものです.
XCへのネットワーク接続の不安定とその解決のための試験 国立天文台・天文シミュレーションプロジェクト XC50システム利用者各位 7月初旬からXCへのネットワーク接続が不安定になっています。 sshがtimeoutするなどの現象が確認されており、 パケットロスも見られています。 このネットワークの不安定さから XCのユーザー登録のコマンドが正しく実行されず、 ユーザー登録が現在行えない状況です。 XC-trialに申し込んだ方は、 いつ返事がくるのか待っていると思いますが、 このような状況なので、 アカウント登録がいつまでも行えず、大変申し訳ありません。 下記のように接続の安定化に向けて努力をしていますので、 もうしばらくお待ちいただくようお願い申しあげます。