現在地

ゲストさん、ようこそ。 ログインはこちら / アカウント作成はこちら

Information

XC30障害情報

XC30システム利用者各位、

先程お知らせしたXC30システムの障害情報ですが、
影響を受けた可能性のあるジョブについて連絡させていただきます。
お手数をお掛けしますが、確認をお願いいたします。

XC30障害情報

XC30システム利用者各位、

本日、XC30システムの定期保守作業が終了し12:00頃にユーザーに解放されました。
システム停止時にPBSのシャットダウンが正常に終了しなかったため、異常終了したジョブがあります。
これにより、依存関係が解決できずにそのまま残ってしまったジョブがあります。
つきましては、ジョブの結果やジョブの依存関係の確認を行ない、その上でジョブの削除や再投入をお願いいたします。
ジョブが削除できないなどの問題がある場合はご連絡いただけますでしょうか。

影響を受けたジョブについては、別途連絡させていただきます。
ご迷惑をおかけして申し訳ありません。

本メールに関するご質問やご意見は以下のページからお寄せ下さい。
http://www.cfca.nao.ac.jp/inquiry/

XC30障害情報

XC30システム利用者各位、

XC30システムにおいて障害が発生しました。
c0-0キャビネットとc6-0キャビネットを接続している光ケーブルに問題があり、
XC30キャビネット#6,7が使用され始めた14:50頃からノードのSuspect/Admindownが発生し始めました。
18:20 計算ブレードc6-0c2s4, c6-0c2s5 を縮退し、ダウンしていた計算ノードを再起動しました。

現在は9ノードがダウンした状態で運用しております。

XC30障害情報

XC30システム利用者各位、

現在、VPN接続後にXC30システムにログインできない事例が
いくつか報告されています。

ssh -Y username@xc.cfca.nao.ac.jp
ssh: Could not resolve hostname xc.cfca.nao.ac.jp: nodename nor servname provided, or not known

などと表示された場合は、

ssh -Y username@xc01.cfca.nao.ac.jp
ssh -Y username@xc02.cfca.nao.ac.jp
ssh -Y username@133.40.17.11
ssh -Y username@133.40.17.12

等を試して頂けますでしょうか。
133.40.17.11, 133.40.17.12 はそれぞれ、
xc01.cfca.nao.ac.jp, xc02.cfca.nao.ac.jp のIPアドレスです。

特にMacユーザの方はご注意願います。

XC30障害情報

XC30システム利用者各位、

昨日 4/11 XC30システムにおいてログインノードでのコンパイルが非常に遅くなる現象が確認されました。
一時的な対処として、ログインノードを再起動いたしました。
事後連絡となってしまい、申し訳ありません。
現在、原因の究明を行なっております。

計算ノード上のジョブに関しては、再起動の影響はありません。

本メールに関するご質問やご意見は以下のページからお寄せ下さい。
http://www.cfca.nao.ac.jp/inquiry/

XC30障害情報

XC30システム利用者各位、

4/9 10:48頃 XC30システムにおいて障害が発生しました。
計算ノードc0-0c0s14n3でKernel Panicが発生しダウンしました。
現在、原因の究明を行なっております。

本障害において、以下のジョブが影響を受けた可能性があります。
Job ID User Name Job Name Queue
2988 takechsn M10I large-b

お手数をお掛けして申し訳ありませんが、ジョブをご確認ください。

本メールに関するご質問やご意見は以下のページからお寄せ下さい。
http://www.cfca.nao.ac.jp/inquiry/

XC30障害情報

XC30システム利用者各位、

4/2 23:45頃 XC30 キャビネット#9が冷却水量異常で停止しました。
現在、システム再起動に向けて、復旧作業を行なっています。
運用再開や影響を受けたジョブの情報は追ってお知らせさせて頂きます。

本メールに関するご質問やご意見は以下のページからお寄せ下さい。
http://www.cfca.nao.ac.jp/inquiry/

XC30障害情報

XC30システム利用者各位、

昨日4/1 23:40頃にXC30システムにおいて障害が発生しました。
計算ノードc0-0c2s12n0 CPU socket#1 core#11のキャッシュで訂正不可能なエラーが発生し, ノードがダウンしました。
4/2 9:25からwarmswap(活線交換)によりCPU交換作業を実施し, 10:45に同一ブレード上の4ノードをシステムに組み込みました。
現在は通常通り稼働しております。

以下のジョブが影響を受けたと思われます。お手数ですが確認をお願いいたします。
ご迷惑をお掛けして申し訳ありません。

Job ID;265 , owner = suzukitk , job name = glbdsk1 , queue = large-a

本メールに関するご質問やご意見は以下のページからお寄せ下さい。
http://www.cfca.nao.ac.jp/inquiry/

XC30障害情報

XC30システム利用者各位、

先程連絡させていただいた、XC30システムでの問題発生とサービス停止に関してですが、
復旧作業を行った結果、現在は稼働を再開しております。
ご迷惑をお掛けして大変申し訳ありません。

本メールに関するご質問やご意見は以下のページからお寄せ下さい。
http://www.cfca.nao.ac.jp/inquiry/

XC30障害情報

XC30システム利用者各位、

XC30システムに問題が発生したため、現在サービスを停止し緊急の復旧作業を行なっております。
ご迷惑をお掛けして申し訳ありません。
復旧作業の状況やサービスの再開時期に関しては追ってお知らせさせていただきます。

本メールに関するご質問やご意見は以下のページからお寄せ下さい。
http://www.cfca.nao.ac.jp/inquiry/

ページ

RSS - Information を購読