XC30障害情報 XC30システム利用者各位、 2/13 06:40頃、計算ノードc7-0c2s11n3がOSパニックによりダウンしました。 xc30システムは稼働を継続しています。 このダウンにより影響を受けたジョブは以下のとおりです。 お手数をおかけしますが、ジョブの状況をご確認ください。 ジョブ番号,ログイン名,氏名,ジョブ名,キュー名 165794,saitoutk,Takayuki Saitoh,1m01,bulk-b 本メールに関するご質問やご意見は以下のページからお寄せ下さい。 http://www.cfca.nao.ac.jp/inquiry/
XC30障害情報 XC30システム利用者各位、 2/12 03:01頃、c7-0c2s4n3のcpu 1でエラーが発生したためノードがダウンしました。 このノードがダウンした際に以下のユーザジョブが実行されていました。 お手数をお掛けしますが、ジョブの状況をご確認ください。 ジョブ番号,ログイン名,氏名,ジョブ名,キュー名 165425,sekgchyi,Yuichiro Sekiguchi,H4a34,large-a 本メールに関するご質問やご意見は以下のページからお寄せ下さい。 http://www.cfca.nao.ac.jp/inquiry/
ssh鍵・パスワードの厳重管理のお願い 国立天文台天文シミュレーションプロジェクト 共同利用計算機利用者の皆様 いつも国立天文台天文シミュレーションプロジェクトの計算機システムを 御利用いただき、誠にありがとうございます。 既に報道などで御存じの方も多いとは思いますが、平成26年1月29日に 国立天文台その他の機関の研究用計算機に不正アクセスがあったことが判明し、 現在原因究明と対策の作業が進められています。 http://www.nao.ac.jp/news/notice/2014/20140203-notice.html 現在のところ、天文シミュレーションプロジェクトが運用している共同利用計算機への不正アクセスは確認されておりません。
(続報)XC30システムでのMPIエラーについて XC30システム利用者各位、 昨日お知らせしたXC30システムでのMPIエラーですが、 クレイジャパンの調査により特定の計算ノードに問題があることが分かりました。 このノードを含むように割り当てられたジョブにMPIエラーが起きていたとのことです。 現在は問題のあるノードは運用から切り離されております。 この障害で以下のジョブが影響を受けた可能性があります。 本件ではご迷惑をお掛けし大変申し訳ありません。
XC30システムでのMPIエラーについて XC30システム利用者各位、 先週金曜(1/31)に臨時のシステム再起動を行なわせて頂きましたが、 本日になって複数のユーザーから、これまで問題なく走っていたジョブが急にエラーで走らなくなるなどの MPI障害の問い合わせがあり、現在クレイジャパンに調査をお願いしております。 現在はジョブの投入等は可能ですが、エラーが起きやすい状況であることと臨時の保守作業を行なう可能性があることをご承知おき下さい。 続報が入り次第、追って連絡いたします。 本件ではご迷惑をおかけし、大変申し訳ございません。 本メールに関するご質問やご意見は以下のページからお寄せ下さい。 http://www.cfca.nao.ac.jp/inquiry/
XC30障害情報 XC30システム利用者各位、 2月4日11時36分頃、計算ノードc0-0c2s15n2がメモリーの使用過多により、システムプロセスがKillされました。 このノードがダウンした際に以下のユーザジョブが実行されていました。 お手数をお掛けしますが、ジョブの状況をご確認ください。 ジョブ番号,ログイン名,氏名,ジョブ名,キュー名 160670,ishiymtm,Tomoaki Ishiyama,FoF,large-a 本メールに関するご質問やご意見は以下のページからお寄せ下さい。 http://www.cfca.nao.ac.jp/inquiry/
XC30障害情報 XC30システム利用者各位、 1/30に行なった臨時のXC30システム再起動へのご協力ありがとうございました。 ご不便をお掛けして申し訳ありません。 システム再起動前に実行されていたジョブのリランを行いましたが、以下のジョブがリラン後まもなくして、終了しました。 お手数をお掛けしまして申し訳ございませんが、ジョブの状況をご確認ください。 ジョブ番号,ログイン名,氏名,ジョブ名,キュー名 159551,gadget_sml,chonsn,,large-md 159367,M02L20r10,nakanowk,,bulk-b 159369,M06L40r9,nakanowk,,bulk-b 159372,M10L55r5,nakanowk,,bulk-b 159373,M10L50r9,nakanowk,,bulk-b また、2月1日16時29分頃、計算ノードc1-0c1s12n0 ノードID304がメモリーエラーにて ダウンしました。 このノードダウンの影響を受けたジョブは以下のとおりです。 お手数おかけし申し訳ございませんが、ジョブの状況をご確認ください。
XC30 臨時再起動のお知らせ XC30システム利用者各位 昨日(30)夜の複数ノードのダウン以降、何名かの利用者より ジョブ内でのMPI通信に問題があることが指摘されました。 原因の特定には至っていませんが、ハードウェアを一度初期するために 下記の時間帯で緊急にXC30システム全体の再起動を行います。 サービスの停止時間(予定): 1月31日(金) 21:00-23:00 利用者の皆様には誠に御迷惑をお掛けいたしますが、 よろしく御理解をお願い申し上げます。 本メールに関するご質問やご意見は以下のページからお寄せ下さい。 http://www.cfca.nao.ac.jp/inquiry/
[緊急]XC30障害情報 XC30システム利用者各位 昨夜(1/30)の複数ノードのダウン以降、何名かの利用者よりジョブ内でのMPI通信に問題があることが指摘されました。 原因の特定には至っていませんが、ハードウェアを一度初期するために下記の時間帯で緊急にXC30システム全体の再起動を行います。 サービスの停止時間(予定): 1月31日(金) 21:00-23:00 利用者の皆様には誠に御迷惑をお掛けいたしますが、よろしく御理解をお願い申し上げます。 本メールに関するご質問やご意見は以下のページからお寄せ下さい。 http://www.cfca.nao.ac.jp/inquiry/
XC30障害情報 XC30システム利用者各位、 1月30日 21:51~22:03にかけて、NodeID11、12、13、18、19、20、29(Node Name c0-0c0s2n3、c0-0c0s3n0、c0-0c0s3n1、c0-0c0s4n2、c0-0c0s4n3、c0-0c0s5n0、c0-0c0s7n1)がPanicでダウンしました。 影響を受けたジョブは以下の通りです。 お手数をお掛けしますが、ジョブの状況をご確認ください。 ジョブ番号,ログイン名,氏名,ジョブ名,キュー名 158881,shibymtk,Takuya Shibayama,TEST,debug 158884,shibymtk,Takuya Shibayama,TEST,debug 158886,shibymtk,Takuya Shibayama,TEST,debug 本メールに関するご質問やご意見は以下のページからお寄せ下さい。 http://www.cfca.nao.ac.jp/inquiry/