XC30障害情報 XC30システム利用者各位、 8/21 11:48頃、計算ノードc0-0c0s11n1で問題が発生し、ノードがダウンしました。 システム全体は問題なく稼働しています。 本件で、以下のユーザジョブが影響を受けました。 お手数をお掛けしますが、ジョブの状況をご確認ください。 JobID, uname, User Name, Job Name, Job Queue 68240, tsukmtys, Yusuke Tsukamoto, jobname=MHD_sts, large-b 本メールに関するご質問やご意見は以下のページからお寄せ下さい。 http://www.cfca.nao.ac.jp/inquiry/
解析サーバ・ファイルサーバ臨時保守作業終了のお知らせ 国立天文台天文シミュレーションプロジェクト 共同利用計算機をご利用の皆様、 いつも国立天文台天文シミュレーションプロジェクトの計算機システムを 御利用いただき、誠にありがとうございます。 先程、解析サーバ・ファイルサーバの保守作業が終了し運用を再開致しました。 ・8月15日より運用を停止しておりましたすべてのファイルサーバをご利用頂けます。 ・保守作業に伴い、解析サーバで実行中のジョブはすべて強制終了されました。 ・今回の保守作業では /xc-work ディレクトリへのアクセスが不安定な状態が続いているため、 XC30のwork領域のマウントを解除致しました。 本件では多大な御迷惑をお掛けしたことを深くお詫び申し上げます。 本メールに関するご質問やご意見は以下のページからお寄せ下さい。 http://www.cfca.nao.ac.jp/inquiry/ 国立天文台天文シミュレーションプロジェクト
解析サーバ・ファイルサーバ臨時保守作業 国立天文台天文シミュレーションプロジェクト 共同利用計算機をご利用の皆様、 本日、8月20日13:00より解析サーバとファイルサーバの臨時保守作業を行います。 この保守作業により現在解析サーバで実行中のジョブはすべて強制終了されます。 また、今回の保守作業では /xc-work ディレクトリへのアクセスが不安定な状態が続いているため、 XC30のwork領域のマウントを解除致します。 利用者の皆様にはご迷惑おかけしますが、 ご理解、ご協力のほど宜しくお願い致します。 本メールに関するご質問やご意見は以下のページからお寄せ下さい。 http://www.cfca.nao.ac.jp/inquiry/ 国立天文台天文シミュレーションプロジェクト
ファイルサーバ障害情報(続報) 国立天文台天文シミュレーションプロジェクト 共同利用計算機をご利用の皆様、 8月11日、12日に起きた落雷による停電の影響調査のため、 現在すべてのファイルサーバの運用を停止しております。 破損したファイルシステムの復旧作業に時間がかかっており、 今しばらくお待ち頂くことになるかと存じます。 復帰予定時期は今週末を予定しております。 利用者の皆様にはご迷惑おかけしますが、 ご理解、ご協力のほど宜しくお願いいたします。 本メールに関するご質問やご意見は以下のページからお寄せ下さい。 http://www.cfca.nao.ac.jp/inquiry/ 国立天文台天文シミュレーションプロジェクト
計算サーバの環境設定ファイルの読み込みについての注意 国立天文台天文シミュレーションプロジェクト 計算サーバをご利用の皆様、 いつも国立天文台天文シミュレーションプロジェクトの 計算機システムを御利用いただき、誠にありがとうございます。 天文シミュレーションプロジェクトでは平成25年度からHPCネット ワーク構成を一部変更いたしました。 この変更は、計算サーバのログインノードm000.cfca.nao.ac.jp内の、 /etc/skel/.cshrc /etc/skel/.bashrc にも反映されております。 これまで上記ファイルを自身のホームディレクトリ以下にコピーして 使用されていた方は、変更の反映された最新のファイルを改めてコピ ーしてください。 最新のファイルを使わない場合、Intelコンパイラの動作が遅いという 問題が報告されています。
ファイルサーバ障害情報 国立天文台天文シミュレーションプロジェクト 共同利用計算機をご利用の皆様、 8月11日、12日に起きた落雷による停電の影響で、 ファイルサーバの複数のシステムに障害が発生していることが分かりました。 そのため、8月15日16:30より一旦すべてのファイルサーバの運用を停止し、システムの調査を行わせて頂きます。 すべてのファイルサーバについて調査を行いますので、 この作業にはだいぶ長い時間が掛かる可能性があります 利用者の皆様にはご迷惑おかけしますが、 ご理解、ご協力のほど宜しくお願いいたします。 http://www.cfca.nao.ac.jp/inquiry/ 国立天文台天文シミュレーションプロジェクト
計算サーバの計算ノード停止 国立天文台天文シミュレーションプロジェクト 計算サーバをご利用の皆様、 本日8月14日(水)14時40分頃に使用電力の超過により ブレーカーが落ちてしまい、全計算ノードが停止致しました。 計算ノードが停止する直前にはこのメールの末尾に添付したPBSジョブが 走っており、今回の計算ノード停止によって影響を受けた可能性があります。 ・qsub 時に"-r y"オプション付きで投入されていたジョブは自動的に再投入されています。 ・qsub 時に"-r y"オプションなしで投入されていたジョブは障害時にすべて強制終了されました。 今回のシステム停止でファイルシステムに影響はないと思われますが、 利用者各位に於きましては御自分のジョブや出力ファイルについて 強制終了されたジョブのみならず再投入されたジョブについても 正常であるかどうかの御検証をよろしくお願い申し上げます。 利用者各位にはここ数日内に於ける頻繁なシステム停止により 大きな御迷惑をお掛けしておりますが、 よろしく御理解と御協力をお願い申し上げます。
XC30障害情報 XC30システム利用者各位、 8/14 9:00, c5-0c2s6n2でメモリーエラーが発生しノードがダウンしました。 システム全体としては正常に運用を継続しております。 このダウンの影響を受けたジョブは以下の通りです。 お手数をおかけして申し訳ございませんが、ジョブの状況をご確認ください。 ジョブ番号,ログイン名,ユーザー氏名,ジョブ名,キュー名 59352,ishmchtk,Takahiro Nishimichi,SIM407,large-b 本メールに関するご質問やご意見は以下のページからお寄せ下さい。 http://www.cfca.nao.ac.jp/inquiry/
共同利用計算機システム障害情報 国立天文台天文シミュレーションプロジェクト 共同利用計算機をご利用の皆様、 本日8月12日(月)18時30分頃に国立天文台三鷹キャンパスにおいて 非常に強い雷雨が原因と思われる瞬電が発生いたしました。 これにより下記の計算機群が停止致しましたが、復旧が先ほど 完了し正常な稼働を再開しました。 GRAPEの計算ノード 計算サーバの計算ノード ファイルサーバ 利用者の皆様には、大変ご不便をおかけすることとなったことを お詫び申し上げます。個別のシステムの情報は下記をご覧下さい。 ・GRAPEシステム 今回の障害によりGRAPE-DR、GRAPE-7で実行中の全てのジョブが強制終了されました。 TORQUE管理ジョブにつきましても再投入はされませんのでご注意願います。 現在、全ての計算ノードは復旧しております。 ・ファイルサーバ 今回の障害により全てのファイルサーバが停止しました。 このため、停止時に実行していたファイルに影響がある可能性があります。 お手数ですがデータの確認をお願い致します。
共同利用計算機システム障害情報 国立天文台天文シミュレーションプロジェクト 共同利用計算機をご利用の皆様、 本日8月12日(月)18時30分頃に国立天文台三鷹キャンパスにおいて 非常に強い雷雨が原因と思われる瞬電が発生いたしました。 これにより下記の計算機群が停止致しました。 GRAPEの計算ノード 計算サーバの計算ノード ファイルサーバ 現在復旧作業中です。 詳細な情報は把握でき次第、逐次お知らせ致します。 利用者の皆様にはご迷惑おかけしますが、 ご理解、ご協力のほど宜しくお願いいたします。 http://www.cfca.nao.ac.jp/inquiry/ 国立天文台天文シミュレーションプロジェクト