XC30障害情報 国立天文台天文シミュレーションプロジェクト XC30システム利用者各位 1月25日の夜から1月26日の朝にかけて、計算ノードc5-0c1s13n2で show_signal_msgによるログが大量に出力されました。 これは、最近発生した障害の原因調査のため計算ノードの動作確認を行った際、 通常運用に不要なファイルシステムのアンマウントを忘れたことが原因と考えられます。 現在、当該ノードは通常運用に復帰いたしました。 利用者の皆様には大変なご迷惑をおかけし、誠に申し訳ございません。 本件により影響を受けたジョブは以下の通りです。 お手数をお掛けしますが、ジョブの状況をご確認ください。
ネットワークメンテナンスのお知らせ 国立天文台天文シミュレーションプロジェクト 共同利用計算機システムをご利用の皆様 国立天文台ネットワークのメンテナンスのため、 2/9 (木) 12:10 - 12:50の間に 最大30分程度の通信断が発生致します。 全共同利用計算機が影響を受けますので、ご利用の際にはご注意下さい。 利用者の皆様には誠にご迷惑をお掛け致しますが、 よろしくご理解をお願い申し上げます。 本メールに関するご質問やご意見は以下のページからお寄せ下さい。 http://www.cfca.nao.ac.jp/inquiry/
ネットワークメンテナンスのお知らせ 国立天文台天文シミュレーションプロジェクト 共同利用計算機システムをご利用の皆様 三鷹-水沢間ネットワークのメンテナンスのため、 1/28 (土) 10:00 - 15:00の間に 1時間程度の通信断が発生致します。 当該時間帯は別回線に切り替わるので通信としては継続して利用できますが、バンド幅は大幅に減ります。 水沢に設置されているXCとan08、及び解析サーバにマウントしている/xc-workをご利用の際にはご注意下さい。 利用者の皆様には誠にご迷惑をお掛け致しますが、 よろしくご理解をお願い申し上げます。 本メールに関するご質問やご意見は以下のページからお寄せ下さい。 http://www.cfca.nao.ac.jp/inquiry/
[お知らせ] XC30ログインゲートウェイのメモリ制限 国立天文台天文シミュレーションプロジェクト 計算機共同利用者の皆様 いつも国立天文台天文シミュレーションプロジェクトの計算機システムを ご利用いただき、誠にありがとうございます。 1月9日及び1月16日にXC30におけるログインゲートウェイのメモリ圧迫により 大規模障害が発生致しました。ジョブスクリプトファイル内に書かれている aprun以外の命令はログインゲートウェイで実行され、これによりメモリが 圧迫されていました。 そこで、1月18日からログインゲートウェイ上で実行されるジョブに対して 1GBのメモリ制限を設けます。通常の使用法であれば影響はありません。 ご不便をおかけしますが、ご理解のほどよろしくお願いいたします。 ******* ******* ******* ******* ******* ******* ******* ******* ******* 本メールに関するご質問やご意見は以下のページからお寄せ下さい。 http://www.cfca.nao.ac.jp/inquiry
XC30障害情報 国立天文台天文シミュレーションプロジェクト XC30システム利用者各位 昨日1月16日、ログインゲートウェイでOOM-killerが発生したため、緊急メンテナンスを実施しました。 その際に終了したジョブは以下の通りです。 ご迷惑をお掛けし、誠に申し訳ございません。
XC30障害情報 国立天文台天文シミュレーションプロジェクト XC30システム利用者各位 緊急メンテナンスは終了しました. ご不便をおかけして申しわけありません. システム再起動後リランし,まもなく終了したジョブは以下の通りです。 Req'd Req'd Elap Job ID Username Queue Jobname SessID NDS TSK Memory Time S Time --------------- -------- -------- ---------- ------ --- --- ------ ----- - ----- 1055581.sdb saijomt large-b d02-3 29482 27 648 -- 08:00 Q -- また,リランしたジョブは以下の通りです。
XC30障害情報 国立天文台天文シミュレーションプロジェクト XC30システム利用者各位 現在XC30システムに障害が生じており, 緊急メンテナンスを行います. ログイン等はできません. 詳細は後日連絡致します.
XC30障害情報 国立天文台天文シミュレーションプロジェクト XC30システム利用者各位 1月9日(月) 00:30頃、ログインゲートウェイにおけるrsyslogdの動作不具合により ジョブが実行開始の直後に終了するという現象が発生しました。 現在XC30システムは通常運用の状態です。 本件により影響を受けたジョブは、1月9日 00:30~07:19の期間に実行開始されたジョブで 一覧は以下の通りです。 お手数をお掛けしますが、ジョブの状況をご確認ください。 利用者の皆様には大変ご迷惑をおかけし、誠に申し訳ございません。