XC50ログインノードで生じたメモリ不足による障害情報 XC50システム利用者各位 12/2 19:30-21:15、21:40-21:45において、XC50ログインノードのxc01でメモリ不足が生じました。 あるユーザのgnuplotによる可視化の処理が予想外に極めて大きなメモリを要求したのが原因です。 この間、ユーザがログインノードxc01へログインできない等の障害が生じました。 また、メモリ不足に伴い、12/2 19:30-21:45にxc01で実行中であったジョブが影響を受けております。 本障害により影響を受けたと考えられるジョブは、以下の通りです。
XC50における大規模ジョブのスケジューリングルールの変更 天文シミュレーションプロジェクトXC50利用者の皆様、 下記にご連絡したとおり、XC50において大規模ジョブが流れないという不具合が判明しています。 https://www.cfca.nao.ac.jp/newsletter/430-57%E3%81%AExc50%E3%81%AE%E3%82%B9%E3%82%B1%E3%82%B8%E3%83%A5%E3%83%BC%E3%83%AA%E3%83%B3%E3%82%B0%E3%81%AB%E3%81%A4%E3%81%84%E3%81%A6 この問題に対処するため、スケジューリングを変更しました。 大規模ジョブ投入後、想定されている待ち時間を大幅に超過してもまだ実行されない場合、 PBSを使用したスケジューリングを一旦取りやめ、手動で大規模ジョブを実行するよう変更いたします。 その過程においては、XC50のノードが空いているにもかかわらず、ジョブが投入されない状況が短時間発生しますが、トラブルではありませんのでご承知おきください。
1ノード1プロセス1スレッドのジョブ投入について XC50の利用者のみなさま いつもCfCAの共同利用計算機をご利用いただきありがとうございます。 ジョブ投入に関するお願いです。 XC50ではノード単位で利用者様に割り当てられるため、 1ノード1プロセス1スレッドジョブが走りますと、 1ノード(40コア)のほとんどが空いた状態になります。 限られた計算資源を有効に利用するために、 1プロセス1スレッドジョブに限らず、ノード内のコアの大部分が 空いてしまうようなジョブの投入はお控えいただけると幸いです。 皆さまのご協力をよろしくお願いいたします。 [問い合わせ先] https://www.cfca.nao.ac.jp/inquiry/
令和2年度 国立天文台天文シミュレーションプロジェクト ユーザーズミーティング[訂正] 先ほどお送りしました案内において開催年が間違っておりましたので、 訂正して再送いたします。正しくは2021年1月19日-20日開催です。 --- 本年度の国立天文台天文シミュレーションプロジェクト(CfCA)の ユーザーズミーティングを下記の日程で開催する運びとなりました。 本年度はCOVID-19感染対策のためZoom開催とします。 多くの方々の参加をお待ちしております。 [日程・開催形式] 2021年 1月19日(火)-1月20日(水) Zoom開催 [参加申し込み] 申し込み締め切りは12月7日(12:00JST)です。以下のフォームより申し込みよろしくお願いします。 https://www.cfca.nao.ac.jp/form/um2020form CfCAにアカウントをお持ちの方は、ログインしたのちにフォームを開くと基本情報が自動で入力されます。 [内容] - 講演(レビュー講演・一般口頭講演・ポスター講演) - 計算機システムの運用報告と議論
令和2年度 国立天文台天文シミュレーションプロジェクト ユーザーズミーティング 本年度の国立天文台天文シミュレーションプロジェクト(CfCA)の ユーザーズミーティングを下記の日程で開催する運びとなりました。 本年度はCOVID-19感染対策のためZoom開催とします。 多くの方々の参加をお待ちしております。 [日程・開催形式] 2021年 1月19日(火)-1月20日(水) Zoom開催 [プログラムと講演資料] https://www.cfca.nao.ac.jp/um2020_program [内容] - 講演(レビュー講演・一般口頭講演・ポスター講演) - 計算機システムの運用報告と議論 今年度は昨年度と同様に、各研究分野のエキスパート7名に、分野の将来の展望を含むレビュー講演をしていただきます。 研究分野は「星間現象」「惑星形成」「超新星爆発」「ブラックホール」「銀河」「宇宙論」「太陽」です。 時間の都合上、全ての分野を網羅することはできませんでした。上記にない分野については来年度以降にレビューをお願いしたいと思っています。
カテゴリB+のバルクキューの構成変更のお知らせ 国立天文台天文シミュレーションプロジェクト XC50利用者各位 昨年度実施したユーザーアンケートにおいて、bulk-b+の単一ジョブ最大コア数320が小さく、 不便だという要望が寄せられました。 この要望に関して時間割り当て委員会(TAC)にて検討し、 下記のようにキュー構成を変更することにしました。 後期開始時(10月1日)から、 bulk-b+の構成を以下の通り変更しております。 変更前:同時実行可能コア数:1000、単一ジョブ最大コア数:320 変更後:同時実行可能コア数:1040、単一ジョブ最大コア数:520 他の項目に変更はありません。 同時実行可能コア数はほぼ同じなので、 計算機の混雑具合にそれほどは影響しないと考えております。 本メールに関するご質問やご意見および 具体的なクォタ値の変更に関するご要望は 以下のウェブフォームからお寄せ下さい. https://www.cfca.nao.ac.jp/inquiry 国立天文台天文シミュレーションプロジェクト
XC50の/workのクォタに関するお知らせ XC50 における /work 領域のクォタに関して,柔軟な対応をできますというご連絡です. /work には各カテゴリに応じたユーザクォタ値が設定されていますが, 計算の種類によってはこの値では足りなくなるかもしれません. その場合には,必要となるクォタ値とその理由を具体的にお知らせください. 研究の目的や計算の種類をプロジェクト長が勘案し, クォタ値の変更が妥当であると認められれば、個別にクォタ値を変更します. 変更された値は当該年度一杯は維持されます. 例えば利用者の計算で,時系列上で多くのサンプリングを必要としたり. 多量の粒子のデータを解析することが研究の特色である場合などを想定しています. 各カテゴリに現在設定されているクォタ値は 各々に割り当てられているコア資源量と相関する値となっています. けれども各利用者が実際に必要とするストレージの容量は研究目的や計算の種類に依存し, こちらが一律に定めたクォタ値では足りない場合もあると思われます. 上記はそのような場合に対する個別の対応となります.
ネットワーク機器バージョンアップに伴う接続断 国立天文台天文シミュレーションプロジェクト 共同利用計算機利用者の皆様 いつも当プロジェクトの計算機群をご利用いただき誠にありがとうございます. 国立天文台水沢キャンパスネットワーク機器のバージョンアップが 行われるため,以下の期間にXC50へのアクセスができなくなります. 同時に解析サーバでのxc-workのマウントも停止いたします. 実行中のジョブへの影響はありません. 日時:2020年9月4日(金) 10:00 - 14:00 JST ※ 作業の進捗状況によって停止時間が延長する可能性があります.ご了承ください. 直前のアナウンスとなり申し訳ありません. 情報が更新されましたらwebのトップページに掲載させていただきます. 本メールに関するご質問やご意見は以下のページからお寄せ下さい。 https://www.cfca.nao.ac.jp/inquiry/
国立天文台ネットワーク機器更新に伴う接続断 国立天文台天文シミュレーションプロジェクト 共同利用計算機利用者の皆様 いつも当プロジェクトの計算機群をご利用いただき誠にありがとうございます. 7月31日にニュースレターにてお知らせいたしました 仙台-水沢間の通信障害の修復作業のため, 8月7日の以下の時間帯に三鷹水沢間の接続が数度切断されます. この間はファイル転送を含めてXC50への接続ができません. 同時にVPNへの接続もやや不安定になる可能性があります。 -------------- 2020年 8月7日 (金) 15:30 - 16:30 日本標準時 (作業の状況により遅延する可能性があります) -------------- 実行中のジョブへの影響はありません. ご不便をおかけしますがご協力いただけますようお願いいたします. 情報が更新されましたら www.cfca.nao.ac.jp 上でお伝えいたします. 本メールに関するご質問やご意見は以下のページからお寄せ下さい. http://www.cfca.nao.ac.jp/inquiry/
xc50とのファイル転送縮減の依頼 天文シミュレーションプロジェクト,XC50利用者の皆様 現在,仙台-水沢間の通信障害のため 水沢ー東京間の通信帯域が100G -> 100M に縮退しています. 修復には少なくとも2-3日かかる見込みです. 容易に回線が飽和するため修復までの期間XC50とのファイル転送を なるべくお控えいただけますようお願いいたします. XC50とインターネットとの接点も東京にあるため,これには手元のPCへの転送も含みます. このため解析サーバからの xc-work のマウントも停止しています. ご不便をおかけしますがご協力お願いいたします. xc50でのジョブ投入には影響ありません. 続報がありましたら www.cfca.nao.ac.jp 上でお伝えいたします. 本メールに関するご質問やご意見は以下のページからお寄せ下さい. http://www.cfca.nao.ac.jp/inquiry/