どのジョブも status が H となり、実行されません。
昨日までは普通に R 状態になり、走っていました。
何が起こったのでしょうか?
おそらく、PBSジョブからの標準出力・標準エラー出力を溜める領域に於いてquota上限に抵触したのでしょう。
利用手引きに記載があるように、この領域(/var/spool/pbs/)には 64 GB/userのquota制限があります。
この領域に於けるご自分の使用量は以下のようにして確かめられます。
xxxxxx はご自分のアカウント名に置き換えてください。
m000% egrep -e '(QUOTA|xxxxxx)' /pbslog/misc/userspace.txt TYPE NAME USED QUOTA POSIX User xxxxxx 64.5G 64G
上記では 64 GBのquota制限に対して 64.5 GBが使われており、いわゆるquota溢れとなっています。
PBSはジョブからの標準出力・標準エラー出力をこの領域に書き出そうとします。
しかしquota制限に抵触していると書き出せず、リトライを繰り返して最終的にstatusが H になります。
この挙動はOpenPBSの仕様だと思われます。
この状況に陥るのはPBSジョブが何らかの原因で異常終了したり計算ノードのハードウェア障害が生じた場合です。
システム構成上の理由により、ここでquota抵触が発生した状態からの回復は利用者自身には出来ません。
この状態が発生した場合にはお問い合わせフォームからお知らせを頂ければ、
当該領域を圧迫しているファイルを探して管理者権限で削除します。
なお、一般にコードが/var/spool/pbs/領域へ標準/エラー出力を大量に書き出すことは望ましくはありません。
標準出力・標準エラー出力の量が大きくなり過ぎないよう、ご自分のコードを見直すことを強くお薦めいたします。
(最終更新日 2025年6月3日)