ある計算ノードでは全PBSジョブが suspend されています。

例えばm038はコア数が4なので4本のPBSジョブが走るはずですが、現在は以下のようです。

% qstat-n1 | grep m038
Job ID          Username Queue    Jobname    SessID NDS S ETime Node Alloc
--------------- -------- -------- ---------- ------ --- - ----- ----------
435526.m000.cfc userAA   long     tpf         19060   1 S 1411: m038/1
435789.m000.cfc userAA   long     tpf         14894   1 S 1339: m038/2
437685.m000.cfc userBB   long     65_7_ml5_t  19188   1 S 927:1 m038/3
450056.m000.cfc userAA   long     sechaos      3016   1 S 82:26 m038/0

上記ように全てのPBSジョブが status = S (suspend) の状況にあります。これは何かおかしくないでしょうか?

恐らく他利用者のarray jobsが流れているのでしょう。
qstat-n1 に -t オプションを追加してください。

% qstat-n1 -t | grep m038
Job ID          Username Queue    Jobname    SessID NDS S ETime Node Alloc
--------------- -------- -------- ---------- ------ --- - ----- ----------
435526.m000.cfc userAA   long     tpf         19060   1 S 1411: m038/1
435789.m000.cfc userAA   long     tpf         14894   1 S 1339: m038/2
437685.m000.cfc userBB   long     65_7_ml5_t  19188   1 S 927:1 m038/3
450056.m000.cfc userAA   long     sechaos      3016   1 S 82:26 m038/0
451693[251].m00 userCC   mid      c10ht.log   26201   1 R 02:41 m038/0
451693[252].m00 userCC   mid      c10ht.log   26413   1 R 03:07 m038/0
451693[253].m00 userCC   mid      c10ht.log   26655   1 R 02:41 m038/0
451693[254].m00 userCC   mid      c10ht.log   26794   1 R 02:54 m038/0

ご覧のように現在は利用者 userCC のarray jobs (451693[251-254])が流れ、他ジョブが suspend されています。
こうした状況は、複数の利用者による多数ジョブの qsub や qdel が繰り返される状況で時折り発生します。
障害ではありませんので、先行ジョブの終了まで今しばらくお待ちください。
(最終更新日 2025年6月3日)