4/30-5/7のxc50のスケジューリングについて

天文シミュレーションプロジェクトXC50利用者の皆様、

先週から今週にかけてxc50のジョブのスケジューリングが
おかしいのではないかという問い合わせを多くいただいております。
これは実は4/30-5/7にかけて試験的にジョブスケジューラー、PBSの設定を変更していたためです。
影響を過少に見積もってしまい、利用者にアナウンスをせず、ご心配をおかけしたことをお詫びいたします。
現在はこれまでの設定に戻っています。ご不便おかけして申し訳ありません。

以下、なぜPBSの試験をしたのかを説明します。
我々はPBSのbackfillというオプションを使っています。
これはPBSマニュアルには、
「優先度の最も高いジョブの実行開始時間に影響がない範囲で小さいジョブを空いているノードにつめるオプション」
と書かれており、我々もそのような挙動を期待していました。
一方で大規模ジョブの待ち時間が異常であるという問い合わせがあり、
調査をした結果、優先度の最も高いジョブの実行開始時刻が
小さいジョブを空きノードに充填しているせいで遅れていることが判明しました。

そこで4/30-5/7にかけて試験的にbackfillをoffにしてみました。
結果、大規模ジョブは優先度に従って流れることを確認しました。
一方でジョブの充填率がかなり低くなってしまうこともわかりました。

CfCAとしては大規模なジョブも小規模なジョブを、
際立った不公平なく流れる状況が望ましいと考えており、
PBSの設定の見直しを検討します。
しかし、どのような設定が良いのかについては試行錯誤が必要なため、
解決には時間がかかる見通しです。
解決できない場合でも、後期運用の前には一度報告したいと思っています。

PBSの設定の試行錯誤については、
事前にアナウンスしてしまうとそれを受けて投入ジョブの種類が変わってしまうことも考えられます。
アナウンスせずにブラインドテストをすることもありますが、ご承知おきください。