計算サーバに関する質問

私のファイルが自動的には削除されないディレクトリはありませんか?

/home/自分/ の他にそういう領域があれば嬉しいです。
/mwork[1-2]上にファイルを置くと、気付いた時には消えていることが多いです。

上記の目的のためにはファイルサーバ系の領域が使えるでしょう。
必要な申請を行い、領域を確保してください。
(最終更新日 2025年6月3日)

サイズの大きなファイルの消し方が分かりません。

ひょんな事から非常に大きなサイズのファイルを作ってしまい、ディスク領域を圧迫し始めました。
これを rm コマンドで消そうとしても消えないのですが、どうすれば良いでしょうか?

以下の方法で時間が短縮されるとは限らないのですが、まずは当該ファイルをサイズ0のファイルで上書きしてみましょう。
たとえば以下のコマンドを実行してください。

  echo "" > 当該ファイル

または以下です。

  cat /dev/null > 当該ファイル

その後で当該ファイルを削除してみてください。

  rm 当該ファイル

(最終更新日 2025年6月3日)

PBSジョブ投入時にジョブの最大CPU時間や経過時間を指定する方法を教えてください。

qsubコマンドのオプション -l keyword=value で指定が可能です。
-l オプションはジョブのリソース要求を指定するもので、指定できる keyword の代表には以下があります。

  cput     ジョブによって使用されるCPU時間の最大値 (単位: time)
  file     ファイルを作成する際のサイズ制限 (単位: size)
  mem      最大物理メモリ容量 (単位: size)
  ncpus    要求されたプロセッサ(コア)数
  pcput    ジョブ内の一つのプロセスに割り当てられる最大CPU時間 (単位: time)
  pmem     ジョブ内の一つのプロセスで使用される最大物理メモリ容量 (単位: size)
  pvmem    ジョブ内のすべての同時プロセスで使用される最大仮想メモリ容量 (単位: size)
  vmem     ジョブ内のすべての同時プロセスで使用される最大仮想メモリ容量 (単位: size)
  walltime ジョブが実行状態にある場合の実際の時間(経過時間)の最大値 (単位: time)

cputなどを指定する場合、時間(上記のtime)は秒数(整数値)もしくは次の形式で指定します。

  [[hours:]minutes:]seconds[.milliseconds]

fileやmemを指定する場合、サイズ(上記のsize)は以下のsuffixを用いて指定してください。

  b またはw  : バイトまたはワード
  kbまたはkw : キロバイトまたはキロワード
  mbまたはmw : メガバイトまたはメガワード
  gbまたはgw : ギガバイトまたはギガワード

例えば以下のような指定が出来ます。

  qsub -q long -l cput=765:43:21 -l pmem=321mb スクリプト

ここで qstat -f コマンドを投入すると、
当該リソースが指定された値を持っていることが分かるでしょう。

  qstat -f 上記のジョブID
    Resource_List.cput = 765:43:21
    Resource_List.pmem = 321mb

更に詳しい情報についてはPBS関係のドキュメントをお読みください。
(最終更新日 2024年以前)

m000にssh接続すると以下のエラーが出て、ログインできません。

 @@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@
  @    WARNING: REMOTE HOST IDENTIFICATION HAS CHANGED!     @
  @@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@
  IT IS POSSIBLE THAT SOMEONE IS DOING SOMETHING NASTY!
  Someone could be eavesdropping on you right now (man-in-the-middle attack)!
  It is also possible that the RSA host key has just been changed.
  The fingerprint for the RSA key sent by the remote host is
  XX:XX:XX:XX:XX:XX:XX:XX:XX:XX:XX:XX:XX:XX:XX:XX.
  Please contact your system administrator.
  Add correct host key in /home/****/.ssh/known_hosts to get rid of this message.
  Offending key in /home/****/.ssh/known_hosts:9
  RSA host key for m000.cfca.nao.ac.jp has changed and you have requested strict checking.
  Host key verification failed.

これはご自分のホームディクトリ下の ~/.ssh/known_hosts に記録された接続先機材の情報が実際の機材情報と異なることで発生する警告です。
この現象はしばしば見られ、接続先の機材でOSが再インストールされたり、接続先のIPアドレスやホスト名が変更されることにより生じます。
このような場合にはファイル ~/.ssh/known_hosts を編集します。
このファイルを開き、m000.cfca.nao.ac.jp あるいは m000 から始まる行を削除してください。
より適切な方法は以下のコマンドを使うことです。

% ssh-keygen -R m000.cfca.nao.ac.jp
/home/user/.ssh/known_hosts updated.
Original contents retained as /home/user/.ssh/known_hosts.old

上記を実施した後、次のコマンドを打ち込んでも良いでしょう。

% ssh-keyscan m000.cfca.nao.ac.jp >> ~/.ssh/known_hosts

ここで使うリダイレクトは上書き > ではなく、追記 >> であることに留意しましょう。
これにてご自分の ~/.ssh/known_hosts に相手先に最新情報が記録されます。
その後に再び m000.cfca.nao.ac.jp に ssh してください。
もしログイン前に何らかの質問をされたら yes と回答します。

この現象は m000 に限らずsshを用いる機器同士では頻繁に発生する現象です。
従ってGoogleなどで検索すれば多数の情報が得られますので、御自分でお調べください。
(最終更新日 2025年5月29日)

計算サーバで一遍に数千個のファイルを開こうとしたらエラーになりました。

これは何故でしょうか?

これは計算サーバが採用しているOS (Rocky Linux)による制限です。
以下のようにして確認できます。

  • /bin/csh, /bin/tcsh, /bin/zsh の場合
      $ limit descriptors
      descriptors 1024
    
  • /bin/sh, /bin/bash, /bin/zsh の場合
      $ ulimit -n
      1024
    

上記のような制限があるため、1024個以上のファイルを同時に開くことは出来ません。
(最終更新日 2025年5月29日)

PBSジョブ終了後に Post job file processing error と言われました。

具体的には、PBSジョブ終了後の通知メール内に以下が記されていました

Date: Thu, 1 Nov 2018 12:36:42 +0900
From: adm 
Subject: PBS JOB 374683.m000.cfca.nao.ac.jp
  
PBS Job Id: 374683.m000.cfca.nao.ac.jp
Job Name:   bcn0839
Post job file processing error; job 374683.m000.cfca.nao.ac.jp on host m097

これは何を意味しているでしょうか?
なお実行結果としての出力は正常なようです。

詳細を知るため、当該計算ノード上でこのジョブに関するログを探してみました。
以下が該当するようです。

20181024:10/24/2018 14:40:59;0008;pbs_mom;Job;374683.m000.cfca.nao.ac.jp;Started, pid = 1516
20181101:11/01/2018 12:36:09;0080;pbs_mom;Job;374683.m000.cfca.nao.ac.jp;task 00000001 terminated
20181101:11/01/2018 12:36:09;0008;pbs_mom;Job;374683.m000.cfca.nao.ac.jp;Terminated
20181101:11/01/2018 12:36:09;0100;pbs_mom;Job;374683.m000.cfca.nao.ac.jp;task 00000001 cput=186:34:43
20181101:11/01/2018 12:36:09;0008;pbs_mom;Job;374683.m000.cfca.nao.ac.jp;kill_job
20181101:11/01/2018 12:36:09;0100;pbs_mom;Job;374683.m000.cfca.nao.ac.jp;m097 cput=186:34:43 mem=14544kb
20181101:11/01/2018 12:36:09;0008;pbs_mom;Job;374683.m000.cfca.nao.ac.jp;no active tasks
20181101:11/01/2018 12:36:09;0100;pbs_mom;Job;374683.m000.cfca.nao.ac.jp;Obit sent
20181101:11/01/2018 12:36:09;0080;pbs_mom;Job;374683.m000.cfca.nao.ac.jp;copy file request received
20181101:11/01/2018 12:36:09;0080;pbs_mom;Fil;sys_copy;command:
  /bin/cp -rp /var/spool/pbs/spool/374683.m000.cfca.nao.ac.jp.OU /mwork1/itootk/SWIFT.F0/bcn0839/Log.out status=1, try=1
20181101:11/01/2018 12:36:09;0080;pbs_mom;Fil;sys_copy;command:
  /bin/cp -rp /var/spool/pbs/spool/374683.m000.cfca.nao.ac.jp.OU /mwork1/itootk/SWIFT.F0/bcn0839/Log.out status=1, try=2
20181101:11/01/2018 12:36:20;0080;pbs_mom;Fil;sys_copy;command:
  /bin/cp -rp /var/spool/pbs/spool/374683.m000.cfca.nao.ac.jp.OU /mwork1/itootk/SWIFT.F0/bcn0839/Log.out status=1, try=3
20181101:11/01/2018 12:36:20;0080;pbs_mom;Fil;sys_copy;command:
  /bin/cp -rp /var/spool/pbs/spool/374683.m000.cfca.nao.ac.jp.OU /mwork1/itootk/SWIFT.F0/bcn0839/Log.out status=1, try=4
20181101:11/01/2018 12:36:41;0004;pbs_mom;Fil;374683.m000.cfca.nao.ac.jp.OU;
  Unable to copy file /var/spool/pbs/spool/374683.m000.cfca.nao.ac.jp.OU to m000:/mwork1/itootk/SWIFT.F0/bcn0839/Log.out
20181101:11/01/2018 12:36:41;0004;pbs_mom;Fil;374683.m000.cfca.nao.ac.jp.OU;
  /bin/cp: cannot create regular file '/mwork1/itootk/SWIFT.F0/bcn0839/Log.out': Permission denied
20181101:11/01/2018 12:36:42;0100;pbs_mom;Job;374683.m000.cfca.nao.ac.jp;Job files not copied: 
20181101:Unable to copy file /var/spool/pbs/spool/374683.m000.cfca.nao.ac.jp.OU to m000:/mwork1/itootk/SWIFT.F0/bcn0839/Log.out
20181101:Output retained on that host in: /var/spool/pbs/undelivered/374683.m000.cfca.nao.ac.jp.OU
20181101:11/01/2018 12:36:42;0100;pbs_mom;Job;374683.m000.cfca.nao.ac.jp;staged 2 items out over 0:00:33
20181101:11/01/2018 12:36:42;0008;pbs_mom;Job;374683.m000.cfca.nao.ac.jp;no active tasks
20181101:11/01/2018 12:36:42;0100;pbs_mom;Job;374683.m000.cfca.nao.ac.jp;Obit sent
20181101:11/01/2018 12:36:42;0080;pbs_mom;Job;374683.m000.cfca.nao.ac.jp;delete job request received
20181101:11/01/2018 12:36:42;0008;pbs_mom;Job;374683.m000.cfca.nao.ac.jp;kill_job
20181101:11/01/2018 12:36:42;0080;pbs_mom;Job;374683.m000.cfca.nao.ac.jp;delete job request received

これによれば、このPBSジョブは正常に終了したものの標準出力を利用者指定のファイル /mwork1/itootk/SWIFT.F0/bcn0839/Log.out に書き出そうとし、失敗しています。
失敗の理由は

/mwork1/itootk/SWIFT.F0/bcn0839/Log.out': Permission denied

とあります。
よって、おそらく Log.out というファイルが既に存在し、しかもそのパーミッションが 000 といったPBSのデーモンが書き込み不可の状況にあったと推定されます。
こうした既存のファイルを削除しておけば、今回のエラーは出なかったと思われます。
なお上記のログにあるように書き出しに失敗した標準出力の内容はファイル

/var/spool/pbs/undelivered/374683.m000.cfca.nao.ac.jp.OU

として計算ノード側に保持されています。
もしもこのファイルを御所望の場合には本プロジェクトにご連絡を頂ければ手動で発掘してお渡しすることは不可能ではありません。
(最終更新日 2025年5月29日)

iSALE関係のファイルを受け取りましたが、幾つかが消えました。

私はiSALE利用者なのでファイルiSALE-Dellen.zipを受け取り、それを展開して /mwork2 以下の私のディレクトリに置いていました。
すると、今朝になって多くのファイルが消えていることが分かりました。
これは何故でしょうか?

これは、配布されたiSALE関係のファイルの最終アクセス日付が /mwork2 の定期ファイル削除 (atime +120) に抵触したからと予想されます。
配布されたファイル iSALE-Dellen.zip が以下であると仮定します。

  m000% ls -l
  合計 3292
  -rw------- 1 root root 3367828  1月 17 09:38 iSALE-Dellen.zip

このzipファイルを展開すると以下のようなファイルが現れるでしょう。
なお以下にある日付はファイルの最終アクセス日付 (atime) です。

  m000% ls -lutrR iSALE-Dellen
  iSALE-Dellen:
  合計 4140
  -rw------- 1 root root  144194  7月 21 03:15 parameters.db
  -rw------- 1 root root    1926  7月 21 03:15 material.inp
  -rwx------ 1 root root 1504283  7月 21 03:15 iSALE2D
  -rw------- 1 root root    4610  7月 21 03:15 asteroid.inp
  -rw------- 1 root root    4940  7月 21 03:56 psp_setupPlots.py
  -rw------- 1 root root     756  7月 23 12:54 isale.pbs
  -rw------- 1 root root   48205  7月 23 19:10 pySALEPlot.pyc
  -rw------- 1 root root   67253  7月 23 19:10 pySALEPlot.py
  -rwx------ 1 root root  381143  7月 23 19:10 libpsp.so
  -rw------- 1 root root    1234  7月 23 19:15 R_TrP.py
  -rw------- 1 root root    1201  7月 23 19:16 tracer.py
  -rw------- 1 root root    1260  7月 23 19:17 profile.py
  -rw------- 1 root root    2655  7月 30 07:11 plot.py
  -rw------- 1 root root    2471  7月 30 07:13 DenTmp.py
  drwx------ 2 root root    4096  7月 30 07:15 eos
  
  iSALE-Dellen/eos:
  合計 9068
  -rw------- 1 root root  446667  7月 21 03:15 granit1.aneos
  -rw------- 1 root root 5544808  7月 21 03:56 h2o_ice.aneos
  -rw------- 1 root root    3748  7月 21 03:56 granitm.input
  -rw------- 1 root root    1172  7月 21 03:56 granite.tillo
  -rw------- 1 root root    3593  7月 21 03:56 granite.input
  -rw------- 1 root root  446704  7月 21 03:56 granit2.aneos
  -rw------- 1 root root    1284  7月 21 03:56 gabbro1.tillo
  -rw------- 1 root root    4009  7月 21 03:56 forstrm.input
  -rw------- 1 root root    3791  7月 21 03:56 fayaltm.input
  -rw------- 1 root root    3917  7月 21 03:56 dunite_.input
  -rw------- 1 root root  446681  7月 21 03:56 dunite_.aneos
  -rw------- 1 root root    2731  7月 21 03:56 calcite.input
  -rw------- 1 root root  446696  7月 21 03:56 calcite.aneos
  -rw------- 1 root root    3690  7月 21 03:56 basaltm.input
  -rw------- 1 root root    1050  7月 21 03:56 basalt_.tillo
  -rw------- 1 root root  441233  7月 21 03:56 basalt_.aneos
  -rw------- 1 root root    1114  7月 21 03:56 aluminu.tillo
  -rw------- 1 root root    1168  7月 21 03:56 wettuff.tillo
  -rw------- 1 root root    1088  7月 21 03:56 water__.tillo
  -rw------- 1 root root  446706  7月 21 03:56 water__.aneos
  -rw------- 1 root root  446729  7月 21 03:56 quarzit.aneos
  -rw------- 1 root root    5321  7月 21 03:56 quartzm.input
  -rw------- 1 root root    5216  7月 21 03:56 quartz_.input
  -rw------- 1 root root    1093  7月 21 03:56 pyrex__.tillo
  -rw------- 1 root root    1111  7月 21 03:56 polyeth.tillo
  -rw------- 1 root root     776  7月 21 03:56 perfgas.tillo
  -rw------- 1 root root    1002  7月 21 03:56 miesand.tillo
  -rw------- 1 root root    1175  7月 21 03:56 limesto.tillo
  -rw------- 1 root root    1109  7月 21 03:56 iron___.tillo
  -rw------- 1 root root  446656  7月 21 03:56 iron___.aneos
  -rw------- 1 root root    1357  7月 21 03:56 iceb___.tillo
  -rw------- 1 root root    1025  7月 21 03:56 ice____.tillo
  -rw------- 1 root root    3265  7月 21 03:56 ice____.input
  -rw------- 1 root root    1122  7月 21 03:56 fuseqtz.tillo
  -rw------- 1 root root    1170  7月 21 03:56 drytuff.tillo
  -rw------- 1 root root     785  7月 21 03:56 dry_air.tillo

ご覧のように、各ファイルのatimeは現在より120日以上前のものです(上記の「7月」とは2018年7月のこと)。
この場合、上記ファイルを計算サーバの作業領域 /mwork{1,2}/ 以下に置いて使うと 毎日定時のファイル削除ルーチンに引っ掛かり、ファイルが削除されてしまいます。
これを避けるためには必要なファイルにアクセスしてatimeを更新するか、もしくは定期的に削除されないディレクトリにファイルを置いてください。
(最終更新日 2025年5年29日)

PBSスクリプトを実行してもジョブが投入されず、エラーメッセージも出ません。

どのようにすれば良いでしょうか?

PBSスクリプトの書き間違えが考えられます。
例えば以下のようにオプション -N の引数に空白(スペース)が含まれるとジョブ投入は為されません (my と test の間)。
これはPBSの仕様です。

  #PBS -N my test job.sh

詳しくは man pbs をご覧になり、qsubのオプション詳細をお調べください。
(最終更新日 2025年5月28日)