現在地

計算サーバ:よくある質問とその答え (FAQ)

(最終更新日: 平成28年6月22日)

計算サーバの利用者各位はこの FAQ と併せて計算サーバの使い方に関する文書も参照されることを強くお薦めいたします。


目次



Q.
計算サーバでの iSALE の使用は可能ですか?

A.
使用可能ですが、(全員が利用できるのではなく)利用には条件があります.詳細はiSALE users group in Japan wikiをご覧下さい.
なお、iSALEに関する問い合わせは上記のiSALE users group in Japanへ、計算サーバの問題と思われる場合には各種問い合わせからご連絡下さい.


Q.
計算サーバでの intel MKL (Math Kernel Library) の使用は可能ですか?

A.
使用可能です.リンク時に -mkl のオプションを指定してご利用ください.


Q.
w999でジョブをqsubしたところ、以下のエラーが出てジョブを正常に投入できませんでした。

qsub: submit error (Bad UID for job execution MSG=User XXXXXX does not exist in server password file)

A.
計算ノードとサーバ側の通信が一時的に途切れたのではと予想されます。少し時間を置いてもう一度ジョブを投入してみてください。
何度か試行しても状況が改善しない場合は、本プロジェクトの問い合わせウェブページを経由してお問い合わせください。


Q.
PBSスクリプトを実行してもジョブが投入されず、エラーメッセージも出ません。

A.
PBSスクリプトの書き間違えが考えられます。
例えば、以下の様に PBS -N の引数に空白(スペース)が含まれていた場合には、ジョブ投入もできずエラーメッセージも出ません。

#PBS -N cfca test job

より詳しくは、計算サーバ利用手引きや man PBS を実行して関係するオプションをご覧ください。


Q.
計算サーバで一遍に数千個のファイルを開こうとしたらエラーになりました。これは何故でしょうか?

A.
OS (CentOS) による制限です。

  • シェルが /bin/csh, /bin/tcsh, /bin/zsh の場合
    % limit descriptors
    descriptors 1024
  • シェルが /bin/sh, /bin/bash, /bin/zsh の場合
    % ulimit -n
    1024


この設定に見られるように、1024個以上のファイルを同時に開くことは出来ません。将来的にはこの上限値を見直すことも検討していますが、現時点ではこの数より多くのファイルを同時に開くことは出来ないことをご承知おきください。


Q.
先ほどまで PBS ジョブを沢山走らせていたのですが、すべて一斉に異常終了してしまいました。あるジョブからの標準エラー出力には以下の記載がありました。

forrtl: Disk quota exceeded
forrtl: severe (38): error during write, unit 6, file stdout
Image              PC                Routine            Line        Source
XXXXX              0000000000522AB6  Unknown               Unknown  Unknown
XXXXX              0000000000521CB6  Unknown               Unknown  Unknown
XXXXX              00000000004DE8E6  Unknown               Unknown  Unknown
XXXXX              000000000049C205  Unknown               Unknown  Unknown
XXXXX              000000000049BAF2  Unknown               Unknown  Unknown
XXXXX              00000000004D2F42  Unknown               Unknown  Unknown
XXXXX              00000000004D19D6  Unknown               Unknown  Unknown
libc.so.6          0000003B8161D994  Unknown               Unknown  Unknown

データファイルの書き出しはホームディレクトリ上では行っていないので、ホームディレクトリの quota 制限には抵触していないはずです。何故 "Disk quota exceeded" と言われてしまったのでしょうか?

A.
これは一つ下にある Q&A と同様な現象で、あなたの所有するファイルが計算ノードのルート(/)ファイルシステム (/home ではありません) の quota 制限を超えてしまい、書き込みが出来なくなったことを示しています。利用手引きにも記載がありますが、計算サーバではホームディレクトリのみならず計算ノードのルートファイルシステムにも 256GB/ユーザ (m000) または 128GB/ユーザ (w999) の quota が設定されています。これは、時折り PBS ジョブから大量の標準出力・標準エラー出力を書き出す利用者が居り、それが原因でルートファイルシステムが溢れてシステム全体が停止に到る状況を回避するためのものです。今回はあなたのPBSジョブが(一時的に)大量の標準出力または標準エラー出力を掃き出したため、この quota 制限に届いてしまったのでしょう。


下記の Q&A で述べられているように、PBSジョブの元になるコードを改修し、ジョブが書き出す標準出力・標準エラー出力量を削減して瞬間的に 128GB を超えることが無いようにしてください。一般的に見て、ひとつのPBSジョブの標準出力・標準エラー出力量がGBのオーダーになるようでは正常な状況で無いと言えます。


Q.
先ほど root@m000.cfca.nao.ac.jp から以下のメールが届きました。これは何を意味しており、どのように対処すれば良いのでしょうか?なおホームディレクトリの quota 制限には抵触していないようで、ファイルの書き出しは可能に見えます。但し PBS ジョブを投入してもどういう訳かすぐに異常終了してしまいます。

From: root@m000.cfca.nao.ac.jp
To: XXXXXX@m000.cfca.nao.ac.jp
Subject: NOTE: You are exceeding your allocated disk space limits

Your disk usage has exceeded the agreed limits on this server
Please delete any unnecessary files on following filesystems:

/dev/sda2

                        Block limits               File limits
Filesystem           used    soft    hard  grace    used  soft  hard  grace
/dev/sda2      +-    123G    115G    123G  6days      91     0     0       

root@m000.cfca.nao.ac.jp

A.
これはあなたの所有するファイルが m000 のルート(/)ファイルシステム (/home ではありません) の quota 制限を超えてしまい、書き込みが出来なくなったことを示しています。利用手引きにも記載がありますが、計算サーバではホームディレクトリのみならず計算ノードのルートファイルシステムにも 256GB/ユーザ (m000) または 128GB/ユーザ (w999) の quota が設定されています。これは、時折り PBS ジョブから大量の標準出力・標準エラー出力を書き出す利用者が居り、それが原因でルートファイルシステムが溢れてシステム全体が停止に到る状況を回避するためのものです。今回はあなたのPBSジョブがあまりに大量の標準出力または標準エラー出力を掃き出したため、この quota 制限に届いてしまったのでしょう。PBSジョブが一時領域として用いる /var/spool/ に何も書けなくなったので、現状であなたがPBSジョブを投入してもすべて異常終了するのです。この状況から脱脚するには以下の二作業が必要となります。

  1. 各々の計算ノードの /var/spool/ (その実体はすべて m000 のルートファイルシステム以下にあります) に残されたあなたのファイル群をすべて削除し、ルートファイルシステムの quota 溢れ状態から脱け出します。具体的には、m000 上で以下のディレクトリ以下にあるファイルを探してください。
    /tftpboot/corei7node/snapshot/mis??/var/spool/PBS/undelivered/
    

    ここで mis?? は mis01 から mis64 までが該当しますが、その中にあなたが所有者になっている巨大なファイルが幾つもあるはずです。それらを削除してください。

  2. PBSジョブの元になるコードを改修し、ジョブが書き出す標準出力・標準エラー出力量を削減して瞬間的に 128GB を超えることが無いようにします。一般的に見て、ひとつのPBSジョブの標準出力・標準エラー出力量がGBのオーダーになるようでは正常な状況で無いと言えます。

なお対処 1. である /var/spool/ 上のファイル削除を行う方法が分かりにくい場合には、本プロジェクトの問い合わせウェブページを経由してお問い合わせください。


Q.
先ほど root@m000.cfca.nao.ac.jp から以下のメールが届きました。これは何を意味しており、どのように対処すれば良いのでしょうか?

From: root@m000.cfca.nao.ac.jp
To: XXXXXX@m000.cfca.nao.ac.jp
Subject: NOTE: You are exceeding your allocated disk space limits

Your disk usage has exceeded the agreed limits on this server
Please delete any unnecessary files on following filesystems:

Home directory (/dev/sdb1)

                        Block limits               File limits
Filesystem           used    soft    hard  grace    used  soft  hard  grace
/dev/sdb1      +-  19532M  19043M  19532M   none   44706     0     0       

root@m000.cfca.nao.ac.jp

A.
これはあなたのホームディレクトリ上のデータサイズが quota 制限として設定されている 20GB を超えてしまったことを意味します。現状ではホームディレクトリへのファイル書き込みが不可能な状態になっていますので、不要なファイルを削除してデータ総量を 20GB よりも小さくしてください。


Q.
ssh 用いて m000.cfca.nao.ac.jp にログインしようとすると以下のエラーメッセージが出てしまい、ログインできません。

@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@
@    WARNING: REMOTE HOST IDENTIFICATION HAS CHANGED!     @
@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@
IT IS POSSIBLE THAT SOMEONE IS DOING SOMETHING NASTY!
Someone could be eavesdropping on you right now (man-in-the-middle attack)!
It is also possible that the RSA host key has just been changed.
The fingerprint for the RSA key sent by the remote host is
XX:XX:XX:XX:XX:XX:XX:XX:XX:XX:XX:XX:XX:XX:XX:XX.
Please contact your system administrator.
Add correct host key in /home/****/.ssh/known_hosts to get rid of this message.
Offending key in /home/****/.ssh/known_hosts:9
RSA host key for m000.cfca.nao.ac.jp has changed and you have requested strict checking.
Host key verification failed.

A.
お使いの環境のホームディレクトリに ~/.ssh/known_hosts というファイルがあると思います。そのファイルをエディタで開き、m000.cfca.nao.ac.jp あるいは m000 から始まる行を削除してください。その後に再び m000.cfca.nao.ac.jp に ssh ログインを試みてください。ログイン前に何らかの質問をされたら yes と回答します。


なおこれは ssh の利用一般について頻繁に発生する現象なので、Google などでも多数の情報が得られると思います。


Q.
計算サーバではユーザデータのバックアップは取っていないのでしょうか?

A.
取っていません。データのバックアップはユーザ各位が御自分の責任でお取り頂くようお願いします。


Q.
平成22年度になり m000.cfca.nao.ac.jp の OS が Fedora から CentOS に変わったら、xemacs が使えなくなったようです。これは何故でしょうか?

A.
申し訳ございませんが、CentOS には xemacs のバイナリパッケージがありません。xemacs ではなく emacs を御利用ください。


Q.
m000.cfca.nao.ac.jp 上で emacs を使う際の環境設定ファイル .emacs は、どのような記載にすれば良いでしょうか?例があれば教えてください。

A.
システムデフォルトの .emacs が /etc/skel/.emacs として存在していますので、必要に応じて参照してください。


Q.
PBSジョブ投入時にジョブの最大CPU時間や経過時間を指定する方法があれば、教えてください。

A.
qsub コマンドのオプション -l keyword=value で指定が可能です。-l オプションはジョブのリソース要求を指定するもので、指定できる keyword には以下のようなものがあります。

cput
ジョブによって使用されるCPU時間の最大値 (単位: time)
file
ファイルを作成する際のサイズ制限 (単位: size)
mem
最大物理メモリ容量 (単位: size)
ncpus
要求されたプロセッサ(コア)数
pcput
ジョブ内の一つのプロセスに割り当てられる最大CPU時間 (単位: time)
pmem
ジョブ内の一つのプロセスで使用される最大物理メモリ容量 (単位: size)
pvmem
ジョブ内のすべての同時プロセスで使用される最大仮想メモリ容量 (単位: size)
vmem
ジョブ内のすべての同時プロセスで使用される最大仮想メモリ容量 (単位: size)
walltime
ジョブが実行状態にある場合の実際の時間(経過時間)の最大値 (単位: time)

CPU timeなどを指定する場合、時間(上記のtime)は秒数(整数値)もしくは次の形式で指定します。

[[hours:]minutes:]seconds[.milliseconds]

メモリサイズやファイルサイズを指定する場合、サイズ(上記のsize)は以下の suffix を用いて指定してください。

b またはw  : バイトまたはワード
kbまたはkw : キロバイトまたはキロワード
mbまたはmw : メガバイトまたはメガワード
gbまたはgw : ギガバイトまたはギガワード

例えば以下のような指定が出来ます。

qsub -q long -l cput=765:43:21 -l pmem=321mb スクリプト

ここで qstat -f コマンドを投入すると、当該リソースが指定された値を持っていることが分かるでしょう。

qstat -f 上記のジョブID
  Resource_List.cput = 765:43:21
  Resource_List.pmem = 321mb

更に詳しい情報についてはPBS Professional のユーザーガイドを参照してください(ファイルにアクセスするためには本Webシステムにログインする必要があります。)。


Q.
ひょんな事から非常に大きなサイズのファイルを作ってしまい、ディスク領域を圧迫し始めました。また、これを rm コマンドで消そうとしましたが消せません。どうすれば良いでしょうか?

A.
当該ファイルを同名の小サイズのファイルで上書きする、もしくは以下のコマンドを実行して下さい。

echo "" > 当該ファイル

あるいは以下です。

cat /dev/null > 当該ファイル


Q.
作業用ディレクトリ /Work[1-3]/ にあるファイルは更新を続けない限り最終更新日から30日で削除されてしまいます。私のファイルが削除されないディレクトリは /home 以外には無いのでしょうか?

A.
申し訳ありません、現在のところそのような恒久的ディスク領域は準備できていません。利用者からの要望が強ければ設置も検討しますが、取り敢えずはファイル削除までの時間の長い /mwork1/ を御利用ください。


Q.
作業用ディレクトリ /Work[1-3]/ および /mwork1/ には quota 制限は掛かっているのでしょうか?

A.
掛かっていません。


Q.
/Work[1-3] に置かれている利用者のファイルは最終更新日から30日を経過すると削除されるとのことですが、ディレクトリについての扱いはどうなるのでしょうか?

A.
ディレクトリについては最終更新日から30日を経過しても削除されません。但しディレクトリ内にあるファイルは削除されますので、しばらくすると空のディレクトリがたくさん残されることになります。これは削除期限の長い /mwork1/ についても同様です。


Q.
自分の PBS ジョブを qdel コマンドを用いて削除しようとしましたが、qstat のリストからジョブが消えません。

A.
qdel にオプション -W force を付けて実行してみてください。

qdel -W force ジョブID ...

オプション -W force の意味は "Deletes the job whether or not the job' execution host is reachable." というものです。詳しくは man qdel を参照してください。なお、上記のオプションを付けてもジョブをqdelできない場合には、ジョブに何らかの障害が発生している可能性があります。その場合は、このページから報告をお願いします。


Q.
あるディレクトリ下に多数のサブディレクトリを作っていたら(mkdir)、ある時点から以下のようなエラーが出てディレクトリを作製できなくなりました。

mkdir: ディレクトリ `XXXX/YYYY/ZZZZ' を作成できません: リンクが多すぎます

このメッセージは何を意味しているのでしょうか?ちなみにサブディレクトリの総数は32000個ほどになっています。

A.
Linux の kernel によるディレクトリ数の制限に抵触しているものと思われます。kernel のソースコード内に以下のような記載があり、単一ディレクトリ内に作製できるサブディレクトリ数の上限値が設定されています。

#define EXT2_LINK_MAX 32000
#define EXT3_LINK_MAX 32000

当該ディレクトリにはこれ以上のサブディレクトリは作れませんので、サブディレクトリ群の削除または移動をお願いします。


Q.
TearTermを使ってm000へアクセスしようとしていますが、接続できません。

A.
以下の手順を試してみてください。以下をすべて試しても上手く接続できない場合には、詳しい状況とエラーメッセージを添えて再度本プロジェクトに御連絡ください。

  1. VPNが正しく動いているかどうかを確認して下さい。
    Windowsのコマンドプロンプトからipconfig /allと打ちこみ、その結果を確認します。このファイルの p.5 「IPアドレスの確認」を参照してください。
  2. あなたのTearTermはそもそもsshをサポートしていますか?
    こちらのページにある UTF-8 TeraTerm Pro with ttssh2 を利用してsshで接続している場合は問題ありませんが、TeraTerm のみではssh接続できません。UTF-8 TeraTerm Pro with ttssh2をインストールしてください。
  3. チャレンジレスポンス認証を使っていませんか?
    もしもこれを使うように設定されている場合はチェックボックスをoffにして、使用しないようにしてみてください。こちらを見ればわかりますが、okボタンのすぐ上にあります。
  4. m000以外のマシンへもアクセスしてみてください。
    VPNにもTeraTermの設定にも問題がない場合はm000以外のマシン、例えば解析サーバ群(an00.cfca.nao.ac.jpなど)にアクセスしてみてください。


Q.
m000 上で ghostscript を動かそうとして以下のようにしましたが、エラーのようなものは出ないものの肝心の絵窓が開きません。どうなっているのでしょうか?

% gs example.ps

A.
gs のオプション -sDEVICE=x11 を付けて実行してみてください。

% gs -sDEVICE=x11 example.ps


Q.
私のPBSスクリプトの中でPBS環境変数がどうなっているのか知りたいのですが、どのようにすれば一覧を表示できるでしょうか?

A.
PBSスクリプトを csh 文法で記しているならば、以下のような方法があります。なお幾つかのPBS環境変数にはデフォルト値が設定されていません。

set pbsvariables = (\ 
  NCPUS \ 
  OMP_NUM_THREADS \ 
  PBS_ARRAY_ID \ 
  PBS_ARRAY_INDEX \ 
  PBS_ENVIRONMENT \ 
  PBS_JOBCOOKIE \ 
  PBS_JOBID \ 
  PBS_JOBNAME \ 
  PBS_MOMPORT \ 
  PBS_NODEFILE \ 
  PBS_NODENUM \ 
  PBS_O_HOME \ 
  PBS_O_HOST \ 
  PBS_O_LANG \ 
  PBS_O_LOGNAME \ 
  PBS_O_MAIL \ 
  PBS_O_PATH \ 
  PBS_O_QUEUE \ 
  PBS_O_SHELL \ 
  PBS_O_SYSTEM \ 
  PBS_O_TZ \ 
  PBS_O_WORKDIR \ 
  PBS_QUEUE \ 
  PBS_TASKNUM \ 
  TMPDIR \ 
) 
 
foreach pbsvar ($pbsvariables[*]) 
  if (`eval echo '$'${pbsvar}` == '') then 
    echo "$pbsvar is not defined" 
  else 
    eval echo $pbsvar='$'${pbsvar} 
  endif 
end 


Q.
PBSスクリプトを投入したら、標準出力ファイル file.oXXXX と標準エラー出力ファイルfile.eXXXX にそれぞれ以下のメッセージが出力されました。これは何を意味しているのでしょうか?

  • 標準出力ファイル file.oXXXX への出力
Warning: no access to tty (Bad file descriptor).
Thus no job control in this shell.
  • 標準エラー出力ファイル file.eXXXX への出力
stty: standard input: Invalid argument

A.
ログインシェルに csh または tcsh が使われているとこのメッセージが出力されることがありますが、計算の実行に影響はありません。


Q.
私の PBS ジョブの経過時間 (walltime) に対して CPU 時間 (cputime) がとても短いようなのですが、これは何故でしょうか? (注・下記の qstat -f の結果は一部のみ抜粋して記載しています)

% qstat -f 562
Job Id: 562.m000.cfca.nao.ac.jp
  resources_used.cput = 03:52:54
  resources_used.walltime = 68:57:58
  exec_host = m004/0

A.
主に以下の二つの可能性が考えられるでしょう。

  • このジョブに伴うファイル入出力にとても時間が掛かっている。御自分のジョブが不必要なファイル入出力を行伴っていないかどうかをご確認ください。
  • 計算ノード(上記の場合にはm004)に障害が発生している。こちらが疑われる場合には、誠にお手数ですがこのページから詳細の報告をお願いします。

なお計算ノードの障害の場合には、当該 PBS ジョブを強制終了する必要が高いことを予め御了承ください。


Q.
PBSから以下のエラーメールが届きました。実行結果やエラー出力結果のファイルを見るにはどうすれば良いでしょうか?

[エラーメールの内容]

PBS Job Id: 41.m000.cfca.nao.ac.jp
Job Name:   z.sh
Post job file processing error; job 41.m000.cfca.nao.ac.jp on host misXX/1

Unable to copy file 41.m000.OU to m000.cfca.nao.ac.jp:/home/user1/z.sh.o41
>>> error from copy
DISPLAY: Undefined variable.
>>> end error output
Output retained on that host in: /var/spool/PBS/undelivered/41.m000.OU

Unable to copy file 41.m000.ER to m000.cfca.nao.ac.jp:/home1/user1/z.sh.e41
>>> error from copy
DISPLAY: Undefined variable.
>>> end error output
Output retained on that host in: /var/spool/PBS/undelivered/41.m000.ER

A.
計算ノードが生成するPBSのエラーファイルと実行結果ファイル名は以下のようになります。

  • JOBID.m000.ER : エラーファイル
  • JOBID.m000.OU : 実行結果ファイル

これらのファイルは最終更新日より60日で消去されますので、その前にcpコマンドでファイルをコピーし、内容を確認してください。計算サーバはディスクレスシステムであるため、これらのファイルはm000上に存在しています。計算ノードが misXX の場合には次のように行います。

m000% cp /tftpboot/corei7node/snapshot/misXX/var/spool/PBS/undelivered/41.m000.OU ./

ジョブが実行された計算ノード名についてはエラーメール等で確認してください。


Q.
m000からPBSジョブをqsubしましたが、以下のエラーが出力されてジョブが走りません。

stty: standard input: Invalid argument
forrtl: severe (174): SIGSEGV, possible program stack overflow occurred.
Program requirements exceed current stacksize resource limit.
Superusers may try increasing this resource by 'limit stacksize xxx',
where xxx is unlimited or something larger than your current limit.
Other users should contact your system administrator for help.

A.
このエラーは以下のようにしてstacksizeの上限を解除すると回避できることがあります。

[csh,tcsh の場合]

% unlimit

[sh, bash の場合]

% ulimit -s unlimited

PBSスクリプト内では、以下のようにして上限解除の指定を追加してください。

#!/bin/sh
#PBS -r y
#PBS -m ae
### Queue name (short, long)
#PBS -q long
### Number of nodes
#PBS -l nodes=1

# This job's working directory
echo Working directory is $PBS_O_WORKDIR
cd $PBS_O_WORKDIR
echo Running on host `hostname`
echo Time is `date`
echo Directory is `pwd`

# Run your executable
ulimit -s unlimited		← ここに追加
./a.out


Q.
m000でPBSジョブを実行すると、以下のメッセージが出力されてジョブが終了します。9391というエラー番号は何を意味しているのでしょうか?

[メッセージ]

/var/spool/PBS/mom_priv/jobs/211.m000.SC: line 20: 9391 強制終了

A.
エラー番号9391は、実行されたジョブの仮想メモリ領域へのダイナミックメモリ割り当て要求が制限を越えたため、割り当てできずにカーネルがそのジョブを強制終了させたという意味です。つまりジョブが仮想メモリ領域を使い切り、プロセスが停止したということです。これを解決するには、仮想メモリ制限内で動作するように扱うジョブが扱うデータを小さくする以外に方法はありません。


Q.
m000でマニュアルファイルのパスを表示させようと思い、man -w を実行すると、以下のようなメッセージが出力されてパスが表示されません。

What manual page do you want?

A.
"man -w コマンド名"として使用してください。例えば以下のようにします。

% man -w man
/usr/share/man/man1/man.1.gz


Q.
PBSジョブをqsubする際に、ある特定のジョブが終わってから次の特定のジョブが走るようなオプション指定方法を教えてください。

A.
qsub の "-W depend=afterok:ジョブID" オプションを使用してください。

[コマンド例]

% qsub -W depend=afterok:244.m000 JOB_B

これにより、JOB_A が終了した後に JOB_B が走り出します。

Job id           Name             User             Time Use S Queue
---------------- ---------------- ---------------- -------- - -----
244.m000         JOB_A            user             00:00:09 R short
245.m000         JOB_B            user             00:00:00 H short
246.m000         JOB_C            user             00:00:00 R short


Q.
自分が過去に実行したPBSジョブの情報を見ることはできるでしょうか?

A.
できます。tracejobコマンドをご利用ください。tracejobをオプションなしで実行すると、当日のログファイルからジョブに関するログを出力します。当日にログをはき出していなければ何も表示されません。その場合には -n オプションで過去何日分のログファイルを検索するか指定すると情報が得られます。

例. 30日前に投入したジョブ(job id = 11999)を検索する場合

(1) オプションなしでは何も表示されない。

% tracejob 11999

(2) 過去 30日分のログファイルを検索対象に指定する。

% tracejob -n 30 11999

Job: 11999.m000

11/22/2005 10:36:53  S    Job Queued at request of user@m000.cfca.nao.ac.jp,
                          owner = user@m000.cfca.nao.ac.jp, job name = test.sh,
                          queue = short
11/22/2005 10:36:53  S    Job Modified at request of
                          Scheduler@m000.cfca.nao.ac.jp
11/22/2005 10:36:53  S    enqueuing into short, state 1 hop 1
11/22/2005 10:36:53  A    queue=short
11/22/2005 13:26:53  L    Server job limit reached
11/22/2005 13:35:27  L    Considering job to run
11/22/2005 13:35:27  S    Job Modified at request of
                          Scheduler@m000.cfca.nao.ac.jp
11/22/2005 13:35:27  S    Job Run at request of Scheduler@m000.cfca.nao.ac.jp
                          on hosts m004
11/22/2005 13:35:28  L    Job run
11/22/2005 13:35:28  A    user=user group=naocc jobname=test.sh queue=short
                          ctime=1132623413 qtime=1132623413 etime=1132623413
                          start=1132634128 exec_host=m004/0
                          Resource_List.cput=00:30:00 Resource_List.ncpus=1
                          Resource_List.neednodes=1 Resource_List.nodect=1
                          Resource_List.nodes=1
11/22/2005 13:39:28  S    Obit received
11/22/2005 13:39:28  S    Exit_status=0 resources_used.cpupercent=8
                          resources_used.cput=00:00:28 resources_used.mem=4324kb
                          resources_used.ncpus=1 resources_used.vmem=21992kb
                          resources_used.walltime=00:03:59
11/22/2005 13:39:28  A    user=user group=naocc jobname=test.sh queue=short
                          ctime=1132623413 qtime=1132623413 etime=1132623413
                          start=1132634128 exec_host=m004/0
                          Resource_List.cput=00:30:00 Resource_List.ncpus=1
                          Resource_List.neednodes=1 Resource_List.nodect=1
                          Resource_List.nodes=1 session=24075 end=1132634368
                          Exit_status=0 resources_used.cpupercent=8
                          resources_used.cput=00:00:28 resources_used.mem=4324kb
                          resources_used.ncpus=1 resources_used.vmem=21992kb
                          resources_used.walltime=00:03:59
11/22/2005 13:45:44  S    dequeuing from short, state 5


Q.
m000からqsubコマンドでジョブを投入しましたが、ジョブが終了していないにも関わらず削除されてしまったようです。何故でしょうか?

A.
ジョブの実行中にシステムに障害が発生していた可能性があります。また、ジョブ投入のPBSスクリプト内で下記のように再実行のオプションに n が指定されていたため、システムの復旧後にジョブが再実行されず削除された可能性があります。

#PBS -r n

同様のシステム障害が発生した際に復旧後の自動ジョブ再投入を行うよう、PBSスクリプト内にて下記のとおり再実行のオプションを y に指定してください。

#PBS -r y



(意見・質問の投稿ページへ)
(計算サーバのメインページへ)
(本プロジェクトのホームページへ)