You are here

ゲストさん、ようこそ。 ログインはこちら / アカウント作成はこちら

FAQ

FAQ - よくある質問とその答え

FAQ とは "Frequently Asked (またはAnswered) Questions" の略称です。
CfCAの共同利用計算機システムに関して利用者各位よりこれまでに寄せられた質問のうち、
質問の頻度や重要性が高いと思われる質問とそれへの典型的な回答例を以下にまとめました。
各計算機システムの利用の手引きを読んで不明な点があれば、
窓口へ問い合わせる前に以下のFAQ内に必要な情報が無いかどうかを調べましょう。



XC30からXC50への入れ替えに関する質問



XC50に関する質問



GRAPEシステムに関する質問



計算サーバに関する質問



解析サーバに関する質問



ネットワーク接続に関する質問



その他の物事に関する質問




XC30からXC50への入れ替えに関する質問



Q.
XC30を利用できる時期はいつまでですか?

A.
2018年3月31日までです。



Q.
XC30の/work以下のファイルやディレクトリはXC50に引き継がれますか?

A.
いいえ、引き継がれません。
現在XC30の/work領域に置かれたデータは2018年4月1日に全て破棄されます。
早めのバックアップをお願いします。
なお/home領域のデータはXC50に引き継がれます。



Q.
VPN利用時に cfcavpn.cfca.nao.ac.jp へアクセスできません。
VPNは未だ開通していないのでしょうか?

A.
開通していますが、以前とはVPN接続先のホスト名が変更されています。
こちらのニュースレターで広報されているように cfcavpn.cfca.nao.ac.jp はもはや存在せず、
vpn.cfca.nao.ac.jp となっています。



Q.
2018年度に於いてXC50を実際に利用できる期間を教えてください。

A.
2018年6月1日から2019年3月29日までは確実に利用できます。
2018年5月1日から2018年5月31日も、準備が整った部分から一般の利用者に解放する予定です。
しかし具体的な日程は作業の進捗状況に左右されるため、現時点では未定です。



Q.
XC50の運用開始前に他の共同利用計算機を使用することは可能ですか?

A.
いいえ、解析サーバ・計算サーバ・GRAPEのいずれも
2018年3月30日から同年5月31日まで使用できません。
また前述のように、2018年4月1日以降はXC30の/work領域へもアクセスできません。
なお解析サーバ附属のファイルサーバについては空白期間においても一部をアクセス可能にする予定ですが、その具体的な日程等は未定です。



Q.
XC-trialや計算サーバといった随時申請カテゴリへはいつから申請が可能ですか?

A.
2018年5月1日 6月1日 より受付を再開する予定です。が、これより遅れることもあり得ますので御了承ください。



Q.
ファイルサーバ上のデータは解析サーバの再公開後にアクセスできますか?

A.
はい。アクセス可能になる予定です。



Q.
XC50を使ってみましたが、外向きのssh通信が許可されていないように見えます。
XC30時代にはこれが許可されていました。どうすれば良いでしょう?

A.
対応が遅くなり、申し訳ありません。
平成30年5月9日になってようやく外向きのssh通信が実現しました。お試しください。



XC50に関する質問



Q.
NISパスワードを変更するにはどうすれば良いですか?

A.
以下のコマンド

  passwd user_id

で変更できます。なお新しいパスワードが反映されるまで数分かかるのでご注意下さい。
またCfCAの他機材(解析サーバなど)とパスワードが共通化されていますので、パスワード変更を行うと他の機材にも反映されます。



Q.
ログインシェルを変更するにはどうすれば良いですか?

A.
以下のコマンド

  chsh user_id

で変更できます。bash, csh, tcsh, ksh, zshが選択可能です。
NISパスワード変更と同様に、反映まで数分かかるのでご注意下さい。
また、御自分が現在ご使用のシェルは以下で確認できます。

  finger user_id


Q.
以下のようなエラーが出てジョブが走りません。何が起こっていますか?

  export: Command not found.

A.
ログインシェルとスクリプトの記法の不一致により、ジョブがうまく投げられないことがあります。
特に、利用手引きのスクリプト例はbashで書かれていますので、cshおよびtcshのユーザはご注意ください。
例えばcshやtcshのユーザがジョブスクリプト中で

  export OMP_NUM_THREADS=1

としても、認識されません。

  setenv OMP_NUM_THREADS 1

と記述してください。



Q.
以下のようなエラーでコンパイルが止まってしまいます。何故でしょう?

  Linking ...
  /opt/cray/mpt/5.6.3/gni/mpich2-cray/74/lib/libmpich_cray.a(hogehoge.o): In function `MPID_nem_gni_process_remote_data_ack':
  hogehoge.c:(.text+0x15b): relocation truncated to fit: R_X86_64_32S against symbol `MPID_nem_gni_send_recv_bufs' defined
    in COMMON section in /opt/cray/mpt/5.6.3/gni/mpich2-cray/74/lib/libmpich_cray.a(hoge.o)
  hogehoge.c:(.text+0x15b): relocation truncated to fit: R_X86_64_32S against symbol `MPID_nem_gni_send_recv_bufs' defined
    in COMMON section in /opt/cray/mpt/5.6.3/gni/mpich2-cray/74/lib/libmpich_cray.a(hoge.o)
  hogehoge.c:(.text+0x216): relocation truncated to fit: R_X86_64_32S against symbol `MPID_nem_gni_send_bufs' defined
    in COMMON section in /opt/cray/mpt/5.6.3/gni/mpich2-cray/74/lib/libmpich_cray.a(hoge.o)
  hogehoge.c:(.text+0x222): relocation truncated to fit: R_X86_64_32S against symbol `MPID_nem_gni_g2g_bufs' defined
    in COMMON section in /opt/cray/mpt/5.6.3/gni/mpich2-cray/74/lib/libmpich_cray.a(hoge.o)
  /opt/cray/mpt/5.6.3/gni/mpich2-cray/74/lib/libmpich_cray.a(hogehoge.o): In function `MPID_nem_gni_process_ch3_pkt_w_data':
  hogehoge.c:(.text+0x3f7): relocation truncated to fit: R_X86_64_PC32 against symbol `_cray_mpi_memcpy' defined
    in COMMON section in /opt/cray/mpt/5.6.3/gni/mpich2-cray/74/lib/libmpich_cray.a(allreduce.o)
  /opt/cray/mpt/5.6.3/gni/mpich2-cray/74/lib/libmpich_cray.a(hogehoge.o): In function `MPID_nem_gni_progress_localCQ':
  hogehoge.c:(.text+0xdee): relocation truncated to fit: R_X86_64_PC32 against symbol `MPID_nem_gni_local_nic_addrs' defined
    in COMMON section in /opt/cray/mpt/5.6.3/gni/mpich2-cray/74/lib/libmpich_cray.a(hoge.o)
  hogehoge.c:(.text+0xe7f): relocation truncated to fit: R_X86_64_PC32 against symbol `MPID_nem_gni_local_nic_addrs' defined
    in COMMON section in /opt/cray/mpt/5.6.3/gni/mpich2-cray/74/lib/libmpich_cray.a(hoge.o)
  hogehoge.c:(.text+0xe99): relocation truncated to fit: R_X86_64_PC32 against symbol `MPID_nem_gni_nic_hndls' defined
    in COMMON section in /opt/cray/mpt/5.6.3/gni/mpich2-cray/74/lib/libmpich_cray.a(hoge.o)
  /opt/cray/mpt/5.6.3/gni/mpich2-cray/74/lib/libmpich_cray.a(hogehoge.o): In function `MPID_nem_gni_progress_remote_data':
  hogehoge.c:(.text+0x100a): relocation truncated to fit: R_X86_64_PC32 against symbol `MPID_nem_gni_nic_hndls' defined
    in COMMON section in /opt/cray/mpt/5.6.3/gni/mpich2-cray/74/lib/libmpich_cray.a(hoge.o)
  hogehoge.c:(.text+0x10f6): relocation truncated to fit: R_X86_64_PC32 against symbol `MPID_nem_gni_nic_hndls' defined
    in COMMON section in /opt/cray/mpt/5.6.3/gni/mpich2-cray/74/lib/libmpich_cray.a(hoge.o)
  /opt/cray/mpt/5.6.3/gni/mpich2-cray/74/lib/libmpich_cray.a(hogehoge.o): In function `MPID_nem_gni_process_remote_data':
  hogehoge.c:(.text+0x164c): relocation truncated to fit: R_X86_64_32S against symbol `MPID_nem_gni_queue_work_head' defined
    in COMMON section in /opt/cray/mpt/5.6.3/gni/mpich2-cray/74/lib/libmpich_cray.a(hoge.o)
  hogehoge.c:(.text+0x1653): additional relocation overflows omitted from the output
  make: *** [main] エラー 1

A.
これはコンパイル時に使用されるメモリがデフォルトで割り当てられる2 GBを超えた時に見られる典型的なエラーです。
最も簡単な対処法は、コンパイル時に下記のオプションを追加するものです。
クレイコンパイラをお使いならば、以下を実行します。

  ftn -hpic -dynammic f.f90

GNUコンパイラをお使いならば、以下です。

  ftn -fpic -dynamic -mcmodel=medium f.f90

インテルコンパイラをお使いならば、以下です。

  ftn -fpic -dynamic -shared-intel -mcmodel=medium f.f90

上記のコマンドを打つことでコンパイル時に2GB以上のメモリを使うことができます。
このオプションを使用することの短所、および他の対処法については利用手引きを参照してください。



Q.
GSLライブラリを使用したいのですが、どうすれば良いでしょう?

A.
モジュールをロードしてください。

  $ module load gsl

でロードできます。そして

  $ echo ${GSL_DIR}
  /work/ap/GSL/gsl-1.15/intel

とすることでライブラリのディレクトリパスが分かります。
XC50上で利用できるライブラリとその使用法に関しては、利用手引きを参照して下さい。



Q.
異常終了するジョブのトレースバック情報を得るにはどうすれば良いでしょう?

A.
コンパイル時にオプションを加えることでトレースバック情報を得ることができます。
具体的な実行方法についてはプログラミングガイドを参照して下さい。
例えば、Cray Fortranの場合は以下を行います。


  • 環境変数 ATP_ENABLED を 1 に設定する
  • コンパイル時の-Gオプションに低い値を付与する (0か1)
  • コンパイル時に-K trap=divz,fp,invオプションを付与する

Intel Fortranの場合は以下を行います。

  • 最適化のレベルを下げる
  • トレースバックオプションを付与する
  • シンボルテーブルオプションを付与する

これらによりトレースバック情報が出力されるようになります。


Q.
他ユーザが使用していないのにdebugキューに投入したジョブが実行待ちになる。何故?

A.
XC50システムではdebug用に2ノードが確保されています。
debugキューの使用にはキュー名の指定が必要です。

  #PBS -q debug

XC30時代とは異なりmpplabelsの指定は不要になりましたので御注意ください。



Q.
ログイン時に /usr/bin/xauth: error in locking authority file ... と言われる。
そしてアプリケーション等を何ひとつ起動できない。これはなぜか?

A.
ログイン時に

  /usr/bin/xauth: error in locking authority file /home/user_name/.Xauthority

といったメッセージが表示され、アプリケーションが起動できない場合には、
/home領域がquota超過している可能性があります。
quotaの使用量は以下で調べられます。

  quota -v

ファイルの移動や削除を行なって使用量を上限未満にしてください。



Q.
ログイン時に Could not resolve hostname xc.cfca.nao.ac.jp ... と言われる。
これは何を意味するのか?

A.
VPN接続後にXC50にログインする際、もしも

  ssh -Y username [at] xc.cfca.nao.ac.jp
  ssh: Could not resolve hostname xc.cfca.nao.ac.jp: nodename nor servname provided, or not known

と表示される場合には国立天文台のDNS環境に問題が生じている可能性があります。
こういう時には以下のどれかを試してください。

  ssh -Y username [at] xc01.cfca.nao.ac.jp
  ssh -Y username [at] xc02.cfca.nao.ac.jp
  ssh -Y username [at] xc03.cfca.nao.ac.jp
  ssh -Y username [at] xc04.cfca.nao.ac.jp

もしくはIPアドレスの直打ちという手もあります。

  ssh -Y username@133.40.17.11
  ssh -Y username@133.40.17.12
  ssh -Y username@133.40.17.13
  ssh -Y username@133.40.17.14


Q.
コンパイルオプション(-h omp -O0)では OpenMP 並列が有効にならないのか?

A.
-O0オプションを利用すると、-h ompオプションを付けていてもOpenMP指示行は有効になりません。
OpenMP指示行を有効にするには -O1 以上をご利用ください。
なおOpenMP指示行による並列化が行われているか否かについて、
-h msgs オプションを付けるとコンパイル時に標準出力にどのような最適化や並列化が行われたかについてメッセージ出力されます。



Q.
hybridコードの実行時、Intelのshared libraryが見つからずにエラーになります。
コンパイラはIntelのものを使っています。

  ./XC.exe: error while loading shared libraries: libifcore.so.5: cannot open shared object file: No such file or directory
  error while loading shared libraries: libifcore.so.5: cannot open shared object file: No such file or directory

A.
上記のエラーが出力されるのはログインノードで指定した実行環境が計算ノードに引き継がれない事が原因です。
ログインノード上でPrgEnv-intelに変更してプログラムをコンパイルしても、バッチにより計算ノード上でプログラムを実行する際にはデフォルトの環境であるPrgEnv-crayで実行しようとしてしまいます。
PrgEnv-cray以外の環境でプログラムを実行される場合には、バッチスクリプト中で以下のようにmoduleの切り替えをする必要があります。

  source /opt/modules/default/init/{bash/tcsh/csh/...}
  module swap PrgEnv-cray PrgEnv-intel

バッチスクリプトの例は利用の手引き内の「バッチジョブスクリプト例(8) ジョブ内でmoduleコマンドを使用する例」をご参照ください。



Q.
aprun非使用時に実行できるコマンドをaprunの中で実行するとエラーが出る。

A.
Pythonなどのソフトウェアを各自で/home/利用者名/にインストールして、aprunで実行すると、エラーが起こります。XCシステムではユーザがアクセスできるファイルシステムは /home と /work です。
/home はNFSサーバが提供しますが、/work は高速なI/O性能を発揮するよう Luster ファイルシステムで構成されています。
ユーザのインターフェースとなるログインノードは /home と /work の双方をマウントしていますが,
計算用途の計算ノードでは/homeはマウントせず,/workのみをマウントしています.
またXCシステムのプログラムランチャ(aprunコマンド)で起動されたプログラムは,計算ノードで実行されます.
一方でaprunを用いずにプログラムを起動した場合、コードログインノードで実行されます.
ユーザが自分でインストールしたソフトウェアを計算ノードで用いる場合は/home/ユーザ名/ でなく /work/ユーザ名/ 以下にインストールすることで、正常に実行できるようになります.



Q.
write文が出力する一行の長さの制限を変更する方法は?

A.
書式付式付出力の制限は、OPEN文のRECL指定子において

  open(10,FILE=file,FORM='formatted',RECL=54000) 

のようにバッファサイズを指定することで、大きなサイズの出力が可能になります。



Q.
コードの一部分のみで最適化レベルを変更するにはどうすれば良いか?

A.
関数の範囲で最適化レベルを変更される場合には、以下の二種の方法が考えられます。


  1. 該当関数を個別ファイルとして分割し、そのファイルについてのみ最適化レベルを変更してコンパイルする。
  2. 該当関数に対して”#pragma noopt” directiveを挿入し、最適化を無効にする。

上記2.の場合は該当関数に対する最適化の無効をコンパイラに指示するので、全ての自動最適化が無効になってしまいます。
しかしdirectiveを挿入するだけで良く、有効無効の切り替えも簡単に行えます。
詳細はman intro_pragmasとman optをご参照ください。
上記1.の場合は個別ファイルへの切り出しとMakefileの修正が必要になります。
しかし該当関数へのコンパイルオプションを任意に設定出来るので、
結果に影響しない程度の最適化を適用出来る可能性があります。
また個別ファイルにする事で、問題の分析がし易くなり、関数全体ではなく内部の処理レベルで対応をする事が出来るようになるかもしれません。
なおcrayccのコンパイルオプションにて、-h list や -h report 等のオプションをご利用いただく事で、
コードのどの部分にどのような最適化がなされたのかを確認する事が出来ます。


Q.
ジョブを走らせた直後にApplication ... exit codes といったエラーが出る。

A.
以下のようなエラーメッセージ

  Application 1331683 exit codes: 134
  Application 1331683 exit signals: Killed

が出る際は quota の容量制限を超している可能性があります。不要なファイルを削除してから再実行してください。



Q.
XC50で使える各キューの資源量を教えてください。

A.
XC50システムの各項をご参照ください。また、XC50へのログイン後にqlsコマンドで確認が可能です。



Q.
ファイルの自動削除と上位ディレクトリへのアクセスに関する質問です。
一定期間にわたりアクセスおよび属性変更が行われていないファイルは、上位ディレクトリへのアクセス等があったとしても自動削除の対象になるのですか?

A.
はい、なります。XC50システムでは/work/以下に置かれた全てのファイルについて「最終アクセス時刻」および「最終ステータス変更時刻」を読み取り、
そのどちらにも変更がなかったファイルが削除されます。
「最終アクセス時刻」あるいは「最終ステータス変更時刻」のいずれかが変更されているファイルは、削除されません。
最後のアクセス等から削除判定までの期間についてはユーザーズガイドにてご確認ください。
ファイルの更新時刻は以下のコマンドで確認できます。「最終アクセス時刻」は以下:

  ls -lu

「最終ステータス変更時刻」は以下:

  ls -lc


Q.
ファイルの最終アクセス時刻や最終ステータス変更時刻が更新される条件を知りたい。

A.
これはXC50に限ったことではありませんが、最終アクセス時刻はファイルを読み込んだ段階で更新されます。
これはプログラム実行の際にファイルをreadすることも含みます。
openのみの実行や上書きでは更新されません。
最終ステータス変更時刻は、例えば以下の操作により更新されます。


  • chmodで権限を変更する
  • ファイルを上書きする
  • catやviコマンドを使い、ファイルの内容を読み込む


Q.
私のPBSジョブをhold状態にしたい。

A.
以下のコマンド

  qalter -h u job_id

または
qhold -h u job_id
でhold状態へと変更することができます。解除するときは以下を実行します。

  qrls -h u job_id


Q.
投入済みのPBSジョブの実行順を変更したい。

A.
ジョブの依存関係を再設定することにより変更可能です。
たとえばジョブ間の元々の依存関係がafterokの場合は、hold状態で以下を実行します。

  qalter -W depend=afterok:job1_id job2_id ...
  qstat -f job1_id | grep depend

これによりジョブの実行順序がjob1, job2, ...となります。ただし依存関係の条件は変更しないようにご注意ください。



Q.
PBSのkill delayパラメータを指定したい。

A.
一般ユーザがkill_delayに対して持つ権限はreadのみのため、指定することはできません。
また、walltime limitより前の任意の時間を指定してシグナルを送信する、といった機能のコマンドも実装されていません。
ただしシグナルを送信すること自体は、以下のコマンドで行えます。

  qsig [-s signal] job_id

よって、たとえばsleep等を使ってqsigコマンドの実行までの時間を待機させることにより
現時点から何{秒/分/時間}後に送信させる、などの対応は可能です。



Q.
ジョブの並列化効率を見積もる際、どの程度の計算資源量を前提とすればよいか?
この数値は利用申請書に記すために必要となるものです。

A.
「計算量の見積もり」として仮定している資源以上での見積もりが望ましいです。
この見積もり算出のためにtestキューを用意しているので、ご利用ください。
募集要項のページにある並列化効率の算出をご参照ください。



Q.
実行時にPlease verify that both the operating system and the processor supportと言われる。

A.
ログインノード上でプログラムが実行されていないかどうかをご確認ください。
実行されていた場合は、パッチジョブとしてください。
Skylake上でしか実行できないフラグが立っているようなとき、
ログインノード上でプログラムを実行するとCPU互換性がないと判断され、エラーになります。
内部設定されているコンパイルオプションは cc -craype-verbose コマンドによりご確認いただけます。



Q.
私の計算に伴って出力されるはずのログファイルが出力されなくなりました。
つい先日までは正常に出力されていましたが、急に出力できなくなったのです。
これは何故でしょうか?なおqstatで見るジョブstatusはRで、正常に見えます。

A.
/work/領域に置かれたファイル総量がsoft limit (8TB)を超過したと思われます。

  xc$ quota
  === /home Quota ===
  Disk quotas for user ******** (uid ****):
       Filesystem  blocks   quota   limit   grace   files   quota   limit   grace
  133.40.17.21:/home
                13698124  20000000 50000000           26664       0       0
  
  === /work Quota ===
  Disk quotas for user ******** (uid ****):
       Filesystem  kbytes   quota   limit   grace   files   quota   limit   grace
          /work 8466700964* 8192000000 10240000000    none  609020       0       0       -

上記のうち/workについての記載の意味は以下です。左から


  • 使用容量 (kbytes)
  • soft limit
  • hard limit
  • soft limitを超えてからの猶予日数
  • :

これより右側はファイル数についての情報ですが、XC50では制限をかけていませんので説明は略します。
上記で特筆すべきは、kbytes 欄の数値の右にアスタリスク *が付いており、soft limitを超過していることです。
また soft limitを超えてからの猶予日数が数値でなく none になっており、既に猶予日数が無いことが示されています。

上記に直接の表示はされませんが
soft limit を過ぎてもデータを書き込める猶予期間(grace period)はこのシステムでは 7 日間です。
それを過ぎると/work/への書き込みが行えなくなり、上記ではこれが発生しています。
不要なファイルを削除して/work/領域の使用容量をlimit以下にして頂き、
改めてジョブを投入し、ログやデータ出力が正常であることを見てください。



GRAPEシステムに関する質問



Q.
GRAPE-DRで4コアを使って並列計算し、各々のコアに1チップのGRAPE-DRを割り当てる事は可能か?
(GRAPE-DR:2011-04-08)

A.
各コアにチップを割り当てる計算は可能です。特定のチップのみを使用する方法は大きく分けて2つあります。
まず1つのプロセスからOpenMPなどで個別のチップを制御する場合は

  void g5_openMC(int devid);

のようにチップを指定するMC関数群があります。使用可能な関数はインクルードファイルをご覧下さい。
また、1つのプロセスから指定のチップを1つ使う場合は、MCではない通常の関数群を使用して、
環境変数GDEVICEで使用するチップを指定する方法があります。例えば4チップ使う場合は

  GDEVICE="0 1 2 3"

によってチップ0から3までの4チップ全て使用します。もし0, 1の2チップのみを使う場合は

  GDEVICE="0 1"

とします。



Q.
GRAPE-DRでの計算時間がmicro GRAPE使用時より長くなってしまう。
(GRAPE-DR:2011-04-08)

A.
プログラムの高速化はご使用のコードに依存します。
micro GRAPEよりも遅くなるとのことですが、通信速度が原因となっている可能性があります。
粒子数が少ない場合はDRの使用チップ数(デフォルトでは最大の4チップ)を少なくすると改善する場合があります。



Q.
計算中incorrect ack 1というメッセージが出る。
(GRAPE-DR:2013-01-18)

A.
incorrect ack 1というメッセージは温度測定のICとの通信に失敗したときに表示されます。
プログラムが異常終了しなければretryして成功していますので、問題ありません。



Q.
g6calc_first_allでsegmentation faultが発生する。
(GRAPE-DR:2013-01-18)

A.
g6calc_firsthalf_all で渡す配列はポインタの後にnpipe 個(256個)のデータが存在していることが必要です。
これより小さい配列を渡した場合はエラーが発生する場合があります。



Q.
g++でhibdrv.hをincludeするとコンパイルエラーが発生する。
(GRAPE-DR:2013-01-18)

A.
hibdrv.hはC言語を前提に作られており現状では、g++でコンパイルできません。
ただGRAPE-5, GRAPE-6の互換関数のみを使っている場合はhibdrv.hのインクルードは不要です。
hibdrv.hを使わなくても動くことを確認してください。



Q.
GRAPE-DRのg6互換ライブラリは、set_j_particleを呼び出す度にDRと通信をして粒子を送っているか?
(GRAPE-DR:2013-09-05)

A.
はい、その通りです。



Q.
torqueからqsubするコードはmuv01.cfca.nao.ac.jp上でコンパイルしても大丈夫か?
(GRAPE-DR:2013-09-05)

A.
はい。muv01.cfca.nao.ac.jp上でコンパイルして問題ありません。
gdr-07などの計算ノード上でコンパイルする必要はありません。



Q.
GRAPE-DRには近傍粒子リストが無いそうだが、今後実装する予定はあるのか?
(GRAPE-DR:2013-09-05)

A.
GRAPE-DRでは近傍粒子リストを貯めておくメモリが無いため、
GRAPE-6と同様の近傍粒子探索を実装するのは事実上不可能であるとの回答がKFCR社よりありました。
そのため、近傍粒子リストの実装の予定はありません。



Q.
i粒子とj粒子に同じ位置の情報を送り、softening parameterを設定しなければnanが返る筈。だがnanでは無い数値が戻る
(GRAPE-DR:2013-09-05)

A.
g5_calculate...関数でi粒子とj粒子に同じ粒子の情報を設定し、
ソフトニングパラメーターを設定せずに重力を計算すると、
自分自身からの重力を計算しようします。よって関数は非数値 nan を返します。
けれども現在のライブラリでは、一度入力したソフトニングの値は電源が切れるまで保持されます。
そのため、close, open したあとは全ての値を設定しなおすことが望まれます。



Q.
g6calc_lasthalf2_allの動作が不安定だが、どうすれば良いか?
(GRAPE-DR:2014-05-14)

A.
粒子数が変化した際に g6calc_lasthalf2_all の動作が不安定になる現象が発生することがあります。
粒子数が変化した後 g6_clase_all と g6_open_all を呼ぶことで、この現象を回避できる可能性があります。



Q.
GRAPE-DRのカットオフ機能が働いていないようだが、どうすれば良いか?
(GRAPE-DR:2015-06-03)

A.
g5_open()の直後に以下の記載を置いてください。

  g5_set_cutoff_table(NULL, 0.0, 0.0, NULL, 0.0, 0.0);

この関数は GRAPE-9 では無効にしているのですが、GRAPE-DR に限っては使用しています。
引数はすべて dummy で結構です。



計算サーバに関する質問



Q.
計算サーバでのiSALEの使用は可能ですか?

A.
可能です。が、誰もが利用できる訳ではありません。
iSALEの利用には厳しい条件があります。詳細はiSALE users group in Japan wikiをご覧下さい。
なおiSALE自体に関する問い合わせは上記のiSALE users group in Japanへお願いしますが、
計算サーバの問題と思われる場合には各種問い合わせへご連絡ください。
なお毎年夏にはiSALEの講習会も開催されています。こちらへの参加も是非ご検討ください。



Q.
計算サーバ上でintel MKL (Math Kernel Library)の使用は可能ですか?

A.
可能です。リンク時に-mklのオプションを指定してご利用ください。



Q.
作業領域/mwork2/と/mwork3/は何が違うのでしょうか?

A.
まず領域の大きさが違いますが、それ以上に書き込みの速度が違います。
小さなファイルを多数書き込む場合、/mwork3/への書き込み速度は/mwork2/へのそれよりずっと高いです。
これは、/mwork2/が月並みなハードウェアRAIDカードを使ったxfsのRAID機材(CentOS 7)であるのに対し、
/mwork3/はFreeBSDのZFSファイルシステム(raidz2)にssdによるキャッシュ機能を与えたものだからです。
小ファイルの大量書き込みを行う利用者各位はぜひ/mwork3/をお使いください。



Q.
作業領域/mwork1/はいつ復活するのでしょうか?

A.
本件では利用者各位へ大きなご迷惑をお掛けしております。
/mwork1/は平成29年末に機器故障を発生し、復旧はだいぶ進みつつあるものの、一般供用には未だ至っておりません。
平成30年秋には何とか復旧させ、以前よりも高速かつ大容量な領域を供用開始したいと考えています。
今しばらくお待ちください。



Q.
ジョブをqsubしたら以下のエラーが出てしまい、正常投入ができませんでした。

  qsub: submit error (Bad UID for job execution MSG=User XXXXXX does not exist in server password file)

A.
計算ノードとサーバ側の通信が一時的に途切れたのではと予想されます。少し時間を置き、再度qsubしてみてください。
何度か試行しても状況が改善しない場合は本プロジェクトの問い合わせウェブページを経由してお問い合わせください。



Q.
PBSスクリプトを実行してもジョブが投入されず、エラーメッセージも出ません。

A.
PBSスクリプトの書き間違えが考えられます。
例えば以下のようにオプション-Nの引数に空白(スペース)を含めるとジョブ投入が為されません。これは仕様です。

  #PBS -N cfca test job

詳しくは計算サーバ利用手引きを見たりman pbsを実行し、qsubのオプション詳細をお調べください。



Q.
計算サーバで一遍に数千個のファイルを開こうとしたらエラーになりました。
何故でしょうか?

A.
これはOS (CentOS)による制限です。以下のようにして確認できます。

  • /bin/csh, /bin/tcsh, /bin/zsh の場合
      $ limit descriptors
      descriptors 1024
    
  • /bin/sh, /bin/bash, /bin/zsh の場合
      $ ulimit -n
      1024
    

上記のように、OSの制限により1024個以上のファイルを同時に開くことは出来ません。



Q.
私の多くのPBSジョブが一斉に異常終了してしまいました。
何故でしょう?どれも先ほどまで走っていたものです。
あるジョブからの標準エラー出力には以下の記載がありました。

  forrtl: Disk quota exceeded
  forrtl: severe (38): error during write, unit 6, file stdout
  Image              PC                Routine            Line        Source
  XXXXX              0000000000522AB6  Unknown               Unknown  Unknown
  XXXXX              0000000000521CB6  Unknown               Unknown  Unknown
  XXXXX              00000000004DE8E6  Unknown               Unknown  Unknown
  XXXXX              000000000049C205  Unknown               Unknown  Unknown
  XXXXX              000000000049BAF2  Unknown               Unknown  Unknown
  XXXXX              00000000004D2F42  Unknown               Unknown  Unknown
  XXXXX              00000000004D19D6  Unknown               Unknown  Unknown
  libc.so.6          0000003B8161D994  Unknown               Unknown  Unknown

私はデータの書き出しをホームディレクトリ上では行っていないので、
ホームディレクトリのquota制限には抵触していないはずです。
何故に Disk quota exceeded と言われてしまったのでしょうか?

A.
これは、あなたの所有するファイルが計算ノードのルート(/)ファイルシステム (/home ではありません) の quota 制限を超えてしまい、書き込みが出来なくなったことを示しています。利用手引きにも記載がありますが、計算サーバではホームディレクトリのみならず計算ノードのルートファイルシステムにも 256GB/ユーザ (m000) の quota が設定されています。これは時折り PBS ジョブから大量の標準出力・標準エラー出力を書き出す利用者が居り、それが原因でルートファイルシステムが溢れてシステム全体が停止に到る状況を回避するためのものです。今回はあなたのPBSジョブが(一時的に)大量の標準出力または標準エラー出力を掃き出したため、この quota 制限に届いてしまったのでしょう。
下記の Q&A でも述べられているように、PBSジョブの元になるコードを改修し、ジョブが書き出す標準出力・標準エラー出力量を削減してください。一般的に言って、ひとつのPBSジョブの標準出力・標準エラー出力量がGBのオーダーになるようでは正常な状況とは言えません。



Q.
恐らくはquotaに関係する質問です。
先ほど root [at] m000.cfca.nao.ac.jp から以下のメールが届きました。これは何を意味しており、どのように対処すれば良いのでしょうか?なおホームディレクトリの quota 制限には抵触していないようで、ファイルの書き出しは可能に見えます。但しジョブを投入してもすぐに異常終了します。

  From: root [at] m000.cfca.nao.ac.jp
  To: XXXXXX [at] m000.cfca.nao.ac.jp
  Subject: NOTE: You are exceeding your allocated disk space limits
  
  Your disk usage has exceeded the agreed limits on this server
  Please delete any unnecessary files on following filesystems:
  
  /dev/sda2
  
                          Block limits               File limits
  Filesystem           used    soft    hard  grace    used  soft  hard  grace
  /dev/sda2      +-    123G    115G    123G  6days      91     0     0       

A.
これはあなたの所有するファイルが m000 のルート(/)ファイルシステム (/home ではありません) の quota 制限を超えてしまい、書き込みが出来なくなったことを示しています。利用手引きにも記載がありますが、計算サーバではホームディレクトリのみならず計算ノードのルートファイルシステムにも 256GB/ユーザ (m000) の quota が設定されています。これは、時折り PBS ジョブから大量の標準出力・標準エラー出力を書き出す利用者が居り、それが原因でルートファイルシステムが溢れてシステム全体が停止に到る状況を回避するためのものです。今回はあなたのPBSジョブがあまりに大量の標準出力または標準エラー出力を掃き出したため、この quota 制限に届いてしまったのでしょう。PBSジョブが一時領域として用いる /var/spool/ に何も書けなくなったので、現状であなたがPBSジョブを投入してもすべて異常終了するのです。この状況から脱脚するには以下の二作業が必要となります。

  1. 各々の計算ノードの /var/spool/ (その実体はすべて m000 のルートファイルシステム以下にあります) に残されたあなたのファイル群をすべて削除し、ルートファイルシステムの quota 溢れ状態から脱け出します。具体的には、m000 上で以下のディレクトリ以下にあるファイルを探してください。
      /tftpboot/corei7node/snapshot/mis??/var/spool/PBS/undelivered/
    

    ここで mis?? は mis01 から mis64 までが該当しますが、その中にあなたが所有者になっている巨大なファイルが幾つもあるはずです。それらを削除してください。

  2. PBSジョブの元になるコードを改修し、ジョブが書き出す標準出力・標準エラー出力量を削減します。一般的に言って、ひとつのPBSジョブの標準出力・標準エラー出力量がGBのオーダーになるようでは正常な状況で無いと言えます。

なお対処1.内で/var/spool/上のファイル削除を行う方法が分からない場合には、本プロジェクトの問い合わせウェブページを経由してお問い合わせください。



Q.
これも恐らくはquota関係と思われる質問です。
先ほど root [at] m000.cfca.nao.ac.jp から以下のメールが届きました。これは何を意味しており、どのように対処すれば良いのでしょうか?

  From: root [at] m000.cfca.nao.ac.jp
  To: XXXXXX [at] m000.cfca.nao.ac.jp
  Subject: NOTE: You are exceeding your allocated disk space limits
  
  Your disk usage has exceeded the agreed limits on this server
  Please delete any unnecessary files on following filesystems:
  
  Home directory (/dev/sdb1)
  
                          Block limits               File limits
  Filesystem           used    soft    hard  grace    used  soft  hard  grace
  /dev/sdb1      +-  19532M  19043M  19532M   none   44706     0     0       

A.
これはあなたのホームディレクトリ上のデータサイズが quota 制限値を超えたことを意味します。不要なファイルを削除してください。



Q.
m000.cfca.nao.ac.jp にssh接続すると以下のエラーが出、ログインできません。

  @@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@
  @    WARNING: REMOTE HOST IDENTIFICATION HAS CHANGED!     @
  @@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@
  IT IS POSSIBLE THAT SOMEONE IS DOING SOMETHING NASTY!
  Someone could be eavesdropping on you right now (man-in-the-middle attack)!
  It is also possible that the RSA host key has just been changed.
  The fingerprint for the RSA key sent by the remote host is
  XX:XX:XX:XX:XX:XX:XX:XX:XX:XX:XX:XX:XX:XX:XX:XX.
  Please contact your system administrator.
  Add correct host key in /home/****/.ssh/known_hosts to get rid of this message.
  Offending key in /home/****/.ssh/known_hosts:9
  RSA host key for m000.cfca.nao.ac.jp has changed and you have requested strict checking.
  Host key verification failed.

A.
お使いの環境のホームディレクトリに ~/.ssh/known_hosts というファイルがあると思います。そのファイルをエディタで開き、 m000.cfca.nao.ac.jp あるいは m000 から始まる行を削除してください。その後に再び m000.cfca.nao.ac.jp に ssh ログインを試みてください。ログイン前に何らかの質問をされたら yes と回答します。
この現象はm000に限らず普遍的に発生する現象なので、Googleなどでも多数の情報が得られるます。



Q.
計算サーバでは利用者データのバックアップは取っていないのでしょうか?

A.
取っていません。データの保全には利用者各位が御自分でしっかりと責任をお持ち頂くよう、強くお願いいたします。



Q.
m000.cfca.nao.ac.jp に $HOME/.emacs の雛型はありますか?

A.
はい、/etc/skel/.emacs があります。



Q.
PBSジョブ投入時にジョブの最大CPU時間や経過時間を指定する方法を教えてください。

A.
qsubのオプション -l keyword=value で指定が可能です。
-l オプションはジョブのリソース要求を指定するもので、
指定できる keyword の代表には以下があります。

  cput     ジョブによって使用されるCPU時間の最大値 (単位: time)
  file     ファイルを作成する際のサイズ制限 (単位: size)
  mem      最大物理メモリ容量 (単位: size)
  ncpus    要求されたプロセッサ(コア)数
  pcput    ジョブ内の一つのプロセスに割り当てられる最大CPU時間 (単位: time)
  pmem     ジョブ内の一つのプロセスで使用される最大物理メモリ容量 (単位: size)
  pvmem    ジョブ内のすべての同時プロセスで使用される最大仮想メモリ容量 (単位: size)
  vmem     ジョブ内のすべての同時プロセスで使用される最大仮想メモリ容量 (単位: size)
  walltime ジョブが実行状態にある場合の実際の時間(経過時間)の最大値 (単位: time)

cputなどを指定する場合、時間(上記のtime)は秒数(整数値)もしくは次の形式で指定します。

  [[hours:]minutes:]seconds[.milliseconds]

fileやmemを指定する場合、サイズ(上記のsize)は以下のsuffixを用いて指定してください。

  b またはw  : バイトまたはワード
  kbまたはkw : キロバイトまたはキロワード
  mbまたはmw : メガバイトまたはメガワード
  gbまたはgw : ギガバイトまたはギガワード

例えば以下のような指定が出来ます。

  qsub -q long -l cput=765:43:21 -l pmem=321mb スクリプト

ここで qstat -f コマンドを投入すると、
当該リソースが指定された値を持っていることが分かるでしょう。

  qstat -f 上記のジョブID
    Resource_List.cput = 765:43:21
    Resource_List.pmem = 321mb

更に詳しい情報についてはPBS Professional のユーザーガイドを参照してください(ファイルにアクセスするためには本Webシステムにログインする必要があります。)。



Q.
大型ファイルの消し方が分かりません。
ひょんな事から非常に大きなサイズのファイルを作ってしまい、ディスク領域を圧迫し始めました。これを rm コマンドで消そうとしましたが消せません。どうすれば良いでしょうか?

A.
当該ファイルを同名の小サイズのファイルで上書きする、もしくは以下のコマンドを実行してください。

  echo "" > 当該ファイル

もしくは以下です。

  cat /dev/null > 当該ファイル

いずれにせよそれなりの時間が掛かります。



Q.
/home/上以外に、私のファイルが削除されないディレクトリは無いのでしょうか?

A.
ありません。



Q.
/mwork2/など作業用ディレクトリにはquota制限は掛かっているのでしょうか?

A.
はい、掛かっています。マニュアルを御覧ください。
(注・平成30年9月現在、/mwork3/にはquota制限がありません)



Q.
作業用ディレクトリに置いたディレクトリはどう扱われるのでしょうか?
やはり一定期間で削除されますか?

A.
ディレクトリは自動的には削除されません。但しディレクトリ内にあるファイルは削除されますので、しばらくすると空のディレクトリがたくさん残されることになります。
そういうものを余り多く残さないでください。



Q.
qdelを用いてジョブ削除しようとしましたが、消えません。

A.
計算ノードとの通信状況が悪い時にこれが発生することがあります。
qdelにオプション -W force を付けて実行してみてください。

  qdel -W force ジョブID ...

オプション -W force の意味は "Deletes the job whether or not the job' execution host is reachable." です。詳しくは man qdel を参照してください。なお上記のオプションを付けてもジョブをqdelできない場合にはジョブに何らかの障害が発生している可能性があります。その場合はこのページから報告をお願いします。



Q.
同時に存在できるサブディレクトリ数に上限はあるでしょうか?
あるディレクトリ下に多数のサブディレクトリを作っていたら(mkdir)
或る時点から以下のようなエラーが出て、ディレクトリを作製できなくなりました。

  mkdir: ディレクトリ `XXXX/YYYY/ZZZZ' を作成できません: リンクが多すぎます

このメッセージは何を意味しているのでしょうか?
ちなみにサブディレクトリの総数は32000個ほどになっています。

A.
Linux kernel によるディレクトリ数の制限に抵触しているものと思われます。
kernel のソースコード内に以下のような記載があり、
単一ディレクトリ内に作製できるサブディレクトリ数の上限値が設定されています。

  #define EXT2_LINK_MAX 32000
  #define EXT3_LINK_MAX 32000

当該ディレクトリにはこれ以上のサブディレクトリは作れませんので、
サブディレクトリ群の削除または移動をお願いします。



Q.
TearTermを使ってm000へアクセスしようとしていますが、接続できません。

A.
以下の手順を試してみてください。以下をすべて試しても上手く接続できない場合には、詳しい状況とエラーメッセージを添えて再度本プロジェクトに御連絡ください。

  1. VPNが正しく動いているかどうかを確認して下さい。
    Windowsのコマンドプロンプトからipconfig /allと打ちこみ、その結果を確認します。このファイルのp.5 「IPアドレスの確認」を参照してください。
  2. あなたのTearTermはそもそもsshをサポートしていますか?
    こちらのページにある UTF-8 TeraTerm Pro with ttssh2 を利用してsshで接続している場合は問題ありませんが、TeraTerm のみではssh接続できません。UTF-8 TeraTerm Pro with ttssh2をインストールしてください。
  3. チャレンジレスポンス認証を使っていませんか?
    これを使うように設定されている場合はチェックボックスをoffにして、使用しないようにしてみてください。こちらを見ればわかりますが、okボタンのすぐ上にあります。
  4. m000以外のマシンへもアクセスしてみてください。
    VPNにもTeraTermの設定にも問題がない場合はm000以外のマシン、例えば解析サーバ群(an00.cfca.nao.ac.jp など)にアクセスを試みてください。


Q.
m000上でghostscriptの絵窓が出ません。
以下のようにしましたが、エラーは出ないものの肝心の絵窓が開きません。

  gs example.ps

A.
オプション -sDEVICE=x11 を付けて実行してみてください。

  gs -sDEVICE=x11 example.ps


Q.
PBSスクリプトの中でPBS環境変数がどういう値なのかを知りたいです。
どのようにすれば一覧を表示できるでしょうか?

A.
PBSスクリプトをcsh文法で記しているならば以下のような方法があります。
なお幾つかのPBS環境変数にはデフォルト値が設定されていません。

  set pbsvariables = (\ 
    NCPUS \ 
    OMP_NUM_THREADS \ 
    PBS_ARRAY_ID \ 
    PBS_ARRAY_INDEX \ 
    PBS_ENVIRONMENT \ 
    PBS_JOBCOOKIE \ 
    PBS_JOBID \ 
    PBS_JOBNAME \ 
    PBS_MOMPORT \ 
    PBS_NODEFILE \ 
    PBS_NODENUM \ 
    PBS_O_HOME \ 
    PBS_O_HOST \ 
    PBS_O_LANG \ 
    PBS_O_LOGNAME \ 
    PBS_O_MAIL \ 
    PBS_O_PATH \ 
    PBS_O_QUEUE \ 
    PBS_O_SHELL \ 
    PBS_O_SYSTEM \ 
    PBS_O_TZ \ 
    PBS_O_WORKDIR \ 
    PBS_QUEUE \ 
    PBS_TASKNUM \ 
    TMPDIR \ 
  ) 
  foreach pbsvar ($pbsvariables[*]) 
    if (`eval echo '$'${pbsvar}` == '') then 
      echo "$pbsvar is not defined" 
    else 
      eval echo $pbsvar='$'${pbsvar} 
    endif 
  end 


Q.
標準出力ファイルと標準エラー出力ファイルの中身が分かりません。
PBSスクリプトを投入したら、標準出力ファイル file.oXXXX と標準エラー出力ファイルfile.eXXXX にそれぞれ以下のメッセージが出力されました。
標準出力ファイル file.oXXXX の内容は以下です。

  Warning: no access to tty (Bad file descriptor).
  Thus no job control in this shell.

標準エラー出力ファイル file.eXXXX の内容は以下です。

  stty: standard input: Invalid argument

これらは何を意味しているのでしょうか?実害はあるのでしょうか?

A.
ログインシェルにcshまたはtcshが使われているとこのメッセージが出力されることがありますが、計算の実行に実害はありません。



Q.
私のPBSジョブの経過時間(walltime)に比べ、CPU時間(cputime)がとても短いようです。
これは何故でしょうか?なお下記のqstat -fの結果は一部のみ抜粋して記載しています。

  $ qstat -f 562
  Job Id: 562.m000.cfca.nao.ac.jp
    resources_used.cput = 03:52:54
    resources_used.walltime = 68:57:58
    exec_host = m004/0

A.
主に以下の二つの可能性が考えられるでしょう。

  • このジョブに伴うファイル入出力にとても時間が掛かっている。御自分のジョブが不必要なファイル入出力を行伴っていないかどうかをご確認ください。
  • 計算ノード(上記の場合にはm004)に障害が発生している。こちらが疑われる場合には、誠にお手数ですがこのページから詳細の報告をお願いします。

なお計算ノードの障害の場合には当該 PBS ジョブを強制終了する必要が高いことを予め御了承ください。



Q.
m000からPBSジョブをqsubしましたが、以下のエラーが出力されてジョブが走りません。

  stty: standard input: Invalid argument
  forrtl: severe (174): SIGSEGV, possible program stack overflow occurred.
  Program requirements exceed current stacksize resource limit.
  Superusers may try increasing this resource by 'limit stacksize xxx',
  where xxx is unlimited or something larger than your current limit.
  Other users should contact your system administrator for help.

A.
このエラーはstacksize上限を解除すると回避できることがあります。
cshやtcshの場合には以下のようにしてください。

  unlimit

shや bashの場合には以下のようにしてください。

  ulimit -s unlimited

PBSスクリプト内では以下のようにして上限解除の指定を追加してください。

  #!/bin/sh
  #PBS -r y
  #PBS -m ae
  #PBS -q long
  #PBS -l nodes=1
  
  # This job's working directory
  echo Working directory is $PBS_O_WORKDIR
  cd $PBS_O_WORKDIR
  echo Running on host `hostname`
  echo Time is `date`
  echo Directory is `pwd`
    
  # Run your executable
  ulimit -s unlimited		# ★ここに追加
  ./a.out


Q.
m000からPBSジョブを投入すると、以下のエラーが出てジョブが終了します。
9391というエラー番号は何を意味しているのでしょうか?

  /var/spool/PBS/mom_priv/jobs/211.m000.SC: line 20:  9391 強制終了

A.
エラー番号9391は、実行されたジョブの仮想メモリ領域へのダイナミックメモリ割り当て要求が制限を越えたため、割り当てできずにカーネルがそのジョブを強制終了させたという意味です。つまりジョブが仮想メモリ領域を使い切り、プロセスが停止したということです。これを解決するには、仮想メモリ制限内で動作するように扱うジョブが扱うデータを小さくする以外に方法はありません。



Q.
m000でman -wを実行すると以下のメッセージが出力され、manpathが表示されません。

  What manual page do you want?

A.
"man -w コマンド名"として使用してください。例えば以下です。

  $ man -w man
  /usr/share/man/man1/man.1.gz


Q.
ある特定のジョブが終わってから次の特定のジョブが走るqsubオプションを教えてください。

A.
"-W depend=afterok:ジョブID" オプションを使用してください。

  qsub -W depend=afterok:244.m000 JOB_B

これにより、JOB_A が終了した後に JOB_B が走り出します。

  Job id           Name             User             Time Use S Queue
  ---------------- ---------------- ---------------- -------- - -----
  244.m000         JOB_A            user             00:00:09 R short
  245.m000         JOB_B            user             00:00:00 H short
  246.m000         JOB_C            user             00:00:00 R short

上記の他にafterng, afteranyも使えます。マニュアルを御覧ください。



Q.
自分が過去に実行したPBSジョブの情報を見ることはできるでしょうか?

A.
はい、できます。tracejobコマンドをご利用ください。
tracejobをオプションなしで実行すると、当日のログファイルからジョブに関するログを出力します。当日にログをはき出していなければ何も表示されません。
その場合には -n オプションで過去何日分のログファイルを検索するか指定すると情報が得られます。
例えば30日前に投入したジョブ(job id = 11999)を検索する場合に、オプションなしでは何も表示されません。
過去30日分のログファイルを検索対象に指定します。

  $ tracejob -n 30 11999
    
  Job: 11999.m000
    
  11/22/2005 10:36:53  S    Job Queued at request of user [at] m000.cfca.nao.ac.jp,
                            owner = user [at] m000.cfca.nao.ac.jp, job name = test.sh,
                            queue = short
  11/22/2005 10:36:53  S    Job Modified at request of
                            Scheduler [at] m000.cfca.nao.ac.jp
  11/22/2005 10:36:53  S    enqueuing into short, state 1 hop 1
  11/22/2005 10:36:53  A    queue=short
  11/22/2005 13:26:53  L    Server job limit reached
  11/22/2005 13:35:27  L    Considering job to run
  11/22/2005 13:35:27  S    Job Modified at request of
                            Scheduler [at] m000.cfca.nao.ac.jp
  11/22/2005 13:35:27  S    Job Run at request of Scheduler [at] m000.cfca.nao.ac.jp
                            on hosts m004
  11/22/2005 13:35:28  L    Job run
  11/22/2005 13:35:28  A    user=user group=naocc jobname=test.sh queue=short
                            ctime=1132623413 qtime=1132623413 etime=1132623413
                            start=1132634128 exec_host=m004/0
                            Resource_List.cput=00:30:00 Resource_List.ncpus=1
                            Resource_List.neednodes=1 Resource_List.nodect=1
                            Resource_List.nodes=1
  11/22/2005 13:39:28  S    Obit received
  11/22/2005 13:39:28  S    Exit_status=0 resources_used.cpupercent=8
                            resources_used.cput=00:00:28 resources_used.mem=4324kb
                            resources_used.ncpus=1 resources_used.vmem=21992kb
                            resources_used.walltime=00:03:59
  11/22/2005 13:39:28  A    user=user group=naocc jobname=test.sh queue=short
                            ctime=1132623413 qtime=1132623413 etime=1132623413
                            start=1132634128 exec_host=m004/0
                            Resource_List.cput=00:30:00 Resource_List.ncpus=1
                            Resource_List.neednodes=1 Resource_List.nodect=1
                            Resource_List.nodes=1 session=24075 end=1132634368
                            Exit_status=0 resources_used.cpupercent=8
                            resources_used.cput=00:00:28 resources_used.mem=4324kb
                            resources_used.ncpus=1 resources_used.vmem=21992kb
                            resources_used.walltime=00:03:59
  11/22/2005 13:45:44  S    dequeuing from short, state 5

同様な動きをするコマンドにqstat -fxもありますので、同時にお試しください。



Q.
私のPBSジョブはまだ終わっていないにに削除されました。何が問題でしょうか?

A.
申し訳ございません、ジョブ実行中にシステム障害が発生していた可能性があります。また、ジョブ投入のPBSスクリプト内で下記のように再実行のオプションに n が指定されていたため、システムの復旧後にジョブが再実行されず、削除された可能性があります。

  #PBS -r n

次回以降のために、障害からの復旧後のジョブが自動再投入されるよう、PBSスクリプト内にて下記のとおり再実行のオプションを y に指定してください。

  #PBS -r y



解析サーバに関する質問



Q.
macOSからVisItを使用するとエラーが発生し、使用できません。

A.
以下のようなエラーが発生する場合には、XQuartzの設定を行う必要があります。

  libGL error: No matching fbConfigs or visuals found
  libGL error: failed to load driver: swrast
  X Error of failed request:  BadValue (integer parameter out of range for operation)
    Major opcode of failed request:  154 (GLX)
    Minor opcode of failed request:  3 (X_GLXCreateContext)
    Value in failed request:  0x0
    Serial number of failed request:  34
    Current serial number in output stream:  35
  Running: engine_ser2.10.0 -host 127.0.0.1 -port 5600
  libGL error: No matching fbConfigs or visuals found
  libGL error: failed to load driver: swrast
  X Error of failed request:  BadValue (integer parameter out of range for operation)
    Major opcode of failed request:  154 (GLX)
    Minor opcode of failed request:  3 (X_GLXCreateContext)
    Value in failed request:  0x0
    Serial number of failed request:  34
    Current serial number in output stream:  35

この問題の解決方法には以下の二種類があります。

  1. XQuartzのバージョンを2.7.10以降に更新する
  2. ターミナルから以下のコマンドを実行する
      defaults write org.macosforge.xquartz.X11 enable_iglx -bool true
    


Q.
最新のPythonを使用することは可能でしょうか?

A.
最新のPythonについてはご自身のホームディレクトリにPythonをインストールしていただく必要があります。
一例として、Anacondaを用いる方法を以下に示します。


  1. https://www.continuum.io/ からLinux 64bit対応のインストーラをダウンロードして、御自分のホームディレクトリに置きます。
  2. シェルがbashなら、以下のようにしてインストールします。
      $ bash Anaconda3-4.2.0-Linux-x86_64.sh
    

    デフォルトでホームディレクトリ直下にインストールされ、環境変数の設定も行われます。

  3. 環境変数の設定が済んでいれば、AnacondaのPythonが使用されます。
      $ python --version
      Python 3.5.2 :: Anaconda 4.2.0 (64-bit)
    



Q.
外部のftpサーバから解析サーバにデータを送ることは可能でしょうか?

A.
解析サーバを含むCfCA HPCネットワーク内の機材は、セキュリティの観点からftpによる接続を許可しておりません。
scpコマンドなどを用いたデータ転送をお願いいたします。



Q.
年度が変わった際、利用申請が未だの段階でも解析サーバの/home/や/xc-work/にはアクセスできるのか?

A.
新年度の利用申請を行われていない場合、年度が変わった段階で解析サーバ上のデータへはアクセスできなくなります。
但し、利用申請が間に合わなくても解析サーバの/homeおよびファイルサーバのデータが直ちに消去されることはありません。



ネットワーク接続に関する質問



Q.
VPN接続がしばしば切れます。自動タイムアウト等が設定されているのでしょうか?

A.
CfCA側ではタイムアウトは設定していません。
VPN接続の安定性はご利用のネットワーク環境に強く依存します。
切断が頻発する際にはエラーメッセージや使用環境(OS,クライアント)を沿えて各種問い合わせからお知らせ下さい。
また、一ユーザあたりのVPNクライアント接続数は1接続/1台となっています。
3台目のVPN接続を行うと、それまで接続していた2台のVPN接続のいずれかが切断されます。



Q.
CfCA機器(例えばXC50)から外向きのssh通信として22以外のポート(12345等)を使いたいです。
ここではCfCA HPCネットワークから外部機関向けの通信の話をしています。
以前はこれが出来ていた記憶がありますが、今は出来ません。何故でしょうか?

A.
国立天文台のセキュリティポリシー強化により、
平成30年度からは内外の通信許可がより一層厳密になりました。
そのため、現在は22番ポート以外による外部通信が制限されております。
ご所属の機関が22ポートの利用を制限している場合には、
何らかの方法でHPCネットワークから接続できるsshゲートウェイを
御自分でどこかに準備して頂く必要があります。御了承ください。



Q.
CfCA HPCネットワークへIPsec VPNによる接続を試みましたが、接続できません。
XC30時代には接続できました。どうすれば良いでしょうか?

A.
平成30年度より運用開始されたCfCAの共同利用計算機システムに於いて、IPsec VPNはサポート対象外となっております。
詳しくはこちらのページをご覧いただき、SSL-VPNによる接続をお試しください。



Q.
VPN接続時にsshセッションが途中で切れる。どうしたら良いか?

A.
VPNが接続されたままの状態でsshセッションが切れる場合には以下の設定をお試しください。


  • Linux等を御利用の場合には~/.ssh/configに以下の設定を書き込んでください。
      Host *
      ServerAliveInterval=60
    

  • WindowsでPUTTYを使用している場合には設定で「カテゴリ」→「接続」をクリックすると、「接続の設定」画面が開きます。
    そこで「Keepaliveの間隔」を10と設定してからssh接続を行って下さい。
  • WindowsでTeraTermを使用しているなら、設定で「SSH...」をクリックすると「TTSSH 設定」画面が開きます。
    その中で「ハートビート (keep-alive)」を60と設定してからssh接続を行って下さい。


Q.
以下のメッセージが出てVPN接続が確立しません。どうしたら良いですか?
具体的には、AnyConnectでのアクセス時に以下のエラーが出ました。

  The secure gateway has rejected the connection attempt.
  A new connection attempt to the same or another secure gateway is needed, which requires re-authentication.
  The following message was received from the secure gateway: No assigned address

A.
これはVPN接続が混雑している場合(同時接続数が上限に達した場合)に表示されるものです。
しばらく時間を置いてから接続をお試しください。



Q.
大学内のhttpポートで外部と通信する際にproxy serverを経由している場合、macOSからVPN接続できません。
具体的には、AnyConnect でのアクセス時に次のようなエラーが発生しました。

  Could not connect server. Please verify internet connectivity and server address.

A.
macOS版のAnyConnectについてはproxy越しの接続に対応していません。Windows版であれば可能です。
AnyConnectはSSL通信を利用していますので、SSLで利用するポートがプロキシサーバを経由しない必要があります。
プロキシ無しにTCP/443ポートで接続できる環境をご用意ください。



Q.
LinuxのOSアップデート後、VPN接続ができなくなりました。

A.
Ciscoクライアントが対応しているLinux kernelは2.6までです。Kernelのバージョンを調べてください。



Q.
CfCAから教えて頂いた初期NISパスワードではVPN接続ができません。

A.
VPN接続用パスワードはNISパスワードとは別ものであり、別途お知らせしております。
そちらをお使いになって接続してください。



Q.
gitによる通信が実行できません。どうすれば良いですか?

A.
CfCAのHPCネットワークではport 22のみが外部へ開放されています。gitを使用する際は以下の設定を行ってください。


  1. 公開鍵をgitサーバに登録する。たとえばgithubの場合はwebページのsettings > SSH keysから手続きしてください。
  2. ssh等でXCに秘密鍵を転送する。


Q.
bitbucketへのアクセスが遅いのですが、どうすれば高速化されますか?

A.
あなたの ~/.ssh/config に以下の記述を追加してください。

  Host bitbucket.org
  AddressFamily inet



その他の物事に関する質問



Q.
CfCAのWebアカウントに登録された電子メールアドレスを変更したいです。
しかし、変更を試みると「現在のパスワードが入力されていないか正しくありません。パスワードの変更に必要です。」と言われてしまいます。
パスワードは正しいものを入力しているはずです。どうすれば良いでしょうか?

A.
ご面倒をお掛けします。これはDrupalの悪仕様のようです。
Webアカウント作製手順のページの中段の「備考(よくある質問):」の欄にこの問題への対処法が記されています。
具体的には、パスワード再発行の手続きと同等な作業を行います。お試しください。



Q.
I want to change my e-mail address on my web account at www.cfca.nao.ac.jp .
However, when I try to change my information on my profile page,
the system says "Your current password is missing or incorrect," and
I cannot make any changes. It is a problem for me, and what should I do?

A.
It is one of the typical FAQs, and please take a look at this pair of question and answer and this webpage.
Note the following information is all in Japanese.
In a word, for changing your registered e-mail address on your web account,
you would need to go through a process of re-issuing your password.
On the way, you are supposed to receive an e-mail from the web system,
and you will be able to change your registration information including
your e-mail address at the first login.



Q.
私は日本国外の研究機関に所属していますが、CfCAの共同利用計算機は使えますか?
使える可能性があれば利用申請を提出したいです。

A.
あなたが日本国内の大学院で修士または博士号を取得されている場合は、可能です。
利用申請資格の項目2を御覧ください。
該当する学位がない場合は、原則的には日本国内の研究機関・大学院にポストを持つ研究者あるいは学生であることが必要となります。
上記いずれにも該当しない場合は、プロジェクト長の判断に任されます。



Q.
利用申請フォームに投稿したPDFファイルの内容をもう一度確認したい。

A.
システム上の制約により、投稿後のファイルをご確認いただくことはできません。
修正したい場合や投稿の成否が不安な場合には、再提出してください。
なお申請者が学生の場合は、申請書の再提出後に指導教員へ推薦の確認のメールが届きます。
指導教員はメールに記載されている申請書IDが正しいことを確かめてから作業を行ってください。



Q.
I came to Japan recently, and want to use your computer system.
I heard that I need to go through some legal procecures for that. How should I do it?

A.
In Japan, we have a legal regulation called "Export Trade Control Order."
According to this law, CfCA has to confirm user and his/her application
before the actual trade if they are not employed by institutions/universities
in Japan or if they have not stayed in Japan for more than six months.
Please take a look at our webpage for this purpose.
Note that you also need to go through this procedure if you want to use our computer system from abroad.



Q.
Can you tell me the actual procedure to get Export Trade Control done?
I am talking about how I can use your computer system while I am in Japan
(as a non-paid student).
I found a webpage for that, the description is long and complicated.
In addition, everything is written in Japanese.
Could you let me know in practice what I should do?

A.
We presume you are looking at our webpage for Export Trade Control.
First, please take a look at the following webpage for
an outline of what the export trade control system in Japan is.

Then my question is: How long have you been in Japan?
If you have been already in Japan for more than 6 months,
you would not need to do anything for making an application to our
computer system, as you would be regarded as (legally) living in Japan.
And you would not need to read the rest of this e-mail.

If it has been still less than 6 months since you arrived at Japan,
you would have to give us the following information and material
through the web form in the above webpage of ours before we give you
a web account of our site:


  • 氏名 ← Your name
  • メールアドレス ← Your e-mail address
  • 居住国 ← Choose "Japan" (日本)
  • 居住開始日 ← Enter the month/day/year of the first day of your stay in Japan
  • 所属機関 ← Choose your current institute in Japan
  • 所属機関の部局名 ← Enter your department at your institute
  • 所属機関の代表者氏名 ← Enter the name of the President of your institute
  • 所属機関事業内容 ← write down "Education and research" or whatever describes the business contents of your institute
  • 該非判定に必要な情報提供目的 ← click "計算機共同利用" (use of computers)

Then, you will find a sub menu below that:


  • 研究課題名 ← Enter the subject of your research
  • ファイル ← Upload a PDF file containing your research plan in detail. The filesize must be smaller than 2MB, and the format must be PDF.
  • 通信欄 (misc) ← Enter some more information about you (if any) such as

    Currently working at the University of Tokyo for master's thesis.
    Actually affiliated to University of XXXX in ZZZZ (country)."

    Also, provide us with the URL of the official webpage of University of XXXX in ZZZZ
    as well as its president (dean, chair, ... or whoever is responsible for the operation of the university).

  • 確認 (confirmation) ← Click it when you are done
  • プレビュー (preview) ← Click it, and a preview screen will show up

Then, finally


  • 送信 (submit) ← Click to get it done

It is really a formal, bureaucratic process,
but we must go through this thing to comply with a law (Foreign Exchange and Foreign Trade Act).
We appreciate your understanding, and thank you very much in advance.



Q.
I am working at an institute outside Japan, but want to use your computers.
I heard that I need to go through some legal procecures for that. How should I do it?

A.
First, we presume that you are qualified to use our computer system.
If not, please find another computer resources other than ours.
If qualified, same as the above Q&As, you would need to go through Export Trade Control Order.
Take a look at our webpage for Export Trade Control.
For understanding what the export trade control system in Japan is,
this governmental page may come in hand, so please browse through it.

Please give us the following information and material through the web form
in the above webpage of ours before we give you a web account of our site:


  • 氏名 ← Your name
  • メールアドレス ← Your e-mail address
  • 居住国 ← The country name where you live now
  • 居住開始日 ← The month/day/year of the first day of your stay in the country
  • 所属機関 ← Your current institute
  • 所属機関の部局名 ← your department at your institute
  • 所属機関の代表者氏名 ← The name of the President/CEO/... or whoever is responsible for your institute
  • 所属機関事業内容 ← Something that best describes the business contents of your institute, such as "education", "medical service", "weapons production", "counterintelligence", and so on.
  • 該非判定に必要な情報提供目的 ← click "計算機共同利用" (use of computers)

Then, you will find a sub menu below that:


  • 研究課題名 ← Enter the subject of your research
  • ファイル ← Upload a PDF file containing your research plan in detail. The filesize must be smaller than 2MB, and the format must be PDF.
  • 通信欄 (misc) ← Enter some more information about you (if any) such as

    Currently working at the University of Tokyo for master's thesis.
    Actually affiliated to University of XXXX in ZZZZ (country)."

    Also, provide us with the URL of the official webpage of University of XXXX in ZZZZ
    as well as its president (dean, chair, ... or whoever is responsible for the operation of the university).

  • 確認 (confirmation) ← Click it when you are done
  • プレビュー (preview) ← Click it, and a preview screen will show up

Then, finally


  • 送信 (submit) ← Click to get it done

We appreciate your understanding, and thank you very much in advance.



Q.
Do I need to register my info on export trade control every year?
I am living outside Japan. I received several emails on export trade control,
but I have already provided this information a year ago.
Let me ask you if I need to send this information again.

A.
Yes, you do.
Your information that you had provided last year was effective just between a Japanese fiscal year (from April to the next March).
So, you have to repeat the similar procedure the next year again.
Thank you very much for your cooperation.



Q.
私が指導する学生の申請を承認しようとしたが、氏名が記入されていない。
手で記入しようとしたが、それも拒否される。このままでは承認が出来ないが、どうすれば良いか?
私が受け取った電子メールに記されていた「これをコピペせよ」というURLは以下であった。

http://www.cfca.nao.ac.jp/supervisor_approval?id=6508&email=xxyyzz [at] example.domain.abc&category=XC50利用申請

A.
仰る通り、学生からの申請については指導教員の確認を取るため、
すべての教員宛てに以下のメールが届くようになっております。

申請を受理するためには貴方の確認が必要です。次のURLから申請内容を確認後、送信ボタンを押してください。
URLが途中で改行されている場合には、"http://www.cfca.nao.ac.jp/supervisor_approval”から
”student=○○○○”までの文字列(URL)をコピーし、ブラウザのURL欄に手動でペーストしてください。
http://www.cfca.nao.ac.jp/supervisor_approval?id=6508&email=xxyyzz [at] example.domain.abc&category=XC50利用申請
(2018年度)&type=AsNeeded&student=○○○○

しかし、教員の皆様のお手元の環境(メーラ等)によっては上記のようにURLが途中で改行され、
誤って一行目だけをコピペすることで正しくないページに誘導されることがあります。
今回ご報告されたものはその一つであり、上記URL

http://www.cfca.nao.ac.jp/supervisor_approval?id=6508&email=xxyyzz [at] example.domain.abc&category=XC50利用申請
(2018年度)&type=AsNeeded&student=○○○○

の一行目だけをコピペしてしまった結果であると想像されます。
これを避けるためには電子メールに記されているURLのすべて(複数行にわたり)コピーし、
それを一行のURLとしてブラウザのURL欄に手動でペーストしてください。要するに、URL

http://www.cfca.nao.ac.jp/supervisor_approval?id=6508&email=xxyyzz [at] example.domain.abc&category=XC50利用申請(2018年度)&type=AsNeeded&student=○○○○

を手動で作る作業になります。誠にお手数をおかけしますが、よろしく御協力をお願いいたします。



Q.
共同研究者のデータをコピーするためだけにアカウントを取得することは可能ですか?
私の或る共同研究者が昨年度までは計算機共同利用者だったのですが、
今年度は諸事情のために利用者になっていません。
その人が作ったファイルを私が取得したいと考えています。

A.
いいえ、不可です。
そのようなデータ取り出しのためだけのアカウント発行は許可されません。
そのような場合には共同研究者の方から直接データをお受け取りください。
CfCAでは通常のアカウント発行の際、本人確認などを慎重に行っています。
上記の要望に応えれば管理不行届きなアカウントが発行され、保安上上の綻びが生じます。
そうした事態を防ぐため、単なるデータコピーのためのアカウントは発行しません。
悪しからず御了承ください



Q.
CfCA主催の講習会等に参加するための旅費支給の原則はどうなっていますか?

A.
こちらのページにまとまっていますので、御覧ください。
旅費支給を受けるために必要な振込口座届出書についての説明もあります。



Q.
CfCAの計算機共同利用者が出版した論文などの一覧はありますか?

A.
こちらにあります。
原則として年に一度、7月上旬に更新されています。



Q.
国立天文台三鷹はどうしてあのように交通不便な場所にあるのでしょうか?

A.
不便であるか否かは個人の感覚よる部分が大きいと思いますが、
現在の立地に関する歴史的な経緯についてはこちらのページが詳しいので、お読みください。



Q.
Cray XC50の次に、CfCAのスーパーコンピュータはどういうものになるでしょうか?

A.
さあ、それは誰にも分かりません。
西暦2024年の春まで楽しみにお待ちください。


Last updated: Fri Sep 7 12:02:05 JST 2018