XC50障害情報

国立天文台天文シミュレーションプロジェクト XC50利用者各位

10月11日(金) 15:00-16:00ごろにXC50のログインノードのうち1台 xc01 が不安定になり、sshログインができなくなる等の問題がおきました。
原因は、当該ノードにおいて特定のユーザのpythonプロセスが大量のメモリを使用したことでした。

本件により影響を受けたジョブは以下の二種類
[1] xc01から起動され、10月11日(金) 15:50時点で実行中だったジョブ
[2] 同日15:50から(PBSデーモンを再起動した)17:10までにxc01から起動され、終了したジョブ
であり、具体的なジョブの一覧は以下の通りです。
当該ジョブを投入された利用者各位にはお手数をおかけしますが、ジョブの状態をご確認ください。
この度は利用者の皆様に大きなご迷惑をおかけしたことを深くお詫び申し上げます。

[1] xc01から起動され、10月11日(金) 15:50時点で実行中だったジョブ
Job ID, Username, Queue, Jobname
6142061.sdb,kurodatk,bulk-a,S20R10B00
6142099.sdb,kurodatk,large-a,M1S20NEW
6142387.sdb,takaishi,bulk-md,al02nh0d_r
6146063.sdb,hosokwtk,large-b,CaseC_m056
6146500.sdb,kurodatk,bulk-a,NeuV2B13
6146585.sdb,takiwkkz,bulk-cfc,s11.2-2D
6148113.sdb,kuwahara,large-b,m01_hw003
6148172.sdb,hiraiyt,large-a,3119_7
6152823.sdb,matsmttm,bulk-a,M1B01
6152843.sdb,fukushim,bulk-b,Z-2b0002
6152922.sdb,fukushim,bulk-b,Z1_b020
6152978.sdb,okamtotk,bulk-a,dw1fire2
6153565.sdb,sugiurak,bulk-bp,Vesta-col
6154295.sdb,inouesg,bulk-bp,KG67IE0
6154353.sdb,inouesn,large-md,runMHD6
6154687.sdb,nakatsug,large-b,Z=0.1
6154919.sdb,tsukmtys,bulk-bp,MHD2
6155241.sdb,toyouchi,bulk-b,Z2F2NIR
6155374.sdb,shibatat,bulk-b,shibata
6155375.sdb,shibatat,bulk-b,shibata
6155565.sdb,hatack,large-b,delayed_co
6155623.sdb,toyouchi,bulk-b,Z2F2RO
6155907.sdb,sakauetk,large-b,wind328
6156150.sdb,nakatnrh,bulk-b,327.515
6156152.sdb,nakatnrh,bulk-b,407.010
6156227.sdb,usudatm,bulk-b,GL90_11
6156269.sdb,kurosaki,bulk-b,6S1D10
6156530.sdb,sugiymnn,bulk-b,Bre0007
6156531.sdb,sugiymnn,bulk-b,Bre0008
6156725.sdb,kobayash,bulk-md,b32.0
6156751.sdb,yamakitm,large-b,turb_re
6156860.sdb,nakamura,large-md,87a2dgs1om
6156883.sdb,usudatm,bulk-b,ML90_8
6157017.sdb,kotaniyj,bulk-b,beta01_3
6157610.sdb,usudatm,bulk-b,SA90_4
6157696.sdb,mitanihr,bulk-b,planet
6157737.sdb,kurosaki,bulk-b,1S1D70
6157814.sdb,kudoyk,large-b,grav
6157836.sdb,itohr,large-b,520B5-1t5S
6157873.sdb,chonsn,large-b,M1e-4
6157890.sdb,shirskms,large-bp,DES01
6157990.sdb,takhshri,bulk-bp,Ps0002
6157992.sdb,takhshri,bulk-bp,Ps0004
6157997.sdb,takhshri,bulk-bp,Ps0001
6158111.sdb,nishinos,large-md,BL07
6158130.sdb,matsmttk,bulk-bp,v37
6158132.sdb,mitanihr,large-b,planet
6158326.sdb,akahori,large-t,bolttest2

[2] 同日15:50から(PBSデーモンを再起動した)17:10までにxc01から起動され、終了したジョブ
Job ID, Username, Queue, Jobname
6148116,kuwaharaay,large-b,"m01_hw01"
6155795,fujimtys,large-b,"NE240_0272"
6155796,fujimtys,large-b,"NE240_0275"
6158328,fukushimakt,debug,"a_conf"
6158330,kawshmtm,test-cfca,"GRMHD_MAD_lowres1_MPIIO"
6158336,igarashitc,large-b,"mdriaf"
6158371,kobayashims,test-b,"ismeos_334"
6158377,matsumotoks,debug,"mk_main_inp"

本メールに関するご質問やご意見は以下のページからお寄せ下さい。
http://www.cfca.nao.ac.jp/inquiry/