XC30障害情報

XC30システム利用者各位、

XC30システムにおいて障害が発生しました。
c0-0キャビネットとc6-0キャビネットを接続している光ケーブルに問題があり、
XC30キャビネット#6,7が使用され始めた14:50頃からノードのSuspect/Admindownが発生し始めました。
18:20 計算ブレードc6-0c2s4, c6-0c2s5 を縮退し、ダウンしていた計算ノードを再起動しました。

現在は9ノードがダウンした状態で運用しております。

今回の問題で影響を受けたと思われるジョブは以下の通りです。
5368 user=tomidakn jobname=mhdtorus queue=large-a
5507 user=matsmtjn jobname=test queue=debug
5508 user=matsmtjn jobname=test queue=debug
5510 user=matsmtjn jobname=test queue=debug
5513 user=matsmtjn jobname=test queue=debug
5546 user=babajn jobname=bGas01v7 queue=short-b
5526 user=saitoutk jobname=G2013_2 queue=large-b
5527 user=saitoutk jobname=G2013_2 queue=large-b
5528 user=saitoutk jobname=G2013_2 queue=large-b
5529 user=saitoutk jobname=G2013_2 queue=large-b
5524 user=inouety jobname=CCC1 queue=large-a
5525 user=saitoutk jobname=G2013_2 queue=large-b
5561 user=babajn jobname=bGas01v7 queue=short-b
5547 user=inouety jobname=anCCCA queue=debug
5530 user=saitoutk jobname=G2013_2 queue=large-b
5565 user=babajn jobname=bGas01v7 queue=short-b
5566 user=babajn jobname=bGas01v7 queue=short-b
5567 user=babajn jobname=bGas01v7 queue=short-b
5562 user=matsmttm jobname=M1B01 queue=large-b
5579 user=babajn jobname=bGas01v7 queue=short-b
4956 user=suzukitk jobname=glbdsk2 queue=large-a
5545 user=tanakams jobname=W7 queue=large-t
5589 user=takiwkkz jobname=BURNTEST queue=debug

以下のジョブは、ノードを縮退した際に強制終了されました。
5560 user=inouety jobname=CCC1 queue=large-a

ご迷惑をおかけして申し訳ありません。

本メールに関するご質問やご意見は以下のページからお寄せ下さい。
http://www.cfca.nao.ac.jp/inquiry/