Create  Edit  Diff  Mac OS X Serverで作る 小さな計算機室  Index  Search  Changes  RSS  Login

SUN Ultra Sparc関係

肝腎なときにダウン

化学棟の改修工事があって、化学でメール等が一時的に使えなくなるという。 そのための緊急避難措置として、この端末室を使っていただくことになり、化学の教員や学生のユーザー登録などを済ませておいた。 そしていよいよ「本番」を迎えた。 ところが、担当の先生から「パソコンにログインできません」と緊急メール。 私は別のキャンパスで集中講義の最中だったので、夕方になってから現場に行ってみると、 ルーター兼DNSサーバーの富士通ブランドのSUNがダウンしていた。 2001年頃に導入したマシンなので、7年目でとうとう壊れたのかなぁ、と思った。

再起動には成功したのでログを見ると

Sep 13 14:47:22 stws03 SUNW,UltraSPARC-IIi: [ID 423041 kern.warning] WARNING: [AFT1] Uncorrectable  Memory Error on CPU0 Dat
a access at TL=0, errID 0x000bed8c.6ba6b27d
Sep 13 14:47:22 stws03     AFSR 0x00000001<ME>.80200000<PRIV,UE> AFAR 0x00000000.0ffdac10
Sep 13 14:47:22 stws03     AFSR.PSYND 0x0000(Score 05) AFSR.ETS 0x00 Fault_PC 0x10091ae8
Sep 13 14:47:22 stws03     UDBH 0x02f3<UE> UDBH.ESYND 0xf3 UDBL 0x0000 UDBL.ESYND 0x00
Sep 13 14:47:22 stws03     UDBH Syndrome 0xf3 Memory Module DIMM1
Sep 13 14:47:22 stws03 SUNW,UltraSPARC-IIi: [ID 698702 kern.info] [AFT2] errID 0x000bed8c.6ba6b27d E$tag != PA from AFAR; E
$line was victimized
Sep 13 14:47:22 stws03     dumping memory from PA 0x00000000.0ffdac00 instead
Sep 13 14:47:22 stws03 SUNW,UltraSPARC-IIi: [ID 359263 kern.info] [AFT2] E$Data (0x00): 0xff998a7f.00000000
Sep 13 14:47:22 stws03 SUNW,UltraSPARC-IIi: [ID 359263 kern.info] [AFT2] E$Data (0x08): 0x00000000.10b0e040
Sep 13 14:47:22 stws03 SUNW,UltraSPARC-IIi: [ID 359263 kern.info] [AFT2] E$Data (0x10): 0x00000002.baddcafe
Sep 13 14:47:22 stws03 SUNW,UltraSPARC-IIi: [ID 359263 kern.info] [AFT2] E$Data (0x18): 0x00000000.00000000
Sep 13 14:47:22 stws03 SUNW,UltraSPARC-IIi: [ID 359263 kern.info] [AFT2] E$Data (0x20): 0x00000300.019aab48
Sep 13 14:47:22 stws03 SUNW,UltraSPARC-IIi: [ID 359263 kern.info] [AFT2] E$Data (0x28): 0x00000000.00000000
Sep 13 14:47:22 stws03 SUNW,UltraSPARC-IIi: [ID 359263 kern.info] [AFT2] E$Data (0x30): 0x00000000.00000000
Sep 13 14:47:22 stws03 SUNW,UltraSPARC-IIi: [ID 359263 kern.info] [AFT2] E$Data (0x38): 0x0000cafe.baddcafe
Sep 13 14:47:22 stws03 unix: [ID 836849 kern.notice] 
Sep 13 14:47:22 stws03 panic[cpu0]/thread=3000094b7c0: 
Sep 13 14:47:22 stws03 unix: [ID 704138 kern.notice] [AFT1] errID 0x000bed8c.6ba6b27d UE Error(s)
Sep 13 14:47:22 stws03     See previous message(s) for details
Sep 13 14:47:22 stws03 unix: [ID 100000 kern.notice]

おそらくメモリー不良だろうからと思って、DIMMを抜き差しし直して、様子を見たが、時間が経つと やはりダウンする。 ちゃんとログを残してsyncもしてから落ちるので、SUNは偉いなぁ、と感心しつつ、大至急修理を済ませる 必要があるので、業者にログを送って、修理の方向で動きはじめた。

連休明けにCEが来てくれて調べてもらったところ、どうもサードパーティー製のメモリか、CPUモジュールの どちらかがイケナイらしい。 CPUは10万円以上するという。 メモリーのほうは永久保証なので保証書はないか、と尋ねられ、棚の中を探したものの、見つからない。 しばらくあたふたしていたら、CEが「この箱じゃないですかぁ」と、棚の上の何も印刷していない段ボール 箱を取り上げ、中を見たら、ちゃんとその中にあった。 「うちの段ボールに似ていたので・・・」とおっしゃる。 さすがにプロだ。

問題を切り分けるために、DIMMのバンクを交換して再起動したら、今度は1日以上経過しても、まだ落ちない。 「早く落ちてくれないかな」と、期待しながら待つのは、何だか妙なものだ。

厄介な症状

メモリーのバンクを変えても、同じDIMMでエラーが発生したので、今度はCPUモジュールが悪いんじゃ ないかということで、大きな放熱器がついたままのCPUを差し替える。 ところが、CEが帰ってから30分も経たないうちに、またダウン。 再起動がかかったようだが、モニターに

Memory Address not Aligned
ok

と表示され、止まっていた。

業者に連絡して、その日の夕方に来てもらい、暗くなるまでかかって、今度はマザーボードを交換。 他に変える部品はもうないので、三度目の正直で直ったか。

その後、1日以上経過してもちゃんと動作しているようなので、もう大丈夫みたいだ、

NVRAMの交換

そろそろNVRAMのバックアップバッテリーが昇天する時期なので、NVRAMの交換も(ついでに)依頼。 CEはMACアドレスなどの情報を紙にメモしていた。 それを、しかるべきところに送ると、向こうで情報を書き込んで、送ってくるのだそうだ。

→ しばらくしてからCEから連絡があって、無事交換。 交換前に、マシンIDとイーサネットアドレスを入念にチェックしていた。

預けてあった、RAMの保証書も受け取って、棚の中に。

BINDが落ちた

G5サーバーにリモートログインできなくなっていたので、不審に思い、端末室まででかけたが、G5はちゃんと生きていた。 あれこれ調べたところ、SUNで動かしているnamedがコアを吐いて落ちている。 ログを調べるとまったく同じ日に、研究科の別のサーバーでもnamedが止まったので、アタックを受けたのだろう。 慌てて、新しいbindに入れ替える作業を行う。 ビルト自体は、configure --prefix=/usr/local/bind9 だけですんなり通った。 bindというユーザーとグループを作成して、(rootではなく)そのuidで走らせる。

Last modified:2009/03/16 17:02:17
Keyword(s):[SUN] [Ultra]
References:[frontpage] [Mac OS X Serverで作る 小さな計算機室]