Create  Edit  Diff  Mac OS X Serverで作る 小さな計算機室  Index  Search  Changes  RSS  Login

小さな計算機室 - sunsparcmemo Diff

  • Added parts are displayed like this.
  • Deleted parts are displayed like this.

!! 肝腎なときにダウン
化学棟の改修工事があって、化学でメール等が一時的に使えなくなるという。
そのための緊急避難措置として、この端末室を使っていただくことになり、化学の教員や学生のユーザー登録などを済ませておいた。
そしていよいよ「本番」を迎えた。
ところが、担当の先生から「パソコンにログインできません」と緊急メール。
私は別のキャンパスで集中講義の最中だったので、夕方になってから現場に行ってみると、
ルーター兼DNSサーバーの富士通ブランドのSUNがダウンしていた。
2001年頃に導入したマシンなので、7年目でとうとう壊れたのかなぁ、と思った。

再起動には成功したのでログを見ると
Sep 13 14:47:22 stws03 SUNW,UltraSPARC-IIi: [ID 423041 kern.warning] WARNING: [AFT1] Uncorrectable  Memory Error on CPU0 Dat
a access at TL=0, errID 0x000bed8c.6ba6b27d
Sep 13 14:47:22 stws03     AFSR 0x00000001<ME>.80200000<PRIV,UE> AFAR 0x00000000.0ffdac10
Sep 13 14:47:22 stws03     AFSR.PSYND 0x0000(Score 05) AFSR.ETS 0x00 Fault_PC 0x10091ae8
Sep 13 14:47:22 stws03     UDBH 0x02f3<UE> UDBH.ESYND 0xf3 UDBL 0x0000 UDBL.ESYND 0x00
Sep 13 14:47:22 stws03     UDBH Syndrome 0xf3 Memory Module DIMM1
Sep 13 14:47:22 stws03 SUNW,UltraSPARC-IIi: [ID 698702 kern.info] [AFT2] errID 0x000bed8c.6ba6b27d E$tag != PA from AFAR; E
$line was victimized
Sep 13 14:47:22 stws03     dumping memory from PA 0x00000000.0ffdac00 instead
Sep 13 14:47:22 stws03 SUNW,UltraSPARC-IIi: [ID 359263 kern.info] [AFT2] E$Data (0x00): 0xff998a7f.00000000
Sep 13 14:47:22 stws03 SUNW,UltraSPARC-IIi: [ID 359263 kern.info] [AFT2] E$Data (0x08): 0x00000000.10b0e040
Sep 13 14:47:22 stws03 SUNW,UltraSPARC-IIi: [ID 359263 kern.info] [AFT2] E$Data (0x10): 0x00000002.baddcafe
Sep 13 14:47:22 stws03 SUNW,UltraSPARC-IIi: [ID 359263 kern.info] [AFT2] E$Data (0x18): 0x00000000.00000000
Sep 13 14:47:22 stws03 SUNW,UltraSPARC-IIi: [ID 359263 kern.info] [AFT2] E$Data (0x20): 0x00000300.019aab48
Sep 13 14:47:22 stws03 SUNW,UltraSPARC-IIi: [ID 359263 kern.info] [AFT2] E$Data (0x28): 0x00000000.00000000
Sep 13 14:47:22 stws03 SUNW,UltraSPARC-IIi: [ID 359263 kern.info] [AFT2] E$Data (0x30): 0x00000000.00000000
Sep 13 14:47:22 stws03 SUNW,UltraSPARC-IIi: [ID 359263 kern.info] [AFT2] E$Data (0x38): 0x0000cafe.baddcafe
Sep 13 14:47:22 stws03 unix: [ID 836849 kern.notice]
Sep 13 14:47:22 stws03 panic[cpu0]/thread=3000094b7c0:
Sep 13 14:47:22 stws03 unix: [ID 704138 kern.notice] [AFT1] errID 0x000bed8c.6ba6b27d UE Error(s)
Sep 13 14:47:22 stws03     See previous message(s) for details
Sep 13 14:47:22 stws03 unix: [ID 100000 kern.notice]

おそらくメモリー不良だろうからと思って、DIMMを抜き差しし直して、様子を見たが、時間が経つと
やはりダウンする。
ちゃんとログを残してsyncもしてから落ちるので、SUNは偉いなぁ、と感心しつつ、大至急修理を済ませる
必要があるので、業者にログを送って、修理の方向で動きはじめた。

連休明けにCEが来てくれて調べてもらったところ、どうもサードパーティー製のメモリか、CPUモジュールの
どちらかがイケナイらしい。
CPUは10万円以上するという。
メモリーのほうは永久保証なので保証書はないか、と尋ねられ、棚の中を探したものの、見つからない。
しばらくあたふたしていたら、CEが「この箱じゃないですかぁ」と、棚の上の何も印刷していない段ボール
箱を取り上げ、中を見たら、ちゃんとその中にあった。
「うちの段ボールに似ていたので・・・」とおっしゃる。
さすがにプロだ。

問題を切り分けるために、DIMMのバンクを交換して再起動したら、今度は1日以上経過しても、まだ落ちない。
「早く落ちてくれないかな」と、期待しながら待つのは、何だか妙なものだ。

!! 厄介な症状

メモリーのバンクを変えても、同じDIMMでエラーが発生したので、今度はCPUモジュールが悪いんじゃ
ないかということで、大きな放熱器がついたままのCPUを差し替える。
ところが、CEが帰ってから30分も経たないうちに、またダウン。
再起動がかかったようだが、モニターに
Memory Address not Aligned
ok
と表示され、止まっていた。

業者に連絡して、その日の夕方に来てもらい、暗くなるまでかかって、今度はマザーボードを交換。
他に変える部品はもうないので、三度目の正直で直ったか。

その後、1日以上経過してもちゃんと動作しているようなので、もう大丈夫みたいだ、

!! NVRAMの交換

そろそろNVRAMのバックアップバッテリーが昇天する時期なので、NVRAMの交換も(ついでに)依頼。
CEはMACアドレスなどの情報を紙にメモしていた。
それを、しかるべきところに送ると、向こうで情報を書き込んで、送ってくるのだそうだ。

→ しばらくしてからCEから連絡があって、無事交換。
交換前に、マシンIDとイーサネットアドレスを入念にチェックしていた。

預けてあった、RAMの保証書も受け取って、棚の中に。

!! BINDが落ちた

G5サーバーにリモートログインできなくなっていたので、不審に思い、端末室まででかけたが、G5はちゃんと生きていた。
あれこれ調べたところ、SUNで動かしているnamedがコアを吐いて落ちている。
まったくログを調べるとまったく同じ日に、研究科の別のサーバーでもnamedが止まったので、アタックを受けたのだろう。
慌てて、新しいbindに入れ替える作業を行う。
ビルト自体は、configure --prefix=/usr/local/bind9 だけですんなり通った。
bindというユーザーとグループを作成して、(rootではなく)そのuidで走らせる。