2006/12/29

Details on Asset Server Issue

Original Title: Details on Asset Server Issue
Original Posted: Friday, December 29th, 2006 at 12:08 PM PST by Pathfinder Linden

日本時間12/29 16:00頃からダウンしつづけた障害の詳細報告です。

先日行ったサーバ機器のメンテナンスでクラスターを構成する一部ノードのバッテリーを交換し、切り離していた当該ノードを交換後に接続しなおした。この再接続が完全に終了するまで数日間を要するはずだった。」
「木曜11:00pm頃(現地時間)、われわれはサーバ機器の能力低下と、objectのrezができないという報告を受け、調査の結果いくつかの機器にログインできないことからハード関連の問題であると結論付けた。そしてクリーンアップ・リスタートをすることでこれが解決するものと思ったがそれは間違いだった。問題は(バッテリー交換を行った)機器ではなく別のノードのドライバだった。」
「Gridにトラウマを引き起こすと(障害がおきると)その他によくない影響が出る。このときも例外ではなかったが、影響を受けたのは4台だけですんだ」
「Linden Labではハードウェアメーカーとともにクラスタ構成の堅牢性と冗長性について検討しつづけており、二度と同じ障害は起こさないだろう」