ラベル ~FJ Linden の投稿を表示しています。 すべての投稿を表示
ラベル ~FJ Linden の投稿を表示しています。 すべての投稿を表示

2010/04/29

停電によるグリッド・ダウン

Original Title: Grid Outage
Original Posted: FJ Linden, Apr 29, 2010 10:03:50 PM

昨晩9時より今朝4時(※4/28 9pm PDT~4/29 4am PDT)までのグリッド・ダウンは、Phoenixデータセンターが停止したことが原因でした。

Phoenixデータセンターはシミュレータ・ホストだけでなく、Inventoryデータ、ログインに必要なデータベースを含む重要なサービスの中核が置かれています。PhoenixデータセンターのダウンはSecond Lifeサーバが収容されているフロアの停電によるもので、3重の冗長性を持たせた電源システムにもかかわらず、停電を起こした基幹部分と周囲の状況で、影響を受けてしまいました。

Phoenixデータセンターのプロバイダ(※Phoenixデータセンターは委託運営)および全スタッフには、この停電によるResidentsへの影響がいかに大きいか、説明を行いました。現在でも、Inventory問題による一部residentsにログイン障害が発生しています。この影響を受けたresidentsのみなさんへは謹んでお詫び申し上げます。

我々は現在、すべてのサービス、ネットワーク機器、電源供給、可能な限りすばやいグリッド起動に必要なアプリケーション・プロセスについてテストを行っています。また、システム復旧までに長時間かかるようなことがないよう、グリッド設計を改良する作業を今後も継続します。

[補足]
障害の経過報告
[RESOLVED] Some logins still affected (Grid Status Reports)

2010/04/26

最新グリッド情報

Original Title: Grid Update
Original Posted: FJ Linden, Apr 26, 2010 7:08:31 AM
Viewer 2リリースの関係で、遅れていたグリッドインフラ再構築の続報です。

まず、データセンターの移行・再構築は、Linden最初のデータセンターであるサンフランシスコ・データセンター(SFO)は2月末に完全にシャットダウンされました。再構成、およびLLnetの冗長性拡張を行ったダラス・データセンター(DFW)と、ワシントンDC郊外ににある新しいデータセンター(DCA)の稼動も、3月後半に作業を完了しています。これらの変更に伴いフェニックスにある施設(PHX)でもサーバ・負荷分散作業を終えています。これで合衆国内にあるデータセンターはDFW(ダラス)、DCA(ワシントンDC)、PHX(フェニックス)の3つになります。
今後はDCAとPHXで今年いっぱいサーバ増設を行い、さらにヨーロッパへ目を向けます。ヨーロッパへの物理的な設備計画は2010年後期、と言いたいところですが2011年前半になるでしょう。同様にアジア太平洋地域へは計画が2010年後期、展開作業は2011年後期を目標にしています。

再構築計画の最大の焦点はグリッド調整のためのシミュレータ、バックエンド・システムおよびサービスを進化させることです。Core Engineeringロードマップの2010年の主目的は、サーバの仮想化と仮想化による恩恵をシミュレータに反映させる設計になります。実現すればシミュレータの負荷はピーク時でも50%を超えず、アバター数や装着プリム数が増えた場合でもシミュレータにキャパシティの余裕が持てるようになるはずです。実現は簡単ではありませんが、今後12ヶ月で必ず解決しなければならない問題です。

このエントリーのポイント、アセットのストレージは、現在DFW(ダラス)とPHX(フェニックス)のデータセンターにあるIsilonストレージ・クラスターとAWSクラウドのセキュアード・ストレージAmazon S3で構成されています。過去数ヶ月の間、現在のストレージ環境を評価した結果、すべてのアセットをAmazon S3に移行することに決定しました。アセット・システムとグリッド間のアセット・マネジメントがresidentsへの影響が大きいことは理解していますので、システムの再設計は今年中に「完了すべき」目標です。

現在我々はアセット・システム再設計のフェーズ1におり、まだプライマリ・ストレージはIsilonクラスターで、セカンダリ・ストレージがAmazon S3となっており、アセット要求は以下のように行われます。
  • ViewerからSimulator、Simulatorから負荷分散装置、負荷分散装置からIsilonクラスター
この過程のいずれにもアセットが含まれない場合、要求はSimulatorに戻され、Simulatorからプロキシ・サーバを通してAmazon S3へ要求を送り、応答がViewerへ直接返されます。ですのでこの環境ではS3からの応答がresidentsへ届くのに少し遅延が発生します。しかし、内部で行われたパフォーマンス調査ではIsilonからの応答よりもS3からの応答の方が速いという結果がでていますので、S3にアセットすべてを移行することで恩恵が出るはずです。

再設計の次のフェーズは第3四半期の前半に開始される予定で、中間キャッシュ・レイヤーの構築とAmazon S3への完全移行になります。

2010/03/01

グリットの安定性アップデート

Original Title: Grid Stability Update
Original Posted: FJ Linden, 2010/03/01 6:00:38
2月のエントリーの続き[概略]をするはずでしたが、ここでこの数週間にわたって多発発生していた"blip(ゴミデータ?)"についてお知らせします。このblipは定期的に発生し、1分未満という短い間隔であるために特にログインに重大な影響を与えました。

調査の結果、新ハードウェアを構成するIntelチップセット(Nehalem Core i7)のhyper-threadingがデフォルトでONであることが問題であると判明し、先週金曜、すべての設定をOFFにして週末の監視を行ったところ、現在はblip問題は解決しているようです。

2010/02/18

SFO(サンフランシスコ)データセンターからの脱出

Original Title: "Escaping" our SFO Datacenter
Original Posted: FJ Linden, 2010/02/18 21:16:10
San Francisco (SFO)からのデータセンター移行は最終段階を迎え、mySQL.agni(Second Life central database)がSFOからDallasデータセンター(DFW)へ統合された先週、重要なマイルストーンに達しました。

SFOからの移行完遂までに、SL region、外部・内部ウェブ、開発や社内を支える内部システム移行などの残作業を続けます。この作業は2月末までには終了し、その後3月いっぱいかけてDFWへの完全移行を行い、またVirginiaデータセンター(DCA)でのシミュレータ可動を始めます。

来月は新assetシステム設計についてお知らせする予定です。
  • 1月初旬に行われたmySQLのバージョンアップ作業についてはCharity Lindenのエントリーを参照してください
  • コアシステムはJuniper EX 8XXX Seriesで構成されています