再起動後に動かない!仮想サーバーの復旧事例
障害メディア情報
- Supermicro
- 1TB×16台
- VMware vSphere 6.5/VMware Virtual SAN(VSAN)/VVMFS(ESXサーバー)
障害内容
冗長性が担保された仮想サーバー(ゲストOS数:20個)にて、システムメンテナンス(システムメモリー増強)を実施。メンテナンス終了後、再起動した際に冗長性が崩壊し、仮想サーバーが全停止状態となってしまいました。 このシステムは、2系統(Node0、Node1)の物理構成にて運用しており、冗長性を確保するためNode0とNode1は同じ内容となっています。システムメンテナンスはそれぞれのNodeをメンテナンスモードにし、管理サーバーを停止して実施しましたが、Node0とNode1の同期が未完状態で通常モードに戻したため、障害が発生しました。
復旧作業内容
- ・障害内容
- 冗長性崩壊による仮想ストレージ同期不全
- ・復旧希望データ
- 仮想サーバー(ゲストOS数:20個)
作業内容と復旧結果
<診断結果>
冗長性が崩壊し同期が確保できないため、システムの起動が不可能な状態です。復旧には、VSANストレージ構造、VMFS構造、ゲストOS自体の構造解析が必要となります。お客様自身での復旧作業による上書きが進行していなければ、データ復旧は可能と思われました。
<実施した復旧内容>
以下の3工程を行いました。
1. 1TBのHDDを16台入荷し、クローンイメージを作成
イメージファイルを100%取得しました。
2. VSANの構造解析
解析手順に従って調査を実施すると,VSANが最新バージョンのため、現行の解析ツールが未対応であることが判明しました。構造解析のため、ツール開発を実施しました。
3. ゲストOSの構造解析
最新ツールにてVSAN構造体を再生し、VMFSとゲストOSの構造解析を実施しました。お客様と連絡をとり、優先するゲストOSの順に回収・出荷作業を実施しました。
<復旧実績>
・復旧容量:約3.6TB
・復旧ファイル数:500万
・復旧率:95%
スタッフからのコメント
今回のケースでは、依頼を受けた当初は現行のツールで対応が可能と判断されたのですが、調査の結果、最新バージョンのためツールを開発する必要がありました。こういった未経験のストレージシステムであっても、全世界のエンジニアと連携して迅速に復旧作業を実施できる点が、エーワンデータの最大の利点です。
さらに、こういったすべての復旧作業の経験をナレッジベースとして共有しているため、その経験が圧倒的なデータ復旧率の高さにつながっています。今回の復旧作業では、一部、回収不能となったデータがありましたが、それはお客様が復旧作業を実施してしまったため、上書きが発生したことによるものです。早い段階でご一報をいただければ、より良い結果が得られたと思われます。