再起動後に動かない!仮想サーバーの復旧事例

媒体
<製品基礎情報> 使用機器:Supermicro製サーバー(システム構成はお客様が自社で構築) メディア:HDD(2.5インチ)(Seagate 1TB:16台) 製品番号:ドライブ容量総計:14TB OS:VMware vSphere 6.5 ストレージシステムの種類:VMware Virtual SAN(VSAN) ファイルシステム種類:VMFS(ESXサーバー)
障害内容
<お客様情報>
某情報システム会社 B様(30代・男性)

<障害内容>
冗長性が担保された仮想サーバー(ゲストOS数:20個)にて、システムメンテナンス(システムメモリー増強)を実施。メンテナンス終了後、再起動した際に冗長性が崩壊し、仮想サーバーが全停止状態となってしまいました。
このシステムは、2系統(Node0、Node1)の物理構成にて運用しており、冗長性を確保するためNode0とNode1は同じ内容となっています。システムメンテナンスはそれぞれのNodeをメンテナンスモードにし、管理サーバーを停止して実施しましたが、Node0とNode1の同期が未完状態で通常モードに戻したため、障害が発生しました。
結果
<診断結果>
冗長性が崩壊し同期が確保できないため、システムの起動が不可能な状態です。復旧には、VSANストレージ構造、VMFS構造、ゲストOS自体の構造解析が必要となります。お客様自身での復旧作業による上書きが進行していなければ、データ復旧は可能と思われました。

<実施した復旧内容>
以下の3工程を行いました。

1. 1TBのHDDを16台入荷し、クローンイメージを作成
イメージファイルを100%取得しました。

2. VSANの構造解析
解析手順に従って調査を実施すると,VSANが最新バージョンのため、現行の解析ツールが未対応であることが判明しました。契約している海外のエンジニアに調査依頼をしたところ、ツール開発が必要という結果が得られました。緊急案件でしたので、お客様の了承を得て、技術導入契約している海外の会社と協力してツール開発に入りました。

3. ゲストOSの構造解析
最新ツールにてVSAN構造体を再生し、VMFSとゲストOSの構造解析を実施しました。お客様と連絡をとり、優先するゲストOSの順に回収・出荷作業を実施しました。

<復旧実績>
・復旧容量:約3.6TB
・復旧ファイル数:500万
・復旧率:95%

<復旧依頼者(匿名)の声>
社内業務に関する重要なデータベースや書類が失われてしまうところでした。サーバーがストップすると社員の業務にも影響が出てしまうため、緊急を要する事態だったのですが、昼夜を問わない復旧体制で早急に対応していただき、非常に感謝しています。進捗状況の報告も丁寧にしてくださり、安心できました。

<データ復旧担当者のコメント>
今回のケースでは、依頼を受けた当初は現行のツールで対応が可能と判断されたのですが、調査の結果、最新バージョンのためツールを開発する必要がありました。こういった未経験のストレージシステムであっても、全世界のエンジニアと連携して迅速に復旧作業を実施できる点が、A1データの最大の利点です。
さらに、こういったすべての復旧作業の経験をナレッジベースとして共有しているため、その経験が圧倒的なデータ復旧率の高さにつながっています。今回の復旧作業では、一部、回収不能となったデータがありましたが、それはお客様が復旧作業を実施してしまったため、上書きが発生したことによるものです。早い段階でご一報をいただければ、より良い結果が得られたと思われます。