#仮想環境

再起動後に動かない!仮想サーバーの復旧事例

障害メディア情報

  • Supermicro
  • 1TB×16台
  • VMware vSphere 6.5/VMware Virtual SAN(VSAN)/VVMFS(ESXサーバー)

障害内容

冗長性が担保された仮想サーバー(ゲストOS数:20個)にて、システムメンテナンス(システムメモリー増強)を実施。メンテナンス終了後、再起動した際に冗長性が崩壊し、仮想サーバーが全停止状態となってしまいました。 このシステムは、2系統(Node0、Node1)の物理構成にて運用しており、冗長性を確保するためNode0とNode1は同じ内容となっています。システムメンテナンスはそれぞれのNodeをメンテナンスモードにし、管理サーバーを停止して実施しましたが、Node0とNode1の同期が未完状態で通常モードに戻したため、障害が発生しました。

復旧作業内容

・障害内容
冗長性崩壊による仮想ストレージ同期不全
・復旧希望データ
仮想サーバー(ゲストOS数:20個)

作業内容と復旧結果

<診断結果>
冗長性が崩壊し同期が確保できないため、システムの起動が不可能な状態です。復旧には、VSANストレージ構造、VMFS構造、ゲストOS自体の構造解析が必要となります。お客様自身での復旧作業による上書きが進行していなければ、データ復旧は可能と思われました。


<実施した復旧内容>
以下の3工程を行いました。

1. 1TBのHDDを16台入荷し、クローンイメージを作成
イメージファイルを100%取得しました。

2. VSANの構造解析
解析手順に従って調査を実施すると,VSANが最新バージョンのため、現行の解析ツールが未対応であることが判明しました。構造解析のため、ツール開発を実施しました。

3. ゲストOSの構造解析
最新ツールにてVSAN構造体を再生し、VMFSとゲストOSの構造解析を実施しました。お客様と連絡をとり、優先するゲストOSの順に回収・出荷作業を実施しました。


<復旧実績>
・復旧容量:約3.6TB
・復旧ファイル数:500万
・復旧率:95%

スタッフからのコメント

今回のケースでは、依頼を受けた当初は現行のツールで対応が可能と判断されたのですが、調査の結果、最新バージョンのためツールを開発する必要がありました。こういった未経験のストレージシステムであっても、全世界のエンジニアと連携して迅速に復旧作業を実施できる点が、エーワンデータの最大の利点です。

さらに、こういったすべての復旧作業の経験をナレッジベースとして共有しているため、その経験が圧倒的なデータ復旧率の高さにつながっています。今回の復旧作業では、一部、回収不能となったデータがありましたが、それはお客様が復旧作業を実施してしまったため、上書きが発生したことによるものです。早い段階でご一報をいただければ、より良い結果が得られたと思われます。

一覧に戻る