RAIDシステムの基本情報と採用時の留意事項について


データ復旧のプロが教えるデータ復元から消去までの豆知識:メールマガジン

================================================================================
 ■■      ■             ■      豆知識  Vol.02-06
■  ■     ■             ■ ■       RAIDのお話
■  ■ ◆■■ ■■■ ■ ■ ■■◆ ■■ ■ ■  ■  ■
■  ■ ■ ■ ■  ■■ ■  ■ ■   ■■  ■■ ■ ■■ ■ ■ ■
■  ■ ■ ■ ■  ■  ■  ■ ■ ■ ■ ■  ■ ■■ ■ ■ ■■■■
 ■■  ■ ■ ■■ ■   ■■◆ ■■ ■ ■ ■  ■ ■■  ■ ■
=============================================================2004.06.22=========

今月はRAIDシステムについて、簡単な説明を行いましょう。 昨今のATAHDDの
料金(価格)低下、容量増に伴い、安価なRAID NAS、DISK ARRAY等が市場に登場
しています。 皆さんの職場に置かれる部門用の物でもこの種の機能を持った物が採用
出来る用になって来たと思います。

RAIDシステムとはデータ信頼性向上の為のシステムとして考案された物で
Redundant Arrays Inexpensive Drives の略であり
言葉の如く、安価なHDDを使い、複数のドライブとソフト論理の組み合わせる事で
冗長度向上、容量、速度要求等を両立させようとするシステムの総称です。

本来この種の物は冗長度(信頼性)向上の為に考えられた方式ですが、使用法を知って
おかねば異常が起きた場合両刃の剣と化してしまいます。 いずれのシステムも複数の
HDDを使用しますので、システムとしての機械的故障率は使用する台数分の1になる
事を念頭に置いておく必要があります。 只、これらのシステムは1台に異常が起きても
正常に動作を続けます。 異常を直ちに把握し、リカバリー処置を行える体制を備えて
はじめてシステムとして価値を持ちます。

現在一般に使用されるRAIDシステムは以下の3種類です。

RAID0: Data Striping Array

       なぜ0かといいますと、データ冗長度を増す為のロジックを持たない事
       からこう呼ばれます。 このシステムはデータを複数のドライブに分割
       して書き込む事により、I/O速度を向上させる事を目的としたもので
       あり、信頼度は単一ドライブに比べれば使用する台数分の1になります。
       同じ故障確率を持つ物を複数使うのですから。

		Write Start      End Write Start      End Write Start      End
単一HDD		|--------1---------| |--------2---------| |--------3---------|

HDD1		|1-1| |2-1| |3-1|	図-1
HDD2		 |1-2| |2-2| |3-2|
HDD3		  |1-3| |2-3| |3-3|    これは模式化した為の物です。
HDD4		   |1-4| |2-4| |3-4|    現実にはこんな速度向上は望めません。

       上記の様に、1つの書き込み単位を台数分に分割し、単一のドライブの
       書き込み完了を待つ事なく次のプロセスに移れる様にする事で処理速度の
       向上を図るのが、RAID0です。 逆にデータ信頼度の面からは台数分
       の1に分割される訳ですから、このシステムは絶対的な処理速度が要求
       される中間処理用のものであり、データ保管には使ってはいけません。
       1台に障害が起きれば全てが失われる訳ですから。

RAID1: Mirroring Array

       同一容量、同一物理構成のドライブを2台使い、それぞれに同一の内容を
       書き込む事で2倍の冗長度を稼ごうというのが、ミラーです。
       この構成であれば、1台のドライブに障害が起きても何事もなく稼働させ
       る事が可能です。

RAID5: Data Striping Array with Parity

       RAID5は分割書き込み単位の再生を保証する為のパリティブロックを
       生成し、これを付加して書き込む事で構成ドライブの1台が故障しても
       問題なく動作する様にしたものです。

		Write Start      End Write Start      End Write Start      End
単一HDD		|--------1---------| |--------2---------| |--------3---------|

		Left
HDD1		|P-1| |1-4| |2-3| |3-2| |P-5| |4-4|		図-2
HDD2		 |1-1| |P-2| |2-4| |3-3| |4-1| |P-6|
HDD3		  |1-2| |2-1| |P-3| |3-4| |4-2| |5-1|
HDD4		   |1-3| |2-2| |3-1| |P-4| |4-3|
		Right

       上記の様な構成をとりますので、RAID0に比べるとHDD1台分の
       容量がパリティに使用されますから、その分容量が減ります。 又、
       パリティ生成と再生及びその分の書き込み時間が加わりますので、速度
       面でもRAID0には劣りますが、単一ドライブに書き込むよりは速度
       向上が期待出来ます。

Data Band   書き込み単位を示します。 例えばDB=32であれば512Byte*32=16KByteが
       書き込み単位になります。
       万一2台のHDDが駄目になった場合、DBの値*512*残りの台数以上
       のサイズを持つファイルは正常に回収出来る可能性が全く無くなって
       しまいます。

Parity Band  この領域には分割されているレコードブロックのXORが生成されます。
       1台に障害が起きた場合、欠落部分をこれを利用して再生し、動作を
       続けます。
       パリティを取るサイズを示します。 DB=PBであれば、図-2の様に配置
       されます。 DB=64,PB=256 であれば図-3の様になります。

		Left
HDD1		|1-1| |1-4| |2-3| |3-2| |4-1| |4-4| |5-3| |6-2|  図-3
HDD2		|1-2| |2-1| |2-4| |3-3| |4-2| |5-1| |5-4| |6-3|
HDD3		|1-3| |2-2| |3-1| |3-4| |         P-2         |
HDD4		|        P-1          | |4-3| |5-2| |6-1| |6-4|
		Right

Left/Right  #0ドライブ(最初)からパリティバンドが始まるものをLeft(図-2)
       最後のドライブから始まるものをRight(図-3)といいます。

良く犯される過ちは、RAID1/RAID5を採用した事でデータ冗長度保証が出来た
と錯覚する事です。

いずれのシステムにおいても論理的な異常による上書きに対しては全く無力であることを
理解しておく必要があります。 RAIDだからバックアップの必要はないという事では
ないのです。

RAID1は2倍の冗長度といいましたが、機械信頼性は2台のドライブを使いますから
1/2になります。 システム的には単一ドライブより大きな信頼性が確保出来た訳では
ないのです。 只、2台が同時に壊れる確率は桁が違う為、保証たり得るに過ぎません。
只、物理的障害がHDDに起きても動作可能な可能性が高いと言うに過ぎないのです。

RAID5も同様で、システムとしての障害発生確率は使用する台数倍になっています。

ではなぜこれらのHDDを複数使用するシステムで、現実には短期間で複数のドライブに
障害が発生するのか。

HDDに障害が発生すると、多くの場合ヘッドが動き続けるという状態に陥ります。
HDDの熱発生源はスピンドルモータとヘッド駆動モータで、ヘッドモータによる発熱
は条件によっては非常に大きく短時間で20℃~40℃以上の温度上昇をもたらします。
この熱で隣り合うもしくは上のドライブが炙られて、異常書き込みを起こしたり、
クラッシュしたりします。 酷い場合はカバーに貼られたラベルが熱変形/変色を起こす
レベルに至るといえばお分かり頂けるでしょうか。

如何に早く異常に気付くかがこれらのシステムを正常に稼働させる上で重要になります。

【RAID採用時の留意事項】

1. 動作ログを常時監視する事。 定時、異常発生時にメールでログが管理者に
                 送れる様になっている必要があります。
                 また、LANを経由して状態確認が可能なものが
                 良いでしょう。

2. 最初からスペアドライブを用意しておく事。
                 障害の状態によっては数時間の内に隣のドライブに
                 障害が発生する事があります。 最初から最低1台
                 のスペアHDDを用意する必要があります。

3. 前もって異常発生時の処置をシュミレーションし、手順化しておく事。
               ・ 停止手順
               ・ 異常ドライブの交換手順(異常ドライブの確定法)
                 この中にはRAIDの設定パラメータ類がどこに
                 保存されるか、ログファイルはどこにあるか等も
                 含みます。
               ・ 再起動手順(何を確認するか等)

  特にRAID5での再起動には細心の注意を払わねばなりません。

  システムが認知している条件と現実に発生している障害が必ずしも一致していない
  場合もあり、そのまま再起動すると、初期化が行われ全てのデータを失う恐れも
  あります。

  RAID5でシステムが停止すると言う事は2台以上のドライブに異常が発生した
  場合が殆どです。 この場合、いずれのドライブが最後に死んだかを確定出来ねば
  次の処置に移ってはなりません。 先に死んだHDDを除外せずにシステムを起動し
  このドライブが万一認識されれば、このドライブが死んだ日以降のデータはまず
  破壊されてしまうと思わねばならないからです。

  RAIDパラメータの再設定やOSの再インストールなども被害を広げる大きな
  要素です。 何らかの操作を行う場合、その結果について確信が持てない限り、
  作業を行うべきではないでしょう。

  私共の様なサービスを利用せずに、社内で処理出来る範囲を広げたいという事で
  あれば、台数分のスペアドライブと物理的コピーを行える装置を用意しておき、
  全ドライブのバックアップを物理的に取り、処置に入る位の周到性が必要です。
  こうすれば、ログには現れていない物理的な障害が把握出来、論理的処置でデータを
  失うリスクを低減出来ます。

RAIDの他にシステムの継続動作保証の為にいくつかのシステムが考えられています。
探して見られる事をお奨めします。

例えば以下の様なものが存在します。

 - システムディスクのシャドーバックアップにより、システムドライブが
   障害を起こしても、シャドードライブから再起動と動作を可能とする物。
   商品としては    StandbyDisk等

 - ドライブ全体のバックアップを取り、以後変更された部分だけを物理的に
   バックアップする。
             V2i Protector等
                     (双方共ネットジャパン取り扱い製品)

================================================================================
   A1Data RecoveryServices--
======================================================豆知識===Vol.02-06=END====

※本記事は、A1データ株式会社の前身、株式会社ワイ・イー・データ時代に執筆・記載されたコラムです。