スポンサーリンク
自作NASサーバ NAS4Freeの容量不足を根本解決する容量拡張を実行した話の続き。
SATA拡張カードを買いなおすことにしたが、次のトラブルに見舞われる。
NAS4Free/Xigma NASについてのまとめはこちら。
SATAカードの調査をしている間も、バックアップをやめるわけには行かない。
毎週恒例でやっているバックアップには、以前レビューしたEaseUS ToDo Backupを使っている。
え、状態がUnavailableじゃないか。なんで?
何度かリトライしてやっと判明した。
300GB超の写真のバックアップの途中で必ず止まっている。
最初は調子よくコピーしていたが、徐々にスピードが落ちて、最後には、0MB/sだ。
その時のコンソールをみると、状態がDegradedとなっていた。
これはRAIDを構成するドライブが故障していることを示す。
NAS4Freeを作って初めてだ。
一般的な話なので知っている諸兄は読み飛ばしを。
止まったりなくなって困るものは、そうならないように仕組みを考えるのがエンジニアリングの鉄則だ。
古くは日航機墜落時の羽を動かす油圧系統の故障もそうだった。
大事な制御は必ず2つ以上のルートを用意する。
こういうのを冗長系という。英語ではRedundantだ。
IT系も例から漏れない。データセンタのサーバは通常は電源を2つずつ実装している。
1つ電源が壊れても大丈夫ということ。(ただし、壊れたらすぐ交換することが運用していく条件)
データもしかり。
失われて困るデータは複製を持つ。それだけでは不十分だ。
経年劣化によりデータを保持する磁性体が壊れ、いつの間にかデータが壊れているかも知れない。
そもそもストレージ装置が壊れて、データを復元できないことも考えられる。
そういう事態を避けるため、ストレージに対しても冗長系の考えが取り入れられた。
つまり余計な(重複する)データを保持することで、ストレージ装置が壊れても
データを復元できるようにする。
冗長度により、RAIDの種別が分けられる。
()内はZFSでの名称。
我が家ではRAID-Zを5台で構成している。
ここで、1台が壊れた。
まずは交換用のHDDを用意する。
AtBGCgL@@w܂ƓuOɕVxA^cɂȂ܂B
電源を切って、該当のHDDを交換する。そして電源を入れる。
RAIDの再構築(Rebuildという)が始まる。
3TBのデータを再構成するので、長い時間がかかる。2,3日か。これは仕方ない。
再構築中もアクセスできるが、余計に時間がかかるのでやらない。
壊れたHDDはコンソールからシリアル番号で特定できる。
今回は/dev/ada2が壊れているようだ。
ディスクの管理画面を見ると、シリアルコードの下がP04J3だ。
これを探して交換する。
同じタイプを揃えたので、見た目では区別がつかない。
ケースを開けて、どのHDDなのか探す。
2台が3.5インチベイ、残りが5インチベイにマウンタをつけて設置している。
5インチの方は厄介だな、と思っていたが、フロントパネルを開けたら、
シリアル番号の下4桁を書いたシールが貼られていて、すぐに見つかった。こういう心遣いはいい。
5インチベイから外し、改めてシリアル番号を確認。間違いない。
マウンタを外し、予備に買っておいた同じタイプのドライブにマウンタを装着。
ケーブルを元通りつなぐ。
電源を入れて、コンソールを表示。
プール情報を見ると、抜いているのでUNAVAILABLE表示だ。
当然だな。
ドライブを見ると、故障したドライブのシリアル番号のままだが、気にしない。
実際に新しいドライブを認識していると判断できたら、ZFSのツールメニューから
ドライブの交換(replace drive)を選択する。
故障したドライブがどれかを再確認する。
故障したものと交換するドライブを間違わないように指定する。
新しいものは容量で判断した。
故障した(データだけ残る)ドライブと新たにada2になった、まっさらなドライブを交換する指示を出す。
これでリビルド作業が始まった。
開始時点では9MB/s程度のスピードなので、400時間超!との予測。
次第にスピードが上がっていくが、途中エラーがあり、ビルトが停止。
再度やろうとしたがうまくいかず。
スクラブでなんとか終わる。
ふう。
エラーの原因はどうもSATAケーブルだったようだ。
ケーブルも交換した。
さて、横道にそれだが、いよいよ新しいドライブの認識に再トライだ。
続く
PR