スポンサーリンク
24TBの容量を持つ自作NAS NAS4Freeで再びドライブ故障が発生し、対応した話。
NAS4Free/Xigma NASについてのまとめはこちら。
いつものように週末のバックアップ。
またローカルで作成したバックアップファイルのコピーが終わらない。
管理コンソールを見ると、やっぱり。まただ。
ディスクがエラーになってプールがDegraded状態になっている。
詳細を見るとada2でエラーがあったようだ。最近多いな。
夜遅いので、いったん電源を切る。
翌日バックアップを再度開始。
するとやっぱり転送速度が0になり、コピーできていない。
ada2だろと思って管理コンソールをみると、今度はada0でエラー。あれ?
仕方ない。ada0のドライブを交換してリビルド開始する。
この時点ではada2は問題なし。
前回のようにドライブを交換する。
予備に買ってあるものにもう3TBドライブがないので、4TBドライブに交換する。
(価格から考えるとそろそろ3TBは割高になり、もうすぐ6TBがよくなるだろう。)
管理コンソールでReplaceコマンドを実行。
また、70時間コースか。。。
その間に取り出したドライブのをUSB変換アダプタを介してつなぎ、SMART情報を見る。
あれ?問題ないぞ。
交換した3TBは壊れていないようだ。はて?
しかし1時間ほどするとada0もada2もエラーが発生し、リビルド失敗。
パリティ1台のRAID-Zで同時に2台が壊れたので、RAIDが崩壊した。ふう。
ディスクのリスキャンするもだめ。
仕方ない、再構築だな。
このプールにしかないファイルがあれば、永遠に失われるので発狂するところだ。
再び電源を切り、ドライブを元に戻す。
ada2は5インチにマウントした3本の一番下。ada0は一番上。
あれ、これは先日交換したのではないか。
確認したドライブのSMART情報からもドライブの故障とは見えない。
可能性があるのは、ケーブルか、マザーボードのSATAポートか。
念のため、2つともSATAケーブルを交換。
さあ、再びプールから作らなければいけない。
手順はこれをみて再構築だ。
まず、GUIでプールを削除。そして再度構築する。
構築しようとしたら、いつまでも初期化が終わらない。
表示が変わらない。
ログを見ると-fオプションを使えという記録があった。
下記のコマンドをシェルから実行して、強制的に作成。-fは強制的(force)に実施するオプションだ。
zpool create -f -d -o feature@async_destroy=enabled -o feature@empty_bpobj=enabled -o feature@lz4_compress=enabled -o feature@multi_vdev_crash_dump=enabled -o feature@spacemap_histogram=enabled -o feature@enabled_txg=enabled -o feature@hole_birth=enabled -o feature@extensible_dataset=enabled -o feature@bookmarks=enabled -o feature@filesystem_limits=enabled -o feature@embedded_data=enabled -o feature@large_blocks=enabled -o feature@sha512=enabled -o feature@skein=enabled -o feature@zpool_checkpoint=enabled -o feature@device_removal=enabled -o feature@obsolete_counts=enabled -m '/mnt/zfs' 'tank191020' raidz1 '/dev/ada0' '/dev/ada1' '/dev/ada2' '/dev/ada4' '/dev/ada5'
あとの手順は、前回同様。
念のため、プールを破壊する前に現状の設定のスクリーンショットを撮った。
見ながら設定だ。
データセットができてCIFSのボリュームを作る。
PCからNASの領域が見えるようになった。
どんどんファイルを書き戻す。
Jisaku6ローカルドライブの持つファイル(最近NASに書いたはずのもの)をまず書き戻す。
続いて、Jisaku6のローカルにあるEaseUS ToDoBackupのバックアップファイルを書き戻す。
NAS上にしか置いていない(=Jisaku6上にはない)ファイルも前回のRAID再構築時にバックアップだけ取って、Jisaku6においていた。
これも書き戻す。
ここまでやったら、一応復旧。
あと足りないものは、年に1回使うUSB接続のドライブ、LHR-4BRHEU3からタイムスタンプを比較してコピーした。
LHR-4BRHEU3のまとめはこちら。
ちなみに春先に増設した4TBのRAIDで作ったプールは無傷だった。
やはりプールを分けておいてよかったなと思う。
RAIDが壊れたと言っても、ドライブが原因とは限らない。
今回のようにSATAケーブルの場合もある。
やはり定期的にSMART情報は確認しなければならないな。
メールでなくてGUIで確認できるとありがたいのだが。
PR