スポンサーリンク
HDDの故障率を紹介する海外事業者の恒例の記事の紹介。
大容量ストレージデバイスであるHDDについてのまとめはこちら。
前回の記事はこちら。
恒例のUSのBackBlaze社の公表データのご紹介。以前の仕事での経験をもとに、同社のデータをみて勝手に考察する。
今回は2021年(1-12月)の状況。
BackBlaze社はクラウドストレージなどのサービスを提供するUSの会社だ。同社は12月末時点で206,928台のストレージを利用している。うち、3,760台のOSブートドライブと203,168台のデータドライブだ。
このレポートではデータ用の203,168台について書かれているが、テスト用途と60台に満たない種類のストレージ合計の409台は外されている。統計データとして扱うにはまっとうな手法だ。このため、202,759台がレポートの対象になっている。
2021年もHDDの大容量化は進み、同社では最大で16TBモデルを使っている。シーゲート、東芝、WD製だ。
今回のレポートで特筆すべきは、赤線をいれた2つのモデルだ。
1つはシーゲートの6TBモデルである、ST6000DX000。利用する台数は886台と同社の中では少なめだが、年間故障率(AFR)がとても良い。わずか0.11%だ。表にあるように年間で1台だけ故障したようだ。
6TBモデルは7年くらい使っているそうなので、バスタブ曲線の安定した直線部分にあると思われる。今年からはいよいよ経年劣化による故障率上昇をみることになりそうだ。
もう一つこれもシーゲートの14TBモデルである、ST14000NM0138だ。14TB モデルはここ数年の購入のはずなのだが、先の6TBモデルと逆に故障が多発している。1,611台の運用で1年で77台も壊れている。
3Qの報告でもこのモデルは故障率が高く問題となっており、Back Blaze社とシーゲート、デルが協力して解析をしているとのことだった。ファームウェア更新により若干故障率は落ちたそうだが、解析はまだ続いているとのこと。
ところで、HDDが故障すれば、クラウドストレージ事業者としてはドライブ交換してRAIDの復旧をしなければいけないだろう。
RAID構成していなければバックアップを他で持つしかないが、クラウドストレージであることを考えるとこのストレージ自体がバックアップ先だ。バックアップ先がクラッシュして消えてしまっては意味がない。
ちなみに、RAID1でもRAID6でもRAIDの再構築はとても時間がかかる。RAID1なら14TBのデータをすべて交換した新しいドライブにコピーするってことだ。
コピーしながらも利用者のアクセスは許容するだろうから、全力でコピーはできない。数日あるいは1週間以上かけて再構築をすることになる。大容量ドライブによりスロット数は少なく済むようになったが、RAID再構築の長時間化が問題だ。
2019,2020,2021年の結果を比較した表だ。
これについては3台に注目する。3台ともなぜかシーゲートだ。
1つ目が6TBモデルのST6000DX000。先ほどの故障率が低いモデルだ。3年間で年々故障率が下がっているとわかる。
2つ目が10TBモデルのST10000NM0086。これは3年間で倍増している。ドライブ数は大差ないので早めに経年劣化が出ているのだろうか。
3つ目が14TBモデルのST14000NM0138。これも先ほどの故障率が高いほうのモデルだ。2020年からの購入で昨年はたまたまなのか、あるいは年末に購入したのだろうか、故障はない。しかし2021年は上記のように異常な故障率になっている。
シーゲートでも12TBモデルのST12000NM001Gは故障率が0.52%と優秀なものもある。容量により構造を変えていることが多いと思う。例えば大容量化のためにヘリウム封入とか、ディスク枚数を増やすことだ。
そういう変化を行ったモデルの故障率が飛びぬけて高いという事ではないかと想像する。
現在は世界中のHDDはWD、シーゲート、東芝の3社で供給している。HGSTはWDの子会社になっているがBack Blaze社はあえて分けてカウントしているようだ。
台数から見ると、Back Blaze社はかなりシーゲート好きなようだ。それはつまりWDは買わないという事だが、2020年Q4から変化し、WDも買うようになっている。
おそらく下図のように、シーゲートの故障率の高さから他のベンダを試すようにしたという事だろう。2019年Q4 のシーゲートは実に2.72%の故障率だ。対してHGSTは0.36%に過ぎない。8倍もの差があると、ベンダを変えたくもなるだろう。
10TB以下と12TB以上で分けると、故障率に差が見えてくる。10TB以下では特に10TBモデルで故障率の高さが目立つ。2.26%だ。
一方、12TB以上ではほぼ同様に0.9%前後になっている。もちろんこれらのドライブはまだ使用年数が浅いので、初期不良のフェーズが含まれていると想像する。含まれていてこの故障率だから、安定期に入ったら半減するかもしれない。
ここ数年のHDDベンダ別の採用モデル数が下図だ。こういう事業者はどこのHDDベンダとも友好に付き合いたいし、できれば安定したドライブがあればそれに寄せて使っていきたい。
故障するHDDドライブは事業者の作業を増やし、コストを増やすだけの悪の存在でしかない。
現場の運用担当の気持ちは上記の通りだが、事業を行う経営者はコストを重視しがちだ。同じ容量ならば安いものを買ってしまえと思う人もいるだろう。結果的に人件費が高くつくのだが。
技術革新の際には故障しがちな製品が生まれがちだ、それをフィードバックして品質が良くなった製品を買う事が良い選択と思う。
まだPCに14TBモデルを設置している人は少ないと思う。スマホカメラの高画質化、4Kビデオの日常化などでPCにそれらデータをコピーする場合は大きな容量が必要だ。
しかし最近はサブスクリプション契約して有料でもいいのでGoogle Driveなどに置いてしまう人も多いだろう。
となると個人で持つPCのHDD容量は今度そんなに大きなものは必要ないかもしれない。
一方でクラウドストレージはもっと大容量になっていく。20TBでも足りない、50TBだという話になっていく。
そろそろRAIDI以外の冗長構成を策定しないといけない時期に思える。
PR