スポンサーリンク
HDDの故障率を紹介する海外事業者の恒例の記事の紹介。
大容量ストレージデバイスであるHDDについてのまとめはこちら。
前回の記事はこちら。
恒例のUSのBackBlaze社の公表データのご紹介。以前の仕事での経験をもとに、同社のデータをみて勝手に考察する。
今回は2022年2Q(4-6月)の状況。
BackBlaze社はクラウドストレージなどのサービスを提供するUSの会社だ。同社は6月末時点で219,444台のストレージ(HDD,SSD)を利用している。4,020台のOSブートドライブで、うち2,558台がSSDで1,462台がHDDだ。それと215,424台のデータドライブだ。
今回からレポート形式がちょっと変わっており、ライフタイムの故障率を先に報告する。
データ用の215,424台について書かれているが、テスト用途の413台と60台に満たない種類のストレージは外されている。このため、27グループ、215,011台がレポートの対象になっている。
ライフタイムの故障率は1.39%になった。1年前は1.45%だったので若干下がっている。
下表を見ると3台の故障率が高いドライブがある。赤線を入れている。
これらのドライブの共通点は、Drive Daysが小さいということだ。また表右のConfidence Intervalの上限、下限値が大きく離れている。ばらつきが大きいといえそうだ。
いろいろなドライブが混じっているので、下記条件を満たすものだけを抽出したものが下表だ。
全ドライブの平均AFRは1.2%だそうだ。
使用しているドライブ数を数えるのは簡単ではない。
Back Blaze社だけでなく、故障したドライブの交換やサーバの経年劣化でドライブもまとめて交換というケースがある。
24時間つけっぱなしでHDDは何年持つだろうか。自宅はそういう使い方をしないし、そういう耐久性のあるドライブではないので確かなデータを持っていないが、保証は3年、5年を見るので、そのくらいは使えるのであろう。
Back Blaze社では、そういう事例として、12TBのHGST製ドライブが故障して12TBのシーゲートに交換したとか、新サービスで1,200台の東芝製14TBドライブを導入して4TBのドライブは破棄したとか、そういうことはざらにあるようだ。
このためドライブを数えるのは日々変わるので難しい。苦労があるようだ。
ドライブの故障は2つに分類できる。Back Blaze社が定義するのはReactiveとProactiveだ。
言葉は違うかもしれないが、多くのストレージ技術者はその意味に同意するだろう。
近年はBack Blaze社のドライブ情報をAIや機械学習で処理し、故障予知の精度を高める試みをしているそうだ。長年の勘でしか判断できなかった故障予知を機械的にできるようになれば、交換作業のために夜中にたたき起こされる保守員が減るのではないだろうか。
215,011台のHDDを調査した結果の特筆すべきドライブは下記のものだ。
Back Blaze社は近年はSSDの統計情報をブログで報告するようになった。
最近のニュースではSSDの容量がいよいよHDDを超えそうなものが聞こえてくる。もちろんまだ高価であろうし、もしかしたらまだ理論上の話かもしれない。
ただ、HDDが磁性体を塗った円盤をモータで回す仕組みである以上は小さくする限界があるし、一方でSSDは微細化によりどんどん容量が増えていく。
5年10年経ったらHDDがなくなってしまうこともあるのかもしれない。
PR