スポンサーリンク
HDDの故障率を紹介する海外事業者の恒例のBackBlaze社の記事の紹介。今回は2024年Q3の統計情報に基づく考察。
大容量ストレージデバイスであるHDDについてのまとめはこちら。
前回の記事はこちら。
四半期恒例のUSのBackBlaze社の公表データのご紹介。元ストレージシステムのエンジニアの自分が以前の仕事での経験をもとに、同社のデータをみて勝手に考察する。Back Blazeが公表している記事はこちら。
今回は2024年第3四半期、つまり7月から10月の統計になっている。
BackBlaze社はクラウドストレージなどのサービスを提供するUSの会社だ。同社は10月末時点で292,647台のHDD/SSDドライブを使っている。このうち、OSブート用4,100台と統計的有意さのないHDDを除いて、データ用ドライブは 288,547台だった。これらについて故障状況など統計をとったものが本レポートだ。
100台以上が稼働し、ドライブ日が10,000を超えてて、温度がメーカ仕様を守っているものを抽出して、288,076台について統計情報を集めている。
この表からわかるのは、AFR、年間故障率は1.89%で、前回2Qから上がっていることだ。この上昇の要因は長年品質に問題を起こしてきた4TBの老朽化によるものではなく、7年以上動いている8TBのドライブによるという。8TBのAFRは2.31%から3.04%に上昇しており、Back Blaze社では数か月以内に8TBを終了し、さらに大容量のドライブに移行していく方針だ。
今期AFRが悪かったのはST10000NM0086、ST12000NM0007、ST140000NM0138とシーゲート製がそろう。台数はそれぞれ多くはないので、今後多くなれば変わるのかもしれない。
一方で品質が良かったものは、故障台数が0台だった、ST16000NM00Jだ。数が少ないのでこちらもしばらく様子見だ。
10年以上使われているHDDはないが9年は39台ある。すべてHGSTの4TBだ。移行計画もあるので、そのうち消えていくようだ。
また、今期は東芝の20TBドライブが登場した。今後の品質に期待。
リアクティブ、プロアクティブといっても何を指しているのかわからない。まずはそれを定義している。
リアクティブ障害が発生するとそれによりサービスの停止がある。Back Blaze社のような事業であれば顧客に対してSLAを提示しているだろう。停止時間に対して返金処理をすることが一般的だ。またリアクティブ障害は突然起きるものなので、真夜中の人がいないときに発生すれば対応に時間がかかる場合もある。そのような事態を先回りして未然に防ぐ。それがプロアクティブ傷害で検出して対応するということだろう。
自分も以前の経験ではそういう対応をしていたことがある。HDDを故障するまで使いきることができないので部材費はコストが高くなるが、人件費は逆に減るしSLAも守ることができる。
ただし、プロアクティブ障害については、どのパラメータをもって障害と決めるかの判断が難しい。運用者が独自に決めていると思う。
以上からリアクティブ障害とプロアクティブ障害をまとめたものが下図だ。
この表では、東芝のドライブがプロアクティブ障害になっている。下の方のサーバ種別ごとの表では、5.0 red Storage Pod(といってもどこのメーカなのかもわからないが)がリアクティブ故障が多い一方でデルのサーバがプロアクティブ故障が多い。
プロアクティブが多いというのは未然に検出でいているということなので、デルのサーバのリアクティブ故障率は低い。
この表はライフタイムサイクルにおけるAFRだ。
異常に高い、ST12000NM000J、ST14000NM0138を除くと、おおよそのものはAFRは2%弱で落ち着いているようだ。
2Qは1.47%だったものが1.31%に低下している。これはドライブ台数の増加の一方でドライブ日はあまり増えなかったためのようだ。また4TBドライブが除かれていることも要因の一つだろう。
今回はリアクティブ障害とプロアクティブ障害について詳細な情報がありよかった。
プロアクティブ障害は上で書いたように基準が明確ではなく、運用している人の経験で決めている面がある。
例えば代替セクタ数が一定数以上になったとか、スピンアップ回数が一定値を超えたとか。そのあたりの基準も公開してくれると嬉しい。
PR