IrvineのもっとPC自作日記
【AT独占】mineo(マイネオ)
テレワークにおすすめのモバイルPC
本ページはプロモーションが含まれています。
  
 

【故障率調査】安定した高性能HDDを求める旅2024年Q3

 

スポンサーリンク

 
【故障率調査】安定した高性能HDDを求める旅2024年Q3
   

HDDの故障率を紹介する海外事業者の恒例のBackBlaze社の記事の紹介。今回は2024年Q3の統計情報に基づく考察。
大容量ストレージデバイスであるHDDについてのまとめはこちら。

連載記事はこちら
  
このストレージの記事もチェック!
  

2024年Q3の情報

前回の記事はこちら。

四半期恒例のUSのBackBlaze社の公表データのご紹介。元ストレージシステムのエンジニアの自分が以前の仕事での経験をもとに、同社のデータをみて勝手に考察する。Back Blazeが公表している記事はこちら。

今回は2024年第3四半期、つまり7月から10月の統計になっている。

Back Blaze社 ドライブ故障 2024年Q3

Back Blaze社 ドライブ故障 2024年Q3 出典:Back Blaze 以下同じ

レポートの概要

BackBlaze社はクラウドストレージなどのサービスを提供するUSの会社だ。同社は10月末時点で292,647台のHDD/SSDドライブを使っている。このうち、OSブート用4,100台と統計的有意さのないHDDを除いて、データ用ドライブは 288,547台だった。これらについて故障状況など統計をとったものが本レポートだ。

Q3の故障率

Back Blaze社 ドライブ故障 2024年Q3

Back Blaze社 ドライブ故障 2024年Q3

100台以上が稼働し、ドライブ日が10,000を超えてて、温度がメーカ仕様を守っているものを抽出して、288,076台について統計情報を集めている。
この表からわかるのは、AFR、年間故障率は1.89%で、前回2Qから上がっていることだ。この上昇の要因は長年品質に問題を起こしてきた4TBの老朽化によるものではなく、7年以上動いている8TBのドライブによるという。8TBのAFRは2.31%から3.04%に上昇しており、Back Blaze社では数か月以内に8TBを終了し、さらに大容量のドライブに移行していく方針だ。

今期AFRが悪かったのはST10000NM0086、ST12000NM0007、ST140000NM0138とシーゲート製がそろう。台数はそれぞれ多くはないので、今後多くなれば変わるのかもしれない。
一方で品質が良かったものは、故障台数が0台だった、ST16000NM00Jだ。数が少ないのでこちらもしばらく様子見だ。

10年以上使われているHDDはないが9年は39台ある。すべてHGSTの4TBだ。移行計画もあるので、そのうち消えていくようだ。

また、今期は東芝の20TBドライブが登場した。今後の品質に期待。

リアクティブ、プロアクティブドライブ障害への対応

リアクティブ、プロアクティブといっても何を指しているのかわからない。まずはそれを定義している。

  • リアクティブ障害
    ドライブがクラッシュして起動またはスピンアップを拒否する、ドライブがシステムコマンドに応答しない、またはドライブが動作不能になるなどの状況が発生した場合。いわゆる使っているときに停止した、あるいは起動するときに 起動しなくてわかる障害だ。
  • プロアクティブ障害
    リアクティブ障害ではない障害を指している。通常は、SMART 統計、FSCK (ファイル システム) チェックなどの 1 つ以上のチェックツールにより、ドライブの問題を検出した場合だ。この場合、今は動いていても近日ドライブ障害が発生する可能性が高い。

リアクティブ障害が発生するとそれによりサービスの停止がある。Back Blaze社のような事業であれば顧客に対してSLAを提示しているだろう。停止時間に対して返金処理をすることが一般的だ。またリアクティブ障害は突然起きるものなので、真夜中の人がいないときに発生すれば対応に時間がかかる場合もある。そのような事態を先回りして未然に防ぐ。それがプロアクティブ傷害で検出して対応するということだろう。
自分も以前の経験ではそういう対応をしていたことがある。HDDを故障するまで使いきることができないので部材費はコストが高くなるが、人件費は逆に減るしSLAも守ることができる。
ただし、プロアクティブ障害については、どのパラメータをもって障害と決めるかの判断が難しい。運用者が独自に決めていると思う。
以上からリアクティブ障害とプロアクティブ障害をまとめたものが下図だ。

Back Blaze社 ドライブ故障 2024年Q3

Back Blaze社 ドライブ故障 2024年Q3

この表では、東芝のドライブがプロアクティブ障害になっている。下の方のサーバ種別ごとの表では、5.0 red Storage Pod(といってもどこのメーカなのかもわからないが)がリアクティブ故障が多い一方でデルのサーバがプロアクティブ故障が多い。
プロアクティブが多いというのは未然に検出でいているということなので、デルのサーバのリアクティブ故障率は低い。

HDDの生涯故障率

この表はライフタイムサイクルにおけるAFRだ。

Back Blaze社 ドライブ故障 2024年Q3

Back Blaze社 ドライブ故障 2024年Q3

異常に高い、ST12000NM000J、ST14000NM0138を除くと、おおよそのものはAFRは2%弱で落ち着いているようだ。
2Qは1.47%だったものが1.31%に低下している。これはドライブ台数の増加の一方でドライブ日はあまり増えなかったためのようだ。また4TBドライブが除かれていることも要因の一つだろう。

まとめ

今回はリアクティブ障害とプロアクティブ障害について詳細な情報がありよかった。
プロアクティブ障害は上で書いたように基準が明確ではなく、運用している人の経験で決めている面がある。
例えば代替セクタ数が一定数以上になったとか、スピンアップ回数が一定値を超えたとか。そのあたりの基準も公開してくれると嬉しい。

PR

   
著者プロフィール
irvine
 ソフトウェア設計、ストレージ設計を経てクラウドにかかわる仕事をしている、東京郊外在住のエンジニア。
 仕事でUS,UK,SGなどの国とかかわる。
 自作PC、スマホ、タブレット、AV機器好き。ドラクエウォークはルーチンワーク。Linuxやストレージ、IT業界の動向は興味を持っている。
 新しい機器、サービスに興味あり。年数回のレビュー(自腹購入、ご依頼)と発表されて興味があるものの新製品机上レビューをやっている。
 2022年はJAPANNEXT様のアンバサダーを務めました。
 
 

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です