ディスクの故障確率・寿命平均(MTBF 平均故障間隔)

平均故障間隔とは(Mean Time Between Failures、MTBF)

ハードウエアが故障してから次に故障するまでの間隔(あるいは新品のハードウエアの使用開始から故障するまでの間隔)の平均を指します。この値が大きいほど信頼性が高いわけですが、一般には誤解も多いようです。

HDDのMTBFが100万時間(約114年)の場合、「HDDは事実上故障しないという意味か?」と疑問に思われる方も多いのではないでしょうか。
しかし、実際は全く違うのです。

MTBFは「ハードウエアの稼働時間累計÷故障回数」で求めます。

「HDDのMTBFが100万時間」とは、例えば100台のHDDを稼働させ、その延べ稼働時間が100万時間ごとに1台の割合でHDDが故障することを意味しています。
100台のHDDを24時間365日稼働させると、延べ稼働時間は87万6000時間(24時間×365日×100台)になります。
MTBFが100万時間なら、「100台のHDDを約1年2カ月連続稼働させると1台が故障する」あるいは「1年で100台のうち0.876台のHDDが故障する」という計算になります。
こう考えれば、システム管理者の方々が経験しているHDDの故障頻度に近いでしょう。

MTBFは、製品が安定動作している期間の故障率を基に計算しているため、製品の磨耗や劣化を考慮しておらず、製品の寿命と直接的な関係はありません。
通常、MTBFよりはるかに早い時期に製品の寿命を迎えます。

ハードディスク・ドライブの故障率に関する事実 - Windows Server:システム管理者の視点:ITpro

IBM HDD 選択ガイド


メーカーが品質管理するディスク故障率(ppmとは)

IAサーバーの部品は、汎用機から価格を安く一般的にするために故障することが当然あり得るという前提に設計されています。
変わりに、汎用機より価格が安くなり、一般に浸透しました。
しかし、この「当然あり得る故障」を避けるために、冗長化といって安いIAサーバーの部品を複数つけて1つ壊れても稼動し続けるように設計されています。

つまり、機械の信頼性にたいし
  • 汎用機は、コストをかけ、一つ一つの部品を壊れないように設計した
  • IAサーバーは、コストの安い部品を2重化し壊れないように設計した
という違いがあります。
IAサーバーのディスクで言うRAIDの冗長化が良い例になります。

いくら「壊れるのが当然と考える」部品といっても、簡単に壊れては困ります。
そこで部品に対し品質管理がされていて、故障率が評価されます。

ディスクの場合、ディスクメーカーが品質管理している一般的な故障率は年間0.3ppmだそうです。
ppmとは、Parts Per Million(百万分の一)の略です

0.3ppmは一年間で10,000,000個のディスクのうちに3個が壊れる割合になります。

サブページ リスト

作成日:
更新日:2011/08/10
Comments