「HDDが壊れる」まで(後編):福田昭のストレージ通信(3)(2/2 ページ)
前編ではHDDがどれぐらい壊れやすいのか、「MTBF」の数値が何を意味しているかを説明した。HDDの一生は、初期故障期→偶発故障期(耐用年数)→摩耗故障期という3つの時期に分けられる。後編では、耐用年数がどの程度の期間続くのか、摩耗故障期には何が起こるのかを解説する。
摩耗故障期に起こること
偶発故障期から次の摩耗故障期へ入ると、HDDの寿命による故障が始まる。寿命を決める要因はさまざまだ。物理的な要因には、機械的な摩擦や摩耗、外力(振動や衝撃、落下)などがある。化学的な要因には、汚染や酸化、エレクトロマイグレーション、電磁障害などがある。故障する箇所はモーターであったり、電子部品であったり、HDDの媒体であったりする。
これらの寿命は温度に対する依存性があり、高温環境と低温環境のいずれもが、HDDの寿命を短くする。実際には、高温環境が偶発故障期間の故障率を高めるとともに、寿命を縮めるケースが少なくない。
高温環境の影響を実際の温度変化で示そう。温度0〜90℃における部品レベルの故障率(FIT:Failure in Time)でみると、モーターの故障率は30℃程度の温度上昇によって1桁程度、増加する。磁気媒体の故障率は60℃くらいまではほぼ一定なのだが、60℃を超えると急激に上昇する。
実際には何が起こるのか
それでは、HDD製品の故障実態はどのようになっているのだろうか。出荷されたHDD製品がユーザーの手元で不良と判断され、販売代理店を通じてHDDメーカーに戻ってきたとしよう。不良解析の結果、最大の割合を占めるのは「不再現」と呼ばれている症状である。不再現とは、ユーザーが訴えてきた不良が、メーカー側では再現しないことを意味する。不良の再現は原因究明には不可欠であり、不良が再現しないことには原因の推定は極めて困難になってしまう。
「CND」と「NTF」とは
「不再現」には大別すると「CND(Could Not Duplicate)」と「NTF(No Trouble Found)」がある。CNDとは不良発生のログがHDDに残っている場合、NTFとは不良発生のログが存在しない場合を指す。いずれも不良解析のサイト(ラボ)では、HDDは正常に動く。
HDDの内部には欠陥が見つかったセクタがログとして残されている。このログをHDDのユーザーが見ることは、通常できない。HDDメーカーは「Grown Defect List要求」と呼ぶコマンドによって、ログを読み出す。「Gリスト」と称するこのリストは、工場からHDD製品が出荷された後で欠陥が発生し、予備のセクタを代替として利用することになった欠陥セクタのリストである。CNDの場合は、このGリストにログが残る。このほか工場出荷時点で検出された欠陥セクタのリストに「Pリスト(Primary Defect List)」がある。
CNDの原因には、電気的な雑音の侵入や、ヘッドの浮上量が一時的に増加したことによる記録信号の低下、などが考えられる。Gリストを詳しく調べることで、原因を推定できることが多い。
壊れていない可能性もあるNTF
NTFは不良のログがないので、原因の解明は極めて難しい。例えば、特定のケーブルや特定のホストマシンなどとの組み合わせが不良を起こす可能性が考えられる。こうなると、不良解析のサイトでは不良の再現は不可能に近い。言い換えると、ケーブルを変更したり、ホストマシンを変更したりするだけで、HDDが正常に動くことも珍しくない。
HDD不良に占める不再現の占める割合は20〜40%といわれている。残りの60〜80%が、ハードウェア故障やソフトウェア不良、取り扱いミスなどによるものとなる。
(次の記事を読む)
筆者紹介
福田 昭(ふくだ あきら)
フリーランスのテクノロジージャーナリスト/アナリスト。
Copyright © ITmedia, Inc. All Rights Reserved.