(古い記事) « ガソリン 7月 値上げ前 の直前給油 | サイトTOP | スーパーボイジャーEで空撮 【天竜川で空撮】 » (新しい記事)
サーバーから次のような異常を知らせるメールが届いた。
Subject: SMART error (CurrentPendingSector) detected on host: wnsvr.wingnotes.netThis email was generated by the smartd daemon running on:
host name: wnsvr.wingnotes.net
DNS domain: wingnotes.net
NIS domain: (none)The following warning/error was logged by the smartd daemon:
Device: /dev/hda, 61 Currently unreadable (pending) sectors
For details see host's SYSLOG (default: /var/log/messages).
You can also use the smartctl utility for further investigation
.
No additional email messages about this problem will be sent.
半年前の日記サーバーのHDDから異音にも書いた。その後しばらく異音は落ち着いていたがとうとう寿命が来たのかもしれない。いろいろネットで情報を探していたら、smartctl コマンドでHDDの状態を調べる事ができるらしい。 そもそも、SMARTDというデーモン稼働していることで、HDDの異常を検知すると管理者にメール連絡してくれる。SMARTに対応しているHDDである事が前提との事。
そもそもSMARTとは?
「S.M.A.R.T.」(Self-Monitoring, Analysis and Reporting Technology System)
というんだって。IDE Harddisk の故障・不具合を事前に検査し、故障の前触れを察知する技術。ハードウェアとソフトウェアの組み合わせで実現している機能のようだ。Linux上ではSMARTDというデーモンがそのソフトウェアにあたる(?)。
HDDの状態を調べるために、コマンド smartctl を実行してみた。
# smartctl -a /dev/hda
=== START OF INFORMATION SECTION ===
Device Model: ST340810A
Serial Number: 6FB2210N
Firmware Version: 3.60
User Capacity: 40,020,664,320 bytes
Device is: In smartctl database [for details use: -P show]
ATA Version is: 6
ATA Standard is: Exact ATA specification draft version not indicated
Local Time is: Fri Jul 4 01:17:22 2008 JST
SMART support is: Available - device has SMART capability.
SMART support is: Enabled
(中略)
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE
1 Raw_Read_Error_Rate 0x000f 061 051 025 Pre-fail Always - 69989819
3 Spin_Up_Time 0x0003 098 098 000 Pre-fail Always - 0
4 Start_Stop_Count 0x0032 100 100 020 Old_age Always - 177
5 Reallocated_Sector_Ct 0x0033 100 100 036 Pre-fail Always - 1
7 Seek_Error_Rate 0x000f 073 060 030 Pre-fail Always - 133933183465
9 Power_On_Hours 0x0032 062 062 000 Old_age Always - 33675
10 Spin_Retry_Count 0x0013 100 100 097 Pre-fail Always - 0
12 Power_Cycle_Count 0x0032 100 100 020 Old_age Always - 364
194 Temperature_Celsius 0x0022 046 051 000 Old_age Always - 46
195 Hardware_ECC_Recovered 0x001a 100 253 000 Old_age Always - 0
197 Current_Pending_Sector 0x0012 095 095 000 Old_age Always - 61
198 Offline_Uncorrectable 0x0010 100 100 000 Old_age Offline - 0
199 UDMA_CRC_Error_Count 0x003e 200 181 000 Old_age Always - 1825
200 Multi_Zone_Error_Rate 0x0000 100 253 000 Old_age Offline - 0
202 TA_Increase_Count 0x0032 100 253 000 Old_age Always - 0
さて、いろいろな情報が出力されているが、それぞれのATTRIBUTE(属性)が何を意味しているのか、よくわからない。
ネット探していたら
smartmontoolsで取得できるSMART情報一覧
という何ともすばらしいサイトを見つけた!
そのなかでHDDがこれだけのログを取っていたんだという事に驚いた。
起動回数 177回や
稼働時間 33675H→4年弱稼働している
温度 46℃
ふむふむ。
SMART情報一覧ページのクリティカル度の高いヤバいエラーをみると
・Reallocated_Sector_Ct
・Current_Pending_Sector
あぁ、、、出てますね。。。。
そのほか、Seek_Error_Rate が 133933183465 と飛び抜けている。
これは早急にHDD交換した方がよいな。
さて、今回SMARTについていろいろ調べていたら、フリーのWindows版SMARTツールがもるようですね。
早速ダウンロードしてWinマシンに入れてみました。HDDの管理に結構使えそうです。
Win版フリーのSMART診断ツール
HDD Health
日本語化 RiKu's On-Line
2008/07/04 10:23
このエントリーのトラックバックURL:
http://www.wingnotes.net/mt/mt-tb.cgi/147
(古い記事) « ガソリン 7月 値上げ前 の直前給油 | サイトTOP | スーパーボイジャーEで空撮 【天竜川で空撮】 » (新しい記事)