首页 技术杂谈Windows技术正文

硬盘SMART检测参数详解(一)

一、SMART 概述
硬盘的故障一般分为两种:可预测的( predictable )和不可预测的( unpredictable )。后者偶而会发生,也没有办法去预防它,例如芯片突然失效,机械撞击等。但像电机轴承磨损、盘片磁介质性能下降等都属于可预测的情况, 可以在在几天甚至几星期前就发现这种不正常的现象。如果发生这种问题, SMART 功能会在开机时响起警报,至少让使用者有足够的时间把重要资料转移到其它储存设备上。
最早期的硬盘监控技术起源于1992 年, IBM 在AS/400 计算机的IBM 0662 SCSI 2 代硬盘驱动器中使用了后来被命名为Predictive Failure Analysis (故障预警分析技术)的监控技术, 它是通过在固件中测量几个重要的硬盘安全参数和评估他们的情况, 然后由监控软件得出两种结果: “硬盘安全”或“不久后会发生故障”。
不久,当时的微机制造商康柏和硬盘制造商希捷、昆腾以及康纳共同提出了名为IntelliSafe的类似技术。通过该技术, 硬盘可以测量自身的的健康指标并将参量值传送给操作系统和用户的监控软件中,每个硬盘生产商有权决定哪些指标需要被监控以及设定它们的安全阈值。1995 年,康柏公司将该技术方案提交到Small Form Factor(SFF) 委员会进行标准化, 该方案得到IBM 、希捷、昆腾、康纳和西部数据的支持, 1996 年6 月进行了1.3 版的修正,正式更名为S.M.A.R.T. ( Self-Monitoring Analysis And Reporting Technology ),全称就是“自我检测分析与报告技术”,成为一种自动监控硬盘驱动器完好状况和报告潜在问题的技术标准。作为行业规范, SMART 规定了硬盘制造厂商应遵循的标准, 满足SMART 标准的条件主要包括:
1 )在设备制造期间完成SMART 需要的各项参数、属性的设定;
2 )在特定系统平台下,能够正常使用SMART ;通过BIOS 检测,能够识别设备是否支持SMART 并可显示相关信息,而且能辨别有效和失效的SMART 信息;
3 )允许用户自由开启和关闭SMART 功能;
4 )在用户使用过程中,能提供SMART 的各项有效信息,确定设备的工作状态,并能发出相应的修正指令或警告。在硬盘及操作系统都支持SMART 技术并且开启的情况下, 若硬盘状态不良, SMART 技术能够在屏幕上显示英文警告信息: “WARNING :IMMEDIATLY BACKUP YOUR DATA AND REPLACE YOUR HARD DISK DRIVE ,
A FAILURE MAY BE IMMINENT .”(警告:立刻备份你的数据并更换硬盘,硬盘可能失效。)SMART 功能不断从硬盘上的各个传感器收集信息,并把信息保存在硬盘的系统保留区(service area) 内,这个区域一般位于硬盘0 物理面的最前面几十个物理磁道,由厂商写入相关的内部管理程序。这里除了SMART 信息表外还包括低级格式化程序、加密解密程序、自监控程序、自动修复程序等。用户使用的监测软件通过名为“SMART Return Status ”的命令(命令代码为: B0h )对SMART 信息进行读取,且不允许最终用户对信息进行修改。
二、SMART 的ID 代码
硬盘SMART 检测的ID 代码以两位十六进制数表示(括号里对应的是十进制数)硬盘的各项检测参数。目前,各硬盘制造商的绝大部分SMART ID 代码所代表的参数含义是一致的,但厂商也可以根据需要使用不同的ID 代码,或者根据检测项目的多少增减ID 代码。一般来说,以下这些检测项是必需的:
01 ( 001 ) 底层数据读取错误率 Raw Read Error Rate
04 ( 004 ) 启动/ 停止计数 Start/Stop Count
05 ( 005 ) 重映射扇区数 Relocated Sector Count
09 ( 009 ) 通电时间累计 Power-On Time Count (POH)
0A ( 010 ) 主轴起旋重试次数(即硬盘主轴电机启动重试次数) Spin up Retry Count
0B ( 011 ) 磁盘校准重试次数 Calibration Retry Count
0C ( 012 ) 磁盘通电次数 Power Cycle Count
C2 ( 194 ) 温度 Temperature
C7 ( 199 ) ULTRA DMA 奇偶校验错误率 ULTRA ATA CRC Error Rate
C8 ( 200 ) 写错误率 Write Error Rate
三、SMART 的描述( Description )
描述,即某一检测项目的名称,是ID 代码的文字解释。对用户而言,不仅要了解描述的含义,重要的是要了解各参数的值如“临界值”、“最差值”的定义, “当前值”与“数据值”的区别等,才能对自己的硬盘状态有一个基本了解。
四、SMART 的值
1 、临界值( Threshold )
临界值是硬盘厂商指定的表示某一项目可靠性的门限值, 也称阈值, 它通过特定公式计算而得。如果某个参数的当前值接近了临界值, 就意味着硬盘将变得不可靠, 可能导致数据丢失或者硬盘故障。由于临界值是硬盘厂商根据自己产品特性而确定的, 因此用厂商提供的专用检测软件往往会跟Windows 下检测软件的检测结果有较大出入。以参数Raw Read Error Rate (底层数据读取错误率)为例:某型硬盘对该参数的计算公式为“10×log10 (主机和硬盘之间所传输数据的扇区数) ×512× 8 /重读的扇区数”。其中“ 512 × 8是”把扇区数转化为所传输的数据位 (bits) ,这个值只在所传输的数据位处于 1010 ~1012 范围时才作计算,而当Windows 系统启动后,主机和硬盘之间所传输的数据扇区大于或等于1012 时,此值将重新复位,所以有些值在不同的操作环境、不同检测程序下时会有较大的波动。
2 、当前值( Normalized value )
当前值是各ID 项在硬盘运行时根据实测数据通过公式计算的结果, 计算公式由硬盘厂家自定。硬盘出厂时各ID 项目都有一个预设的最大正常值,也即出厂值,这个预设的依据及计算方法为硬盘厂家保密, 不同型号的硬盘都不同, 最大正常值通常为100 或200 或253 ,新硬盘刚开始使用时显示的当前值可以认为是预设的最大正常值(有些ID 项如温度等除外)。随着使用损耗或出现错误, 当前值会根据实测数据而不断刷新并逐渐减小。因此, 当前值接近临界值就意味着硬盘寿命的减少, 发生故障的可能性增大, 所以当前值也是判定硬盘健康状态或推测寿命的依据之一。
3 、最差值( Worst )
最差值是硬盘运行时各ID 项曾出现过的最大的非正常值。
最差值是对硬盘运行中某项数据变劣的峰值统计, 该数值也会不断刷新。通常, 最差值与当前值是相等的,如果最差值出现较大的波动(小于当前值) ,表明硬盘曾出现错误或曾经历过恶劣的工作环境(如温度)。
4 、数据值( Data 或Raw value )
数据值是硬盘运行时各项参数的实测值,大部分SMART 工具以十进制显示数据。
数据值代表的意义随参数而定,大致可以分为三类:
1 )数据值并不直接反映硬盘状态,必须经过硬盘内置的计算公式换算成当前值才能得出结果;
2 )数据值是直接累计的,如Start/Stop Count (启动/ 停止计数)的数据是50 ,即表示该硬盘从出厂到现在累计启停了50 次;
3 )有些参数的数据是即时数,如Temperature (温度)的数据值是44 ,表示硬盘的当前温度是44 ℃ 。因此,有些参数直接查看数据也能大致了解硬盘目前的工作状态。
五、状态(Status)
硬盘的每项SMART 信息中都有一个临界值(阈值) ,不同硬盘的临界值是不同的, SMART针对各项的当前值、最差值和临界值的比较结果以及数据值进行分析后, 提供硬盘当前的评估状态,也是我们直观判断硬盘健康状态的重要信息。根据SMART 的规定, 状态一般有正常、警告、故障或错误三种状态。
SMART 判定这三个状态与SMART 的 Pre-failure/advisory BIT (预测错误/ 发现位)参
数的赋值密切相关,当Pre-failure/advisory BIT=0 ,并且当前值、最差值远大于临界值的情况下,为正常标志。当Pre-failure/advisory BIT=0 ,并且当前值、最差值大于但接近临界值时,为警告标志;当Pre-failure/advisory BIT=1 ,并且当前值、最差值小于临界值时,为故障或错误标志。
六、SMART 参数详解
一般情况下, 用户只要观察当前值、最差值和临界值的关系, 并注意状态提示信息即可大致了解硬盘的健康状况。下面简单介绍各参数的含义, 以红色标出的项目是寿命关键项, 蓝色为固态硬盘( SSD )特有的项目。在基于闪存的固态硬盘中,存储单元分为两类: SLC ( Single Layer Cell ,单层单元)和MLC ( Multi-Level Cell ,多层单元)。SLC 成本高、容量小、但读写速度快,可靠性高,擦写次数可高达100000 次,比MLC 高10 倍。而MLC 虽容量大、成本低,但其性能大幅落后于SLC 。为了保证MLC 的寿命,控制芯片还要有智能磨损平衡技术算法,使每个存储单元的写入次数可以平均分摊,以达到100 万小时的平均无故障时间。因此固态硬盘有许多SMART 参数是机械硬盘所没有的, 如存储单元的擦写次数、备用块统计等等, 这些新增项大都由厂家自定义,有些尚无详细的解释, 有些解释也未必准确, 此处也只是仅供参考。下面凡未注明厂商的固态硬盘特有的项均为SandForce 主控芯片特有的,其它厂商各自单独注明。

本文标题:硬盘SMART检测参数详解(一)
本文链接:https://dingqidong.com/?id=114
作者授权:除特别说明外,本文由 By无邪 原创编译并授权 无邪-blog 刊载发布。
版权声明:本文使用「署名-非商业性使用-相同方式共享 4.0 国际」创作共享协议,转载或使用请遵守署名协议。

评论