В первую очередь, я думаю, что все знают, что жесткие диски перестали работать намного больше, чем производители хотели бы признать. Google сделал исследование, которое указывает, что определенные атрибуты необработанных данных, что состояние S.M.A.R.T отчетов о жестких дисках может иметь сильную корреляцию с дальнейшим отказом диска.
Мы находим, например, что после их первой ошибки сканирования, диски, в 39 раз более вероятно, перестанут работать в течение 60 дней, чем диски без таких ошибок. Первые ошибки в перераспределениях, офлайновых перераспределениях и испытательных количествах также сильно коррелируются к более высоким вероятностям отказа. Несмотря на те сильные корреляции, мы находим, что модели прогнозирования отказов на основе одних только УМНЫХ параметров, вероятно, будут сильно ограничены в их точности прогноза, учитывая, что большая часть наших сбойных дисков не показала УМНЫХ сигналов ошибки вообще.
Seagate кажется, что пытается затенить эту информацию об их дисках путем утверждения, что только их программное обеспечение может точно определить точное состояние их диска и по тому, как их программное обеспечение не скажет Вам, что необработанные данные оценивают за атрибуты S.M.A.R.T. Западный цифровой не предъявил такой претензии к моему знанию, но их инструмент создания отчетов о состоянии, кажется, не сообщает, что необработанные данные оценивают также.
Я использовал HDtune и smartctl от smartmontools для сбора значений необработанных данных для каждого атрибута. Я нашел это действительно... Я сравниваю яблоки с апельсинами когда дело доходит до определенных атрибутов. Я нашел, например, что большинство дисков Seagate сообщит, что у них есть много миллионов ошибок чтения, в то время как западные цифровые 99% времени показывают 0 для ошибок чтения. Я также нашел, что Seagate сообщит, что много миллионов из ищут ошибки, в то время как Western Digital всегда кажется отчету 0.
Q: Как я нормализую эти данные? Seagate производит миллионы ошибок, в то время как Западный цифровой не производит ни один? В статье Википедии о состоянии S.M.A.R.T говорится, что производители имеют различные способы сообщить об этих данных.
Вот моя гипотеза:
Я думаю, что нашел способ нормализовать (который является правильным словом?) данные.
Диски Seagate имеют дополнительный атрибут, который диски Western Digital не имеют (Аппаратные средства ECC Восстановленный). При вычитании ошибочного количества Read из ECC Восстановленное количество Вы, вероятно, закончите с 0. Это, кажется, эквивалентно Западному Digitals, сообщил "об Ошибочном количестве" Read. Это означает, что Western Digital только сообщает об ошибках чтения, которые она не может исправить, в то время как Seagate подсчитывает все ошибки чтения и говорит Вам, сколько из тех она смогла зафиксировать.
Я сделал, чтобы Seagate управляла, где ошибочное количество Read было меньше, чем ECC Восстановленное количество, и я заметил, что многие мои файлы становились поврежденными. Это - то, как я придумал свою гипотезу. Миллионы ищут ошибки, что продукты Seagate являются все еще тайной мне.
Подтвердите или исправьте мою гипотезу, если у Вас есть дополнительная информация.
Вот умное состояние моего западного цифрового диска именно так, Вы видите то, о чем я говорю:
james@ubuntu:~$ sudo smartctl -a /dev/sda
smartctl version 5.38 [x86_64-unknown-linux-gnu] Copyright (C) 2002-8 Bruce Allen
Home page is http://smartmontools.sourceforge.net/
=== START OF INFORMATION SECTION ===
Device Model: WDC WD1001FALS-00E3A0
Serial Number: WD-WCATR0258512
Firmware Version: 05.01D05
User Capacity: 1,000,204,886,016 bytes
Device is: Not in smartctl database [for details use: -P showall]
ATA Version is: 8
ATA Standard is: Exact ATA specification draft version not indicated
Local Time is: Thu Jun 10 19:52:28 2010 PDT
SMART support is: Available - device has SMART capability.
SMART support is: Enabled
=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED
SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE
1 Raw_Read_Error_Rate 0x002f 200 200 051 Pre-fail Always - 0
3 Spin_Up_Time 0x0027 179 175 021 Pre-fail Always - 4033
4 Start_Stop_Count 0x0032 100 100 000 Old_age Always - 270
5 Reallocated_Sector_Ct 0x0033 200 200 140 Pre-fail Always - 0
7 Seek_Error_Rate 0x002e 200 200 000 Old_age Always - 0
9 Power_On_Hours 0x0032 098 098 000 Old_age Always - 1468
10 Spin_Retry_Count 0x0032 100 100 000 Old_age Always - 0
11 Calibration_Retry_Count 0x0032 100 100 000 Old_age Always - 0
12 Power_Cycle_Count 0x0032 100 100 000 Old_age Always - 262
192 Power-Off_Retract_Count 0x0032 200 200 000 Old_age Always - 46
193 Load_Cycle_Count 0x0032 200 200 000 Old_age Always - 223
194 Temperature_Celsius 0x0022 105 102 000 Old_age Always - 42
196 Reallocated_Event_Count 0x0032 200 200 000 Old_age Always - 0
197 Current_Pending_Sector 0x0032 200 200 000 Old_age Always - 0
198 Offline_Uncorrectable 0x0030 200 200 000 Old_age Offline - 0
199 UDMA_CRC_Error_Count 0x0032 200 200 000 Old_age Always - 0
200 Multi_Zone_Error_Rate 0x0008 200 200 000 Old_age Offline - 0
Править: Вот диск Seagate, что я говорил об этом, вызывал повреждение данных. Эти данные от HDTune.
HD Tune: ST3250623A Health
ID Current Worst ThresholdData Status
(01) Raw Read Error Rate 45 38 6 77882492 Ok
(03) Spin Up Time 99 98 0 0 Ok
(04) Start/Stop Count 100 100 20 640 Ok
(05) Reallocated Sector Count 100 100 36 0 Ok
(07) Seek Error Rate 85 60 30 359872048 Ok
(09) Power On Hours Count 94 94 0 6028 Ok
(0A) Spin Retry Count 100 100 97 0 Ok
(0C) Power Cycle Count 100 100 20 689 Ok
(C2) Temperature 25 55 0 25 Ok
(C3) Hardware ECC Recovered 50 47 0 201555081 Ok
(C5) Current Pending Sector 100 100 0 0 Ok
(C6) Offline Uncorrectable 100 100 0 0 Ok
(C7) Ultra DMA CRC Error Count 200 199 0 1 Ok
(C8) Write Error Rate 100 253 0 0 Ok
(CA) TA Counter Increased 100 253 0 0 Ok
Power On Time : 6028
Health Status : Ok
То, что Аппаратные средства Восстановленный ECC являются более крупными, чем Необработанный Коэффициент ошибок Чтения, является счетчиком, интуитивным, по-моему.
Это - то, что я нашел, чтобы быть "нормальным" диском Seagate где ECC Восстановленные соответствия Необработанный Коэффициент ошибок Чтения:
HD Tune: ST380011A Health
ID Current Worst ThresholdData Status
(01) Raw Read Error Rate 62 46 6 79986164 Ok
(03) Spin Up Time 98 98 0 0 Ok
(04) Start/Stop Count 100 100 20 6 Ok
(05) Reallocated Sector Count 100 100 36 0 Ok
(07) Seek Error Rate 83 60 30 210309663 Ok
(09) Power On Hours Count 93 93 0 6516 Ok
(0A) Spin Retry Count 100 100 97 0 Ok
(0C) Power Cycle Count 99 99 20 1325 Ok
(C2) Temperature 25 52 0 25 Ok
(C3) Hardware ECC Recovered 62 46 0 79986164 Ok
(C5) Current Pending Sector 100 100 0 0 Ok
(C6) Offline Uncorrectable 100 100 0 0 Ok
(C7) Ultra DMA CRC Error Count 200 188 0 18 Ok
(C8) Write Error Rate 100 253 0 0 Ok
(CA) TA Counter Increased 100 253 0 0 Ok
Power On Time : 6516
Health Status : Ok
Править:
Я хочу разъяснить, что я знаю, что Google обычно считает S.M.A.R.T бесполезный. Я знаю, что все должны скопировать их данные. Я нахожусь однако в бизнесе фиксации других компьютеров народов. Большинство людей не имеет резервных копий или имеет RAID. Это не экономически эффективно, чтобы корпорации диагностировали жесткие диски, таким образом, они просто выполняют их на RAID, пока они не умирают. Я нахожу полезным в моей строке работы проверить состояние SMART жесткого диска. Это берет как 30 секунд. Если мне повезло для плохого диска показать подсказку отказа, такого как ошибки сканирования или перераспределенные секторы, я знаю для получения диска heck из там. Если никакая такая подсказка не будет существовать, то я, вероятно, проведу много часов, диагностируя замедление и повреждение данных, пока я наконец не найду, что жесткий диск плох.
Я просто пытаюсь точно настроить этот процесс.
Действительно кажется, что различные производители используют УМНЫЕ значения для иногда радикально разных вещей, как Вы видите здесь:
Мой жесткий диск (диски) в ReadyNAS сообщает о высоком УМНОМ Необработанном Коэффициенте ошибок Чтения, Ищите Коэффициент ошибок и Аппаратные средства Восстановленный ECC.Что мне делать?
Seagate использует эти поля SMART для внутренних количеств, таким образом, это - известная проблема с дисками Seagate. Ищите аварийные количества в других полях, особенно Reallocated Sector Ct и Ошибочном количестве ATA.
Таким образом когда дело доходит до Вашего фактического вопроса...
Если мне повезло для плохого диска показать подсказку отказа, такого как ошибки сканирования или перераспределенные секторы, я знаю для получения диска heck из там. Если никакая такая подсказка не будет существовать, то я, вероятно, проведу много часов, диагностируя замедление и повреждение данных, пока я наконец не найду, что жесткий диск плох.
Я сказал бы, что хорошее эмпирическое правило, можно только ожидать, что настройки SMART будут сопоставимы в том же производителе дисков и возможно даже той же модели диска!
Таким образом, когда Вы смотрите на диагностирование тех УМНЫХ количеств, имеете это в виду..., "ошибочное число повторных попыток чтения одного производителя" может означать что-то полностью различное, чем другой производитель. Печальный, но верный.:(
Хорошо, в первую очередь, я не соглашаюсь с Вашей предпосылкой.
Google сделал исследование, которое указывает, что определенные атрибуты необработанных данных, что состояние S.M.A.R.T отчетов о жестких дисках может иметь сильную корреляцию с дальнейшим отказом диска.
На самом деле они нашли противоположное:
... мы находим, что модели прогнозирования отказов на основе одних только УМНЫХ параметров, вероятно, будут сильно ограничены в их точности прогноза, учитывая, что большая часть наших сбойных дисков не показала УМНЫХ сигналов ошибки вообще.
Во-вторых, УМНЫЕ пороги не стандартизированы. Встроенное микропрограммное обеспечение на самом диске отметит атрибут, как являющийся "предварительным отказом", но необработанные значения бессмысленны пользователю. Например, Seagate заявляет:
Различные атрибуты контролируются и измеряются против пределов определенного порога. Если какой-либо атрибут превысит порог затем, то общий УМНЫЙ тест Состояния изменится от Передачи до Сбоя.
УМНЫЕ значения, которые могли бы быть считаны сторонним программным обеспечением SMART, не на основе того, как значения могут использоваться в жестких дисках Seagate. Seagate не оказывает поддержку для программ, которые утверждают, что считали отдельные УМНЫЕ атрибуты и пороги. На более старых дисках может быть некоторая историческая правильность, но новые диски, несомненно, включат более новые решения, атрибуты и пороги.
Необработанные УМНЫЕ значения почти бессмысленны, поскольку различные производители используют их по-разному и имеют различные пороги и т.д. Само встроенное микропрограммное обеспечение диска скажет Вам, когда это будет в "предварительном отказе"..., или это не могло бы, УМНЫЙ действительно не очень надежно.
Сделайте регулярные резервные копии!
Я не абсолютно уверен, чем вопрос состоит в том, что Вы спрашиваете. У Вас, кажется, есть целый вопрос и ответ, свернутый в один, но...
Вы сравнили метрики жесткого диска с данными от SeaTools
Это - инструмент диагностики и AFAIK стандартного оборудования Seagate обычно используемый инструмент диагностики жесткого диска.
Не удивляйтесь, находите ли Вы, что инструменты сообщают о неблагоприятных результатах о своих конкурентах. Инструменты обычно работают с жесткими дисками всех производителей, но это не означает, что они имеют, заставляют их конкурентов выглядеть хорошими при выполнении.
Не имейте Вы когда-либо слышали шутку, "99,99% всей статистики верен кроме, конечно, эта статистическая величина".