Почему различные производители имеют другое значение S.M.A.R.T?

Question

Почему различные производители имеют другое значение S.M.A.R.T?

В первую очередь, я думаю, что все знают, что жесткие диски перестали работать намного больше, чем производители хотели бы признать. Google сделал исследование, которое указывает, что определенные атрибуты необработанных данных, что состояние S.M.A.R.T отчетов о жестких дисках может иметь сильную корреляцию с дальнейшим отказом диска.

Мы находим, например, что после их первой ошибки сканирования, диски, в 39 раз более вероятно, перестанут работать в течение 60 дней, чем диски без таких ошибок. Первые ошибки в перераспределениях, офлайновых перераспределениях и испытательных количествах также сильно коррелируются к более высоким вероятностям отказа. Несмотря на те сильные корреляции, мы находим, что модели прогнозирования отказов на основе одних только УМНЫХ параметров, вероятно, будут сильно ограничены в их точности прогноза, учитывая, что большая часть наших сбойных дисков не показала УМНЫХ сигналов ошибки вообще.

Seagate кажется, что пытается затенить эту информацию об их дисках путем утверждения, что только их программное обеспечение может точно определить точное состояние их диска и по тому, как их программное обеспечение не скажет Вам, что необработанные данные оценивают за атрибуты S.M.A.R.T. Западный цифровой не предъявил такой претензии к моему знанию, но их инструмент создания отчетов о состоянии, кажется, не сообщает, что необработанные данные оценивают также.

Я использовал HDtune и smartctl от smartmontools для сбора значений необработанных данных для каждого атрибута. Я нашел это действительно... Я сравниваю яблоки с апельсинами когда дело доходит до определенных атрибутов. Я нашел, например, что большинство дисков Seagate сообщит, что у них есть много миллионов ошибок чтения, в то время как западные цифровые 99% времени показывают 0 для ошибок чтения. Я также нашел, что Seagate сообщит, что много миллионов из ищут ошибки, в то время как Western Digital всегда кажется отчету 0.

Q: Как я нормализую эти данные? Seagate производит миллионы ошибок, в то время как Западный цифровой не производит ни один? В статье Википедии о состоянии S.M.A.R.T говорится, что производители имеют различные способы сообщить об этих данных.

Вот моя гипотеза:

Я думаю, что нашел способ нормализовать (который является правильным словом?) данные.

Диски Seagate имеют дополнительный атрибут, который диски Western Digital не имеют (Аппаратные средства ECC Восстановленный). При вычитании ошибочного количества Read из ECC Восстановленное количество Вы, вероятно, закончите с 0. Это, кажется, эквивалентно Западному Digitals, сообщил "об Ошибочном количестве" Read. Это означает, что Western Digital только сообщает об ошибках чтения, которые она не может исправить, в то время как Seagate подсчитывает все ошибки чтения и говорит Вам, сколько из тех она смогла зафиксировать.

Я сделал, чтобы Seagate управляла, где ошибочное количество Read было меньше, чем ECC Восстановленное количество, и я заметил, что многие мои файлы становились поврежденными. Это - то, как я придумал свою гипотезу. Миллионы ищут ошибки, что продукты Seagate являются все еще тайной мне.

Подтвердите или исправьте мою гипотезу, если у Вас есть дополнительная информация.

Вот умное состояние моего западного цифрового диска именно так, Вы видите то, о чем я говорю:

james@ubuntu:~$ sudo smartctl -a /dev/sda
smartctl version 5.38 [x86_64-unknown-linux-gnu] Copyright (C) 2002-8 Bruce Allen
Home page is http://smartmontools.sourceforge.net/

=== START OF INFORMATION SECTION ===
Device Model:     WDC WD1001FALS-00E3A0
Serial Number:    WD-WCATR0258512
Firmware Version: 05.01D05
User Capacity:    1,000,204,886,016 bytes
Device is:        Not in smartctl database [for details use: -P showall]
ATA Version is:   8
ATA Standard is:  Exact ATA specification draft version not indicated
Local Time is:    Thu Jun 10 19:52:28 2010 PDT
SMART support is: Available - device has SMART capability.
SMART support is: Enabled

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED

SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x002f   200   200   051    Pre-fail  Always       -       0
  3 Spin_Up_Time            0x0027   179   175   021    Pre-fail  Always       -       4033
  4 Start_Stop_Count        0x0032   100   100   000    Old_age   Always       -       270
  5 Reallocated_Sector_Ct   0x0033   200   200   140    Pre-fail  Always       -       0
  7 Seek_Error_Rate         0x002e   200   200   000    Old_age   Always       -       0
  9 Power_On_Hours          0x0032   098   098   000    Old_age   Always       -       1468
 10 Spin_Retry_Count        0x0032   100   100   000    Old_age   Always       -       0
 11 Calibration_Retry_Count 0x0032   100   100   000    Old_age   Always       -       0
 12 Power_Cycle_Count       0x0032   100   100   000    Old_age   Always       -       262
192 Power-Off_Retract_Count 0x0032   200   200   000    Old_age   Always       -       46
193 Load_Cycle_Count        0x0032   200   200   000    Old_age   Always       -       223
194 Temperature_Celsius     0x0022   105   102   000    Old_age   Always       -       42
196 Reallocated_Event_Count 0x0032   200   200   000    Old_age   Always       -       0
197 Current_Pending_Sector  0x0032   200   200   000    Old_age   Always       -       0
198 Offline_Uncorrectable   0x0030   200   200   000    Old_age   Offline      -       0
199 UDMA_CRC_Error_Count    0x0032   200   200   000    Old_age   Always       -       0
200 Multi_Zone_Error_Rate   0x0008   200   200   000    Old_age   Offline      -       0

Править: Вот диск Seagate, что я говорил об этом, вызывал повреждение данных. Эти данные от HDTune.

HD Tune: ST3250623A Health

ID                               Current  Worst    ThresholdData       Status   
(01) Raw Read Error Rate         45       38       6        77882492   Ok       
(03) Spin Up Time                99       98       0        0          Ok       
(04) Start/Stop Count            100      100      20       640        Ok       
(05) Reallocated Sector Count    100      100      36       0          Ok       
(07) Seek Error Rate             85       60       30       359872048  Ok       
(09) Power On Hours Count        94       94       0        6028       Ok       
(0A) Spin Retry Count            100      100      97       0          Ok       
(0C) Power Cycle Count           100      100      20       689        Ok       
(C2) Temperature                 25       55       0        25         Ok       
(C3) Hardware ECC Recovered      50       47       0        201555081  Ok       
(C5) Current Pending Sector      100      100      0        0          Ok       
(C6) Offline Uncorrectable       100      100      0        0          Ok       
(C7) Ultra DMA CRC Error Count   200      199      0        1          Ok       
(C8) Write Error Rate            100      253      0        0          Ok       
(CA) TA Counter Increased        100      253      0        0          Ok       

Power On Time         : 6028
Health Status         : Ok

То, что Аппаратные средства Восстановленный ECC являются более крупными, чем Необработанный Коэффициент ошибок Чтения, является счетчиком, интуитивным, по-моему.

Это - то, что я нашел, чтобы быть "нормальным" диском Seagate где ECC Восстановленные соответствия Необработанный Коэффициент ошибок Чтения:

HD Tune: ST380011A Health

ID                               Current  Worst    ThresholdData       Status   
(01) Raw Read Error Rate         62       46       6        79986164   Ok       
(03) Spin Up Time                98       98       0        0          Ok       
(04) Start/Stop Count            100      100      20       6          Ok       
(05) Reallocated Sector Count    100      100      36       0          Ok       
(07) Seek Error Rate             83       60       30       210309663  Ok       
(09) Power On Hours Count        93       93       0        6516       Ok       
(0A) Spin Retry Count            100      100      97       0          Ok       
(0C) Power Cycle Count           99       99       20       1325       Ok       
(C2) Temperature                 25       52       0        25         Ok       
(C3) Hardware ECC Recovered      62       46       0        79986164   Ok       
(C5) Current Pending Sector      100      100      0        0          Ok       
(C6) Offline Uncorrectable       100      100      0        0          Ok       
(C7) Ultra DMA CRC Error Count   200      188      0        18         Ok       
(C8) Write Error Rate            100      253      0        0          Ok       
(CA) TA Counter Increased        100      253      0        0          Ok       

Power On Time         : 6516
Health Status         : Ok

Править:

Я хочу разъяснить, что я знаю, что Google обычно считает S.M.A.R.T бесполезный. Я знаю, что все должны скопировать их данные. Я нахожусь однако в бизнесе фиксации других компьютеров народов. Большинство людей не имеет резервных копий или имеет RAID. Это не экономически эффективно, чтобы корпорации диагностировали жесткие диски, таким образом, они просто выполняют их на RAID, пока они не умирают. Я нахожу полезным в моей строке работы проверить состояние SMART жесткого диска. Это берет как 30 секунд. Если мне повезло для плохого диска показать подсказку отказа, такого как ошибки сканирования или перераспределенные секторы, я знаю для получения диска heck из там. Если никакая такая подсказка не будет существовать, то я, вероятно, проведу много часов, диагностируя замедление и повреждение данных, пока я наконец не найду, что жесткий диск плох.

Я просто пытаюсь точно настроить этот процесс.

23

statistics smart hard-drive

задан David Marshall 17.01.2017, 19:41

Ссылка

3 ответа

Хорошо, в первую очередь, я не соглашаюсь с Вашей предпосылкой.

Google сделал исследование, которое указывает, что определенные атрибуты необработанных данных, что состояние S.M.A.R.T отчетов о жестких дисках может иметь сильную корреляцию с дальнейшим отказом диска.

На самом деле они нашли противоположное:

... мы находим, что модели прогнозирования отказов на основе одних только УМНЫХ параметров, вероятно, будут сильно ограничены в их точности прогноза, учитывая, что большая часть наших сбойных дисков не показала УМНЫХ сигналов ошибки вообще.

Во-вторых, УМНЫЕ пороги не стандартизированы. Встроенное микропрограммное обеспечение на самом диске отметит атрибут, как являющийся "предварительным отказом", но необработанные значения бессмысленны пользователю. Например, Seagate заявляет:

Различные атрибуты контролируются и измеряются против пределов определенного порога. Если какой-либо атрибут превысит порог затем, то общий УМНЫЙ тест Состояния изменится от Передачи до Сбоя.

УМНЫЕ значения, которые могли бы быть считаны сторонним программным обеспечением SMART, не на основе того, как значения могут использоваться в жестких дисках Seagate. Seagate не оказывает поддержку для программ, которые утверждают, что считали отдельные УМНЫЕ атрибуты и пороги. На более старых дисках может быть некоторая историческая правильность, но новые диски, несомненно, включат более новые решения, атрибуты и пороги.

tl; доктор Summary:

Необработанные УМНЫЕ значения почти бессмысленны, поскольку различные производители используют их по-разному и имеют различные пороги и т.д. Само встроенное микропрограммное обеспечение диска скажет Вам, когда это будет в "предварительном отказе"..., или это не могло бы, УМНЫЙ действительно не очень надежно.

Сделайте регулярные резервные копии!

14

ответ дан sml 07.12.2019, 09:51

Ссылка

Я не абсолютно уверен, чем вопрос состоит в том, что Вы спрашиваете. У Вас, кажется, есть целый вопрос и ответ, свернутый в один, но...

Вы сравнили метрики жесткого диска с данными от SeaTools

Это - инструмент диагностики и AFAIK стандартного оборудования Seagate обычно используемый инструмент диагностики жесткого диска.

Не удивляйтесь, находите ли Вы, что инструменты сообщают о неблагоприятных результатах о своих конкурентах. Инструменты обычно работают с жесткими дисками всех производителей, но это не означает, что они имеют, заставляют их конкурентов выглядеть хорошими при выполнении.

Не имейте Вы когда-либо слышали шутку, "99,99% всей статистики верен кроме, конечно, эта статистическая величина".

4

ответ дан Evan Plaice 07.12.2019, 09:51

Ссылка

Jeff Atwood · Accepted Answer · 07.12.2019, 09:51

Действительно кажется, что различные производители используют УМНЫЕ значения для иногда радикально разных вещей, как Вы видите здесь:

Мой жесткий диск (диски) в ReadyNAS сообщает о высоком УМНОМ Необработанном Коэффициенте ошибок Чтения, Ищите Коэффициент ошибок и Аппаратные средства Восстановленный ECC.Что мне делать?

Seagate использует эти поля SMART для внутренних количеств, таким образом, это - известная проблема с дисками Seagate. Ищите аварийные количества в других полях, особенно Reallocated Sector Ct и Ошибочном количестве ATA.

Таким образом когда дело доходит до Вашего фактического вопроса...

Если мне повезло для плохого диска показать подсказку отказа, такого как ошибки сканирования или перераспределенные секторы, я знаю для получения диска heck из там. Если никакая такая подсказка не будет существовать, то я, вероятно, проведу много часов, диагностируя замедление и повреждение данных, пока я наконец не найду, что жесткий диск плох.

Я сказал бы, что хорошее эмпирическое правило, можно только ожидать, что настройки SMART будут сопоставимы в том же производителе дисков и возможно даже той же модели диска!

Таким образом, когда Вы смотрите на диагностирование тех УМНЫХ количеств, имеете это в виду..., "ошибочное число повторных попыток чтения одного производителя" может означать что-то полностью различное, чем другой производитель. Печальный, но верный.:(

Почему различные производители имеют другое значение S.M.A.R.T?

3 ответа

tl; доктор Summary:

Теги

Похожие вопросы