Поиск и устранение неисправностей загадочно нестабильной машины

У меня есть машина с Core i7 ЦП, 12 гибибайт памяти, 4 жестких дисков и видеокарты / звуковая карта (оба дополнительных PCI-E). Эта машина так или иначе нестабильна, и я задаюсь вопросом, как диагностировать остающиеся проблемы.

Первоначально, машина имела системную плату SE ASUS P6T и 8800GT, убегая PSU на 700 Вт, LG DVD drive и 3 жестких диска. Право, когда я создал его, RAM, оказалось дефектным, таким образом, это получило RMA'd. Звуковой картой является Творческий X-Fi UAA. Первая проблема состояла в том, когда 8800GT сломался, но это было легко решено путем покупки новой карты. Однако машина иногда была бы BSOD. Обычно не при системной нагрузке, а в неактивном. Однако это BSODed однажды при загрузке также. Подозревая RAM, я выполнил memcheck за ночь, и никакие проблемы не были найдены. Все хорошо работало большую часть времени.

Несколько месяцев спустя (это было бы BSOD как один раз в месяц или так), жесткий диск сломался. Классическая авария головки, замененная жесткий диск и, восстановила ОС/данные от резервного копирования. Теперь я переключил настройку дисков на диск единой системы, затем 2 диска в RAID0 и диски для резервного копирования.

Несколько месяцев спустя, система, запущенная к BSOD чаще (три раза в день во время близости неактивный, т.е. просмотр веб-страниц, RDP.) Интересно, машина имеет карту с интерфейсом USB WLAN, и она была бы иногда BSOD, когда я запустил много загрузок одновременно. Однажды машина запущенный BSOD'ing, я предположил, что системная плата могла бы быть неисправной, поскольку дисководы не сообщили ни о каких проблемах, видеокарта просто сломалась и была заменена, и дополнительный memcheck не показал ошибки. Исходный BSOD все имели некоторое сообщение и не только КОД ОШИБКИ ОСТАНОВКИ (например, я получил 0x00000116 (0xfffffa800a546010, 0xfffff8801020907c, 0x0000000000000000, 0x000000000000000d) или 0x0000003b (0x00000000c0000005, 0xfffff8800138e4c7, 0xfffff8800b96c550, 0x0000000000000000).)

Я заменил системную плату другой, и машина теперь внезапно выключит. Это привело меня к заключению, что PSU мог бы быть дефектным, таким образом, я протестировал с другим. Другой PSU имел кабель, который был слишком короток для подключения его к DVD-приводу, так, чтобы был отключен. С другим PSU (500 Вт) вещи работали надежные. Я заменил оригинал 700 W PSU и поместил его назад он, подключил его к DVD-приводу, и машина выключит снова. Я удалил DVD и протестировал его в другой машине, и действительно, DVD был дефектным. Я удалил DVD, и машина работала стабильный снова.

Несколько недель спустя, во время игр, машина BSODed с Ошибкой Остановки 1E без дальнейшей информации. При перезагрузке и все хорошо работало. В тот же день я хотел выполнить Резервное копирование и резервное копирование, отказавшее с ошибкой 0x80070570 (поврежденные файлы.) Я выполнил chkdsk, и действительно, на моем основном системном диске некоторый индекс ($SSI?) или так был поврежден, 9 файлов были удалены, и все было сохранено. Для проверки дисков я выполнил три экземпляра Мелодии HD одновременно и машину BSOD снова с 1E (0x0000001e (0x0000000000000000, 0x0000000000000000, 0x0000000000000000, 0x0000000000000000)). Надеясь, что один из дисков был неисправен, я выполнил Мелодию HD последовательно за ночь, и никакая ошибка не произошла. Машина не сделала BSOD и хорошо работает снова. sfcscan также обозначенный никакие системные файлы не повреждаются.

Поскольку эта машина имеет почти все замененное (жесткий диск, видеокарта, память, материнская плата, PSU) или удаленный DVD-привод; у Вас есть какие-либо идеи, как диагностировать, какого черта продолжается? Самая странная вещь состоит в том, что это хорошо работает теперь с экстремальной нагрузкой в течение многих часов прямо, но тем не менее у меня были те два отказа за выходные (оба при загрузке, интересно). Каждая часть в изоляции, кажется, хорошо работает, но комбинация так или иначе делает проблемы. Я полностью потерян, где диагностировать как каждый раз, когда я пытаюсь проверить что-то, противная вещь просто хорошо работает.

Обновление: Просто получил другой BSOD (1E), при чтении веб-сайта. Я получил экран, где дамп памяти был создан, индикатор выполнения, подходящий к 100%, но после перезагрузки, Windows не знает что разрушенная машина. Журнал надежности не показывает катастрофический отказ. Однако изучая папку Minidump я откопал мини-дамп с выходных, и стек вызовов имеет HIDPARSE в нем. Действительно ли USB может ввести с клавиатуры (или мышь USB) производят bluescreen?

Update2: Я заменил все кабели жесткого диска и переустановил Windows. Переустановите хорошо работал, устанавливая приложения в течение 6 часов прямо также. При выключении я получил ошибку остановки 24. Я подозреваю, что основной жесткий диск ненадежен (Samsung HD103SJ), поскольку я не вижу то, что еще могло вызывать проблемы. HDTune и chkdsk однако сообщают, что диск в порядке.

6
задан 27.05.2011, 10:52

3 ответа

Когда это происходит, я пытаюсь исключить программное обеспечение также. Могла быть комбинация аппаратных средств/программного обеспечения.

Что происходит, если Вы загружаете Живой Linux CD? Knoppix, Ubuntu или безотносительно? Система, которая в состоянии выполнять систему Linux для обширного количества времени без отказа. Затем, возможно, у Вас есть программная проблема.

Кроме того, Вы могли попытаться загрузиться, запускают окна в отказоустойчивом режиме (он все еще существует в Windows7? Я - парень Linux сам).

Хорошо, всего несколько предложений для устранения причин. Слишком часто я находил неустойчивые системы, являющиеся причиной программного обеспечения/неверной конфигурации, а не фактических аппаратных проблем.

Удачи!

2
ответ дан 07.12.2019, 16:21

Это походит на проблему тепла мне, Вы разгоняли микросхему? Можно хотеть использовать что-то как http://www.techpowerup.com/realtemp/, чтобы видеть, как горячий это добирается, Вам, возможно, просто понадобятся лучший теплоотвод и система охлаждения.

1
ответ дан 07.12.2019, 16:21

У меня были подобные проблемы с моими собственными компьютерами и другими, которых я зафиксировал в прошлом. В более или менее всех случаях, где у меня было подобное поведение к Вашей системе (много странных, на вид не связанных проблем), это произошло из-за одной из следующих двух проблем:

Плохой источник питания

Или PSU произвел колеблющееся напряжение или фактическое питание, подавшее от сетки, колебался. В наше время я никогда не покупаю дешевый PSUs, так как я знаю, как трудно это может быть должно диагностировать эти виды проблем. Мощность на PSU не является никакой гарантией, что это хорошо, так как это могло бы все еще дать колеблющееся питание (который обычно является что вопросы). Попытайтесь выполнить некоторую программу мониторинга, которая может отобразить напряжения материнской платы на Вашем компьютере (speedfan, например) и проверить, стабильны ли они и близко к требуемым значениям. Если возможно, попытайтесь использовать UPS так, чтобы Вы не получали колебаний напряжения от сетки. Плохой источник питания также имеет тенденцию повредить другие компоненты в компьютере, который делает его еще тяжелее для отладки.

Используя RAM, которая не рекомендуется производителем

Некоторые материнские платы чрезвычайно разборчивы когда дело доходит до RAM. Согласуйте со своим производителем материнских плат, они обычно дают очень подробные рекомендации на том, что использовать (бренд, размер, порядковый номер). Я испытал эти затруднения даже на заранее смонтированном компьютере, где люди, которые собрали их, по-видимому, не проверяли это, так как RAM в них была перечислена как 'Не рекомендуемый'. Взял меня некоторое время для понимания этого. Выполнение memchecks не всегда находит это по некоторым причинам.

1
ответ дан 07.12.2019, 16:21

Теги

Похожие вопросы