У меня есть внешний жесткий диск, на котором я несколько раз создавал резервную копию файлов. Некоторые файлы были изменены между резервными копиями, другие не были. Некоторые, возможно, были переименованы. Теперь у меня заканчивается пространство, и я хотел бы очистить дубликаты файлов.
Моя идея была к md5sum
каждый файл на диске, затем ищите дубликаты, и diff
соответствующие файлы (на всякий случай, ха-ха). Действительно ли это - лучший способ сделать это? Каковы некоторые другие методы проверки дубликаты файлов?
Вычисления хеша MD5 каждого файла (предложенный в вопросе и ссылках из ответов), кажется, довольно "дорогой" способ решить проблему. Игнорирование фактического вычисления каждого хеша, просто чтение каждого, из чего каждый файл полностью подвергается большому количеству из, продолжают работать (чрезвычайно медленный) жесткий диск.
Мое предложение для "алгоритма" было бы чем-то, связывают это:
Если md5 говорит, что это - тот же файл, Вам не нужно различное. Люди решили эту проблему большое количество раз, таким образом, можно сделать то, что они сделали.
Послушайте:
Средство поиска дубликатов файлов
Как к: запрос для дубликатов файлов в дереве каталогов (LINQ)