Способы дедуплицировать файлы

Я хочу просто скопировать и заархивировать файлы на нескольких машинах. К сожалению, файлы имеют некоторые большие файлы, которые являются тем же файлом, но сохраненный по-другому на различных машинах. Например, там могут несколько сотен фотографий, которые были скопированы от одного компьютера до другого как специальное резервное копирование. Теперь, когда я хочу сделать общий репозиторий файлов, я не хочу несколько копий той же фотографии.

Если я копирую все эти файлы к единственному каталогу, есть ли инструмент, который может пройти и распознать дубликаты файлов и дать мне список или даже удалить один из дубликатов?

10
задан 13.05.2010, 21:03

5 ответов

Создайте md5sum каждого файла, md5sums дубликатов предлагают (но не гарантирует), дубликаты файлов.

3
ответ дан 07.12.2019, 13:00

Вы могли использовать dupemerge для превращения идентичных файлов в hardlinks. Потребуется очень долгое время на большом наборе файла все же. SHA (или MD5) хеши файлов будут почти наверняка работать быстрее, но необходимо будет сделать больше работы, требующей беготни в нахождении дубликатов. Вероятность случайной коллизии является настолько низкой, что в действительности можно проигнорировать ее. (На самом деле много продуктов дедупликации уже делают это.)

Ваш лучший выбор для контакта с фотографиями и музыкой состоял в том, чтобы адаптировать инструменты в соответствии с нахождением дубликатов тех объектов в частности. Тем более, что у Вас не может быть файлов, которые идентичны на двоичном уровне после того, как вещи как метки или обрезка или кодирование различий играют роль. Вы захотите инструменты, которые могут найти фотографии, которые "смотрят" то же и музыка, которая "звучит" как то же, даже если незначительные корректировки были внесены в файлы.

2
ответ дан 07.12.2019, 13:00

Ну, если у Вас есть способность, можно настроить файловую систему дедупликации и поместить резервные копии на это. Это не только дедуплицирует целые файлы, но также и подобные части файлов. Например, если у Вас есть тот же JPEG в нескольких местах, но с другим EXIF наклеивает каждую версию, файловая система дедупликации только сохранила бы данные изображения однажды.

Дедуплицирующие файловые системы включают lessfs, ZFS и SDFS.

1
ответ дан 07.12.2019, 13:00

Когда я делал такого рода вещь, я узнал, что это - намного больше engaging/time-efficient к на самом деле, просто проходят файлы самостоятельно в Ваше свободное время, в течение пары недель. Можно сказать различие между вещами путь лучше, чем компьютер может.

Если Вы не соглашаетесь, то я предлагаю EasyDuplicateFinder. Как я упомянул выше, тем не менее, будет требоваться много времени, скажем, приблизительно день для 5 ГБ файлов.

И на другой ноте, Crashplan делает то, что Вы делали прежде, но в намного более организованный, non-versioning-problem путь.

0
ответ дан 07.12.2019, 13:00

Другая возможность, предполагая машины, которые Вы поддерживаете, будет поддерживать его, должен использовать что-то как rsync.

Если Вы rsync от до B, затем от C до B, затем от D до B, и т.д., точные дубликаты (т.е., именем файла) будут устраняться (и синхронизироваться между машинами, которых Вы резервируете).

Если Вы не хотите их всех, синхронизировался друг с другом, однако, это не лучший способ пойти.

0
ответ дан 07.12.2019, 13:00

Теги

Похожие вопросы