Способы дедупликации файлов

Я хочу просто архивировать и архивировать файлы на нескольких машинах. К сожалению, файлы имеют несколько больших файлов, которые являются одним и тем же файлом, но хранятся по-разному на разных машинах. Например, может быть несколько сотен фотографий, которые были скопированы с одного компьютера на другой в виде специальной резервной копии. Теперь, когда я хочу создать общий репозиторий файлов, мне не нужны несколько копий одной и той же фотографии.

Если я скопирую все эти файлы в один каталог, есть ли инструмент, который может проходить и распознавать повторяющиеся файлы и давать мне список или даже удалять один из дубликатов?

    Создайте md5sum каждого файла, дубликаты md5sums предлагают (но не гарантируют) дубликаты файлов.

    Вы можете использовать dupemerge, чтобы превратить идентичные файлы в hardlinks. Тем не менее, это займет очень много времени . SHA (или MD5) хэши файлов почти наверняка будут работать быстрее, но вам придется больше работать над поиском дубликатов. Вероятность случайного столкновения настолько низка, что на самом деле вы можете его игнорировать. (Фактически, многие продукты дедупликации уже делают это.)

    Ваш лучший выбор для работы с фотографиями и музыкой – это поиск инструментов, предназначенных для поиска дубликатов этих предметов в частности. Тем более, что у вас могут не быть файлы, идентичные на двоичном уровне после того, как в игру войдут такие вещи, как тегирование или обрезка или кодирование. Вам понадобятся инструменты, которые могут найти фотографии, которые «выглядят» одинаково, и музыку, которая «звучит» одинаково, даже если небольшие изменения были внесены в файлы.

    Ну, если у вас есть такая возможность, вы можете настроить дедуплицирующую файловую систему и поместить на нее свои резервные копии. Это позволит не только дедуплицировать целые файлы, но и аналогичные файлы. Например, если у вас один и тот же JPEG в нескольких местах, но с разными тегами EXIF ​​для каждой версии, дедуплицирующая файловая система будет хранить данные только один раз.

    Дедупликационные файловые системы включают в себя lessfs, ZFS и SDFS.

    Когда я это делал, я узнал, что гораздо интереснее и эффективнее всего на самом деле просто пройти через файлы в свободное время в течение пары недель. Вы можете сказать, что разница между вещами лучше, чем ваш компьютер.

    Если вы не согласны, я предлагаю EasyDuplicateFinder . Однако, как я уже упоминал выше, потребуется около одного дня на 5 ГБ файлов.

    И еще одно замечание: Crashplan делает то, что вы делали раньше, но гораздо более организованным, не-версионным способом.

    Другая возможность, предполагающая, что машины, которые вы создаете резервную копию, будет поддерживать ее, – это использовать что-то вроде rsync .

    Если вы используете rsync от A до B, то от C до B, затем от D до B и т. Д. Точные дубликаты (то есть по имени файла) будут удалены (и синхронизированы между резервными копиями компьютеров).

    Однако, если вы не хотите, чтобы все они синхронизировались друг с другом, это не лучший способ.

    Для файлов изображений используйте findimagedupes . Он также упакован в debian .

    Жесткие ссылки выполняют дедупликацию только в том случае, если весь файл идентичен. Если заголовки (EXIF, ID3, …) или метаданные (владелец) отличаются друг от друга, они не будут связаны.

    Если у вас есть шанс использовать файловую систему с поддержкой дедупликации блоков (ZFS, btrfs, …), используйте это вместо этого. Я очень люблю автономную (aka batch ) поддержку вывода btrfs, которая поддерживает дедупликацию на уровне уровня и не постоянно потребляет огромные объемы памяти (как онлайн-дефолт ZFS).

    Дедупликация также имеет то преимущество, что файлы могут быть изменены пользователем без уведомления другого экземпляра (что может быть неприменимо в вашем случае, но в других).

    См. https://btrfs.wiki.kernel.org/index.php/Deduplication для отличного обсуждения.

    Interesting Posts

    Почему у меня уже есть 4 первичных раздела, и какой (если есть) я могу перейти на логический?

    Ошибка MalformedJsonException с API-интерфейсом дооснастки?

    Должны ли операции импорта всегда находиться в верхней части модуля?

    Как получить Infobox из статьи в Википедии от API Mediawiki?

    ListView в ArrayAdapter order get смешивается при прокрутке

    Есть ли приложение для записи экрана, которое сохраняется как .gif?

    Каковы различные режимы привязки WPF?

    Ошибки консоли. Не удалось загрузить ресурс: net :: ERR_INSECURE_RESPONSE

    Как установить плагин для Eclipse из .zip

    Как ограничить ввод в EditText цифровым (возможно, десятичным и подписанным)?

    Как я могу сравнить версии двух исполняемых файлов из командной строки?

    Как получить файлы из резервных копий Time Machine с другого компьютера?

    Как конкатенировать символы в java?

    Синхронизировать устройства Android через время GPS?

    jQuery validate plugin: проверять на blur () по умолчанию

    Давайте будем гением компьютера.