Каков наилучший способ удаления дубликатов файлов изображений с вашего компьютера?

У меня много дубликатов файлов изображений на моем компьютере под управлением Windows, в разных подпапках и с разными именами файлов.

Какой скрипт или бесплатную программу Python вы бы рекомендовали удалить дубликаты?

(Я прочитал этот аналогичный вопрос, но на плакате есть вопросы о визуальных дубликатах с разными размерами файлов. Mine – это точные дубликаты с разными именами файлов.)

  • Как имитировать медленное подключение к Интернету
  • Mapped Drive недоступен из запланированной задачи Windows
  • Osx: установка python по умолчанию для файлов в терминале?
  • Как я могу предотвратить Windows 10 от любого сна или спящего режима при запуске скрипта python?
  • Сценарий Python не работает как cronjob
  • Notepad ++ как скопировать текст (только), который соответствует выражению регулярного выражения (не всей строки)
  • Как сохранить вывод верхней команды в формате XML?
  • Как компьютеры генерируют случайные числа?
  • 6 Solutions collect form web for “Каков наилучший способ удаления дубликатов файлов изображений с вашего компьютера?”

    Не полагайтесь на суммы MD5.

    Суммы MD5 не являются надежным способом проверки дубликатов, это всего лишь способ проверки различий.

    Используйте MD5 для поиска возможных дубликатов кандидатов , а затем для каждой пары, использующей MD5

    1. Открывает оба файла
    2. Ищет в этих файлах до тех пор, пока не будет отличаться.

    Видя, что меня забирают люди, делающие наивные подходы к дублированию идентификационной информации. Если вы намерены полностью полагаться на алгоритм хэширования, ради того, используйте что-то более жесткое, как SHA256 или SHA512, по крайней мере, вы уменьшите вероятность В разумной степени, проверив больше бит. MD5 чрезвычайно слаб для условий столкновения.

    Я также советую людям читать списки рассылки здесь под названием «проверка файла»: http://london.pm.org/pipermail/london.pm/Week-of-Mon-20080714/thread.html

    Если вы скажете: «MD5 однозначно идентифицирует все файлы однозначно», то у вас есть логическая ошибка.

    Учитывая диапазон значений, имеющих различную длину от 40 000 байт в длину до 100 000 000 000 байт, общее количество комбинаций, доступных для этого диапазона, значительно превышает возможное количество значений, представленных MD5, весом всего 128 бит.

    Представляют 2 ^ 100 000 000 000 комбинаций с комбинациями всего 2 ^ 128? Я не думаю, что это возможно.

    Наименее наивный путь

    Наименее наивный способ и самый быстрый способ отсеивания дубликатов заключается в следующем.

    1. По размеру : Файлы с разным размером не могут быть одинаковыми. Это занимает мало времени, так как ему даже не нужно открывать файл.
    2. По MD5 : Файлы с разными значениями MD5 / Sha не могут быть идентичными. Это занимает немного больше времени, потому что он должен читать все байты в файле и выполнять математику на них, но он делает несколько сравнений быстрее.
    3. Невыполнение вышеуказанных различий : выполните побайтное сравнение файлов. Это медленный тест для выполнения, поэтому он остается до тех пор, пока не будут рассмотрены все остальные факторы устранения.

    Это делает Фдупес . И вы должны использовать программное обеспечение, которое использует те же критерии.

    Это один вкладыш в UNIX, например (включая Linux), ОС или Windows с установленной Cygwin:

    find . -type f -print0 | xargs -0 shasum | sort | perl -ne '$sig=substr($_, 0, 40); $file=substr($_, 42); \ unlink $file if $sig eq $prev; $prev = $sig' 

    Md5sum (что примерно на 50% быстрее) можно использовать, если вы знаете, что нет намеренно созданных столкновений (у вас будет больше шансов выиграть 10 крупных лотерей, чем возможность найти одно встречающееся в результате столкновения md5).

    Если вы хотите увидеть все дубликаты, которые у вас есть вместо их удаления, просто измените часть unlink $file чтобы print $file, "\n" .

    Я использовал fdupes (написанный на C) и freedups (Perl) в Unix-системах, и они могут работать и на Windows; Есть также аналогичные, которые, как утверждается, работают в Windows: dupmerge , liten (написанные на Python) и т. Д.

    Чтобы удалить дубликаты изображений в Windows, обратите внимание на DupliFinder. Он может сравнивать изображения по различным критериям, таким как имя, размер и фактическая информация об изображении.

    Для других инструментов для удаления дубликатов файлов ознакомьтесь с этой статьей Lifehacker .

    Вместо DupliFinder попробуйте разветвленный проект вместо DeadRinger . Мы исправили массу ошибок в оригинальном проекте, добавили множество новых функций и значительно улучшили производительность.

    Одним из вариантов может быть Dupkiller .

    DupKiller – один из самых быстрых и мощных инструментов для поиска и удаления дубликатов или похожих файлов на вашем компьютере. Сложные алгоритмы, встроенные в свой механизм поиска, выполняют высокие результаты – быстрый поиск файлов. Множество опций позволяет гибко настраивать поиск.

    Введите описание изображения здесь

    Interesting Posts

    Что произойдет, если мы уменьшим размер hiberfil.sys

    Каков уровень обслуживания и как он работает?

    Как я могу выяснить, какой процесс постоянно обращается к моему жесткому диску в Windows XP?

    Какое свободное программное обеспечение можно использовать для сканирования сканированных изображений

    Как вы можете автоматически запускать скрипт после подключения к VPN на OS X?

    Linux: как автоматически запускать команды для входа в SSH?

    Nginx переписать правило для удаления узла пути

    Есть ли название для кнопок закрытия, минимизации и восстановления?

    Предотвращение кражи фокуса приложений

    Восстановите мою SD-карту

    Как удалить файлы в разных папках через терминал?

    Можно ли изменить местоположение установки по умолчанию для современных приложений пользовательского интерфейса?

    Как загрузить несколько фотографий с Google Диска из URL-адресов?

    Textpad – открытие новых файлов в одном экземпляре по умолчанию

    Могу ли я настроить кластер для Windows 7?

    Давайте будем гением компьютера.