Программа для поиска дубликатов файлов в ROSA Linux
Программа для поиска дубликатов файлов в ROSA Linux
Я новичок в linux:
Помогите пожалуйста найти программу для поиска дубликатов файлов, искать надо именно все типы файлов (аудио,видео,фото,... по содержимому, типа dupeGuru и подобных...)
Недавно установил ROSA Fresh Desktop 12 ,пытаюсь перейти с Windows на отечественный софт.
Пытаюсь восстановить привычный набор программ.
Может кто подскажет как корректно попросить разработчиков сделать подобную программу, мне кажется это очень нужная для всех программа!
Из за трудностей с софтом придётся наверно ставить две системы
Помогите пожалуйста найти программу для поиска дубликатов файлов, искать надо именно все типы файлов (аудио,видео,фото,... по содержимому, типа dupeGuru и подобных...)
Недавно установил ROSA Fresh Desktop 12 ,пытаюсь перейти с Windows на отечественный софт.
Пытаюсь восстановить привычный набор программ.
Может кто подскажет как корректно попросить разработчиков сделать подобную программу, мне кажется это очень нужная для всех программа!
Из за трудностей с софтом придётся наверно ставить две системы
Последний раз редактировалось Диман 22 июл 2022, 21:51, всего редактировалось 12 раз.
Дубликаты файлов
dupeGuru кросплатформенная. Надо чтобы кто-нибудь ее собрал в репы.Диман писал(а): 20 июл 2022, 21:04 Помогите пожалуйста найти программу для поиска дубликатов файлов (типа dupeGuru и подобных)
В репах есть три проги без графического интерфейса:
duperemove
fdupes
freedups
Для поиска дубликатов изображений я использую geeqie.
$ - команда должна быть выполнена от имени непривилегированного пользователя,
# - команда должна быть выполнена от имени суперпользователя.
# - команда должна быть выполнена от имени суперпользователя.
Дубликаты файлов
Можно ещё такую команду попробовать - тогда вообще ничего устанавливать не надо:
На выходе получим файл в котором будут перечислены файлы с совпадающими контрольными суммами.
Код: Выделить всё
find /katalog/gde/iskat -type f -exec md5sum {} \; | sort | uniq -D --check-chars=32 > duplicates.txt
Дубликаты файлов
Спасибо огромное за ответ, но я пока не силен в командной строке, в графическом интерфейсе толькоva9(2) писал(а): 21 июл 2022, 06:21dupeGuru кросплатформенная. Надо чтобы кто-нибудь ее собрал в репы.Диман писал(а): 20 июл 2022, 21:04 Помогите пожалуйста найти программу для поиска дубликатов файлов (типа dupeGuru и подобных)
В репах есть три проги без графического интерфейса:
duperemove
fdupes
freedups
Для поиска дубликатов изображений я использую geeqie.
Искать надо именно все типы файлов (аудио,видео,фото,... по содержимому)

Программа для поиска дубликатов файлов в ROSA Linux
Проверил её у себя, сначала просто командой md5sum — суммы видео-файлов совпадают (у них только название разное), а вот в файле duplicates.txt по факту пуст=0Mad AlexX писал(а): 21 июл 2022, 09:09 Можно ещё такую команду попробовать - тогда вообще ничего устанавливать не надо:На выходе получим файл в котором будут перечислены файлы с совпадающими контрольными суммами.Код: Выделить всё
find /katalog/gde/iskat -type f -exec md5sum {} \; | sort | uniq -D --check-chars=32 > duplicates.txt
Mad AlexX, поясните пожалуйста свою команду, сам я в них полный профан, пока разберусь весь моСк сломаю, а иногда требуется найти одинаковые файлы.
Жаль что это всё не работает с видео-файлами одинаковыми по содержанию видео, но разными по размеру, такие только своими глазами разыскивать.
Программа для поиска дубликатов файлов в ROSA Linux
algri14 писал(а): 25 июл 2022, 16:10 Mad AlexX, поясните пожалуйста свою команду, сам я в них полный профан, пока разберусь весь моСк сломаю, а иногда требуется найти одинаковые файлы.
Код: Выделить всё
find /katalog/gde/iskat -type f -exec md5sum {} \; | sort | uniq -D --check-chars=32 > duplicates.txt
md5sum - вычисляет контрольные суммы найденных файлов,
sort - сортирует полученные суммы,
uniq - выводит повторяющиеся суммы,
> - записывает вывод команды uniq в файл.
У меня сработала:algri14 писал(а): 25 июл 2022, 16:10 Проверил её у себя, сначала просто командой md5sum — суммы видео-файлов совпадают (у них только название разное), а вот в файле duplicates.txt по факту пуст=0
Код: Выделить всё
$ find . -type f -exec md5sum {} \; | sort | uniq -D --check-chars=32
6a79d151bc...83628e50c09e1 ./294793755_1410258119449788_8913571127724334622_n(1).jpg
6a79d151bc...83628e50c09e1 ./294793755_1410258119449788_8913571127724334622_n.jpg
Проверьте, указали ли верно путь и в искомой директории должны быть обычные файлы. Симлинки, например, find пропускает. Чтобы и они учитывались необходимо -type f заменить на \( -type l -o -type f \).
$ - команда должна быть выполнена от имени непривилегированного пользователя,
# - команда должна быть выполнена от имени суперпользователя.
# - команда должна быть выполнена от имени суперпользователя.
Программа для поиска дубликатов файлов в ROSA Linux
Путь указан правильно, а вот файлы — это видео.mp4, может быть поэтому ничего не показало?va9(2) писал(а): 25 июл 2022, 17:13 Проверьте, указали ли верно путь и в искомой директории должны быть обычные файлы.
За это отдельное спасибоva9(2) писал(а): 25 июл 2022, 17:13 Симлинки, например, find пропускает. Чтобы и они учитывались необходимо -type f заменить на \( -type l -o -type f \).
Программа для поиска дубликатов файлов в ROSA Linux
Не могу понять, скопировал файл 1438400.jpg , дал другое имя 1438400A.jpg , текстовый файл (и консоль) в "хомяке" пустой ~/duplicates.txt , команда не работает:
где ошибка не могу понять…
в искомой директории есть подпапки, но это ведь не влияет
Код: Выделить всё
[algri@localhost ~]$ find /home/algri/Изображения/1438400A.jpg -type f -exec md5sum {} \; | sort | uniq -D --check-chars=32 > duplicates.txt
[algri@localhost ~]$
Код: Выделить всё
[algri@localhost ~]$ md5sum /home/algri/Изображения/1438400A.jpg
3aa522dd961add67abd85cc58187f89a /home/algri/Изображения/1438400A.jpg
[algri@localhost ~]$ md5sum /home/algri/Изображения/1438400.jpg
3aa522dd961add67abd85cc58187f89a /home/algri/Изображения/1438400.jpg
в искомой директории есть подпапки, но это ведь не влияет
Программа для поиска дубликатов файлов в ROSA Linux
Всё, нашёл где ступил.
В команде надо давать только путь до файла и в конце папки ставить слеш « / » , имя сравниваемого файла в путь не вставлять.
/home/algri/Изображения/ , правильный вид команды:
Команда запишет вывод в /Домашняя папка/duplicates.txt (или что тоже самое ~/duplicates.txt) все файлы суммы которых md5sum одинаковы, если дать другую команду, на другое место, то файл duplicates.txt естественно перезапишется, а не дополнится
Видеофайлы, например в папке где их 25Гб, сравнивает довольно долго, минут 10, зависит от размера этих видео.
Опять же, если видео одинаково по содержанию, но одно весит 1Гб, другое 1,5 Гб, то команда тут не поможет, только своими глазами
В команде надо давать только путь до файла и в конце папки ставить слеш « / » , имя сравниваемого файла в путь не вставлять.
/home/algri/Изображения/ , правильный вид команды:
Код: Выделить всё
find /home/algri/Изображения/ -type f -exec md5sum {} \; | sort | uniq -D --check-chars=32 > duplicates.txt
Видеофайлы, например в папке где их 25Гб, сравнивает довольно долго, минут 10, зависит от размера этих видео.
Опять же, если видео одинаково по содержанию, но одно весит 1Гб, другое 1,5 Гб, то команда тут не поможет, только своими глазами

Программа для поиска дубликатов файлов в ROSA Linux
Если замените > на >>, то будет дополняться.algri14 писал(а): 25 июл 2022, 19:32 если дать другую команду, на другое место, то файл duplicates.txt естественно перезапишется, а не дополнится
Это md5sum долго вычисление проводит. Сравнение полученных сумм занимает микросекунды.algri14 писал(а): 25 июл 2022, 19:32 Видеофайлы, например в папке где их 25Гб, сравнивает довольно долго, минут 10, зависит от размера этих видео.
$ - команда должна быть выполнена от имени непривилегированного пользователя,
# - команда должна быть выполнена от имени суперпользователя.
# - команда должна быть выполнена от имени суперпользователя.
Программа для поиска дубликатов файлов в ROSA Linux
Всё так, но для понимания логики всей конструкции добавил бы что uniq ищёт совпадения только для двух соседних строк поэтому перед поиском совпадений нужно отсортировать вывод find. И что касается "\;" - запомнить что это ставится всегда, когда использовался параметр -exec.va9(2) писал(а): 25 июл 2022, 17:13algri14 писал(а): 25 июл 2022, 16:10 Mad AlexX, поясните пожалуйста свою команду, сам я в них полный профан, пока разберусь весь моСк сломаю, а иногда требуется найти одинаковые файлы.find - ищет файлы в указанном каталоге,Код: Выделить всё
find /katalog/gde/iskat -type f -exec md5sum {} \; | sort | uniq -D --check-chars=32 > duplicates.txt
md5sum - вычисляет контрольные суммы найденных файлов,
sort - сортирует полученные суммы,
uniq - выводит повторяющиеся суммы,
> - записывает вывод команды uniq в файл.
Программа для поиска дубликатов файлов в ROSA Linux
Mad AlexX, va9(2), Спасибо за пояснения, а вообще жаль что у движка форума нет плагина "Спасибо". Некоторые принимают его только за градацию так сказать заслуг перед другими пользователями, но это отчасти. По этим "Спасибо" можно находить те или иные хорошие и полезные ответы на форуме, не конкретный поиск чего-либо, а просто из любопытства.Mad AlexX писал(а): 26 июл 2022, 04:54 Всё так, но для понимания логики всей конструкции добавил бы что uniq ищёт совпадения только для двух соседних строк поэтому перед поиском совпадений нужно отсортировать вывод find. И что касается "\;" - запомнить что это ставится всегда, когда использовался параметр -exec.
Ещё бы плагин "консоль" хотелось бы

зы: и исправьте команду в своих цитатах — добавьте в неё « / »
Программа для поиска дубликатов файлов в ROSA Linux
Если слеш в конце пути поиска: find /home/algri/Изображения/ то у меня одинаково отрабатывает, что со слешем в конце, что без него. Всегда find использовал без слеша в конце имени каталога и не замечал проблем.
Программа для поиска дубликатов файлов в ROSA Linux
Да, вы правы, но в прошлый раз команда никак не хотела работать без слеша в конце папки, что это было — не могу понять???Mad AlexX писал(а): 27 июл 2022, 04:55 Если слеш в конце пути поиска: find /home/algri/Изображения/ то у меня одинаково отрабатывает, что со слешем в конце, что без него. Всегда find использовал без слеша в конце имени каталога и не замечал проблем.
Дополнено:
предполагаю что при копировании команды недокопировал первую букву « f » и не заметил, вполне могло быть

Программа для поиска дубликатов файлов в ROSA Linux
Даааа, ребята, СПАСИБО ПОМОГЛИ!
Программа для поиска дубликатов файлов в ROSA Linux
Никто не хочет собрать dupeguru в репы, а других искальщиков с гуем там, вроде, нет.
Эта программа написана на питоне поэтому можете сами ее себе из исходников поставить.
Установите пакеты git и pip:
Скачайте исходники dupeguru:
Перейдите в скачанный каталог:
Затем выполните эти команды:
Проверьте, работает ли:
Если работает сделайте файл run.py исполняемым:
В домашнем каталоге создайте директорию bin:
Сделайте символическую ссылку:
Откройте новую вкладку терминала и попробуйте запустить:
У меня работает.
Эта программа написана на питоне поэтому можете сами ее себе из исходников поставить.
Установите пакеты git и pip:
Код: Выделить всё
$ sudo dnf install git python3-pip
Код: Выделить всё
$ git clone https://github.com/arsenetar/dupeguru.git
Код: Выделить всё
$ cd dupeguru
Код: Выделить всё
$ python3 -m venv --system-site-packages ./env
$ source ./env/bin/activate
$ pip install -r requirements.txt
$ python build.py
Код: Выделить всё
$ python run.py
Код: Выделить всё
$ chmod +x run.py
Код: Выделить всё
$ mkdir ~/bin
Код: Выделить всё
$ ln -s $PWD/run.py ~/bin/dupeguru
Код: Выделить всё
$ dupeguru
Последний раз редактировалось va9(2) 07 дек 2023, 21:18, всего редактировалось 1 раз.
$ - команда должна быть выполнена от имени непривилегированного пользователя,
# - команда должна быть выполнена от имени суперпользователя.
# - команда должна быть выполнена от имени суперпользователя.
Программа для поиска дубликатов файлов в ROSA Linux
Вообще-то программа так себе, функционал всего лишь найти дубликаты файлов, а настроек поналепили как для комбайна. Команда в консоли проще, а выполняет всё тоже самое.
va9(2), а Вы умеете собирать пакеты? это я к тому, что BoDun накидал код хорошей и простой утилитки DuplicatesFinder, функционал:
- поиск сравнения по md5sum
- контекстное меню для копирования
- сохранение вывода как в cvs, так и в txt
- таймер выполнения поиска
- прогресс-бар хода операции
- счётчик обрабатываемых файлов
- выбор цвета дубликатов и удаляемых файлов
Мне программка очень понравилась, простая, без "огородов", но функционал отличный.
Он сделал бинарник, но пакет собрать не получается (нет опыта), кое-что ещё по мелочи хочет добавить.
Как будет готово, то потребуется помощь собрать пакет, сегодня напишу ему или может быть он сам здесь увидит…
Программа для поиска дубликатов файлов в ROSA Linux
Она может искать похожие изображения с разным размером. Можно сразу визуально картинки сравнить. Уровень похожести настраиваемый.algri14 писал(а): 01 авг 2022, 11:15 программа так себе, функционал всего лишь найти дубликаты файлов
Пример:
Нет. Научиться есть желание, но времени на это пока нет.
$ - команда должна быть выполнена от имени непривилегированного пользователя,
# - команда должна быть выполнена от имени суперпользователя.
# - команда должна быть выполнена от имени суперпользователя.
Программа для поиска дубликатов файлов в ROSA Linux
Это да, на этом в принципе и всё.va9(2) писал(а): 01 авг 2022, 12:53 Она может искать похожие изображения с разным размером. Можно сразу визуально картинки сравнить. Уровень похожести настраиваемый.
Музыку и видео таким образом не поищешь.
Жаль, у меня такая же басня, хотел бы, но не умею, а то графического ничего и нет.
Программа для поиска дубликатов файлов в ROSA Linux
На гитхабе наткнулся на прогу которая называется czkawka. Написано, что может искать похожие фото, видео и музыку. Версия 5.1.0 appimage в росе не работает. Я потыкал минут 10 версию 4.0.0. Дубликаты видео с разными названиями и в разных контейнерах находит, но есть и ложные срабатывания. Конвертированную песню дубликатом не признала. Потом в виртуалке в каком-нибудь другом дистре последнюю версию потестирую.
Программа для поиска дубликатов файлов в ROSA Linux
Переводится как "икота", странное название. Версия 5.1.0 appimage_gui в Mageia-8 тоже не запустилась, походу библиотек не хватает,
4.0.0 работает, локализована, но вывод пишет на инглише — "Properly saved to file 87 cache entries.", не могу понять что это, куда и вообще, записано ли? если пишет, то куда?
В общем прога может и хорошая, но сильно навороченная, сейчас разбираться нет охоты. Сильно наворочена.
Локализована поляком и даже с буквой "ё", которую в последнее время русские и то почти не ставят, возможно кто-то из русских переводил, а поляк выложил.
Начало разработки октябрь 2020 года
Программа для поиска дубликатов файлов в ROSA Linux
Версия 5.1.0 appimage_gui.AppImage — не хватает библиотеки libgtk-4, она есть в Solos (в Mageia её нет или название другое)algri14 писал(а): 26 фев 2023, 19:33 Версия 5.1.0 appimage_gui в Mageia-8 тоже не запустилась, походу библиотек не хватает,
Версия 5.1.0 linux_czkawk_gui_alternative.AppImage — тоже не хватает библиотеки, есть glibc 2.32; нужна 2.34 и ещё про libgio пишет
Версия 4.0.0 работает, но выбранный каталог сканирует методом наоборот, т.е. галочку(чекбокс) НЕ НАДО ставить, оставить поле пустым, я такую фигню у французов видел, при настройке инета, нужный пункт оставляешь пуcтым, ненужный метишь галкой
Бегунок похожести "высокий" и "минимальный" — локализованы то ли наоборот, то ли фишка такая, выглядят так:
"Похожей Очень высокий" (здесь у бегунка 0 ) —далее сам бегунок от 0 до 20 — "Минимальный"
а должно быть так:
"Похожесть (или Сходство) Max" — бегунок — "Min"
Можно попробовать написать, но не знаю стоит ли связываться с поляками, в смысле сейчас нарываться на склоку. Или если до сих пор RU_локализацию не удалили, то на политику не смотрят, в общем не знаю, к тому же не видел что там в новой версии (самое главное)
Дополнено 27.02.23 - 18:41
В версии 4.1.0 уже попровлено на:
"Сходство Очень высокий — бегунок от 0(наилучшее сходство) до 20 — Минимальный"
По моему было бы лучше:
"Сходство Max — бегунок — Min"