Rechercher les fichiers en double sous Linux-exploitation et maintenance Linux-php.cn

Table des matières

Méthode 1 : Utilisez la commande Rechercher

Méthode 2 : Utilisez l'outil dupeGuru

方法三：使用Find命令解析

Maison

Opération et maintenance

exploitation et maintenance Linux

Rechercher les fichiers en double sous Linux

Linux中文社区

Aug 03, 2023 pm 03:51 PM

linux

Méthode 1 : Utilisez la commande Rechercher

Cette section est une description d'utilisation étendue de la puissante fonction de recherche. Sur la base de find, nous pouvons le combiner avec d'autres commandes Linux de base (telles que la commande xargs) pour créer des fonctions de ligne de commande illimitées. Par exemple, nous pouvons trouver rapidement des fichiers dans un dossier Linux et ses sous-dossiers. Le processus pour implémenter cette fonction est relativement simple. Il suffit de rechercher et de parcourir tous les fichiers, puis d'utiliser la commande pour comparer le MD5 de chaque fichier.

Cela semble abstrait, mais en fait il n'y a qu'une seule commande :

find -not -empty -type f -printf "%s\n" | sort -rn | uniq -d | xargs -I{} -n1 find -type f -size {}c -print0 | xargs -0 md5sum | sort | uniq -w32 --all-repeated=separate

Copier après la connexion

find -not -empty -type f -printf "%sn" signifie utiliser la commande find pour rechercher tous les fichiers non vides, puis imprimer leurs tailles
sort -rn Inutile de dire que cette commande consiste à inverser le tri par taille de fichier
uniq -d | }c -print0 signifie que seules les lignes répétées sont imprimées. Utilisez ici pour imprimer les fichiers portant le même nom de fichier
uniq -w32 –all-repeated=separate Enfin, cela signifie imprimer les 32 premiers octets de MD5. En revanche, l’ensemble du processus de filtrage des fichiers en double à l’aide de la ligne de commande est si simple et facile.

Méthode 2 : Utilisez l'outil dupeGuru

DupeGuru est une application multiplateforme avec les versions Linux, Windows et Mac OS X. Elle peut aider les utilisateurs à découvrir Linux à travers divers critères tels que la taille du fichier, le MD5 et le nom du fichier. .Dupliquer les fichiers dans . Les utilisateurs d'Ubuntu peuvent l'installer directement en ajoutant la source PPA suivante :

sudo add-apt-repository ppa:hsoft/ppasudo apt-get updatesudo apt-get install dupeguru*

Copier après la connexion

方法三：使用Find命令解析

在工作生活当中，我们很可能会遇到查找重复文件的问题。比如从某游戏提取的游戏文本有重复的，我们希望找出所有重复的文本，让翻译只翻译其中一份，而其他的直接替换。那么这个问题该怎么做呢？当然方法多种多样，而且无论那种方法应该都不会太难，但笔者第一次遇到这个问题的时候第一反应是是用Linux的Shell脚本，所以文本介绍这种方式。

先上代码：

find -not -empty -type f -printf "%sn" | sort -rn |uniq -d | xargs -I{} -n1 find -type f -size {}c -print0 | xargs -0 md5sum | sort | uniq -w32 --all-repeated=separate | cut -b 36-

Copier après la connexion

大家先cd到自己想要查找重复文件的文件夹，然后copy上面代码就可以了，系统会对当前文件夹及子文件夹内的所有文件进行查重。

下面分析一下上面的命令。

首先看第一句：

find -not -empty -type f -printf "%sn"

Copier après la connexion

find是查找命令；-not -empty是要寻找非空文件；-type f是指寻找常规文件；-printf “%sn”比较具有迷惑性，这里的%s并非C语言中的输出字符串，它实际表示的是文件的大小，单位为bytes（不懂就man，man一下find，就可以看到了），n是换行符。所以这句话的意思是输出所有非空文件的大小。

搜索公众号GitHub猿后台回复“UML”，获取一份惊喜礼包。

通过管道，上面的结果被传到第二句：

sort -rn

Copier après la connexion

sort是排序，-n是指按大小排序，-r是指从大到小排序（逆序reverse）。

第三句：

uniq -d

Copier après la connexion

uniq是把重复的只输出一次，而-d指只输出重复的部分（如9出现了5次，那么就输出1个9，而2只出现了1次，并非重复出现的数字，故不输出）。

第四句：

xargs -I{} -n1 find -type f -size {}c -print0

Copier après la connexion

这一部分分两部分看，第一部分是xargs -I{} -n1，xargs命令将之前的结果转化为参数，供后面的find调用，其中-I{}是指把参数写成{}，而-n1是指将之前的结果一个一个输入给下一个命令（-n8就是8个8个输入给下一句，不写-n就是把之前的结果一股脑的给下一句）。后半部分是find -type f -size {}c -print0，find指令我们前面见过，-size{}是指找出大小为{}bytes的文件，而-print0则是为了防止文件名里带空格而写的参数。

第五句：

xargs -0 md5sum

Copier après la connexion

xargs我们之前说过，是将前面的结果转化为输入，那么这个-0又是什么意思？man一下xargs，我们看到-0表示读取参数的时候以null为分隔符读取，这也不难理解，毕竟null的二进制表示就是00。后面的md5sum是指计算输入的md5值。

第六句：sort是排序，这个我们前面也见过。

第七句：

uniq -w32 --all-repeated=separate

Copier après la connexion

uniq -w32是指寻找前32个字符相同的行，原因在于md5值一定是32位的，而后面的--all-repeated=separate是指将重复的部分放在一类，分类输出。

第八句：

cut -b 36-

Copier après la connexion

由于我们的结果带着md5值，不是很好看，所以我们截取md5值后面的部分，cut是文本处理函数，这里-b 36-是指只要每行36个字符之后的部分。

我们将上述每个命令用管道链接起来，存入result.txt：

find -not -empty -type f -printf "%sn" | sort -rn |uniq -d | xargs -I{} -n1 find -type f -size {}c -print0 | xargs -0 md5sum | sort | uniq -w32 --all-repeated=separate | cut -b 36- >result.txt

Copier après la connexion

虽然结果很好看，但是有一个问题，这是在Linux下很好看，实际上如果有朋友把输出文件放到Windows上，就会发现换行全没了，这是由于Linux下的换行是n，而windows要求nr，为了解决这个问题，我们最后执行一条指令，将n转换为nr：

cat result.txt | cut -c 36- | tr -s &#39;n&#39;

Copier après la connexion

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration de ce site Web

Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn

Outils d'IA chauds

Undresser.AI Undress

Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover

Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool

Images de déshabillage gratuites

Clothoff.io

Dissolvant de vêtements AI

AI Hentai Generator

Générez AI Hentai gratuitement.

Afficher plus

Article chaud

R.E.P.O. Crystals d'énergie expliqués et ce qu'ils font (cristal jaune)

4 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌

R.E.P.O. Meilleurs paramètres graphiques

4 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌

Assassin's Creed Shadows: Solution d'énigmes de coquille

2 Il y a quelques semaines By DDD

R.E.P.O. Comment réparer l'audio si vous n'entendez personne

4 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌

WWE 2K25: Comment déverrouiller tout dans Myrise

1 Il y a quelques mois By 尊渡假赌尊渡假赌尊渡假赌

Afficher plus

Outils chauds

Bloc-notes++7.3.1

Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise

Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1

Puissant environnement de développement intégré PHP

Dreamweaver CS6

Outils de développement Web visuel

SublimeText3 version Mac

Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Afficher plus

Sujets chauds

Où se trouve l'entrée de connexion pour la messagerie Gmail ?

7517

Tutoriel CakePHP

1378

Quel est le format du nom de compte de Steam

Clé d&amp;amp;amp;amp;amp;amp;#39;activation Win11 permanent

NYT Connexions Indices et réponses

Afficher plus

Related knowledge

Comment démarrer Nginx dans Linux Apr 14, 2025 pm 12:51 PM

Étapes pour démarrer Nginx dans Linux: Vérifiez si Nginx est installé. Utilisez SystemCTL Start Nginx pour démarrer le service NGINX. Utilisez SystemCTL Activer Nginx pour activer le démarrage automatique de Nginx au démarrage du système. Utilisez SystemCTL Status Nginx pour vérifier que le démarrage est réussi. Visitez http: // localhost dans un navigateur Web pour afficher la page de bienvenue par défaut.

Comment vérifier si Nginx est démarré Apr 14, 2025 pm 01:03 PM

Comment confirmer si Nginx est démarré: 1. Utilisez la ligne de commande: SystemCTl Status Nginx (Linux / Unix), netStat -ano | Findstr 80 (Windows); 2. Vérifiez si le port 80 est ouvert; 3. Vérifiez le message de démarrage NGINX dans le journal système; 4. Utilisez des outils tiers, tels que Nagios, Zabbix et Icinga.

Comment démarrer le serveur Nginx Apr 14, 2025 pm 12:27 PM

Le démarrage d'un serveur Nginx nécessite différentes étapes en fonction des différents systèmes d'exploitation: Système Linux / Unix: Installez le package NGINX (par exemple, en utilisant Apt-Get ou Yum). Utilisez SystemCTL pour démarrer un service NGINX (par exemple, sudo systemctl start nginx). Système Windows: téléchargez et installez les fichiers binaires Windows. Démarrer Nginx à l'aide de l'exécutable Nginx.exe (par exemple, nginx.exe -c conf \ nginx.conf). Peu importe le système d'exploitation que vous utilisez, vous pouvez accéder au serveur IP

Comment résoudre l'erreur Nginx403 Apr 14, 2025 pm 12:54 PM

Le serveur n'a pas l'autorisation d'accéder à la ressource demandée, ce qui donne une erreur NGINX 403. Les solutions incluent: vérifier les autorisations de fichiers. Vérifiez la configuration .htaccess. Vérifiez la configuration de Nginx. Configurez les autorisations Selinux. Vérifiez les règles du pare-feu. Dépanner d'autres causes telles que les problèmes de navigateur, les défaillances du serveur ou d'autres erreurs possibles.

Comment résoudre nginx403 Apr 14, 2025 am 10:33 AM

Comment corriger l'erreur interdite Nginx 403? Vérifier les autorisations de fichier ou de répertoire; 2. Vérifier le fichier .htaccess; 3. Vérifiez le fichier de configuration NGINX; 4. Redémarrer Nginx. D'autres causes possibles incluent les règles de pare-feu, les paramètres de Selinux ou les problèmes d'application.

Comment vérifier si Nginx est démarré? Apr 14, 2025 pm 12:48 PM

Dans Linux, utilisez la commande suivante pour vérifier si Nginx est démarré: SystemCTL Status Nginx Juges Basé sur la sortie de la commande: si "Active: Active (Running)" s'affiche, Nginx est démarré. Si "Active: Inactive (Dead)" est affiché, Nginx est arrêté.

Comment nettoyer le journal d'erreur Nginx Apr 14, 2025 pm 12:21 PM

Le journal d'erreur est situé dans / var / log / nginx (linux) ou / usr / local / var / log / nginx (macOS). Utilisez la ligne de commande pour nettoyer les étapes: 1. Sauvegarder le journal d'origine; 2. Créez un fichier vide en tant que nouveau journal; 3. Redémarrez le service Nginx. Le nettoyage automatique peut également être utilisé avec des outils tiers tels que Logrotate ou configurés.

Comment résoudre l'erreur Nginx304 Apr 14, 2025 pm 12:45 PM

Réponse à la question: 304 Erreur non modifiée indique que le navigateur a mis en cache la dernière version de ressource de la demande du client. Solution: 1. Effacer le cache du navigateur; 2. Désactiver le cache du navigateur; 3. Configurer Nginx pour permettre le cache client; 4. Vérifier les autorisations du fichier; 5. Vérifier le hachage du fichier; 6. Désactiver le CDN ou le cache proxy inversé; 7. Redémarrez Nginx.

See all articles