Comment supprimer les statistiques en double sous Linux-exploitation et maintenance Linux-php.cn

Comment supprimer les statistiques en double sous Linux

(*-*)浩

Libérer： 2019-05-28 17:00:59

original

4696 Les gens l'ont consulté

La ligne de commande Linux fournit des fonctions de traitement de texte très puissantes, et de nombreuses fonctions puissantes peuvent être obtenues en combinant des commandes Linux. Cet article donne un exemple d'utilisation de la ligne de commande Linux pour dédupliquer du texte par ligne et trier par nombre de répétitions. Les principales commandes utilisées sont sort, uniq et cut. Parmi eux, la fonction principale du tri est de trier, la fonction principale d'uniq est de réaliser la déduplication des lignes de texte adjacentes, et cut peut extraire les colonnes de texte correspondantes des lignes de texte (en termes simples, il s'agit d'exploiter les lignes de texte par colonnes).

Comment supprimer les statistiques en double sous Linux

Les lignes de texte sont dédoublonnées et triées par nombre de répétitions

Exemple :

Tout d'abord, dédupliquez les lignes de texte et comptez le nombre de répétitions (l'ajout de l'option -c à la commande uniq peut compter le nombre de répétitions).

$ sort test.txt | uniq -c 
2 Apple and Nokia. 
4 Hello World. 
1 I wanna buy an Apple device. 
1 My name is Friendfish. 
2 The Iphone of Apple company.

Copier après la connexion

Triez les lignes de texte par nombre de répétitions.

sort -n peut identifier le numéro au début de chaque ligne et trier les lignes de texte en fonction de leur taille. La valeur par défaut est de trier par ordre croissant. Si vous souhaitez trier par ordre décroissant, ajoutez l'option -r (sort -rn).

$ sort test.txt | uniq -c | sort -rn 
4 Hello World. 
2 The Iphone of Apple company. 
2 Apple and Nokia. 
1 My name is Friendfish.

Copier après la connexion

Le nombre de doublons supprimés devant chaque ligne. La commande

cut peut opérer des lignes de texte colonne par colonne. On peut voir que le nombre de répétitions précédent occupe 8 caractères. Par conséquent, vous pouvez utiliser la commande cut -c 9- pour supprimer le 9ème caractère et les suivants de chaque ligne.

$ sort test.txt | uniq -c | sort -rn | cut -c 9- 
Hello World. 
The Iphone of Apple company. 
Apple and Nokia. 
My name is Friendfish. 
I wanna buy an Apple device.

Copier après la connexion

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!