So entfernen Sie doppelte Statistiken unter Linux-Betrieb und Wartung von Linux-php.cn

So entfernen Sie doppelte Statistiken unter Linux

(*-*)浩

Freigeben： 2019-05-28 17:00:59

Original

4668 Leute haben es durchsucht

Die Linux-Befehlszeile bietet sehr leistungsstarke Textverarbeitungsfunktionen, und viele leistungsstarke Funktionen können durch die Kombination von Linux-Befehlen erreicht werden. Dieser Artikel enthält ein Beispiel für die Verwendung der Linux-Befehlszeile, um Text zeilenweise zu deduplizieren und nach der Anzahl der Wiederholungen zu sortieren. Die wichtigsten verwendeten Befehle sind sort, uniq und cut. Unter diesen besteht die Hauptfunktion von sort darin, zu sortieren, und die Hauptfunktion von uniq besteht darin, die Deduplizierung benachbarter Textzeilen zu realisieren, und cut kann die entsprechenden Textspalten aus den Textzeilen extrahieren (einfach ausgedrückt besteht es darin, die Textzeilen zu bearbeiten). nach Spalten).

So entfernen Sie doppelte Statistiken unter Linux

Textzeilen werden dedupliziert und nach der Anzahl der Wiederholungen sortiert

Beispiel:

Deduplizieren Sie zunächst die Textzeilen und zählen Sie die Anzahl der Wiederholungen (durch Hinzufügen der Option -c zum Befehl uniq kann die Anzahl der Wiederholungen gezählt werden).

$ sort test.txt | uniq -c 
2 Apple and Nokia. 
4 Hello World. 
1 I wanna buy an Apple device. 
1 My name is Friendfish. 
2 The Iphone of Apple company.

Nach dem Login kopieren

Textzeilen nach der Anzahl der Wiederholungen sortieren.

sort -n kann die Zahl am Anfang jeder Zeile identifizieren und die Textzeilen nach ihrer Größe sortieren. Standardmäßig wird in aufsteigender Reihenfolge sortiert. Wenn Sie in absteigender Reihenfolge sortieren möchten, fügen Sie die Option -r (sort -rn) hinzu.

$ sort test.txt | uniq -c | sort -rn 
4 Hello World. 
2 The Iphone of Apple company. 
2 Apple and Nokia. 
1 My name is Friendfish.

Nach dem Login kopieren

Die Anzahl der gelöschten Duplikate vor jeder Zeile. Mit dem Befehl

Ausschneiden können Textzeilen spaltenweise bearbeitet werden. Es ist ersichtlich, dass die vorherige Anzahl von Wiederholungen 8 Zeichen einnimmt. Daher können Sie den Befehl cut -c 9- verwenden, um das 9. und die folgenden Zeichen jeder Zeile zu entfernen.

$ sort test.txt | uniq -c | sort -rn | cut -c 9- 
Hello World. 
The Iphone of Apple company. 
Apple and Nokia. 
My name is Friendfish. 
I wanna buy an Apple device.

Nach dem Login kopieren

Das obige ist der detaillierte Inhalt vonSo entfernen Sie doppelte Statistiken unter Linux. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!