Linux コマンド ラインは、非常に強力なテキスト処理機能を提供します。Linux コマンドを組み合わせて使用すると、多くの強力な機能を実現できます。この記事では、Linux コマンド ラインを使用してテキストを行ごとに重複排除し、繰り返し数で並べ替える方法の例を示します。使用される主なコマンドは、sort、uniq、cut です。このうち、sort の主な機能はソート、uniq の主な機能は隣接するテキスト行の重複排除を実現すること、cut はテキスト行から対応するテキスト列を抽出することができます (簡単に言うと、テキスト行を操作することです)列ごとに)。
重複するテキスト行を削除し、繰り返しの数で並べ替えます。
例:
まず、テキスト行の重複を除去し、繰り返しの数を数えます (uniq コマンドに -c オプションを追加すると、繰り返しの数を数えることができます)。
$ sort test.txt | uniq -c 2 Apple and Nokia. 4 Hello World. 1 I wanna buy an Apple device. 1 My name is Friendfish. 2 The Iphone of Apple company.
テキストの行を繰り返しの数で並べ替えます。
sort -n は、各行の先頭の番号を識別し、サイズに基づいてテキスト行を並べ替えます。デフォルトでは昇順にソートされますが、降順にソートする場合は、-r オプション (sort -rn) を追加します。
$ sort test.txt | uniq -c | sort -rn 4 Hello World. 2 The Iphone of Apple company. 2 Apple and Nokia. 1 My name is Friendfish.
各行の前にある削除された重複の数。
#cut コマンドはテキスト行を列ごとに操作できます。前回の繰り返し回数は 8 文字分であることがわかるので、cut -c 9- コマンドを使用すると、各行の 9 文字目以降を削除できます。
以上がLinuxで重複した統計を削除する方法の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。