linux - shell 排序去重问题

Question

用 shell 处理一个文本文件，内容如下： {代码...} 根据第一列去重，相同的保留第二列值最大的那个，结果数据应该是这样的： {代码...} 看了下 uniq 命令，好像不支持按字段去重。请问该如何去重呢？

阿神 · Answer

方法一

cat data.txt | sort -rnk2 | awk '{if (!keys[$1]) print $0; keys[$1] = 1;}'

先按照第二列逆序排列，保证数字从大到小输出，然后再用 awk，只有第一列的字符串第一次出现才输出这个字符串，其他的丢弃，这样应该就可以解决问题了。但是这种方法可能会让 awk 占用很多的内存，文件过大的话有问题。

方法二

cat data.txt | sort -k1,1 | awk '{
    if (lastKey == $1) {
        if (lastValue < $2) {
            lastLine = $0;
            lastValue = int($2);
        }
    } else {
        if (lastLine) {
            print lastLine;
        }

        lastKey = $1;
        lastLine = $0;
        lastValue = int($2);
    }
} END {
    if (lastLine) {
        print lastLine;
    }
}'

这个方案是按照第一列排序，然后用 awk 筛选结果，筛选的过程相当于一个加强版的 uniq。这个方案在内存使用方面好了很多，不过代码量略多，不是很简洁。

高洛峰 · Answer

$ sort -r a.txt | awk '{print $2, $1}' | uniq -f1 | awk '{print $2, $1}'
fdf 284
dfg 576
csb 513
asd 346
adf 263

逆排, 反转第一列和第二列, 按第二列去重, 反转第一列和第二列

高洛峰 · Answer

awk  'BEGIN{ a[$1]=$2 }{ if ($2>a[$1] )  a[$1]=$2  }END{for (i in a) if (i)  print i,a[i]}' data.txt

把第一列放入数组然后对比数组的值大的就替换掉为新的值

高洛峰 · Answer

[root@localhost ~]# sort -k2r 1.txt|awk '!a[$1]++'
dfg     576
csb     513
asd     346
fdf     284 
adf     263

Php8, saya datang juga

Ketahui reka letak tapak web dalam masa 30 minit

Tutorial Video Permulaan Shangguan Oracle kepada Mahir

Baris pertama kod UNI-APP anda

Berkibar dari awal ke pelancaran apl

Tutorial Video Linux Baharu Brother Lian

Tutorial Video AXURE 9 (Sesuai untuk UI Reka Bentuk Produk Interaktif Pengurus Produk)

Tutorial Video PS Kemahiran Asas Sifar

Tutorial video UI 16 hari untuk anda bermula

Tutorial Video Teknik PS dan Teknik Menghiris

Tutorial Video Pembinaan Persekitaran Awan Alibaba dan Pelancaran Projek

Gambaran Keseluruhan Rangkaian Komputer - Pengetahuan Asas yang Perlu Dikuasai Pengaturcara

Tutorial Penting untuk Pengaturcara - Penjelasan Protokol HTTP

Tutorial Video Websocket