python处理文本信息

Question

有一个文本信息如下: {代码...} 我做的是需要根据第一列的这个序号的数据来找对应的数据，像这种有着相同序号的行，他们对应的第二列的ID数据就是对应的，我需要找到这样一对一对的 ID 数据。就这个例子来说就是 ...

迷茫 · Answer

用字典是可以的，首先是收集:

INDEX = 0
ID = 1

dic = {}

with open('data') as reader:
    for line in reader:
        items = line.strip().split()
        ids = dic.setdefault(items[INDEX], [])
        ids.append(items[ID])

输出:

for index, ids in dic.items():
    for sid in ids[0:-1]:
        print sid, ids[-1]

或:

# 如果不太懂這段代碼的意思，請參見下面說明，其實我覺得用上面的方法也夠了
for index, ids in dic.items():
    for sid, eid in ((id, ids[-1]) for id in ids[0:-1]):
        print sid, eid

稍微讲一下这段代码:

((id, ids[-1]) for id in ids[0:-1])

上面这一行是一个产生器表达式( generator expression, 简称genexp)，他就类似list comprehension，不过他并不会马上产生实际的资料和list，只有等到你去iterate 或是取值的时候才会依序产生资料项。这代表在资源的利用上，是比较有效率的。

这边产生的generator 可以依序产生一个双元素的tuple，这两个元素都是id，刚好就是一个id pair(第一个元素是各个非最后一个id，第二个元素是最后一个id。

至于：

for sid, eid in ((id, ids[-1]) for id in ids[0:-1]):

就是依次产生 id pair 并且利用 tuple unpacking 平行赋值给 sid 和 eid，最后输出。 sid 和 eid，最後輸出。

data

data:

42 453926 Stormwriter restored undeleted 61.1.28.140
44 425968 61.1.28.140
42 425967 Mintguy restored undeleted 61.11.252.22
43 419840 61.11.252.22
42 419809 TimStarling

结果:🎜

453926 419809
425967 419809