Python新手问题——大txt文件按条件将多行合并

Question

数据格式如下：······1107 1385331000000 1.31425116071267541107 1385331000000 0.00216831966616601571107 1385331600000 0.0021683196661660157 1107 1385331600000 1.48678059856709231107 1385331600000 0.0...

黄舟 · Answer

自己解决了，虽然可能比较复杂，但是能满足需求

__author__ = 'Administrator'
file = open('day24.txt', 'a+')
s = "area       time            data
"
file.write(s)
file.close


file = open('sms-call-internet-mi-2013-11-24-24.txt','r')
line = file.readline()
list1 = []#时间
num1 = []#data
area = []

while 1:
    line = file.readline()
    if line == '':
        break
    a = line.split()
    if int(a[0]) == 1:
        if a[2] == "NA":
            a[2] = '0'
        area.append(a[0])
        if a[1] in list1:
            num1[list1.index(a[1])] = float(num1[list1.index(a[1])])+float(a[2])
        else:
            list1.append(a[1])
            num1.append(a[2])
    elif int(a[0]) < 10001:

        if a[2] == "NA":
            a[2] = '0'
        if a[0] not in area:
            area.append(a[0])

            file1 = open('day24.txt', 'a+')

            for i in list1:
                file1.write("%-8s%-16s%.20f
" % (area[area.index(a[0])-1], i, float(num1[list1.index(i)])))
            file1.close
            file1 = open('day24.txt', 'r')
            file1.close
            list1 = []
            num1 = []

        if a[1] in list1:
            num1[list1.index(a[1])] = float(num1[list1.index(a[1])])+float(a[2])

        else:
            list1.append(a[1])
            num1.append(a[2])
    else:
        break
file.close

file = open('day24.txt', 'a+')
for j in list1: 
    file.write("%-8s%-16s%.20f
" % (a[0], j, float(num1[list1.index(j)])))
file.close
file = open('day24.txt', 'r')
file.close

ringa_lee · Answer

如果是按照时间序列的,直接使用generator来读取原文件,生成新的行然后输出就可以了.

ringa_lee · Answer

pandas可以解决你的需求，读取数据到dataframe中再进行处理

怪我咯 · Answer

这个要看你的数据量有多大了

使用文件句柄遍历不用用 readlines() (内存可能不够)
使用类似于字典一样的数据结构来存储你的信息，如果内存不够，就要再想办法，中间信息写磁盘等。

大概的思路如下

from collections import Counter
c = Counter()
f = ['1107 1385332800000 1.2847329440609827',
'1107 1385332800000 0.0021683196661660157',
'1107 1385333400000 1.2891586380834603',
'1108 1385247600000 0.026943168177151356',
'1108 1385247600000 6.184696475262653',
'1108 1385248200000 0.05946288920050806' ]

'''
with open('xxoo.txt') as f:  # f 文件遍历句柄，相当于上面的 list f
    for i in f:
        s = i.split()
        c[s[0]] += s[2]
'''


for i in f:  # 这里是遍历 f， 这里遍历的是 list f， 你实际情况要用上面的 f
    s = i.split()  # 这里是空格分割，可以使用 print s 看看结果
    c[s[0]] += float(s[2])  # c 用来统计

for i in c:
    print i, c[i]

PHPz · Answer

你这个等于就是基于标号和小时两个指标分组统计，用pandas读入，用to_datetime将时间戳转化为时间列再取小时数，然后用groupby同时对标号和小时进行分类，sum汇总就行了。

黄舟 · Answer

请用这个思路
https://www.zhihu.com/questio...

阿神 · Answer

我觉得你这个数据格式可以稍加分析一下再做
1.第一列表示日期，你可以做为结果数组的第一层的键，result[date]
2.第二列看着应该是时间（分钟）的时间戳，这样你要求按小时来做结果，你就每个result[data]项初始化24个元素，键就是小时数(可以用相应的小时数的时间戳的值做键)，键值对应的就是这个小时内的数据总和，即resultdate
3.初始化完成这个结果数组以后就简单了，你就遍历文件，逐行处理就可以了，每一行先读取第一列的值，比如1107,
就操作result[1107]。接着读取第二列，找到对应的hourtimestamp键，累加就行了。
4.最后遍历result数组，输出结果就行了。

天蓬老师 · Answer

你需要：

from itertools import groupby

不到十行代码就可以搞定的。