Python新手问题——大txt文件按条件将多行合并

Question

数据格式如下：······1107 1385331000000 1.31425116071267541107 1385331000000 0.00216831966616601571107 1385331600000 0.0021683196661660157 1107 1385331600000 1.48678059856709231107 1385331600000 0.0...

黄舟 · Answer

Saya menyelesaikannya sendiri Walaupun ia mungkin rumit, ia boleh memenuhi keperluan

__author__ = 'Administrator'
file = open('day24.txt', 'a+')
s = "area       time            data
"
file.write(s)
file.close


file = open('sms-call-internet-mi-2013-11-24-24.txt','r')
line = file.readline()
list1 = []#时间
num1 = []#data
area = []

while 1:
    line = file.readline()
    if line == '':
        break
    a = line.split()
    if int(a[0]) == 1:
        if a[2] == "NA":
            a[2] = '0'
        area.append(a[0])
        if a[1] in list1:
            num1[list1.index(a[1])] = float(num1[list1.index(a[1])])+float(a[2])
        else:
            list1.append(a[1])
            num1.append(a[2])
    elif int(a[0]) < 10001:

        if a[2] == "NA":
            a[2] = '0'
        if a[0] not in area:
            area.append(a[0])

            file1 = open('day24.txt', 'a+')

            for i in list1:
                file1.write("%-8s%-16s%.20f
" % (area[area.index(a[0])-1], i, float(num1[list1.index(i)])))
            file1.close
            file1 = open('day24.txt', 'r')
            file1.close
            list1 = []
            num1 = []

        if a[1] in list1:
            num1[list1.index(a[1])] = float(num1[list1.index(a[1])])+float(a[2])

        else:
            list1.append(a[1])
            num1.append(a[2])
    else:
        break
file.close

file = open('day24.txt', 'a+')
for j in list1: 
    file.write("%-8s%-16s%.20f
" % (a[0], j, float(num1[list1.index(j)])))
file.close
file = open('day24.txt', 'r')
file.close

ringa_lee · Answer

Jika ia berdasarkan siri masa, hanya gunakan penjana untuk membaca fail asal, menjana baris baharu dan kemudian mengeluarkannya.

ringa_lee · Answer

panda boleh menyelesaikan keperluan anda, membaca data ke dalam bingkai data dan kemudian memprosesnya

怪我咯 · Answer

Ini bergantung pada jumlah data yang anda ada

Gunakan traversal pemegang fail, jangan gunakan readlines() (memori mungkin tidak mencukupi)
Gunakan struktur data yang serupa dengan kamus untuk menyimpan maklumat anda Jika memori tidak mencukupi, anda perlu mencari cara untuk menulis maklumat perantaraan ke cakera, dsb.

Idea umum adalah seperti berikut

from collections import Counter
c = Counter()
f = ['1107 1385332800000 1.2847329440609827',
'1107 1385332800000 0.0021683196661660157',
'1107 1385333400000 1.2891586380834603',
'1108 1385247600000 0.026943168177151356',
'1108 1385247600000 6.184696475262653',
'1108 1385248200000 0.05946288920050806' ]

'''
with open('xxoo.txt') as f:  # f 文件遍历句柄，相当于上面的 list f
    for i in f:
        s = i.split()
        c[s[0]] += s[2]
'''


for i in f:  # 这里是遍历 f， 这里遍历的是 list f， 你实际情况要用上面的 f
    s = i.split()  # 这里是空格分割，可以使用 print s 看看结果
    c[s[0]] += float(s[2])  # c 用来统计

for i in c:
    print i, c[i]

PHPz · Answer

Apa yang anda lakukan ialah mengumpulkan statistik berdasarkan dua penunjuk: label dan jam Gunakan panda untuk membaca masuk, gunakan to_datetime untuk menukar cap masa kepada lajur masa dan kemudian dapatkan bilangan jam kemudian gunakan groupby untuk mengklasifikasikan label dan jam pada masa yang sama, dan jumlahnya.

黄舟 · Answer

Sila gunakan idea ini
https://www.zhihu.com/questio...

阿神 · Answer

Saya rasa format data anda boleh dianalisis sedikit sebelum melakukannya
1 Lajur pertama mewakili tarikh, anda boleh menggunakannya sebagai kunci peringkat pertama tatasusunan hasil, keputusan[tarikh]2. Lajur kedua mestilah cap masa (minit), jadi jika anda memerlukan hasil mengikut jam, anda memulakan 24 elemen untuk setiap item [data] hasil, dan kuncinya ialah bilangan jam (anda boleh menggunakan bilangan jam yang sepadan) Nilai setem digunakan sebagai kunci), dan nilai kunci sepadan dengan jumlah data dalam jam ini, iaitu, tarikh keputusan
3 Selepas memulakan tatasusunan hasil, ia adalah mudah . Anda hanya melintasi fail dan memprosesnya baris demi baris Setiap baris Mula-mula baca nilai lajur pertama, seperti 1107,
kemudian kendalikan hasil[1107]. Kemudian baca lajur kedua, cari kunci cap jam yang sepadan dan tambahkan sahaja.
4 Akhir sekali, lalui tatasusunan hasil dan keluarkan hasilnya.

天蓬老师 · Answer

Anda memerlukan:

from itertools import groupby

Ia boleh dilakukan dalam kurang daripada sepuluh baris kod.