이번에는 python이 텍스트 데이터를 읽고 이를 DataFrame 형식으로 변환하는 방법에 대해 자세히 설명합니다. Python이 텍스트 데이터를 읽고 이를 DataFrame 형식으로 변환할 때 주의 사항은 무엇입니까? 다음은 실제 사례입니다. 보세요.
기술 Q&A에서 이런 질문을 봤는데 비교적 흔한 것 같아서 따로 글을 썼습니다.
일반 텍스트 형식 파일 "file_in"에서 데이터를 읽습니다. 형식은 다음과 같습니다.
은 "file_out"으로 출력해야 하며 형식은 다음과 같습니다.
데이터의 원래 형식은 "카테고리: 내용"이며, 하위 항목으로 빈 줄 "n"이 포함되어 있으며, 변환 후에는 한 줄에 한 항목이 되며, 내용은 카테고리에 따라 순서대로 작성됩니다. .
데이터를 읽은 후 Pandas를 사용하여 DataFrame이라는 테이블을 만드는 것이 좋습니다. 이렇게 하면 나중에 데이터를 더 쉽게 처리할 수 있습니다. 하지만 원래 형식은 일반적인 테이블 형식이 아니므로 먼저 몇 가지 간단한 처리가 필요합니다.
#coding:utf8 import sys from pandas import DataFrame #DataFrame通常来装二维的表格 import pandas as pd #pandas是流行的做数据分析的包 #建立字典,键和值都从文件里读出来。键是nam,age……,值是lili,jim…… dict_data={} #打开文件 with open('file_in.txt','r')as df: #读每一行 for line in df: #如果这行是换行符就跳过,这里用'\n'的长度来找空行 if line.count('\n') == len(line): continue #对每行清除前后空格(如果有的话),然后用":"分割 for kv in [line.strip().split(':')]: #按照键,把值写进去 dict_data.setdefault(kv[0],[]).append(kv[1]) #print(dict_data)看看效果 #这是把键读出来成为一个列表 columnsname=list(dict_data.keys()) #建立一个DataFrame,列名即为键名,也就是nam,age…… frame = DataFrame(dict_data,columns=columnsname) #把DataFrame输出到一个表,不要行名字和列名字 frame.to_csv('file_out0.txt',index=False,header=False)
이 기사의 사례를 읽으신 후 방법을 마스터하셨다고 생각합니다. 더 흥미로운 정보를 보려면 PHP 중국어 웹사이트의 다른 관련 기사를 주목하세요!
추천 자료:
위 내용은 Python이 텍스트 데이터를 읽고 이를 DataFrame 형식으로 변환하는 방법에 대한 자세한 설명의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!