XML을 Pandas DataFrame으로 효율적으로 변환
XML 파일에는 Pandas와 같은 도구를 사용하여 분석할 수 있는 귀중한 데이터가 포함될 수 있는 경우가 많습니다. XML 파일을 DataFrame으로 변환하려면 아래에서 효과적인 접근 방식을 찾을 수 있습니다.
import pandas as pd import xml.etree.ElementTree as ET import io def iter_docs(author): author_attr = author.attrib for doc in author.iter('document'): doc_dict = author_attr.copy() doc_dict.update(doc.attrib) doc_dict['data'] = doc.text yield doc_dict xml_data = io.StringIO(u'''YOUR XML STRING HERE''') etree = ET.parse(xml_data) #create an ElementTree object doc_df = pd.DataFrame(list(iter_docs(etree.getroot())))
설명:
추가 참고 사항:
질문에 제공된 예제 XML은 작성자가 한 명이라고 가정합니다. 작성자가 여러 명인 경우 추가 생성기 함수인 iter_author를 사용하여 각 작성자를 반복하고 해당 문서 사전을 모두 생성할 수 있습니다. 이를 위해서는 예제 코드의 마지막 줄을 다음과 같이 수정해야 합니다.
doc_df = pd.DataFrame(list(iter_author(etree)))
Python에서 XML 작업에 대한 추가 지침은 xml 라이브러리 문서의 ElementTree 튜토리얼을 참조하세요.
위 내용은 XML을 Pandas DataFrame으로 효율적으로 변환하려면 어떻게 해야 합니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!