Menukar XML kepada Pandas DataFrame dengan Mudah
Masalah:
Diberikan fail XML dengan struktur tertentu, tugasnya adalah untuk menukarnya menjadi DataFrame panda yang bersih dan teratur dengan enam lajur: 'kunci,' 'jenis,' 'bahasa,' 'ciri,' 'web' dan 'data.'
Penyelesaian:
Kaedah paling berkesan untuk mencapai penukaran ini ialah menggunakan perpustakaan 'xml' standard Python. Pustaka ini menyediakan cara yang mudah untuk menghuraikan dan memanipulasi data XML. Begini cara untuk meneruskan:
Coretan Kod:
import pandas as pd import xml.etree.ElementTree as ET xml_data = "<author..>...</author>" # Replace with your XML string etree = ET.parse(xml_data) def iter_docs(author): for doc in author.iter('document'): doc_dict = author.attrib.copy() doc_dict.update(doc.attrib) doc_dict['data'] = doc.text yield doc_dict doc_df = pd.DataFrame(list(iter_docs(etree.getroot()))) print(doc_df)
Kaedah ini memastikan penukaran data XML yang sistematik dan cekap kepada DataFrame yang memenuhi format yang dikehendaki.
Atas ialah kandungan terperinci Bagaimana untuk Menukar Fail XML kepada Pandas DataFrame dengan Enam Lajur Khusus?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!