Heim > Backend-Entwicklung > Python-Tutorial > So konvertieren Sie die Kodierung von XML-Dateien in Python

So konvertieren Sie die Kodierung von XML-Dateien in Python

王林
Freigeben: 2023-05-21 12:22:06
nach vorne
2383 Leute haben es durchsucht

1. Codierungsprobleme von XML-Dateien in Python

1 Die von Python verwendete Bibliothek xml.etree.ElementTree unterstützt nur das Parsen und Generieren des Standard-UTF-8-Formats Kodierung xml.etree.ElementTree库只支持解析和生成标准的UTF-8格式的编码

2.常见GBKGB2312等中文编码的 XML 文件,用以在老旧系统中保证 XML 对中文字符的记录能力

3.XML 文件开头有标识头,标识头指定了程序处理 XML 时应该使用的编码

So konvertieren Sie die Kodierung von XML-Dateien in Python

4.要修改编码,不仅要修改文件整体的编码,还要将标识头中 encoding 部分的值修改

2. 处理 Python XML 文件的思路

1.读取&解码:

  • 使用二进制模式读取 XML 文件,将文件变为二进制流

  • 将二进制流使用.encode()方法,使用原文件的编码格式进行解析为字符串

2.处理标识头:使用.replace()方法,替换字符串中的encoding="xxx"

2. Gängige chinesisch kodierte XML-Dateien wie GBK oder GB2312 werden verwendet, um sicherzustellen, dass XML mit chinesischen Zeichen in alten Systemen übereinstimmt

3. Am Anfang der XML-Datei steht ein Header. Der Header gibt die Kodierung an, die das Programm bei der Verarbeitung von XML verwenden soll.

So konvertieren Sie die Kodierung von XML-Dateien in Python
  • 4. Zum Ändern die Kodierung, nicht nur Um die Kodierung der gesamten Datei zu ändern, müssen Sie auch den Wert des Kodierungsteils im Header ändern

    2 Ideen für die Verarbeitung von Python-XML-Dateien
  • #🎜🎜 #1. Lesen und Dekodieren: # 🎜🎜#
  • Verwenden Sie den Binärmodus, um die XML-Datei zu lesen und die Datei in einen Binärstream umzuwandeln
    • #🎜🎜 #
    • Verwenden Sie den Binärstrom, um die Methode code>.encode() zu verwenden, um sie in eine Zeichenfolge zu analysieren 🎜#2. Verarbeiten Sie den Header: Verwenden Sie die Methode replace(), ersetzen Sie den Teil encoding="xxx" in der Zeichenfolge

      3. Kodierung und Speicherung: Verwenden Sie das neue Kodierungsformat für die Zeichenfolge. Speichern
    • 3 Im tatsächlichen Prozess aufgetretene Probleme

    • GB2312 UTF: Kein Problem, Sie können der obigen logischen Verarbeitung direkt folgen

    GBK #
  • GBK -- > Kein Problem, Sie können es direkt nach der obigen Logik handhaben

UTF8 --> GBK: .encode() meldet einen Fehler, also fügen Sie den Parameter error="ignore" hinzu und ignorieren Sie Zeichen, die nicht konvertiert werden können kompatibel mit UTF-8-Kodierung, sodass Inhalte, die nicht konvertiert werden können, direkt mit GBK# 🎜🎜#

    GBK angezeigt werden können
  • 4. Letzter Verwendungscode
  • # filepath -- 原文件路径
    # savefilepath -- 转换后文件存储路径(默认 = 原文件路径)
    # oldencoding -- 原文件的编码格式
    # newencoding -- 转换后文件的编码格式
    def convert_xml_encoding(filepath, savefilepath=filepath, oldencoding, newencoding):
        # Read the XML file
        with open(filepath, 'rb') as file:
            content = file.read()
    
        # Decode the content from old encoding
        # 出现错误时忽略 errors='ignore'
        decoded_content = content.decode(oldencoding, errors='ignore')
        # decoded_content = content.decode('GBK')
    
    
        # Update the encoding in the XML header
        updated_content = decoded_content.replace('encoding="{}"'.format(oldencoding),
                                                   'encoding="{}"'.format(newencoding))
    
        # Encode the content to new encoding
        # 出现错误时忽略 errors='ignore'
        encoded_content = updated_content.encode(newencoding,errors='ignore')
    
        # Write the updated content to the file
        with open(savefilepath, 'wb') as file:
            file.write(encoded_content)
    
        # Result output
        print(f"XML file '{os.path.basename(filepath)}'({oldencoding}) --> '{os.path.basename(savefilepath)}'({newencoding})")
    
    # ---------------------- 使用示例 ---------------------
    # GBK --> utf-8
    convert_xml_encoding(filepath, savefilepath2, 'GBK', 'utf-8')
    # utf-8 --> gb2312
    convert_xml_encoding(filepath, savefilepath2, 'utf-8', 'gb2312')
    # GBK --> gb2312
    convert_xml_encoding(filepath, savefilepath2, 'GBK', 'gb2312')
    Nach dem Login kopieren

    Hinweise:

#🎜🎜# Seit dem Der Logo-Header muss hier direkt ersetzt werden, der Codierungsname muss vollständig übereinstimmen, sonst schlägt die Ersetzung fehl. 8 kann nicht als UTF8 geschrieben werden. Dieser Code wird nur auf der Grundlage der oben genannten GBK, GB2312, UTF-8 und häufig verwendeter chinesischer und englischer Sprachen getestet. Es gibt keine Garantie dafür, dass das Codierungsformat erfolgreich konvertiert wird #🎜🎜##🎜🎜 ##🎜🎜#

Das obige ist der detaillierte Inhalt vonSo konvertieren Sie die Kodierung von XML-Dateien in Python. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Verwandte Etiketten:
Erklärung dieser Website
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn
Beliebte Tutorials
Mehr>
Neueste Downloads
Mehr>
Web-Effekte
Quellcode der Website
Website-Materialien
Frontend-Vorlage