Wie kann ich .DOC-Dateien in PHP richtig analysieren und Fehler bei der Zeicheninterpretation vermeiden?-PHP-Tutorial-php.cn

Wie kann ich .DOC-Dateien in PHP richtig analysieren und Fehler bei der Zeicheninterpretation vermeiden?

Mary-Kate Olsen

Freigeben： 2024-10-30 06:21:28

Original

957 Leute haben es durchsucht

How to Properly Parse .DOC Files in PHP and Avoid Character Interpretation Errors?

Lesen von .DOC-Dateien in PHP

Das Lesen von .DOC-Dateien in PHP kann aufgrund ihres Binärformats eine Herausforderung sein. Sie können sie jedoch mit dem von jemandem bereitgestellten Code analysieren, dies kann jedoch zu einer falschen Zeicheninterpretation führen.

Um dieses Problem zu beheben, müssen Sie die folgende Änderung vornehmen:

<code class="php">$line = @fread($fileHandle, filesize($userDoc));
$lines = explode(chr(0x0A),$line);</code>

Nach dem Login kopieren

Durch diese Änderung wird das Zeichen chr(0x0D) durch chr(0x0A) ersetzt. Windows speichert Zeilenumbrüche als rn (Wagenrücklauf plus Zeilenvorschub), während UNIX-Systeme n (nur Zeilenvorschub) verwenden. Durch die Verwendung von chr(0x0D) behandeln Sie das DOS/Windows-Neuzeilenzeichen, aber die Datei wird im Unix-Format gespeichert.

Berücksichtigen Sie außerdem den folgenden Code, um .docx-Dateien in PHP zu lesen:

<code class="php">function read_file_docx($filename){

    $striped_content = '';
    $content = '';

    if(!$filename || !file_exists($filename)) return false;

    $zip = zip_open($filename);

    if (!$zip || is_numeric($zip)) return false;

    while ($zip_entry = zip_read($zip)) {

        if (zip_entry_open($zip, $zip_entry) == FALSE) continue;

        if (zip_entry_name($zip_entry) != "word/document.xml") continue;

        $content .= zip_entry_read($zip_entry, zip_entry_filesize($zip_entry));

        zip_entry_close($zip_entry);
    }// end while

    zip_close($zip);

    $content = str_replace('</w:r></w:p></w:tc><w:tc>', " ", $content);
    $content = str_replace('</w:r></w:p>', "\r\n", $content);
    $striped_content = strip_tags($content);

    return $striped_content;
}</code>

Nach dem Login kopieren

Dieser Code:

Öffnet die .docx-Datei als ZIP-Archiv.
Extrahiert die Datei „word/document.xml“.
Parst den XML-Inhalt.
Entfernt unnötige Tags und Zeichen.
Gibt den analysierten Textinhalt zurück.

Das obige ist der detaillierte Inhalt vonWie kann ich .DOC-Dateien in PHP richtig analysieren und Fehler bei der Zeicheninterpretation vermeiden?. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!