Heim > Backend-Entwicklung > PHP-Tutorial > Wie kann ich .DOC-Dateien in PHP richtig analysieren und Fehler bei der Zeicheninterpretation vermeiden?

Wie kann ich .DOC-Dateien in PHP richtig analysieren und Fehler bei der Zeicheninterpretation vermeiden?

Mary-Kate Olsen
Freigeben: 2024-10-30 06:21:28
Original
926 Leute haben es durchsucht

How to Properly Parse .DOC Files in PHP and Avoid Character Interpretation Errors?

Lesen von .DOC-Dateien in PHP

Das Lesen von .DOC-Dateien in PHP kann aufgrund ihres Binärformats eine Herausforderung sein. Sie können sie jedoch mit dem von jemandem bereitgestellten Code analysieren, dies kann jedoch zu einer falschen Zeicheninterpretation führen.

Um dieses Problem zu beheben, müssen Sie die folgende Änderung vornehmen:

<code class="php">$line = @fread($fileHandle, filesize($userDoc));
$lines = explode(chr(0x0A),$line);</code>
Nach dem Login kopieren

Durch diese Änderung wird das Zeichen chr(0x0D) durch chr(0x0A) ersetzt. Windows speichert Zeilenumbrüche als rn (Wagenrücklauf plus Zeilenvorschub), während UNIX-Systeme n (nur Zeilenvorschub) verwenden. Durch die Verwendung von chr(0x0D) behandeln Sie das DOS/Windows-Neuzeilenzeichen, aber die Datei wird im Unix-Format gespeichert.

Berücksichtigen Sie außerdem den folgenden Code, um .docx-Dateien in PHP zu lesen:

<code class="php">function read_file_docx($filename){

    $striped_content = '';
    $content = '';

    if(!$filename || !file_exists($filename)) return false;

    $zip = zip_open($filename);

    if (!$zip || is_numeric($zip)) return false;

    while ($zip_entry = zip_read($zip)) {

        if (zip_entry_open($zip, $zip_entry) == FALSE) continue;

        if (zip_entry_name($zip_entry) != "word/document.xml") continue;

        $content .= zip_entry_read($zip_entry, zip_entry_filesize($zip_entry));

        zip_entry_close($zip_entry);
    }// end while

    zip_close($zip);

    $content = str_replace('</w:r></w:p></w:tc><w:tc>', " ", $content);
    $content = str_replace('</w:r></w:p>', "\r\n", $content);
    $striped_content = strip_tags($content);

    return $striped_content;
}</code>
Nach dem Login kopieren

Dieser Code:

  • Öffnet die .docx-Datei als ZIP-Archiv.
  • Extrahiert die Datei „word/document.xml“.
  • Parst den XML-Inhalt.
  • Entfernt unnötige Tags und Zeichen.
  • Gibt den analysierten Textinhalt zurück.

Das obige ist der detaillierte Inhalt vonWie kann ich .DOC-Dateien in PHP richtig analysieren und Fehler bei der Zeicheninterpretation vermeiden?. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Quelle:php.cn
Erklärung dieser Website
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn
Neueste Artikel des Autors
Beliebte Tutorials
Mehr>
Neueste Downloads
Mehr>
Web-Effekte
Quellcode der Website
Website-Materialien
Frontend-Vorlage