如何在 PHP 中從 PDF 文件中提取文本，包括 Unicode 字元？-php教程-PHP中文網

如何在 PHP 中從 PDF 文件中提取文本，包括 Unicode 字元？

Barbara Streisand

發布： 2024-10-27 11:08:02

原創

487 人瀏覽過

How to Extract Text from PDF Documents in PHP, Including Unicode Characters?

使用PHP 從PDF 文件中提取文字

許多開發人員在從PDF 文件中提取文字時遇到困難，尤其是涉及Unicode 字元時。雖然純文字函數可能不夠，但本文提出了使用 PHP 類別的解決方案。

使用PDF2Text 類別

要使用PHP 從PDF 文件中提取文本，您需要可以從Pastebin (https://pastebin.com/dvwySU1a) 或Web Cheatsheet (https://webcheatsheet.com/php/scripts/pdf2text.zip) 下載class.pdf2text.php 類別。

一次如果您擁有該類，則可以使用以下程式碼從PDF 文件中提取文字：

<code class="php">include('class.pdf2text.php');
$a = new PDF2Text();
$a->setFilename('filename.pdf'); 
$a->decodePDF();
echo $a->output(); </code>

登入後複製

此程式碼包含類文件，初始化PDF2Text 類別的新實例，設定PDF 文件名，解碼PDF，並回顯擷取的文字。

其他注意事項

限制：雖然PDF2Text 類別在許多情況下都很有效，它可能不適用於所有PDF。
替代方案：如果 PDF2Text 不成功，請考慮使用 PDF 解析器函式庫。

透過利用 PDF2Text 類別或替代庫，您可以在 PHP 中有效地從 PDF 文件中提取文本，使您能夠處理 Unicode 字元和各種 PDF 格式。

以上是如何在 PHP 中從 PDF 文件中提取文本，包括 Unicode 字元？的詳細內容。更多資訊請關注PHP中文網其他相關文章！