外部ツールやルートアクセスなしで PHP を使用して PDF ドキュメントからテキストを抽出する方法-PHPチュートリアル-php.cn

外部ツールやルートアクセスなしで PHP を使用して PDF ドキュメントからテキストを抽出する方法

Barbara Streisand

リリース： 2024-10-30 05:17:28

オリジナル

426 人が閲覧しました

How to Extract Text from PDF Documents Using PHP without External Tools or Root Access?

PHP を使用した PDF ドキュメントからのテキストの抽出

質問:

テキストを抽出するにはどうすればよいですか?外部ツールやルートアクセスに依存せずに、PHP を使用して PDF ドキュメントから抽出できますか?

解決策:

PHP を使用して PDF ドキュメントからテキストを抽出するには、次のクラスを利用できます。 .pdf2text.php library.

手順:

https://pastebin.com/dvwySU1a から class.pdf2text.php ライブラリをダウンロードします。
次のコードを使用して、PHP スクリプトにライブラリを含めます:
```
<code class="php">include('class.pdf2text.php');</code>
```
ログイン後にコピー
PDF2Text クラスのインスタンスを作成し、抽出する PDF ファイルを指定しますテキスト元:
```
<code class="php">$a = new PDF2Text();
$a->setFilename('filename.pdf'); </code>
```
ログイン後にコピー
PDF ドキュメントをデコードしてテキストを抽出します:
```
<code class="php">$a->decodePDF();</code>
```
ログイン後にコピー
出力を呼び出して、抽出されたテキストにアクセスします() メソッド:
```
<code class="php">echo $a->output(); </code>
```
ログイン後にコピー

補足:

このライブラリは Unicode 文字を効果的に処理できます。
class.pdf2text.php ライブラリがニーズを満たさない場合は、PDF パーサーライブラリを試すこともできます。
class.pdf2text.php の詳細については、プロジェクトホームで見つけることができます: https:// sourceforge.net/projects/pdflib/.

以上が外部ツールやルートアクセスなしで PHP を使用して PDF ドキュメントからテキストを抽出する方法の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。