PDF を解析するための PHP ライブラリはありますか?
質問:
PHP用のPDFパーサーを探しています。 PDF からテーブルを抽出し、配列に変換する必要があります。何か提案はありますか?
答え:
PDF 仕様の複雑さと PDF ジェネレーターの違いにより、カスタム PDF パーサーの作成は困難な作業です。操作する。ただし、自分でフォントを作成する場合は、考慮すべき重要なアドバイスがいくつかあります:
-
Adobe のフォントの再マッピングについて理解する: Adobe はフォントを再マッピングすることが多いため、文字が常に一致するとは限りません。期待値に達します。文字コードを解読するには、マッピング オブジェクトを識別する必要があります。
-
抽象クラスを使用する: 解析を容易にするために、さまざまなオブジェクト タイプとネイティブ タイプのクラスを作成します。これにより、特定のタイプの解析プロセスをカスタマイズできます。
-
特定の PDF バージョンを強制する: サポートする PDF バージョンを指定して適用します。過度に複雑になる可能性があるため、パーサーをすべてのバージョンと互換性のあるものにしようとしないでください。
-
圧縮ストリームは慎重に処理してください: 圧縮ストリームには不正確な長さの引数が含まれる可能性があります。信頼性を高めるためにそれらを圧縮し、長さを強制します。
-
文字列の長さには mb_strlen を使用します: mb_strlen($string, '8bit') を使用して文字列の長さを正確に決定し、さまざまな文字セットや無効な可能性を処理します。文字。
以上がPDF テーブルを解析するための専用の PHP ライブラリはありますか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。