ホームページ バックエンド開発 PHPチュートリアル PHP による PDF コンテンツの読み取り (LINUX での XPDF の構成と使用)_PHP チュートリアル

PHP による PDF コンテンツの読み取り (LINUX での XPDF の構成と使用)_PHP チュートリアル

Jul 14, 2016 am 10:07 AM
linux pdf php 1つ 使用 コンテンツ そして 私たち 読む 材料 構成 初め

1. ダウンロード


まずは情報をダウンロードしましょう。
中国語に変換する必要がない場合は、xpdf-bin-linux-3.03.tar をダウンロードするだけで済みます。中国語に変換する必要がある場合でも、xpdf-chinese-simplified.tar をダウンロードする必要があります。

2. インストール

ダウンロードが完了したので、インストールしてみましょう。

[root@localhost ~]# mkdir -p /lcf/upan

[root@localhost ~]# mkdir -p /lcf/cdrom
[root@localhost ~]# mkdir -p /lcf/xpdf

[root@localhost ~]# cd /lcf/upan/

[root@localhost upan]# cp xpdf/* ../xpdf/ (ダウンロードしたファイルは /lcf/xpdf ディレクトリに配置されます)

[root@localhost upan]# cd ../xpdf/

[root@localhost xpdf]# tar -zxvf xpdfbin-linux-3.03.tar.gz

[root@localhost xpdf]# cd xpdfbin-linux-3.03

[root@localhost xpdfbin-linux-3.03]# cat INSTALL

[root@localhost xpdfbin-linux-3.03]# cd bin32/

[root@localhost bin32]# cp ./* /usr/local/bin/

[root@localhost bin32]# cd ../doc/

[root@localhost doc]# mkdir -p /usr/local/man/man1
[root@localhost doc]# mkdir -p /usr/local/man/man5
[root@localhost doc]# cp *.1 /usr/local/man/man1
[root@localhost doc]# cp *.5 /usr/local/man/man5

中国語を読む必要がない場合は、ここで終了してください。 続けてください。

[root@localhost doc]# cp sample-xpdfrc /usr/local/etc/xpdfrc

[root@localhost xpdf]# cd /lcf/xpdf

[root@localhost xpdf]# tar -zxvf xpdf-chinese-simplified.tar.gz

[root@localhost xpdf]# cd xpdf-簡体字中国語
[root@localhost xpdf]# mkdir -p/usr/local/share/xpdf/簡体字中国語
[root@localhost xpdf]# cd xpdf-中国語-簡体字/

[root@localhost xpdf-簡体字中国語]# cp Adob​​e-GB1.cidToUnicode ISO-2022-CN.unicodeMap EUC-CN.unicodeMap GBK.unicodeMap CMAP /usr/local/share/xpdf/簡体字中国語/


簡体字中国語のファイル add-to-xpdfrc の内容を /usr/local/etc/xpdfrc ファイルにコピーします。内部のパスは正しい必要があることに注意してください。 (ここでの簡体字中国語パッケージには ISO-2022-CN、EUC-CN、GBK の 3 つの形式が含まれていることに注意してください。UTF-8 はサポートされていないことをよく見てください。最初に GBK に変換してからエスケープできます)


3. 機能の実装

この時点で、すべての設定が完了し、使用を開始します。

単純な PDF の読み取りの場合は、次のステートメントを使用するだけです。

$content =shell_exec('/usr/local/bin/pdftotext '.$filename.' -');


中国語に変換する必要がある場合は、次のようなパラメータを追加します。


$content =shell_exec('/usr/local/bin/pdftotext -layout -enc GBK '.$filename.' -');

もちろん、パラメータを追加しても英語変換には影響しませんので、ご自由にお使いください。ここで転送されるのは GBK エンコードであることに注意してください。現在、多くの Web サイトでは文字化けを回避したい場合は、UTF-8 を再度エスケープする必要があります。

$content = mb_convert_encoding($content, 'UTF-8','GBK');

この時点で、作業は完了です。読み取ったコンテンツをどのように使用し、それを処理するコードを作成しますか。

最後に、皆さんのために pdftotext のパラメータの説明を追加します。


主なパラメータは次のとおりです:


オプション

次のオプションの多くは、構成ファイル com-

で設定できます。 これらは
の説明とともに角括弧内にリストされています。 対応するコマンドラインオプション

-f番号

変換する最初のページを指定します。

-l番号
変換する最後のページを指定します。

-レイアウト

の元の物理レイアウトを (可能な限り) 維持します テキスト。デフォルトでは、物理レイアウト (列、
) を「元に戻す」ことになっています。 ハイフネーションなど) を入力し、読み上げ順にテキストを出力します。

-固定番号
charac-
が指定された固定ピッチ (または表形式) テキストを想定します。 ターの幅 (ポイント単位)。これにより、物理レイアウト モードが強制されます。

-raw テキストをコンテンツ ストリームの順序に保ちます。これはハックです
列の書式設定などを「元に戻す」ことがよくあります。 raw モードの使用は禁止です
長くお勧めします。

-htmlメタ
メタ情報を含む単純な HTML ファイルを生成します。
これは単にテキストを

 で折り返すだけです。 

を先頭に追加します メタヘッダー

-enc エンコーディング名


 

www.bkjia.comtru​​ehttp://www.bkjia.com/PHPjc/477900.html技術記事 1. まずダウンロードします。 中国語を変換する必要がない場合は、次のようにダウンロードするだけです。xpdf-bin-linux-3.03.tar、中国語が必要な場合は、さらに必要です...
このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

メモ帳++7.3.1

メモ帳++7.3.1

使いやすく無料のコードエディター

SublimeText3 中国語版

SublimeText3 中国語版

中国語版、とても使いやすい

ゼンドスタジオ 13.0.1

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

ドリームウィーバー CS6

ドリームウィーバー CS6

ビジュアル Web 開発ツール

SublimeText3 Mac版

SublimeText3 Mac版

神レベルのコード編集ソフト(SublimeText3)

LinuxターミナルでPythonバージョンを表示するときに発生する権限の問題を解決する方法は? LinuxターミナルでPythonバージョンを表示するときに発生する権限の問題を解決する方法は? Apr 01, 2025 pm 05:09 PM

LinuxターミナルでPythonバージョンを表示する際の許可の問題の解決策PythonターミナルでPythonバージョンを表示しようとするとき、Pythonを入力してください...

PHPでの後期静的結合を説明します(静的::)。 PHPでの後期静的結合を説明します(静的::)。 Apr 03, 2025 am 12:04 AM

静的結合(静的::) PHPで後期静的結合(LSB)を実装し、クラスを定義するのではなく、静的コンテキストで呼び出しクラスを参照できるようにします。 1)解析プロセスは実行時に実行されます。2)継承関係のコールクラスを検索します。3)パフォーマンスオーバーヘッドをもたらす可能性があります。

JSON Web Tokens(JWT)とPHP APIでのユースケースを説明してください。 JSON Web Tokens(JWT)とPHP APIでのユースケースを説明してください。 Apr 05, 2025 am 12:04 AM

JWTは、JSONに基づくオープン標準であり、主にアイデンティティ認証と情報交換のために、当事者間で情報を安全に送信するために使用されます。 1。JWTは、ヘッダー、ペイロード、署名の3つの部分で構成されています。 2。JWTの実用的な原則には、JWTの生成、JWTの検証、ペイロードの解析という3つのステップが含まれます。 3. PHPでの認証にJWTを使用する場合、JWTを生成および検証でき、ユーザーの役割と許可情報を高度な使用に含めることができます。 4.一般的なエラーには、署名検証障害、トークンの有効期限、およびペイロードが大きくなります。デバッグスキルには、デバッグツールの使用とロギングが含まれます。 5.パフォーマンスの最適化とベストプラクティスには、適切な署名アルゴリズムの使用、有効期間を合理的に設定することが含まれます。

Docker環境にPECLを使用して拡張機能をインストールするときにエラーが発生するのはなぜですか?それを解決する方法は? Docker環境にPECLを使用して拡張機能をインストールするときにエラーが発生するのはなぜですか?それを解決する方法は? Apr 01, 2025 pm 03:06 PM

エラーの原因とソリューションPECLを使用してDocker環境に拡張機能をインストールする場合、Docker環境を使用するときに、いくつかの頭痛に遭遇します...

PHPマジックメソッド(__construct、__destruct、__call、__get、__setなど)とは何ですか? PHPマジックメソッド(__construct、__destruct、__call、__get、__setなど)とは何ですか? Apr 03, 2025 am 12:03 AM

PHPの魔法の方法は何ですか? PHPの魔法の方法には次のものが含まれます。1。\ _ \ _コンストラクト、オブジェクトの初期化に使用されます。 2。\ _ \ _リソースのクリーンアップに使用される破壊。 3。\ _ \ _呼び出し、存在しないメソッド呼び出しを処理します。 4。\ _ \ _ get、dynamic属性アクセスを実装します。 5。\ _ \ _セット、動的属性設定を実装します。これらの方法は、特定の状況で自動的に呼び出され、コードの柔軟性と効率を向上させます。

ランプアーキテクチャの下でnode.jsまたはPythonサービスを効率的に統合する方法は? ランプアーキテクチャの下でnode.jsまたはPythonサービスを効率的に統合する方法は? Apr 01, 2025 pm 02:48 PM

多くのウェブサイト開発者は、ランプアーキテクチャの下でnode.jsまたはPythonサービスを統合する問題に直面しています:既存のランプ(Linux Apache MySQL PHP)アーキテクチャWebサイトのニーズ...

APSChedulerタイミングタスクをMACOSのサービスとして構成する方法は? APSChedulerタイミングタスクをMACOSのサービスとして構成する方法は? Apr 01, 2025 pm 06:09 PM

nginと同様に、APSChedulerタイミングタスクをサービスとして構成する場合、APSChedulerタイミングタスクをMACOSプラットフォームでサービスとして構成します...

See all articles