実際の仕事では、PDF ドキュメントから関連するコンテンツを抽出する必要があることがよくあります。 Adobe Acrobat がインストールされていない場合は、Microsoft Office 2007 の Microsoft Office Document Imaging コンポーネントを使用して PDF から DOC への変換を行うことができます。具体的な手順は次のとおりです。 1. Microsoft Office Document Imaging を開きます ([スタート] メニューで検索します)。 2. メニューバーの「ファイル」→「開く」を選択し、変換したいPDFファイルを選択します。 3. ツールバーの「変換」ボタンをクリックします。 4. 変換オプションで、出力形式として「Word ドキュメント (*.doc)」を選択します。 5. 「OK」をクリックして変換プロセスを開始します。 6. 変換が完了したら、変換された DOC ファイルを保存します。 この方法を使用すると、PDF ドキュメントを編集可能な Word ドキュメントに変換して、必要なコンテンツをさらに編集したり抽出したりすることができます。
ステップ 1: 画像ファイルとして印刷
Adobe Reader を使用して該当する PDF ドキュメントを開き、[ファイル] メニューから [印刷] コマンドを実行します。このとき、[印刷] ダイアログ ボックスが表示されます。デフォルトのプリンタのほとんどは実際の物理プリンタであるため、仮想プリンターではなく、「プリンター」ドロップダウンリストボックスから「Microsoft Office Document Imaging Writer」を選択し、「確認」ボタンをクリックしてください。確認後、PDF文書をTIFF形式の画像ファイルとして出力できます。フォーマット。
ステップ 2: 画像ファイルを読み取る
Microsoft Office Document Imaging を実行します。このコンポーネントは、Office プログラム グループの "Office ツール" サブプログラム グループにあります。印刷した画像ファイルを開いて、[ツール] → [テキストを Word に送信] コマンドを選択します。ダイアログボックスが表示されます。出力フォルダーを変更する必要がない場合は、直接「OK」ボタンをクリックしてください。このとき、「この操作を実行する前に OCR を再実行する必要があります。これには時間がかかる場合があります。 " 確認後、変換操作を開始できます。変換が完了すると、システムは自動的に Word ウィンドウを開き、PDF 文書から変換された文書コンテンツを表示します。ただし、PDF ドキュメントが複雑な場合、画像や表などの一部のコンテンツが完全に表示されない場合があります。 PDF文書内のテキスト内容を取得するだけであれば、Adobe Readerで該当のPDF文書を開き、「ファイル」メニューから「テキストとして保存」を実行するだけで操作は非常に簡単です。ポップアップ ダイアログ ボックスで保存パスとファイル名を指定します。確認後は少し待つ必要があります。保存時間は現在のドキュメントのページ番号によって異なります)。すぐに完全なテキスト ファイルが取得されます。元のドキュメントの画像コンテンツを削除するには、私だけが別の方法を思いつきます。
使いやすく無料の PDF 認識ソフトウェアの Hanwang PDF OCR8.1 簡体字中国語版をぜひお試しください。オンラインでダウンロードが可能です。
Hanwang pdf ocr8.1 をダウンロードしてインストールし、実行して PDF ファイルを開きます。PDF のフォント サイズが小さい場合は、開くときにデフォルトの解像度を使用せず、最大解像度を 600DPI に設定してください。 PDF ファイルをページごとに開き、直接認識することもできますが、レベルを調整し、手動で認識領域を設定し、テキスト領域、表領域、画像領域を分離してから認識を開始することをお勧めします。認識率が高いほど認識率が高くなります 認識後、元の誤字を校正して比較します。最後のステップでは、識別、変換、校正したページを選択し、メニュー - [出力] - に移動して出力ファイル形式を指定します。出力ファイル形式は、TXT、RTF、XLS、およびその他のファイル形式で出力できます。
WORD形式で出力したい場合はRTF形式を選択し、WORDで開いた後、テキストボックスの文字をコピーし、必要に応じて編集してください。
EXCEL 形式で出力したい場合は、XLS 形式を選択し、EXCEL で開き、必要に応じて編集してください。
以上がPDF文書をWord文書に変換する方法の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。