デジタル時代の到来により、ますます多くの情報がデジタル化されており、その中で最も一般的なのは PDF ドキュメントです。 PDF ドキュメントは、クロスプラットフォームやフォーマットの標準化において大きな利点がありますが、Web ページの表示や検索活動では大きな困難に直面することになります。したがって、PDF ドキュメントをインターネット上で表示および共有しやすくするために、PDF ドキュメントを HTML 形式に変換することが必要な作業になっています。
Java は広く使用されているプログラミング言語として、PDF を HTML に変換するためのアプリケーション プログラム インターフェイス (API) を多数提供しています。この記事では、PDF を HTML に変換するための Java アプリケーション プログラム インターフェイスを紹介および比較し、PDFBox を使用します。 iText と Apache FOP を例として、これらのライブラリを使用して PDF を HTML に変換する方法を詳しく説明します。
1. PDF を HTML に変換する必要性
インターネット文化の発展に伴い、Web アプリケーションはますます私たちの生活に欠かせないものとなり、PDF を HTML 形式に変換することは明らかに重要になってきています。 Web アプリケーションには必須の要件になります。主な要件は次のとおりです:
2. PDF to HTML ツールの比較
PDF to HTML ツールは、一般的に使用される次の 3 つのフレームワークに基づいて実装できます:
3. PDFBox
Apache PDFBox は、PDF ファイルを操作するためのオープンソース Java ライブラリです。 PDFBox では、PDF はプレーン テキストとして保存され、PDFBox は PDF をメモリに解析してからプレーン テキストとしてレンダリングします。 PDFBox は複雑な形式やレイアウトをサポートしていないため、大きくて複雑な PDF ファイルの処理には適していません。ただし、PDFBox はフォント、色、背景、表、リンクのエクスポートをサポートしているため、PDF から HTML への変換は簡単です。
PDFBox のコード例:
import java.io.IOException; import org.apache.pdfbox.pdmodel.PDDocument; import org.apache.pdfbox.text.PDFTextStripper; public class PDFtoHTML { public static void main(String[] args) throws IOException { PDDocument document = null; try { document = PDDocument.load(file); PDFTextStripper stripper = new PDFTextStripper(); String text = stripper.getText(document); System.out.println(text); } finally { if (document != null) { document.close(); } } } }
このコード例では、PDFTextStripper クラスを使用して PDF ファイルからプレーン テキストを抽出します。これに基づいて、他のコードを追加することで、フォント、色、背景、表、リンクなどの PDF 要素をエクスポートすることもできます。
4. iText
iText は、さまざまな PDF ファイルの作成、変更、抽出をサポートする、無料ですが商用コンポーネントの Java PDF ライブラリです。 iText は多くの PDF 変換ツールを開発してきましたが、その 1 つは PDF ファイルを HTML に変換するツールです。
PDF ファイルを HTML に変換するには、iText が提供する HTMLWorker クラスと XMLWorker クラスを使用できます。 HTMLWorker クラスは、PDF ドキュメントからテキスト、段落、リスト、およびその他の HTML 要素を抽出して変換できる HTMLWriter を提供します。 XMLWorker クラスは、HTML ファイルを含む XML ファイルの処理をサポートするためのより柔軟な方法を提供します。
iText は PDF からテキストを直接読み取って HTML ファイルに保存できるため、変換プロセスは非常に簡単です。ただし、基本的な書式設定と組版については十分にサポートされているだけで、複雑で複雑な操作が必要な PDF ファイルについてはあまりサポートされていません。
iText のコード例:
import java.io.File; import java.io.FileOutputStream; import com.itextpdf.text.pdf.PdfReader; import com.itextpdf.text.pdf.parser.PdfTextExtractor; public class PDFtoHTML { public static void main( String[] args ) { try { String inputurl="pdf/demo.pdf"; String outputurl="html/demo.html"; File file=new File(outputurl); if(!file.exists()){ file.createNewFile(); } PdfReader reader=new PdfReader(inputurl); int totalpages=reader.getNumberOfPages(); StringBuffer buffer=new StringBuffer(); for(int i=1;i<=totalpages;i++){ buffer.append(PdfTextExtractor.getTextFromPage(reader,i)); } FileOutputStream fos=new FileOutputStream(outputurl); fos.write(buffer.toString().getBytes()); fos.flush(); fos.close(); reader.close(); } catch (Exception e) { e.printStackTrace(); } } }
このコード例では、PdfReader クラスを使用して PDF ファイルからテキストを抽出し、そのテキストを HTML ファイルに直接保存します。
5. Apache FOP
Apache FOP は PDF ファイルを生成するための Java アプリケーションであり、XSL-FO ファイルを PDF ファイルに変換できます。 Apache FOP は、PDF を HTML に変換するための別のオプションとして、HTML ファイルを PDF ファイルに変換する機能も提供します。
Apache FOP は HTML と XML を適切にサポートしているため、PDF を HTML に変換する場合、まず XML に変換してから、Apache FOP を使用して HTML に変換できます。 XML は単純な構造化テキスト形式であるため、Java パーサーを使用して XML を解析し、HTML に変換するのは非常に簡単です。ただし、Apache FOP を使用して PDF を HTML に処理すると、多くの場合、理想的な結果を得るためにより複雑な構成とインストールが必要になります。
Apache FOP のコード例:
import java.io.File; import java.io.FileOutputStream; import java.io.OutputStream; import javax.xml.transform.Result; import javax.xml.transform.Transformer; import javax.xml.transform.TransformerFactory; import javax.xml.transform.sax.SAXResult; import javax.xml.transform.stream.StreamSource; import org.apache.fop.apps.FOUserAgent; import org.apache.fop.apps.Fop; import org.apache.fop.apps.FopFactory; import org.apache.fop.apps.MimeConstants; public class PDFtoHTML { public static void main(String[] args) throws Exception { File xsltFile = new File("myXslt.xslt"); File xmlFile = new File("myXml.xml"); File htmlFile = new File("myHtml.html"); FopFactory fopFactory = FopFactory.newInstance(); FOUserAgent foUserAgent = fopFactory.newFOUserAgent(); OutputStream out = new FileOutputStream(htmlFile); try { Fop fop = fopFactory.newFop(MimeConstants.MIME_HTML, foUserAgent, out); TransformerFactory factory = TransformerFactory.newInstance(); Transformer transformer = factory.newTransformer(new StreamSource(xsltFile)); Result res = new SAXResult(fop.getDefaultHandler()); transformer.transform(new StreamSource(xmlFile), res); } finally { out.close(); } } }
この例では、FopFactory を使用して Fop インスタンスを開き、XML 入力を PDF に変換し、HTML ファイルを生成します。変換プロセス中に、XSL スタイルシートを使用して HTML 出力を制御することもできます。
6.結論
この記事では、Java を使用して PDF を HTML に変換するための主要なフレームワークと関連 API (PDFBox、iText、Apache FOP など) を紹介します。実際には、自分に合ったライブラリを選択するには、自分のニーズに基づいて総合的に検討する必要があります。テキストを個別に抽出する必要がある場合は、PDFBox の方が適しています。PDF 内のさまざまな要素を選択してエクスポートする必要がある場合は、iText が第一の選択肢です。PDF を完全な HTML に変換したい場合は、Apache FOP がより包括的なソリューションです。 。
実際には、レイアウトの変更、コメントの追加、トラブルシューティングなど、PDF に対してより複雑な操作を実行する必要がある場合は、Adobe Acrobat や完全にカスタマイズされた PDF ビューなど、より高度なツールやテクニックを使用する必要があります。デバイス。ただし、PDF から HTML への変換のほとんどの状況では、Java ライブラリによって提供される PDF から HTML への変換ツールを使用するのが非常に便利です。
以上がPDFをHTMLに変換するにはどうすればよいですか?メソッドの簡単な分析の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。