Apache Tika を使用して、ZIP アーカイブ内のさまざまなファイルタイプからコンテンツを抽出して処理するにはどうすればよいですか?-＆＃＆チュートリアル-php.cn

Apache Tika を使用して、ZIP アーカイブ内のさまざまなファイルタイプからコンテンツを抽出して処理するにはどうすればよいですか?

DDD

リリース： 2024-11-01 13:34:29

オリジナル

759 人が閲覧しました

How can I use Apache Tika to extract and process content from different file types within a ZIP archive?

Apache Tika を使用して Zip アーカイブ内のファイルからコンテンツを読み取る

問題:
複数のファイルタイプのコンテンツを抽出して処理する ( .txt、.pdf、.docx) を Apache Tika を使用して ZIP アーカイブ内に保存します。

解決策:

1. ZipFile オブジェクトを作成します:
ZIP アーカイブを表す ZipFile オブジェクトをインスタンス化し、ZipEntry オブジェクトの列挙を取得します:

<code class="java">ZipFile zipFile = new ZipFile("C:/test.zip");
Enumeration<? extends ZipEntry> entries = zipFile.entries();</code>

ログイン後にコピー

2.エントリを反復処理します:
列挙内の各 ZipEntry をループします:

<code class="java">while (entries.hasMoreElements()) {
    ZipEntry entry = entries.nextElement();
}</code>

ログイン後にコピー

3.ファイルコンテンツの取得:
各 ZipEntry について、そのコンテンツへの InputStream を取得します:

<code class="java">InputStream stream = zipFile.getInputStream(entry);</code>

ログイン後にコピー

4. Apache Tika を使用したファイルコンテンツの解析:
Apache Tika を使用しているため、新しい Tika インスタンスを作成し、その解析メソッドを使用してファイルコンテンツを抽出します:

<code class="java">Tika tika = new Tika();
String content = tika.parseToString(stream);</code>

ログイン後にコピー

5 。抽出されたコンテンツの処理:

<code class="java">// Process your extracted content here...</code>

ログイン後にコピー

メモ:

以上がApache Tika を使用して、ZIP アーカイブ内のさまざまなファイルタイプからコンテンツを抽出して処理するにはどうすればよいですか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。