ホームページ > Java > &#&チュートリアル > Java と Apache Tika を使用して ZIP アーカイブ内のファイルからコンテンツを抽出する方法

Java と Apache Tika を使用して ZIP アーカイブ内のファイルからコンテンツを抽出する方法

DDD
リリース: 2024-10-30 10:31:02
オリジナル
723 人が閲覧しました

How to Extract Content from Files within a Zip Archive Using Java and Apache Tika?

Java と Apache Tika を使用して Zip アーカイブ内のファイルからコンテンツを読み取って抽出する方法

コンテンツを読み取って抽出するタスクの実行Java と Apache Tika を使用して zip アーカイブ内のファイルを作成するには、いくつかの重要な手順が必要です。

1.入力の初期化

まず、処理対象のファイルから入力ストリームを作成します。

<code class="java">InputStream input = new FileInputStream(file);</code>
ログイン後にコピー

2. Zip アーカイブを解析する

Zip アーカイブを解析し、個々の ZipEntries を取得するための ZipInputStream を作成します:

<code class="java">ZipInputStream zip = new ZipInputStream(input);</code>
ログイン後にコピー

3.ファイル タイプに基づいてコンテンツを抽出

ZipEntries を反復処理し、サポートされているファイル タイプ (.txt、.pdf、.docx など) を持つものを特定します:

<code class="java">while (entry != null) {
    if (entry.getName().endsWith(".txt") || entry.getName().endsWith(".pdf") || entry.getName().endsWith(".docx")) {
        // Process the file
    }
    entry = zip.getNextEntry();
}</code>
ログイン後にコピー

4. Apache Tika を使用したコンテンツの解析

Apache Tika を使用して、特定されたファイルのコンテンツを解析します:

<code class="java">BodyContentHandler textHandler = new BodyContentHandler();
Metadata metadata = new Metadata();
Parser parser = new AutoDetectParser();
parser.parse(input, textHandler, metadata, new ParseContext());</code>
ログイン後にコピー

5.テキスト コンテンツの抽出

さらに処理するために、解析されたコンテンツをプレーン テキストに変換します。

<code class="java">System.out.println("Apache Tika - Converted input string : " + textHandler.toString());</code>
ログイン後にコピー

結論

次の手順に従って、 Java と Apache Tika を使用すると、zip アーカイブ内の複数のファイルからコンテンツを効率的に読み取り、抽出できます。この機能は、テキストまたはドキュメントベースのデータを含むアーカイブを処理する場合に特に役立ちます。

以上がJava と Apache Tika を使用して ZIP アーカイブ内のファイルからコンテンツを抽出する方法の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

ソース:php.cn
このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。
人気のチュートリアル
詳細>
最新のダウンロード
詳細>
ウェブエフェクト
公式サイト
サイト素材
フロントエンドテンプレート