Java と Apache Tika を使用して Zip アーカイブ内のファイルからコンテンツを読み取って抽出する方法
コンテンツを読み取って抽出するタスクの実行Java と Apache Tika を使用して zip アーカイブ内のファイルを作成するには、いくつかの重要な手順が必要です。
1.入力の初期化
まず、処理対象のファイルから入力ストリームを作成します。
<code class="java">InputStream input = new FileInputStream(file);</code>
2. Zip アーカイブを解析する
Zip アーカイブを解析し、個々の ZipEntries を取得するための ZipInputStream を作成します:
<code class="java">ZipInputStream zip = new ZipInputStream(input);</code>
3.ファイル タイプに基づいてコンテンツを抽出
ZipEntries を反復処理し、サポートされているファイル タイプ (.txt、.pdf、.docx など) を持つものを特定します:
<code class="java">while (entry != null) { if (entry.getName().endsWith(".txt") || entry.getName().endsWith(".pdf") || entry.getName().endsWith(".docx")) { // Process the file } entry = zip.getNextEntry(); }</code>
4. Apache Tika を使用したコンテンツの解析
Apache Tika を使用して、特定されたファイルのコンテンツを解析します:
<code class="java">BodyContentHandler textHandler = new BodyContentHandler(); Metadata metadata = new Metadata(); Parser parser = new AutoDetectParser(); parser.parse(input, textHandler, metadata, new ParseContext());</code>
5.テキスト コンテンツの抽出
さらに処理するために、解析されたコンテンツをプレーン テキストに変換します。
<code class="java">System.out.println("Apache Tika - Converted input string : " + textHandler.toString());</code>
結論
次の手順に従って、 Java と Apache Tika を使用すると、zip アーカイブ内の複数のファイルからコンテンツを効率的に読み取り、抽出できます。この機能は、テキストまたはドキュメントベースのデータを含むアーカイブを処理する場合に特に役立ちます。
以上がJava と Apache Tika を使用して ZIP アーカイブ内のファイルからコンテンツを抽出する方法の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。