首頁 > Java > java教程 > 主體

如何使用 Java 和 Apache Tika 從 Zip 檔案中的檔案中提取內容?

DDD
發布: 2024-10-30 10:31:02
原創
681 人瀏覽過

How to Extract Content from Files within a Zip Archive Using Java and Apache Tika?

如何使用Java 和Apache Tika 從Zip 檔案中的檔案讀取和擷取內容

實作從Zip 檔案中讀取和讀取提取內容的任務使用Java 和Apache Tika 壓縮zip 檔案中的檔案涉及幾個關鍵步驟。

1.初始化輸入

首先從要處理的文件創建輸入流:

<code class="java">InputStream input = new FileInputStream(file);</code>
登入後複製

2.解析Zip 存檔

建立ZipInputStream 來解析zip 檔案並取得各個ZipEntries:

<code class="java">ZipInputStream zip = new ZipInputStream(input);</code>
登入後複製

3.依照檔案類型擷取內容

3.依照檔案類型擷取內容

<code class="java">while (entry != null) {
    if (entry.getName().endsWith(".txt") || entry.getName().endsWith(".pdf") || entry.getName().endsWith(".docx")) {
        // Process the file
    }
    entry = zip.getNextEntry();
}</code>
登入後複製
4.使用Apache Tika 解析內容

<code class="java">BodyContentHandler textHandler = new BodyContentHandler();
Metadata metadata = new Metadata();
Parser parser = new AutoDetectParser();
parser.parse(input, textHandler, metadata, new ParseContext());</code>
登入後複製
使用Apache Tika 解析所識別文件的內容:

5.提取文字內容

<code class="java">System.out.println("Apache Tika - Converted input string : " + textHandler.toString());</code>
登入後複製
將解析的內容轉換為純文字以進行進一步處理:

結論

按照以下步驟,您可以使用Java 和Apache Tika 有效地讀取zip 存檔中的多個檔案並提取內容。此功能對於處理包含文字或基於文件的資料的檔案特別有用。

以上是如何使用 Java 和 Apache Tika 從 Zip 檔案中的檔案中提取內容?的詳細內容。更多資訊請關注PHP中文網其他相關文章!

來源:php.cn
本網站聲明
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn
熱門教學
更多>
最新下載
更多>
網站特效
網站源碼
網站素材
前端模板