如何使用Java 和Apache Tika 從Zip 檔案中的檔案讀取和擷取內容
實作從Zip 檔案中讀取和讀取提取內容的任務使用Java 和Apache Tika 壓縮zip 檔案中的檔案涉及幾個關鍵步驟。
1.初始化輸入
首先從要處理的文件創建輸入流:
<code class="java">InputStream input = new FileInputStream(file);</code>
2.解析Zip 存檔
建立ZipInputStream 來解析zip 檔案並取得各個ZipEntries:
<code class="java">ZipInputStream zip = new ZipInputStream(input);</code>
3.依照檔案類型擷取內容
3.依照檔案類型擷取內容
<code class="java">while (entry != null) { if (entry.getName().endsWith(".txt") || entry.getName().endsWith(".pdf") || entry.getName().endsWith(".docx")) { // Process the file } entry = zip.getNextEntry(); }</code>
<code class="java">BodyContentHandler textHandler = new BodyContentHandler(); Metadata metadata = new Metadata(); Parser parser = new AutoDetectParser(); parser.parse(input, textHandler, metadata, new ParseContext());</code>
5.提取文字內容
<code class="java">System.out.println("Apache Tika - Converted input string : " + textHandler.toString());</code>
結論按照以下步驟,您可以使用Java 和Apache Tika 有效地讀取zip 存檔中的多個檔案並提取內容。此功能對於處理包含文字或基於文件的資料的檔案特別有用。
以上是如何使用 Java 和 Apache Tika 從 Zip 檔案中的檔案中提取內容?的詳細內容。更多資訊請關注PHP中文網其他相關文章!