問題:
擷取並處理多種檔案類型的內容(使用Apache Tika 的ZIP 檔案中的.txt、.pdf、.docx)。
解決方案:
1.建立ZipFile 物件:
實例化ZipFile 物件來表示ZIP 存檔並取得ZipEntry 的枚舉:
<code class="java">ZipFile zipFile = new ZipFile("C:/test.zip"); Enumeration<? extends ZipEntry> entries = zipFile.entries();</code>
2.迭代條目:
循環遍歷枚舉中的每個ZipEntry:
<code class="java">while (entries.hasMoreElements()) { ZipEntry entry = entries.nextElement(); }</code>
3.取得🎜>
<code class="java">InputStream stream = zipFile.getInputStream(entry);</code>
對於每個ZipEntry,獲取其內容的InputStream:
<code class="java">Tika tika = new Tika(); String content = tika.parseToString(stream);</code>
由於您使用Apache Tika 解析文件內容:由於您使用的是Apache Tika,因此建立一個新的Tika 實例並使用其解析方法來提取檔案內容:
<code class="java">// Process your extracted content here...</code>
5 。處理擷取的內容:
以上是如何使用 Apache Tika 提取和處理 ZIP 檔案中不同文件類型的內容?的詳細內容。更多資訊請關注PHP中文網其他相關文章!