Cara Membaca dan Mengekstrak Kandungan daripada Fail dalam Arkib Zip Menggunakan Java dan Apache Tika
Mencapai tugas membaca dan mengekstrak kandungan daripada fail dalam arkib zip menggunakan Java dan Apache Tika melibatkan beberapa langkah penting.
1. Mulakan Input
Mulakan dengan mencipta aliran input daripada fail untuk diproses:
<code class="java">InputStream input = new FileInputStream(file);</code>
2. Parse Zip Archive
Buat ZipInputStream untuk menghuraikan arkib zip dan mendapatkan ZipEntries individu:
<code class="java">ZipInputStream zip = new ZipInputStream(input);</code>
3. Ekstrak Kandungan Berdasarkan Jenis Fail
Lelar melalui ZipEntries, mengenal pasti mereka yang mempunyai jenis fail yang disokong (cth., .txt, .pdf, .docx):
<code class="java">while (entry != null) { if (entry.getName().endsWith(".txt") || entry.getName().endsWith(".pdf") || entry.getName().endsWith(".docx")) { // Process the file } entry = zip.getNextEntry(); }</code>
4. Menghuraikan Kandungan Menggunakan Apache Tika
Gunakan Apache Tika untuk menghuraikan kandungan fail yang dikenal pasti:
<code class="java">BodyContentHandler textHandler = new BodyContentHandler(); Metadata metadata = new Metadata(); Parser parser = new AutoDetectParser(); parser.parse(input, textHandler, metadata, new ParseContext());</code>
5. Ekstrak Kandungan Teks
Tukar kandungan yang dihuraikan kepada teks biasa untuk pemprosesan selanjutnya:
<code class="java">System.out.println("Apache Tika - Converted input string : " + textHandler.toString());</code>
Kesimpulan
Dengan mengikuti langkah-langkah ini, anda boleh membaca dan mengekstrak kandungan dengan cekap daripada berbilang fail dalam arkib zip menggunakan Java dan Apache Tika. Fungsi ini amat berguna untuk memproses arkib yang mengandungi data teks atau berasaskan dokumen.
Atas ialah kandungan terperinci Bagaimana untuk Mengekstrak Kandungan daripada Fail dalam Arkib Zip Menggunakan Java dan Apache Tika?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!