Rumah > Java > javaTutorial > teks badan

Bagaimana untuk Mengekstrak Kandungan daripada Fail dalam Arkib Zip Menggunakan Java dan Apache Tika?

DDD
Lepaskan: 2024-10-30 10:31:02
asal
696 orang telah melayarinya

How to Extract Content from Files within a Zip Archive Using Java and Apache Tika?

Cara Membaca dan Mengekstrak Kandungan daripada Fail dalam Arkib Zip Menggunakan Java dan Apache Tika

Mencapai tugas membaca dan mengekstrak kandungan daripada fail dalam arkib zip menggunakan Java dan Apache Tika melibatkan beberapa langkah penting.

1. Mulakan Input

Mulakan dengan mencipta aliran input daripada fail untuk diproses:

<code class="java">InputStream input = new FileInputStream(file);</code>
Salin selepas log masuk

2. Parse Zip Archive

Buat ZipInputStream untuk menghuraikan arkib zip dan mendapatkan ZipEntries individu:

<code class="java">ZipInputStream zip = new ZipInputStream(input);</code>
Salin selepas log masuk

3. Ekstrak Kandungan Berdasarkan Jenis Fail

Lelar melalui ZipEntries, mengenal pasti mereka yang mempunyai jenis fail yang disokong (cth., .txt, .pdf, .docx):

<code class="java">while (entry != null) {
    if (entry.getName().endsWith(".txt") || entry.getName().endsWith(".pdf") || entry.getName().endsWith(".docx")) {
        // Process the file
    }
    entry = zip.getNextEntry();
}</code>
Salin selepas log masuk

4. Menghuraikan Kandungan Menggunakan Apache Tika

Gunakan Apache Tika untuk menghuraikan kandungan fail yang dikenal pasti:

<code class="java">BodyContentHandler textHandler = new BodyContentHandler();
Metadata metadata = new Metadata();
Parser parser = new AutoDetectParser();
parser.parse(input, textHandler, metadata, new ParseContext());</code>
Salin selepas log masuk

5. Ekstrak Kandungan Teks

Tukar kandungan yang dihuraikan kepada teks biasa untuk pemprosesan selanjutnya:

<code class="java">System.out.println("Apache Tika - Converted input string : " + textHandler.toString());</code>
Salin selepas log masuk

Kesimpulan

Dengan mengikuti langkah-langkah ini, anda boleh membaca dan mengekstrak kandungan dengan cekap daripada berbilang fail dalam arkib zip menggunakan Java dan Apache Tika. Fungsi ini amat berguna untuk memproses arkib yang mengandungi data teks atau berasaskan dokumen.

Atas ialah kandungan terperinci Bagaimana untuk Mengekstrak Kandungan daripada Fail dalam Arkib Zip Menggunakan Java dan Apache Tika?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

sumber:php.cn
Kenyataan Laman Web ini
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn
Tutorial Popular
Lagi>
Muat turun terkini
Lagi>
kesan web
Kod sumber laman web
Bahan laman web
Templat hujung hadapan