Maison > Java > javaDidacticiel > le corps du texte

Comment extraire le contenu de fichiers dans une archive Zip à l'aide de Java et Apache Tika ?

DDD
Libérer: 2024-10-30 10:31:02
original
683 Les gens l'ont consulté

How to Extract Content from Files within a Zip Archive Using Java and Apache Tika?

Comment lire et extraire le contenu de fichiers dans une archive Zip à l'aide de Java et Apache Tika

Réaliser la tâche de lecture et d'extraction de contenu de Les fichiers dans une archive zip utilisant Java et Apache Tika impliquent quelques étapes clés.

1. Initialiser l'entrée

Commencez par créer un flux d'entrée à partir du fichier à traiter :

<code class="java">InputStream input = new FileInputStream(file);</code>
Copier après la connexion

2. Parse Zip Archive

Créez un ZipInputStream pour analyser l'archive zip et obtenir des ZipEntries individuelles :

<code class="java">ZipInputStream zip = new ZipInputStream(input);</code>
Copier après la connexion

3. Extraire le contenu en fonction du type de fichier

Parcourir les ZipEntries, en identifiant celles dont les types de fichiers sont pris en charge (par exemple, .txt, .pdf, .docx) :

<code class="java">while (entry != null) {
    if (entry.getName().endsWith(".txt") || entry.getName().endsWith(".pdf") || entry.getName().endsWith(".docx")) {
        // Process the file
    }
    entry = zip.getNextEntry();
}</code>
Copier après la connexion

4. Analyser le contenu à l'aide d'Apache Tika

Utilisez Apache Tika pour analyser le contenu des fichiers identifiés :

<code class="java">BodyContentHandler textHandler = new BodyContentHandler();
Metadata metadata = new Metadata();
Parser parser = new AutoDetectParser();
parser.parse(input, textHandler, metadata, new ParseContext());</code>
Copier après la connexion

5. Extraire le contenu textuel

Convertir le contenu analysé en texte brut pour un traitement ultérieur :

<code class="java">System.out.println("Apache Tika - Converted input string : " + textHandler.toString());</code>
Copier après la connexion

Conclusion

En suivant ces étapes, vous pouvez lire et extraire efficacement le contenu de plusieurs fichiers dans une archive zip à l'aide de Java et Apache Tika. Cette fonctionnalité est particulièrement utile pour traiter des archives contenant des données textuelles ou documentaires.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

source:php.cn
Déclaration de ce site Web
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn
Tutoriels populaires
Plus>
Derniers téléchargements
Plus>
effets Web
Code source du site Web
Matériel du site Web
Modèle frontal