Comment lire et extraire le contenu de fichiers dans une archive Zip à l'aide de Java et Apache Tika
Réaliser la tâche de lecture et d'extraction de contenu de Les fichiers dans une archive zip utilisant Java et Apache Tika impliquent quelques étapes clés.
1. Initialiser l'entrée
Commencez par créer un flux d'entrée à partir du fichier à traiter :
<code class="java">InputStream input = new FileInputStream(file);</code>
2. Parse Zip Archive
Créez un ZipInputStream pour analyser l'archive zip et obtenir des ZipEntries individuelles :
<code class="java">ZipInputStream zip = new ZipInputStream(input);</code>
3. Extraire le contenu en fonction du type de fichier
Parcourir les ZipEntries, en identifiant celles dont les types de fichiers sont pris en charge (par exemple, .txt, .pdf, .docx) :
<code class="java">while (entry != null) { if (entry.getName().endsWith(".txt") || entry.getName().endsWith(".pdf") || entry.getName().endsWith(".docx")) { // Process the file } entry = zip.getNextEntry(); }</code>
4. Analyser le contenu à l'aide d'Apache Tika
Utilisez Apache Tika pour analyser le contenu des fichiers identifiés :
<code class="java">BodyContentHandler textHandler = new BodyContentHandler(); Metadata metadata = new Metadata(); Parser parser = new AutoDetectParser(); parser.parse(input, textHandler, metadata, new ParseContext());</code>
5. Extraire le contenu textuel
Convertir le contenu analysé en texte brut pour un traitement ultérieur :
<code class="java">System.out.println("Apache Tika - Converted input string : " + textHandler.toString());</code>
Conclusion
En suivant ces étapes, vous pouvez lire et extraire efficacement le contenu de plusieurs fichiers dans une archive zip à l'aide de Java et Apache Tika. Cette fonctionnalité est particulièrement utile pour traiter des archives contenant des données textuelles ou documentaires.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!