Problème :
Extraire et traiter le contenu de plusieurs types de fichiers ( .txt, .pdf, .docx) dans une archive ZIP à l'aide d'Apache Tika.
Solution :
1. Créer un objet ZipFile :
Instancier un objet ZipFile pour représenter l'archive ZIP et obtenir une énumération d'objets ZipEntry :
<code class="java">ZipFile zipFile = new ZipFile("C:/test.zip"); Enumeration<? extends ZipEntry> entries = zipFile.entries();</code>
2. Parcourez les entrées :
Parcourez chaque ZipEntry dans l'énumération :
<code class="java">while (entries.hasMoreElements()) { ZipEntry entry = entries.nextElement(); }</code>
3. Obtenir le contenu du fichier :
Pour chaque ZipEntry, obtenez un InputStream vers son contenu :
<code class="java">InputStream stream = zipFile.getInputStream(entry);</code>
4. Analyser le contenu du fichier à l'aide d'Apache Tika :
Puisque vous utilisez Apache Tika, créez une nouvelle instance Tika et utilisez ses méthodes d'analyse pour extraire le contenu du fichier :
<code class="java">Tika tika = new Tika(); String content = tika.parseToString(stream);</code>
5 . Traiter le contenu extrait :
<code class="java">// Process your extracted content here...</code>
Remarques :
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!