Apache Tika를 사용하여 ZIP 아카이브 내의 파일에서 콘텐츠를 추출하는 방법은 무엇입니까?-java지도 시간-php.cn

Apache Tika를 사용하여 ZIP 아카이브 내의 파일에서 콘텐츠를 추출하는 방법은 무엇입니까?

Susan Sarandon

풀어 주다： 2024-10-29 06:59:02

원래의

512명이 탐색했습니다.

How to extract content from files within a ZIP archive using Apache Tika?

Apache Tika를 사용하여 Zip에 있는 파일에서 콘텐츠 추출

다음을 사용하여 zip 아카이브에 있는 파일에서 콘텐츠를 읽고 추출해야 하는 요구 사항을 충족하려면 Apache Tika의 경우 현재 코드를 일부 조정해야 합니다. 귀하의 접근 방식은 대체로 정확하지만 문제는 zip의 각 파일에 대한 InputStream을 얻는 데 있습니다.

이 문제를 해결하는 업데이트된 코드 버전은 다음과 같습니다.

<code class="java">import java.io.File;
import java.io.FileInputStream;
import java.io.IOException;
import java.io.InputStream;
import java.util.ArrayList;
import java.util.List;
import java.util.zip.ZipEntry;
import java.util.zip.ZipFile;

import org.apache.tika.exception.TikaException;
import org.apache.tika.metadata.Metadata;
import org.apache.tika.parser.AutoDetectParser;
import org.apache.tika.parser.BodyContentHandler;
import org.apache.tika.parser.ParseContext;
import org.xml.sax.SAXException;

public class SampleZipExtractNew {

    public static void main(String[] args) throws IOException {

        List<String> tempString = new ArrayList<>();
        StringBuffer sbf = new StringBuffer();

        File file = new File("C:\Users\xxx\Desktop\abc.zip");
        ZipFile zipFile = new ZipFile(file);

        Enumeration<? extends ZipEntry> entries = zipFile.entries();

        BodyContentHandler textHandler = new BodyContentHandler();
        Metadata metadata = new Metadata();

        Parser parser = new AutoDetectParser();

        while (entries.hasMoreElements()) {

            ZipEntry entry = entries.nextElement();

            try (InputStream inputStream = zipFile.getInputStream(entry)) {

                if (entry.getName().endsWith(".txt") || entry.getName().endsWith(".pdf") || entry.getName().endsWith(".docx")) {
                    parser.parse(inputStream, textHandler, metadata, new ParseContext());
                    tempString.add(textHandler.toString());
                }
            }
        }

        for (String text : tempString) {
            System.out.println("Apache Tika - Converted input string : " + text);
            sbf.append(text);
            System.out.println("Final text from all the three files " + sbf.toString());
        }
    }
}</code>

로그인 후 복사

이 수정된 버전에서는 코드: