> Java > java지도 시간 > Apache Tika를 사용하여 ZIP 아카이브 내의 파일에서 콘텐츠를 추출하는 방법은 무엇입니까?

Apache Tika를 사용하여 ZIP 아카이브 내의 파일에서 콘텐츠를 추출하는 방법은 무엇입니까?

Susan Sarandon
풀어 주다: 2024-10-29 06:59:02
원래의
437명이 탐색했습니다.

How to extract content from files within a ZIP archive using Apache Tika?

Apache Tika를 사용하여 Zip에 있는 파일에서 콘텐츠 추출

다음을 사용하여 zip 아카이브에 있는 파일에서 콘텐츠를 읽고 추출해야 하는 요구 사항을 충족하려면 Apache Tika의 경우 현재 코드를 일부 조정해야 합니다. 귀하의 접근 방식은 대체로 정확하지만 문제는 zip의 각 파일에 대한 InputStream을 얻는 데 있습니다.

이 문제를 해결하는 업데이트된 코드 버전은 다음과 같습니다.

<code class="java">import java.io.File;
import java.io.FileInputStream;
import java.io.IOException;
import java.io.InputStream;
import java.util.ArrayList;
import java.util.List;
import java.util.zip.ZipEntry;
import java.util.zip.ZipFile;

import org.apache.tika.exception.TikaException;
import org.apache.tika.metadata.Metadata;
import org.apache.tika.parser.AutoDetectParser;
import org.apache.tika.parser.BodyContentHandler;
import org.apache.tika.parser.ParseContext;
import org.xml.sax.SAXException;

public class SampleZipExtractNew {

    public static void main(String[] args) throws IOException {

        List<String> tempString = new ArrayList<>();
        StringBuffer sbf = new StringBuffer();

        File file = new File("C:\Users\xxx\Desktop\abc.zip");
        ZipFile zipFile = new ZipFile(file);

        Enumeration<? extends ZipEntry> entries = zipFile.entries();

        BodyContentHandler textHandler = new BodyContentHandler();
        Metadata metadata = new Metadata();

        Parser parser = new AutoDetectParser();

        while (entries.hasMoreElements()) {

            ZipEntry entry = entries.nextElement();

            try (InputStream inputStream = zipFile.getInputStream(entry)) {

                if (entry.getName().endsWith(".txt") || entry.getName().endsWith(".pdf") || entry.getName().endsWith(".docx")) {
                    parser.parse(inputStream, textHandler, metadata, new ParseContext());
                    tempString.add(textHandler.toString());
                }
            }
        }

        for (String text : tempString) {
            System.out.println("Apache Tika - Converted input string : " + text);
            sbf.append(text);
            System.out.println("Final text from all the three files " + sbf.toString());
        }
    }
}</code>
로그인 후 복사

이 수정된 버전에서는 코드:

  • 처리할 zip 파일로 ZipFile 인스턴스를 초기화합니다.
  • 각 항목에 대한 액세스를 제공하는 열거를 사용하여 ZIP 파일 항목을 반복합니다.
  • ".txt", ".pdf" 또는 ".docx"로 끝나는 각 항목에 대해 해당 InputStream을 검색합니다.
  • InputStream try-with-resources 블록 내에서 콘텐츠를 구문 분석하고 텍스트를 추출하는 Apache Tika 파서.
  • 추출된 텍스트는 통합 추출을 위해 StringBuffer에 추가하는 등 추가 처리를 위해 목록에 추가됩니다.

위 내용은 Apache Tika를 사용하여 ZIP 아카이브 내의 파일에서 콘텐츠를 추출하는 방법은 무엇입니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

원천:php.cn
본 웹사이트의 성명
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.
저자별 최신 기사
인기 튜토리얼
더>
최신 다운로드
더>
웹 효과
웹사이트 소스 코드
웹사이트 자료
프론트엔드 템플릿