Java 및 Apache Tika를 사용하여 Zip 아카이브 내의 파일에서 콘텐츠를 추출하는 방법은 무엇입니까?-java지도 시간-php.cn

Java 및 Apache Tika를 사용하여 Zip 아카이브 내의 파일에서 콘텐츠를 추출하는 방법은 무엇입니까?

DDD

풀어 주다： 2024-10-30 10:31:02

원래의

807명이 탐색했습니다.

How to Extract Content from Files within a Zip Archive Using Java and Apache Tika?

Java 및 Apache Tika를 사용하여 Zip 아카이브 내의 파일에서 콘텐츠를 읽고 추출하는 방법

Zip 아카이브에서 콘텐츠를 읽고 추출하는 작업 수행 Java 및 Apache Tika를 사용하여 zip 아카이브 내의 파일을 저장하려면 몇 가지 주요 단계가 필요합니다.

1. 입력 초기화

처리할 파일에서 입력 스트림을 생성하여 시작합니다.

<code class="java">InputStream input = new FileInputStream(file);</code>

로그인 후 복사

2. Zip 아카이브 구문 분석

Zip 아카이브를 구문 분석하고 개별 ZipEntries를 얻기 위해 ZipInputStream을 생성합니다:

<code class="java">ZipInputStream zip = new ZipInputStream(input);</code>

로그인 후 복사

3. 파일 형식을 기준으로 콘텐츠 추출

ZipEntries를 반복하여 지원되는 파일 형식(예: .txt, .pdf, .docx)을 식별합니다.

<code class="java">while (entry != null) {
    if (entry.getName().endsWith(".txt") || entry.getName().endsWith(".pdf") || entry.getName().endsWith(".docx")) {
        // Process the file
    }
    entry = zip.getNextEntry();
}</code>

로그인 후 복사

4. Apache Tika를 사용하여 콘텐츠 구문 분석

Apache Tika를 사용하여 식별된 파일의 콘텐츠를 구문 분석합니다.

<code class="java">BodyContentHandler textHandler = new BodyContentHandler();
Metadata metadata = new Metadata();
Parser parser = new AutoDetectParser();
parser.parse(input, textHandler, metadata, new ParseContext());</code>

로그인 후 복사

5. 텍스트 콘텐츠 추출

추가 처리를 위해 구문 분석된 콘텐츠를 일반 텍스트로 변환합니다.

<code class="java">System.out.println("Apache Tika - Converted input string : " + textHandler.toString());</code>

로그인 후 복사

결론

다음 단계를 따르면, Java 및 Apache Tika를 사용하여 zip 아카이브 내의 여러 파일에서 콘텐츠를 효율적으로 읽고 추출할 수 있습니다. 이 기능은 텍스트 또는 문서 기반 데이터가 포함된 아카이브를 처리하는 데 특히 유용합니다.

위 내용은 Java 및 Apache Tika를 사용하여 Zip 아카이브 내의 파일에서 콘텐츠를 추출하는 방법은 무엇입니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!