Java java지도 시간 Java API 개발에서 전체 텍스트 검색 처리를 위해 Apache Lucene 사용

Java API 개발에서 전체 텍스트 검색 처리를 위해 Apache Lucene 사용

Jun 18, 2023 pm 06:11 PM
java api lucene

인터넷 데이터의 양이 증가함에 따라 어떻게 하면 빠르고 정확하게 데이터를 검색할 수 있는지가 중요한 문제가 되었습니다. 이 문제에 대한 대응으로 전체 텍스트 검색 엔진이 등장했습니다. Apache Lucene은 Java 프로그래밍 언어와 통합된 애플리케이션에 적합한 오픈 소스 전체 텍스트 검색 엔진 라이브러리 중 하나입니다. 이 기사에서는 Java API 개발에서 전체 텍스트 검색 처리를 위해 Apache Lucene을 사용하는 방법을 소개합니다.

1. Apache Lucene 소개

Apache Lucene은 모든 기능을 갖춘 고성능의 사용하기 쉬운 Java 기반 검색 엔진 라이브러리입니다. 대량의 텍스트 데이터를 색인화하고 효율적이고 정확하며 빠른 검색 결과를 제공할 수 있습니다. Lucene은 디스크 기반 인덱싱 기술을 사용하여 텍스트 데이터를 여러 단어로 분할한 다음 이를 반전된 인덱스 테이블에 저장합니다. 역인덱스 테이블은 단어와 문서 사이의 관계를 사용하여 단어가 있는 문서를 단어로 가리킵니다. 쿼리 과정에서 역인덱스 테이블은 문서를 단어별로 검색하여 쿼리 결과로 반환합니다.

2. Lucene의 핵심 구성 요소

Lucene은 여러 핵심 구성 요소로 구성됩니다. 이러한 구성 요소는 함께 작동하여 다음을 포함한 고성능 전체 텍스트 검색 엔진을 구현합니다.

  1. Analyzer(Analyzer)

Anaylzer는 텍스트 데이터를 여러 단어로 분할하는 데 사용됩니다. 또한 중지 단어를 필터링하고 대소문자 변환을 수행하는 데에도 사용할 수 있습니다.

  1. IndexWriter(인덱스 작성기)

IndexWriter는 텍스트 데이터를 인덱스 테이블로 변환하고, 반전된 인덱스 테이블을 구축하고, 이를 디스크에 유지하는 데 사용됩니다. 데이터를 검색해야 할 경우, 인덱스 테이블에서 빠르게 데이터를 조회할 수 있습니다.

  1. IndexReader(인덱스 리더)

IndexReader는 디스크에서 인덱스 테이블을 읽어 메모리에 로드하는 데 사용됩니다. 데이터는 메모리에서 로드되므로 데이터 쿼리가 매우 빠릅니다.

  1. Query(Query)

Query는 사용자가 입력한 문자열을 검색 조건으로 변환하여 Lucene 인덱스 테이블에서 빠르게 데이터를 찾는 데 사용됩니다.

3. Lucene을 사용하여 전체 텍스트 검색 구현

  1. Lucene 종속성 소개

Maven은 Java 개발에서 일반적으로 사용되는 종속성 관리 도구입니다. Maven에 다음 Lucene 종속성을 추가하기만 하면 됩니다.

<dependency>
  <groupId>org.apache.lucene</groupId>
  <artifactId>lucene-core</artifactId>
  <version>8.8.2</version>
</dependency>
로그인 후 복사
  1. Create index

IndexWriter를 사용하여 데이터를 인덱스 테이블로 변환합니다. 여기서는 검색 중인 데이터가 데이터베이스나 기타 소스에서 온다고 가정합니다. 이를 텍스트 형식으로 변환하여 IndexWriter에 추가해야 합니다. 다음은 기사 예입니다.

import org.apache.lucene.analysis.cn.smart.SmartChineseAnalyzer;
import org.apache.lucene.document.Document;
import org.apache.lucene.document.Field;
import org.apache.lucene.document.FieldType;
import org.apache.lucene.index.IndexWriter;
import org.apache.lucene.index.IndexWriterConfig;
import org.apache.lucene.index.Term;
import org.apache.lucene.store.Directory;
import org.apache.lucene.store.FSDirectory;
import java.nio.file.Paths;

public class Indexer {

    private IndexWriterConfig indexWriterConfig = new IndexWriterConfig(new SmartChineseAnalyzer());
    private IndexWriter indexWriter;

    public Indexer(String indexPath) {
        try {
            Directory directory = FSDirectory.open(Paths.get(indexPath));
            indexWriter = new IndexWriter(directory, indexWriterConfig);
        } catch (Exception e) {
            e.printStackTrace();
        }
    }

    public void add(String field, String value) {
        try {
            Document doc = new Document();
            FieldType fieldType = new FieldType();
            fieldType.setIndexOptions(FieldInfo.IndexOptions.DOCS_AND_FREQS_AND_POSITIONS_AND_OFFSETS);
            fieldType.setStored(true);
            fieldType.setTokenized(true);
            doc.add(new Field(field, value, fieldType));
            indexWriter.addDocument(doc);
            indexWriter.commit();
        } catch (Exception e) {
            e.printStackTrace();
        }
    }

    public void delete(String field, String value) {
        try {
            indexWriter.deleteDocuments(new Term(field, value));
            indexWriter.commit();
        } catch (Exception e) {
            e.printStackTrace();
        }
    }

    public void close() {
        try {
            indexWriter.close();
        } catch (Exception e) {
            e.printStackTrace();
        }
    }

}
로그인 후 복사

이 클래스에서:

  • 인덱서 생성자에서 IndexWriter 및 Directory를 초기화합니다. 디렉터리는 인덱스 라이브러리의 위치를 ​​나타냅니다.
  • add() 메서드는 인덱스 라이브러리에 텍스트 데이터를 추가하는 데 사용됩니다.
  • delete() 메서드는 인덱스 라이브러리에서 텍스트 데이터를 삭제하는 데 사용됩니다.
  • close() 메소드는 IndexWriter를 최종적으로 닫는 데 사용됩니다.
  1. Search

검색 작업에는 Query 및 IndexReader를 사용하세요. 코드 예는 다음과 같습니다.

import org.apache.lucene.analysis.cn.smart.SmartChineseAnalyzer;
import org.apache.lucene.index.DirectoryReader;
import org.apache.lucene.index.IndexReader;
import org.apache.lucene.index.Term;
import org.apache.lucene.queryparser.classic.MultiFieldQueryParser;
import org.apache.lucene.search.IndexSearcher;
import org.apache.lucene.search.Query;
import org.apache.lucene.search.ScoreDoc;
import org.apache.lucene.search.TopDocs;
import org.apache.lucene.store.Directory;
import org.apache.lucene.store.FSDirectory;
import java.nio.file.Paths;
import java.util.ArrayList;
import java.util.List;

public class Searcher {

    private String[] fields = new String[] {"title", "content"};
    private Query query;
    private IndexReader indexReader;
    private IndexSearcher indexSearcher;

    public Searcher(String indexPath) {
        try {
            Directory directory = FSDirectory.open(Paths.get(indexPath));
            indexReader = DirectoryReader.open(directory);
            indexSearcher = new IndexSearcher(indexReader);
        } catch (Exception e) {
            e.printStackTrace();
        }
    }

    private Query getQuery(String keyword) {
        try {
            if (query == null) {
                query = new MultiFieldQueryParser(fields, new SmartChineseAnalyzer()).parse(keyword);
            }
        } catch (Exception e) {
            e.printStackTrace();
        }
        return query;
    }

    public List<String> search(String keyword) {
        List<String> result = new ArrayList<String>();
        try {
            TopDocs topDocs = indexSearcher.search(getQuery(keyword), 10);
            ScoreDoc[] scoreDocs = topDocs.scoreDocs;
            for (ScoreDoc scoreDoc : scoreDocs) {
                result.add(indexSearcher.doc(scoreDoc.doc).get("title"));
            }
        } catch (Exception e) {
            e.printStackTrace();
        }
        return result;
    }

    public void close() {
        try {
            indexReader.close();
        } catch (Exception e) {
            e.printStackTrace();
        }
    }

}
로그인 후 복사

이 클래스에서는:

  • Searcher 생성자에서 IndexReader 및 IndexSearcher를 초기화합니다.
  • getQuery() 메소드는 사용자가 입력한 검색 조건을 Query 유형으로 변환하는 데 사용됩니다.
  • search() 메서드는 검색에 사용되며 검색 작업을 수행한 후 결과를 반환합니다.
  • close() 메서드는 IndexReader를 최종적으로 닫는 데 사용됩니다.

IV.요약

이 기사에서는 주로 Lucene의 핵심 구성 요소, Lucene의 사용 및 Lucene의 일부 일반적인 클래스의 메서드를 포함하여 Apache Lucene을 통해 전체 텍스트 검색 기능을 구현하는 방법을 소개합니다. 이 기사에서 다루는 클래스와 메서드 외에도 Lucene에는 다양한 필요에 따라 적절하게 조정하고 사용할 수 있는 다른 많은 기능이 있습니다. Apache Lucene은 Java 언어로 된 매우 안정적인 전체 텍스트 검색 엔진 라이브러리로, 다양한 분야에 적합합니다. 학습과 실습을 통해 모든 사람이 실제 애플리케이션에서 Apache Lucene을 더 잘 사용하여 효율적이고 정확하며 빠른 검색 기능을 얻을 수 있다고 믿습니다.

위 내용은 Java API 개발에서 전체 텍스트 검색 처리를 위해 Apache Lucene 사용의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

본 웹사이트의 성명
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.

핫 AI 도구

Undresser.AI Undress

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

Clothoff.io

AI 옷 제거제

AI Hentai Generator

AI Hentai Generator

AI Hentai를 무료로 생성하십시오.

인기 기사

R.E.P.O. 에너지 결정과 그들이하는 일 (노란색 크리스탈)
3 몇 주 전 By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. 최고의 그래픽 설정
3 몇 주 전 By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. 아무도들을 수없는 경우 오디오를 수정하는 방법
3 몇 주 전 By 尊渡假赌尊渡假赌尊渡假赌
WWE 2K25 : Myrise에서 모든 것을 잠금 해제하는 방법
4 몇 주 전 By 尊渡假赌尊渡假赌尊渡假赌

뜨거운 도구

메모장++7.3.1

메모장++7.3.1

사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전

SublimeText3 중국어 버전

중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기

스튜디오 13.0.1 보내기

강력한 PHP 통합 개발 환경

드림위버 CS6

드림위버 CS6

시각적 웹 개발 도구

SublimeText3 Mac 버전

SublimeText3 Mac 버전

신 수준의 코드 편집 소프트웨어(SublimeText3)

자바의 완전수 자바의 완전수 Aug 30, 2024 pm 04:28 PM

Java의 완전수 가이드. 여기서는 정의, Java에서 완전 숫자를 확인하는 방법, 코드 구현 예제에 대해 논의합니다.

Java의 난수 생성기 Java의 난수 생성기 Aug 30, 2024 pm 04:27 PM

Java의 난수 생성기 안내. 여기서는 예제를 통해 Java의 함수와 예제를 통해 두 가지 다른 생성기에 대해 설명합니다.

자바의 웨카 자바의 웨카 Aug 30, 2024 pm 04:28 PM

Java의 Weka 가이드. 여기에서는 소개, weka java 사용 방법, 플랫폼 유형 및 장점을 예제와 함께 설명합니다.

Java의 스미스 번호 Java의 스미스 번호 Aug 30, 2024 pm 04:28 PM

Java의 Smith Number 가이드. 여기서는 정의, Java에서 스미스 번호를 확인하는 방법에 대해 논의합니다. 코드 구현의 예.

Java Spring 인터뷰 질문 Java Spring 인터뷰 질문 Aug 30, 2024 pm 04:29 PM

이 기사에서는 가장 많이 묻는 Java Spring 면접 질문과 자세한 답변을 보관했습니다. 그래야 면접에 합격할 수 있습니다.

Java 8 Stream foreach에서 나누거나 돌아 오시겠습니까? Java 8 Stream foreach에서 나누거나 돌아 오시겠습니까? Feb 07, 2025 pm 12:09 PM

Java 8은 스트림 API를 소개하여 데이터 컬렉션을 처리하는 강력하고 표현적인 방법을 제공합니다. 그러나 스트림을 사용할 때 일반적인 질문은 다음과 같은 것입니다. 기존 루프는 조기 중단 또는 반환을 허용하지만 스트림의 Foreach 메소드는이 방법을 직접 지원하지 않습니다. 이 기사는 이유를 설명하고 스트림 처리 시스템에서 조기 종료를 구현하기위한 대체 방법을 탐색합니다. 추가 읽기 : Java Stream API 개선 스트림 foreach를 이해하십시오 Foreach 메소드는 스트림의 각 요소에서 하나의 작업을 수행하는 터미널 작동입니다. 디자인 의도입니다

Java의 날짜까지의 타임스탬프 Java의 날짜까지의 타임스탬프 Aug 30, 2024 pm 04:28 PM

Java의 TimeStamp to Date 안내. 여기서는 소개와 예제와 함께 Java에서 타임스탬프를 날짜로 변환하는 방법에 대해서도 설명합니다.

미래를 창조하세요: 완전 초보자를 위한 Java 프로그래밍 미래를 창조하세요: 완전 초보자를 위한 Java 프로그래밍 Oct 13, 2024 pm 01:32 PM

Java는 초보자와 숙련된 개발자 모두가 배울 수 있는 인기 있는 프로그래밍 언어입니다. 이 튜토리얼은 기본 개념부터 시작하여 고급 주제를 통해 진행됩니다. Java Development Kit를 설치한 후 간단한 "Hello, World!" 프로그램을 작성하여 프로그래밍을 연습할 수 있습니다. 코드를 이해한 후 명령 프롬프트를 사용하여 프로그램을 컴파일하고 실행하면 "Hello, World!"가 콘솔에 출력됩니다. Java를 배우면 프로그래밍 여정이 시작되고, 숙달이 깊어짐에 따라 더 복잡한 애플리케이션을 만들 수 있습니다.

See all articles