> Java > java지도 시간 > 본문

Java API 개발에서 전체 텍스트 검색 처리를 위해 Apache Lucene 사용

WBOY
풀어 주다: 2023-06-18 18:11:05
원래의
1535명이 탐색했습니다.

인터넷 데이터의 양이 증가함에 따라 어떻게 하면 빠르고 정확하게 데이터를 검색할 수 있는지가 중요한 문제가 되었습니다. 이 문제에 대한 대응으로 전체 텍스트 검색 엔진이 등장했습니다. Apache Lucene은 Java 프로그래밍 언어와 통합된 애플리케이션에 적합한 오픈 소스 전체 텍스트 검색 엔진 라이브러리 중 하나입니다. 이 기사에서는 Java API 개발에서 전체 텍스트 검색 처리를 위해 Apache Lucene을 사용하는 방법을 소개합니다.

1. Apache Lucene 소개

Apache Lucene은 모든 기능을 갖춘 고성능의 사용하기 쉬운 Java 기반 검색 엔진 라이브러리입니다. 대량의 텍스트 데이터를 색인화하고 효율적이고 정확하며 빠른 검색 결과를 제공할 수 있습니다. Lucene은 디스크 기반 인덱싱 기술을 사용하여 텍스트 데이터를 여러 단어로 분할한 다음 이를 반전된 인덱스 테이블에 저장합니다. 역인덱스 테이블은 단어와 문서 사이의 관계를 사용하여 단어가 있는 문서를 단어로 가리킵니다. 쿼리 과정에서 역인덱스 테이블은 문서를 단어별로 검색하여 쿼리 결과로 반환합니다.

2. Lucene의 핵심 구성 요소

Lucene은 여러 핵심 구성 요소로 구성됩니다. 이러한 구성 요소는 함께 작동하여 다음을 포함한 고성능 전체 텍스트 검색 엔진을 구현합니다.

  1. Analyzer(Analyzer)

Anaylzer는 텍스트 데이터를 여러 단어로 분할하는 데 사용됩니다. 또한 중지 단어를 필터링하고 대소문자 변환을 수행하는 데에도 사용할 수 있습니다.

  1. IndexWriter(인덱스 작성기)

IndexWriter는 텍스트 데이터를 인덱스 테이블로 변환하고, 반전된 인덱스 테이블을 구축하고, 이를 디스크에 유지하는 데 사용됩니다. 데이터를 검색해야 할 경우, 인덱스 테이블에서 빠르게 데이터를 조회할 수 있습니다.

  1. IndexReader(인덱스 리더)

IndexReader는 디스크에서 인덱스 테이블을 읽어 메모리에 로드하는 데 사용됩니다. 데이터는 메모리에서 로드되므로 데이터 쿼리가 매우 빠릅니다.

  1. Query(Query)

Query는 사용자가 입력한 문자열을 검색 조건으로 변환하여 Lucene 인덱스 테이블에서 빠르게 데이터를 찾는 데 사용됩니다.

3. Lucene을 사용하여 전체 텍스트 검색 구현

  1. Lucene 종속성 소개

Maven은 Java 개발에서 일반적으로 사용되는 종속성 관리 도구입니다. Maven에 다음 Lucene 종속성을 추가하기만 하면 됩니다.

<dependency>
  <groupId>org.apache.lucene</groupId>
  <artifactId>lucene-core</artifactId>
  <version>8.8.2</version>
</dependency>
로그인 후 복사
  1. Create index

IndexWriter를 사용하여 데이터를 인덱스 테이블로 변환합니다. 여기서는 검색 중인 데이터가 데이터베이스나 기타 소스에서 온다고 가정합니다. 이를 텍스트 형식으로 변환하여 IndexWriter에 추가해야 합니다. 다음은 기사 예입니다.

import org.apache.lucene.analysis.cn.smart.SmartChineseAnalyzer;
import org.apache.lucene.document.Document;
import org.apache.lucene.document.Field;
import org.apache.lucene.document.FieldType;
import org.apache.lucene.index.IndexWriter;
import org.apache.lucene.index.IndexWriterConfig;
import org.apache.lucene.index.Term;
import org.apache.lucene.store.Directory;
import org.apache.lucene.store.FSDirectory;
import java.nio.file.Paths;

public class Indexer {

    private IndexWriterConfig indexWriterConfig = new IndexWriterConfig(new SmartChineseAnalyzer());
    private IndexWriter indexWriter;

    public Indexer(String indexPath) {
        try {
            Directory directory = FSDirectory.open(Paths.get(indexPath));
            indexWriter = new IndexWriter(directory, indexWriterConfig);
        } catch (Exception e) {
            e.printStackTrace();
        }
    }

    public void add(String field, String value) {
        try {
            Document doc = new Document();
            FieldType fieldType = new FieldType();
            fieldType.setIndexOptions(FieldInfo.IndexOptions.DOCS_AND_FREQS_AND_POSITIONS_AND_OFFSETS);
            fieldType.setStored(true);
            fieldType.setTokenized(true);
            doc.add(new Field(field, value, fieldType));
            indexWriter.addDocument(doc);
            indexWriter.commit();
        } catch (Exception e) {
            e.printStackTrace();
        }
    }

    public void delete(String field, String value) {
        try {
            indexWriter.deleteDocuments(new Term(field, value));
            indexWriter.commit();
        } catch (Exception e) {
            e.printStackTrace();
        }
    }

    public void close() {
        try {
            indexWriter.close();
        } catch (Exception e) {
            e.printStackTrace();
        }
    }

}
로그인 후 복사

이 클래스에서:

  • 인덱서 생성자에서 IndexWriter 및 Directory를 초기화합니다. 디렉터리는 인덱스 라이브러리의 위치를 ​​나타냅니다.
  • add() 메서드는 인덱스 라이브러리에 텍스트 데이터를 추가하는 데 사용됩니다.
  • delete() 메서드는 인덱스 라이브러리에서 텍스트 데이터를 삭제하는 데 사용됩니다.
  • close() 메소드는 IndexWriter를 최종적으로 닫는 데 사용됩니다.
  1. Search

검색 작업에는 Query 및 IndexReader를 사용하세요. 코드 예는 다음과 같습니다.

import org.apache.lucene.analysis.cn.smart.SmartChineseAnalyzer;
import org.apache.lucene.index.DirectoryReader;
import org.apache.lucene.index.IndexReader;
import org.apache.lucene.index.Term;
import org.apache.lucene.queryparser.classic.MultiFieldQueryParser;
import org.apache.lucene.search.IndexSearcher;
import org.apache.lucene.search.Query;
import org.apache.lucene.search.ScoreDoc;
import org.apache.lucene.search.TopDocs;
import org.apache.lucene.store.Directory;
import org.apache.lucene.store.FSDirectory;
import java.nio.file.Paths;
import java.util.ArrayList;
import java.util.List;

public class Searcher {

    private String[] fields = new String[] {"title", "content"};
    private Query query;
    private IndexReader indexReader;
    private IndexSearcher indexSearcher;

    public Searcher(String indexPath) {
        try {
            Directory directory = FSDirectory.open(Paths.get(indexPath));
            indexReader = DirectoryReader.open(directory);
            indexSearcher = new IndexSearcher(indexReader);
        } catch (Exception e) {
            e.printStackTrace();
        }
    }

    private Query getQuery(String keyword) {
        try {
            if (query == null) {
                query = new MultiFieldQueryParser(fields, new SmartChineseAnalyzer()).parse(keyword);
            }
        } catch (Exception e) {
            e.printStackTrace();
        }
        return query;
    }

    public List<String> search(String keyword) {
        List<String> result = new ArrayList<String>();
        try {
            TopDocs topDocs = indexSearcher.search(getQuery(keyword), 10);
            ScoreDoc[] scoreDocs = topDocs.scoreDocs;
            for (ScoreDoc scoreDoc : scoreDocs) {
                result.add(indexSearcher.doc(scoreDoc.doc).get("title"));
            }
        } catch (Exception e) {
            e.printStackTrace();
        }
        return result;
    }

    public void close() {
        try {
            indexReader.close();
        } catch (Exception e) {
            e.printStackTrace();
        }
    }

}
로그인 후 복사

이 클래스에서는:

  • Searcher 생성자에서 IndexReader 및 IndexSearcher를 초기화합니다.
  • getQuery() 메소드는 사용자가 입력한 검색 조건을 Query 유형으로 변환하는 데 사용됩니다.
  • search() 메서드는 검색에 사용되며 검색 작업을 수행한 후 결과를 반환합니다.
  • close() 메서드는 IndexReader를 최종적으로 닫는 데 사용됩니다.

IV.요약

이 기사에서는 주로 Lucene의 핵심 구성 요소, Lucene의 사용 및 Lucene의 일부 일반적인 클래스의 메서드를 포함하여 Apache Lucene을 통해 전체 텍스트 검색 기능을 구현하는 방법을 소개합니다. 이 기사에서 다루는 클래스와 메서드 외에도 Lucene에는 다양한 필요에 따라 적절하게 조정하고 사용할 수 있는 다른 많은 기능이 있습니다. Apache Lucene은 Java 언어로 된 매우 안정적인 전체 텍스트 검색 엔진 라이브러리로, 다양한 분야에 적합합니다. 학습과 실습을 통해 모든 사람이 실제 애플리케이션에서 Apache Lucene을 더 잘 사용하여 효율적이고 정확하며 빠른 검색 기능을 얻을 수 있다고 믿습니다.

위 내용은 Java API 개발에서 전체 텍스트 검색 처리를 위해 Apache Lucene 사용의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

관련 라벨:
원천:php.cn
본 웹사이트의 성명
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.
인기 튜토리얼
더>
최신 다운로드
더>
웹 효과
웹사이트 소스 코드
웹사이트 자료
프론트엔드 템플릿