이 글에서는 주로 IKAnalyzer 단어 분할기를 사용하여 확장 사전을 사용자 정의하는 방법을 소개합니다.
IKAnalyzer 전체 배포 패키지를 다운로드한 후 IK 분석기 설치 패키지에는
1 "IKAnalyzer Chinese Word Segmenter V2012 사용자 설명서"
2(기본 jar) 패키지)
3. IKAnalyzer.cfg.xml(단어 분할기 확장 구성 파일)
4. stopword.dic(사전 중지)
5(apache 저작권 설명) ) # 🎜🎜# 설치 및 배포는 매우 간단합니다. 프로젝트의 lib 디렉터리에 IKAnalyzer2012.jar을 배포하고
IKAnalyzer.cfg.xml 및 stopword.dic 파일은 클래스 루트 디렉터리에 배치됩니다(웹 프로젝트의 경우). , 일반적으로 #🎜 🎜#WEB-INF/classes 디렉터리이며 최대 절전 모드, log4j 및 기타 구성 파일과 동일합니다.
사용자 정의 사전을 확장하려면 IKAnalyzer.cfg.xml
을 열고 확장된 사전의 설명을 제거합니다.
동시에 클래스 루트 디렉터리, 즉 src 폴더에 새로운 ext.dic 파일을 생성합니다. 빌드된 후 Notepad++ 소프트웨어로 ext.dic을 엽니다.
관련 추천:
위 내용은 IKAnalyzer 토크나이저를 사용하여 확장 사전을 사용자 정의하는 방법의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!