목차
중국어로 명명된 엔터티 인식 데이터 세트
기술 주변기기 일체 포함 중국 법인 인식 방법 및 일반적으로 사용되는 데이터 세트

중국 법인 인식 방법 및 일반적으로 사용되는 데이터 세트

Jan 23, 2024 pm 07:18 PM
기계 학습

중국 법인 인식 방법 및 일반적으로 사용되는 데이터 세트

명칭 개체 인식(NER)은 자연어 처리에서 사람 이름, 장소, 조직 등의 특정 의미를 가진 개체를 식별하는 것을 목표로 합니다. 중국어에는 특별한 특성이 있고 이를 처리하려면 더 많은 언어 처리 기술과 규칙을 사용해야 하기 때문에 중국어 NER는 더 많은 어려움에 직면해 있습니다.

중국의 개체명 인식 방법에는 주로 규칙 기반, 통계 기반 및 하이브리드 방법이 포함됩니다. 규칙 기반 방법은 규칙 또는 규칙 템플릿을 수동으로 구성하여 엔터티를 식별합니다. 통계 기반 방법은 기계 학습 알고리즘을 사용하여 대규모 말뭉치에서 엔터티 인식 모델을 학습합니다. 하이브리드 방법은 두 가지 방법을 결합하여 규칙과 통계 학습을 모두 활용합니다.

중국어로 명명된 개체 인식을 구체적으로 구현하려면 일반적으로 다음 단계를 사용할 수 있습니다.

1 단어 분할: 후속 처리를 위해 중국어 텍스트를 하나씩 단어로 분할합니다.

2. 품사 태그 지정: 후속 처리를 위해 품사 태그로 분할된 각 단어에 태그를 지정합니다.

3. 개체 인식: 미리 설정된 규칙이나 훈련된 모델을 기반으로 텍스트에서 개체를 인식합니다.

엔터티 인식 과정에서 다음 사항에 주의해야 합니다.

1. 엔터티 카테고리 정의: 어떤 엔터티를 인식해야 하는지 결정하고 이를 다양한 카테고리로 분류해야 합니다. 사람 이름, 장소 이름, 조직 이름 등

2. 엔터티 경계 결정: 엔터티의 후속 라벨링을 위해 엔터티의 시작 위치와 끝 위치를 결정하는 것이 필요합니다.

3. 엔터티 중복 문제에 대한 해결 방법: 동일한 엔터티가 텍스트에 여러 번 나타날 수 있으므로 반복 계산을 피하기 위해 동일한 엔터티로 통일적으로 표시해야 합니다.

중국어로 명명된 개체 인식이 널리 사용됩니다. 예를 들어 정보 추출, 정보 검색, 텍스트 분류, 기계 번역 등의 자연어 처리 작업에서는 개체명 인식이 먼저 수행되어야 합니다. 동시에 소셜 미디어, 뉴스 미디어, 광고 및 기타 분야에서도 널리 사용됩니다. 예를 들어, 소셜 미디어에서 사용자의 개인 정보를 식별하면 뉴스 보도에서 정확한 광고 및 마케팅을 지원할 수 있으며, 이벤트에 관련된 사람, 장소, 조직 및 기타 단체의 이름을 식별하면 사용자가 배경과 관련성을 더 빨리 이해할 수 있습니다. 사건정보.

중국어로 명명된 엔터티 인식 데이터 세트

중국으로 명명된 엔터티 인식 데이터 세트는 명명된 엔터티 인식 모델을 훈련하고 평가하기 위한 기반입니다. 현재 널리 사용되는 여러 개의 중국 명명 엔터티 인식 데이터 세트가 있습니다. 다음은 일반적으로 사용되는 일부 중국어 개체명 인식 데이터 세트에 대한 소개입니다.

1) MSRA-NER 데이터 세트: MSRA-NER는 Microsoft Research Asia에서 만든 중국어 개체명 인식 데이터 세트로, 80,000개 이상의 뉴스가 포함되어 있습니다. 항목 텍스트 중 60,000개 이상이 훈련에 사용되고 20,000개 이상이 테스트에 사용됩니다. 이 데이터 세트의 엔터티 카테고리에는 사람, 장소, 조직 및 기타 엔터티의 이름이 포함됩니다.

2) PKU 및 MSRA의 인민일보 데이터세트: 이 데이터세트는 Peking University와 Microsoft Research Asia가 공동으로 제작했으며 인민일보의 뉴스 보고서, 사설 및 댓글과 같은 다양한 유형의 기사를 포함합니다. 이 데이터 세트는 크기가 크고 500,000개가 넘는 항목 주석을 포함합니다.

3) WeiboNER 데이터 세트: 이 데이터 세트는 Tsinghua University에서 제작되었으며 인명, 지명, 조직 이름, 시간, 날짜, 전문 용어 등을 포함하여 Sina Weibo의 많은 중국어 텍스트가 포함되어 있습니다. 엔터티 유형. 데이터 세트에는 인터넷 속어 및 새로운 어휘와 같은 까다로운 항목도 포함되어 있습니다.

4) OntoNotes 데이터세트: 이 데이터세트는 국립표준기술원(National Institute of Standards and Technology)에서 생성되었으며 여러 언어(중국어 포함)로 된 텍스트 데이터와 엔터티 주석을 포함합니다. 데이터 세트는 크기가 크고 100,000개가 넘는 엔터티 주석을 포함합니다.

5) CCKS 2017 과제 2 데이터 세트: 이 데이터 세트는 중국 정보화 사회에서 제작되었으며 중국 정보 사회의 CCKS(중국 지식 그래프 연구 분야)의 과제 중 하나입니다. 2017. 여기에는 사람 이름, 지명, 조직 이름 등과 같은 다양한 개체 유형이 포함된 뉴스 및 백과사전, Weibo 및 기타 텍스트 유형이 포함됩니다. 데이터 세트는 크기가 크고 약 100,000개의 엔터티 주석을 포함합니다.

요컨대, 중국어 개체명 인식은 자연어 처리에서 중요한 작업으로, 응용 범위가 넓고 실용적인 의미가 중요합니다.

위 내용은 중국 법인 인식 방법 및 일반적으로 사용되는 데이터 세트의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

본 웹사이트의 성명
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.

뜨거운 기사 태그

메모장++7.3.1

메모장++7.3.1

사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전

SublimeText3 중국어 버전

중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기

스튜디오 13.0.1 보내기

강력한 PHP 통합 개발 환경

드림위버 CS6

드림위버 CS6

시각적 웹 개발 도구

SublimeText3 Mac 버전

SublimeText3 Mac 버전

신 수준의 코드 편집 소프트웨어(SublimeText3)

15가지 추천 오픈 소스 무료 이미지 주석 도구 15가지 추천 오픈 소스 무료 이미지 주석 도구 Mar 28, 2024 pm 01:21 PM

15가지 추천 오픈 소스 무료 이미지 주석 도구

이 기사에서는 SHAP: 기계 학습을 위한 모델 설명을 이해하도록 안내합니다. 이 기사에서는 SHAP: 기계 학습을 위한 모델 설명을 이해하도록 안내합니다. Jun 01, 2024 am 10:58 AM

이 기사에서는 SHAP: 기계 학습을 위한 모델 설명을 이해하도록 안내합니다.

투명한! 주요 머신러닝 모델의 원리를 심층적으로 분석! 투명한! 주요 머신러닝 모델의 원리를 심층적으로 분석! Apr 12, 2024 pm 05:55 PM

투명한! 주요 머신러닝 모델의 원리를 심층적으로 분석!

학습 곡선을 통해 과적합과 과소적합 식별 학습 곡선을 통해 과적합과 과소적합 식별 Apr 29, 2024 pm 06:50 PM

학습 곡선을 통해 과적합과 과소적합 식별

우주탐사 및 인간정주공학 분야 인공지능의 진화 우주탐사 및 인간정주공학 분야 인공지능의 진화 Apr 29, 2024 pm 03:25 PM

우주탐사 및 인간정주공학 분야 인공지능의 진화

C++에서 기계 학습 알고리즘 구현: 일반적인 과제 및 솔루션 C++에서 기계 학습 알고리즘 구현: 일반적인 과제 및 솔루션 Jun 03, 2024 pm 01:25 PM

C++에서 기계 학습 알고리즘 구현: 일반적인 과제 및 솔루션

설명 가능한 AI: 복잡한 AI/ML 모델 설명 설명 가능한 AI: 복잡한 AI/ML 모델 설명 Jun 03, 2024 pm 10:08 PM

설명 가능한 AI: 복잡한 AI/ML 모델 설명

머신러닝 분야 Golang 기술의 향후 동향 전망 머신러닝 분야 Golang 기술의 향후 동향 전망 May 08, 2024 am 10:15 AM

머신러닝 분야 Golang 기술의 향후 동향 전망

See all articles