NLTK 학습: 어휘 분류 및 주석 달기-파이썬 튜토리얼-php.cn

품사 태거

标注语料库

表示已经标注的标识符:nltk.tag.str2tuple('word/类型')

读取已经标注的语料库

名词、动词、形容词等

尝试找出每个名词类型中最频繁的名词

探索已经标注的语料库

自动标注

默认标注器

正则表达式标注器

查询标注器

N-gram标注

基础的一元标注器

一般的N-gram标注器

组合标注器

가 주석이 달린 식별자를 나타냅니다: nltk.tag.str2tuple('word/type')

nltk corpus ue navel은 통합된 인터페이스를 제공하므로 다양한 파일 형식에 대해 걱정할 필요가 없습니다. 형식: Corpus.tagged_word()/tagged_sents(). 매개변수는 카테고리와 필드를 지정할 수 있습니다

집

백엔드 개발

파이썬 튜토리얼

NLTK 학습: 어휘 분류 및 주석 달기

巴扎黑

Jun 23, 2017 pm 03:33 PM

nltk 공부하다 표시 메모

[TOC]

품사 태거

이후의 많은 작업에는 태그된 단어가 필요합니다. nltk에는 자체 영어 태거 pos_tagpos_tag

import nltk
text = nltk.word_tokenize("And now for something compleyely difference")print(text)print(nltk.pos_tag(text))로그인 후 복사

标注语料库

表示已经标注的标识符:`nltk.tag.str2tuple('word/类型')`

text = "The/AT grand/JJ is/VBD ."print([nltk.tag.str2tuple(t) for t in text.split()])로그인 후 복사

读取已经标注的语料库

nltk语料库ue肚脐提供了统一接口，可以不必理会不同的文件格式。格式:语料库.tagged_word()/tagged_sents()。参数可以指定categories和fields

print(nltk.corpus.brown.tagged_words())로그인 후 복사

名词、动词、形容词等

这里以名词为例

from nltk.corpus import brown
word_tag = nltk.FreqDist(brown.tagged_words(categories="news"))print([word+&#39;/&#39;+tag for (word,tag)in word_tag if tag.startswith(&#39;V&#39;)])################下面是查找money的不同标注#################################wsj = brown.tagged_words(categories="news")
cfd = nltk.ConditionalFreqDist(wsj)print(cfd[&#39;money&#39;].keys())로그인 후 복사

尝试找出每个名词类型中最频繁的名词

def findtag(tag_prefix,tagged_text):
    cfd = nltk.ConditionalFreqDist((tag,word) for (word,tag) in tagged_text if tag.startswith(tag_prefix))return dict((tag,list(cfd[tag].keys())[:5]) for tag in cfd.conditions())#数据类型必须转换为list才能进行切片操作tagdict = findtag(&#39;NN&#39;,nltk.corpus.brown.tagged_words(categories="news"))for tag in sorted(tagdict):print(tag,tagdict[tag])로그인 후 복사

探索已经标注的语料库

需要nltk.bigrams()和nltk.trigrams()，分别对应2-gram模型和3-gram模型。

brown_tagged = brown.tagged_words(categories="learned")
tags = [b[1] for (a,b) in nltk.bigrams(brown_tagged) if a[0]=="often"]
fd = nltk.FreqDist(tags)
fd.tabulate()로그인 후 복사

自动标注

默认标注器

最简单的标注器是为每个标识符分配统一标记。下面就是一个将所有词都变成NN的标注器。并且用evaluate()进行检验。当很多词语是名词时候，它有利于第一次分析并提高稳定性。

brown_tagged_sents = brown.tagged_sents(categories="news")

raw = &#39;I do not like eggs and ham, I do not like them Sam I am&#39;tokens = nltk.word_tokenize(raw)
default_tagger = nltk.DefaultTagger(&#39;NN&#39;)#创建标注器print(default_tagger.tag(tokens)) # 调用tag()方法进行标注print(default_tagger.evaluate(brown_tagged_sents))로그인 후 복사

正则表达式标注器

注意这里规则是固定（由自己决定）。当规则越来越完善的时候，精确度越高。

patterns = [
    (r&#39;.*ing$&#39;,&#39;VBG&#39;),
    (r&#39;.*ed$&#39;,&#39;VBD&#39;),
    (r&#39;.*es$&#39;,&#39;VBZ&#39;),
    (r&#39;.*&#39;,&#39;NN&#39;)#为了方便，只有少量规则]
regexp_tagger = nltk.RegexpTagger(patterns)
regexp_tagger.evaluate(brown_tagged_sents)로그인 후 복사

查询标注器

这里和书里是有差别的，不同于python2，注意调试。而查询标注器就是存储最有可能的标记，并且可以设置backoff参数，不能标记的情况下，就使用这个标注器（这个过程是回退）

fd = nltk.FreqDist(brown.words(categories="news"))
cfd = nltk.ConditionalFreqDist(brown.tagged_words(categories="news"))##############################################python2和3的区别#########most_freq_words = fd.most_common(100)
likely_tags = dict((word,cfd[word].max()) for (word,times) in most_freq_words)#######################################################################baseline_tagger = nltk.UnigramTagger(model=likely_tags,backoff=nltk.DefaultTagger(&#39;NN&#39;))
baseline_tagger.evaluate(brown_tagged_sents)로그인 후 복사

N-gram标注

基础的一元标注器

一元标注器的行为和查找标注器很相似，建立一元标注器的技术，为训练。

这里我们的标注器只是记忆训练集，而不是建立一般模型，那么吻合很好，但是不能推广到新文本。

size = int(len(brown_tagged_sents)*0.9)
train_sents = brown_tagged_sents[:size]
test_sents = brown_tagged_sents[size+1:]
unigram_tagger = nltk.UnigramTagger(train_sents)
unigram_tagger.evaluate(test_sents)로그인 후 복사

一般的N-gram标注器

N元标注器，就是检索index= n 的 word，并且检索n-N<=index<=n-1 的 tag。即通过前面词的tag标签，进一步确定当前词汇的tag。类似于nltk.UnigramTagger()，自带的二元标注器为:nltk.BigramTagger()用法一致。

组合标注器

很多时候，覆盖范围更广的算法比精度更高的算法更有用。利用backoff指明回退标注器,来实现标注器的组合。而参数cutoff

t0 = nltk.DefaultTagger(&#39;NN&#39;)
t1 = nltk.UnigramTagger(train_sents,backoff=t0)
t2 = nltk.BigramTagger(train_sents,backoff=t1)
t2.evaluate(test_sents)

로그인 후 복사

annotation corpus

가 주석이 달린 식별자를 나타냅니다: nltk.tag.str2tuple('word/type')</code > </h3><blockquote><div class="code" style="position:relative; padding:0px; margin:0px;"><pre class='brush:php;toolbar:false;'>from nltk.tag import brill brill.nltkdemo18plus() brill.nltkdemo18()</pre><div class="contentsignin">로그인 후 복사</div></div><p></p>주석이 달린 말뭉치 읽기<hr> <h2 id="nltk-corpus-ue-navel은-통합된-인터페이스를-제공하므로-다양한-파일-형식에-대해-걱정할-필요가-없습니다-형식-code-Corpus-tagged-word-tagged-sents-code-매개변수는-카테고리와-필드를-지정할-수-있습니다">nltk corpus ue navel은 통합된 인터페이스를 제공하므로 다양한 파일 형식에 대해 걱정할 필요가 없습니다. 형식: <code>Corpus.tagged_word()/tagged_sents(). 매개변수는 카테고리와 필드를 지정할 수 있습니다

rrreee
명사, 동사, 형용사 등을 지정할 수 있습니다.

다음은 명사를 예로 든 것입니다

rrreee

🎜각 명사 유형에서 가장 자주 나오는 명사를 찾아보세요🎜🎜rrreee🎜 🎜탐색 주석이 달린 말뭉치 🎜🎜🎜에는 각각 2그램 모델과 3그램 모델에 해당하는 nltk.bigrams() 및 nltk.trigrams()가 필요합니다. . 🎜🎜🎜rrreee🎜🎜🎜자동 태깅🎜🎜기본 태거🎜🎜🎜가장 간단한 태거는 각 식별자에 균일한 태그를 할당합니다. 아래는 모든 단어를 NN으로 변환하는 태거입니다. 그리고 evaluate()를 사용하여 확인하세요. 많은 단어가 명사인 경우 1차 분석이 용이하고 안정성이 향상됩니다. 🎜🎜🎜rrreee🎜🎜정규식 태거🎜🎜🎜여기의 규칙은 고정되어 있습니다(귀하의 재량에 따라 다름). 규칙이 점점 더 완전해지면 정확도가 높아집니다. 🎜🎜🎜rrreee🎜🎜Query annotator🎜🎜🎜이 책과 차이점이 있습니다. 디버깅에 주의하세요. 쿼리 태거는 가능성이 가장 높은 태그를 저장하며 backoff 매개변수를 설정할 수 있습니다. 태그를 표시할 수 없는 경우 이 태거가 사용됩니다(이 프로세스는 백오프) 🎜🎜 🎜rrreee🎜🎜🎜N-gram 주석🎜🎜기본 단항 주석🎜🎜🎜단항 주석의 동작은 검색 주석자와 매우 유사하며, 단항 주석을 만드는 기술은 훈련입니다. 🎜🎜여기서 주석자는 일반 모델을 구축하는 대신 훈련 세트만 기억하므로 일치는 매우 좋지만 새 텍스트로 일반화할 수는 없습니다. 🎜🎜🎜rrreee🎜🎜일반적인 N-그램 태거🎜🎜🎜N-그램 태거는 index=n인 단어와 n-N<=index<=n-1인 태그를 검색하는 것입니다. 즉, 이전 단어의 태그 태그를 통해 현재 단어의 태그가 더 결정된다. nltk.UnigramTagger()와 마찬가지로 내장 바이너리 태거는 nltk.BigramTagger()입니다. 사용법은 일관됩니다. 🎜🎜🎜결합된 태거🎜🎜🎜정확도가 높은 알고리즘보다 적용 범위가 넓은 알고리즘이 더 유용할 때가 많습니다. 백오프 태거를 지정하여 태거 조합을 달성하려면 백오프를 사용하세요. cutoff 매개변수가 int 유형으로 명시적으로 선언된 경우 1~n회만 나타나는 컨텍스트는 자동으로 삭제됩니다. 🎜🎜🎜rrreee🎜🎜원문과 비교한 결과 정확도가 현저히 향상된 것을 확인할 수 있습니다🎜🎜문장 경계 주석🎜🎜🎜문장 시작 단어의 경우 처음 n 단어가 없습니다. 해결 방법: 태그가 지정된 tagged_sents를 사용하여 태거를 교육합니다. 🎜🎜🎜🎜변환 기반 주석: Brill 주석자 🎜🎜🎜가 위보다 낫습니다. 구현 아이디어 : 큰 스트로크로 시작한 다음 세부 사항을 수정하고 조금씩 세부적인 변경을 수행합니다. 🎜메모리를 적게 차지할 뿐만 아니라, 정적인 것보다 문제가 작아질수록 상황에 맞게 실시간으로 오류를 수정해줍니다. 물론 python3과 python2에서는 호출이 다릅니다. 🎜🎜🎜rrreee🎜🎜🎜🎜🎜

위 내용은 NLTK 학습: 어휘 분류 및 주석 달기의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

본 웹사이트의 성명

본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.

핫 AI 도구

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

AI 옷 제거제

Video Face Swap

완전히 무료인 AI 얼굴 교환 도구를 사용하여 모든 비디오의 얼굴을 쉽게 바꾸세요!

뜨거운 도구

메모장++7.3.1

사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전

중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기

강력한 PHP 통합 개발 환경

드림위버 CS6

시각적 웹 개발 도구

SublimeText3 Mac 버전

신 수준의 코드 편집 소프트웨어(SublimeText3)

뜨거운 주제

Gmail 이메일의 로그인 입구는 어디에 있나요?

7672

Cakephp 튜토리얼

1393

C# 튜토리얼

1206

Steam의 계정 이름 형식은 무엇입니까?

Win11 활성화 키 영구

Related knowledge

Xiaohongshu 메모를 삭제하는 방법 Mar 21, 2024 pm 08:12 PM

Xiaohongshu 메모를 삭제하는 방법 Xiaohongshu 앱에서 메모를 편집할 수 있습니다. 다음으로 편집기는 Xiaohongshu 메모 삭제 방법에 대한 사용자 사진과 텍스트를 가져옵니다. 보세요! Xiaohongshu 사용 튜토리얼 Xiaohongshu 메모 삭제 방법 1. 먼저 Xiaohongshu 앱을 열고 메인 페이지로 들어가서 오른쪽 하단에 있는 [Me]를 선택하여 특별 영역으로 들어갑니다. 2. 그런 다음 내 영역에서 다음과 같이 메모 페이지를 클릭합니다. 3. 노트 페이지에 들어가서 오른쪽 상단에 있는 [점 3개]를 클릭합니다. 4. 마지막으로 기능 표시줄이 하단에 확장되고 [삭제]를 클릭하여 완료합니다.

pip를 완전히 제거하고 Python을 보다 효율적으로 사용하는 방법을 알아보세요. Jan 16, 2024 am 09:01 AM

더 이상 pip가 필요하지 않나요? 와서 pip를 효과적으로 제거하는 방법을 알아보세요! 소개: pip는 Python 패키지를 쉽게 설치, 업그레이드 및 제거할 수 있는 Python의 패키지 관리 도구 중 하나입니다. 그러나 때로는 다른 패키지 관리 도구를 사용하고 싶거나 Python 환경을 완전히 지워야 하기 때문에 pip를 제거해야 할 수도 있습니다. 이 문서에서는 pip를 효율적으로 제거하는 방법을 설명하고 구체적인 코드 예제를 제공합니다. 1. pip 제거 방법 다음은 pip 제거의 두 가지 일반적인 방법을 소개합니다.

Xiaohongshu에 게시한 메모가 누락된 경우 어떻게 해야 합니까? 방금 보낸 메모를 찾을 수 없는 이유는 무엇인가요? Mar 21, 2024 pm 09:30 PM

Xiaohongshu 사용자로서 우리 모두는 게시된 노트가 갑자기 사라지는 상황을 경험해 본 적이 있을 것입니다. 이는 의심할 여지 없이 혼란스럽고 걱정스러운 일입니다. 이런 경우, 우리는 어떻게 해야 합니까? 이번 글에서는 "샤오홍슈에서 발행한 노트가 누락된 경우 어떻게 해야 할까요?"라는 주제를 중심으로 자세한 답변을 드리겠습니다. 1. Xiaohongshu에서 발행한 노트가 누락된 경우 어떻게 해야 합니까? 첫째, 당황하지 마십시오. 메모가 누락된 경우 침착함을 유지하는 것이 중요하며 당황하지 마십시오. 이는 플랫폼 시스템 장애 또는 운영 오류로 인해 발생할 수 있습니다. 출시 기록을 확인하는 것은 쉽습니다. Xiaohongshu 앱을 열고 "나" → "게시" → "모든 출판물"을 클릭하면 자신의 출판 기록을 볼 수 있습니다. 여기에서는 이전에 게시된 메모를 쉽게 찾을 수 있습니다. 3.다시 게시합니다. 발견된 경우

Xiaohongshu의 노트에 제품 링크를 추가하는 방법 Xiaohongshu의 노트에 제품 링크를 추가하는 방법에 대한 튜토리얼 Mar 12, 2024 am 10:40 AM

Xiaohongshu 노트에 제품 링크를 추가하는 방법 Xiaohongshu 앱에서는 사용자가 다양한 콘텐츠를 탐색할 수 있을 뿐만 아니라 쇼핑도 할 수 있기 때문에 이 앱에는 쇼핑 추천 및 좋은 제품 공유에 대한 콘텐츠가 많이 있습니다. 이 앱에서는 일부 쇼핑 경험을 공유하고, 협력할 판매자를 찾고, 메모에 링크를 추가하는 등의 작업도 할 수 있습니다. 이 앱은 편리할 뿐만 아니라 많은 전문가가 만들 수 있기 때문에 많은 사람들이 쇼핑에 기꺼이 이 앱을 사용합니다. 흥미로운 콘텐츠를 탐색하고 자신에게 맞는 의류 제품이 있는지 확인할 수 있습니다. 노트에 제품 링크를 추가하는 방법을 살펴보겠습니다. 샤오홍슈 노트에 제품 링크를 추가하는 방법 휴대폰 데스크톱에서 앱을 엽니다. 앱 홈페이지를 클릭하세요

matplotlib의 컬러맵에 대해 자세히 알아보기 Jan 09, 2024 pm 03:51 PM

matplotlib 색상표에 대해 자세히 알아보려면 특정 코드 예제가 필요합니다. 1. 소개 matplotlib는 다양한 유형의 차트를 만드는 데 사용할 수 있는 풍부한 그리기 기능 및 도구 세트를 제공합니다. 컬러맵(colormap)은 차트의 색 구성표를 결정하는 matplotlib의 중요한 개념입니다. matplotlib 색상표에 대한 심층적인 연구는 matplotlib의 그리기 기능을 더 잘 익히고 그리기를 더 편리하게 만드는 데 도움이 될 것입니다.

2024년에는 자율주행 어노테이션 산업이 월드모델로 전복될 것인가? Mar 01, 2024 pm 10:37 PM

1. 데이터 주석(특히 BEV 작업 기반)이 직면한 문제 BEV Transformer 기반 작업이 증가하면서 데이터에 대한 의존도가 더욱 커지고 BEV 작업 기반 주석도 점점 더 복잡해졌습니다. . 현재로서는 2D-3D 관절 장애물 주석이든, 재구성된 포인트 클라우드 클립을 기반으로 한 차선 선 주석이든, 점유 작업 주석이든 여전히 비용이 많이 듭니다(2D 주석 작업과 비교하면 훨씬 더 비쌉니다). 물론 업계에는 대형 모델을 기반으로 한 반자동 또는 자동 주석 연구도 많이 있습니다. 반면, 자율주행을 위한 데이터 수집 주기가 너무 길고, 일련의 데이터 규정 준수 문제가 수반됩니다. 예를 들어, 카메라를 통해 평상형 트럭의 필드를 캡처하려고 합니다.

C 언어의 매력을 밝히다: 프로그래머의 잠재력을 발견하다 Feb 24, 2024 pm 11:21 PM

C 언어 학습의 매력: 프로그래머의 잠재력을 여는 것 지속적인 기술 발전으로 컴퓨터 프로그래밍은 많은 주목을 받는 분야가 되었습니다. 많은 프로그래밍 언어 중에서 C 언어는 항상 프로그래머들에게 사랑을 받아 왔습니다. C 언어의 단순성, 효율성 및 폭넓은 적용 덕분에 많은 사람들이 프로그래밍 분야에 입문하는 첫 번째 단계는 C 언어입니다. 이 기사에서는 C 언어 학습의 매력과 C 언어 학습을 통해 프로그래머의 잠재력을 발휘하는 방법에 대해 설명합니다. 우선, C 언어 학습의 매력은 단순함에 있습니다. C언어는 다른 프로그래밍 언어에 비해

Pygame 시작하기: 종합적인 설치 및 구성 튜토리얼 Feb 19, 2024 pm 10:10 PM

처음부터 Pygame 배우기: 전체 설치 및 구성 튜토리얼, 특정 코드 예제 필요 소개: Pygame은 Python 프로그래밍 언어를 사용하여 개발된 오픈 소스 게임 개발 라이브러리로, 개발자가 다양한 유형을 쉽게 만들 수 있도록 풍부한 기능과 도구를 제공합니다. 게임의. 이 기사는 처음부터 Pygame을 배우는 데 도움이 될 것이며, 완전한 설치 및 구성 튜토리얼과 빠른 시작을 위한 특정 코드 예제를 제공할 것입니다. 1부: Python 및 Pygame 설치 먼저 다음 사항을 확인하세요.

See all articles

NLTK 학습: 어휘 분류 및 주석 달기

품사 태거

标注语料库

表示已经标注的标识符:nltk.tag.str2tuple(&#39;word/类型&#39;)

读取已经标注的语料库

名词、动词、形容词等

尝试找出每个名词类型中最频繁的名词

探索已经标注的语料库

自动标注

默认标注器

正则表达式标注器

查询标注器

N-gram标注

基础的一元标注器

一般的N-gram标注器

组合标注器

핫 AI 도구

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

Video Face Swap

인기 기사

뜨거운 도구

메모장++7.3.1

SublimeText3 중국어 버전

스튜디오 13.0.1 보내기

드림위버 CS6

SublimeText3 Mac 버전

뜨거운 주제

表示已经标注的标识符:`nltk.tag.str2tuple('word/类型')`