Python 및 NLTK를 사용한 토큰화 및 WordNet 기본 소개
자연어 처리(NLP)는 언어학과 컴퓨팅을 결합하여 인간의 언어를 이해하고 해석하고 조작하는 흥미로운 분야입니다. 이를 위한 가장 강력한 도구 중 하나는 Python의 NLTK(Natural Language Toolkit)입니다. 이 텍스트에서는 토큰화의 개념과 NLP에서 널리 사용되는 영어 어휘 기반인 WordNet의 사용을 살펴보겠습니다.
토큰화란 무엇입니까?
토큰화는 텍스트를 토큰이라는 더 작은 단위로 나누는 프로세스입니다. 이러한 토큰은 단어, 구 또는 개별 문자일 수도 있습니다. 토큰화는 알고리즘이 텍스트를 더 효과적으로 이해하고 분석할 수 있게 해주기 때문에 텍스트 처리에서 중요한 단계입니다.
예를 들어 "Hello, world!"라는 문구를 생각해 보세요. 이 문장을 토큰화하면 ["Hello", "," "world", "!"]의 세 가지 토큰이 생성될 수 있습니다. 이 분할을 통해 텍스트의 각 부분을 개별적으로 분석할 수 있으므로 감정 분석, 기계 번역, 명명된 엔터티 인식과 같은 작업이 용이해집니다.
NLTK에서는 토큰화를 여러 가지 방법으로 수행할 수 있습니다. 몇 가지 실제 사례를 살펴보겠습니다.
문장의 텍스트 토큰화
텍스트를 문장으로 나누는 것은 많은 NLP 작업의 첫 번째 단계입니다. NLTK에서는 sent_tokenize 기능을 사용하여 이를 쉽게 수행할 수 있습니다.
결과는 다음과 같습니다.
여기서 본문은 세 문장으로 나누어져 있습니다. 이는 각 문장을 개별적으로 처리할 수 있는 보다 자세한 분석에 유용합니다.
문장을 단어로 토큰화
텍스트를 문장으로 나눈 후 다음 단계는 일반적으로 이 문장을 단어로 나누는 것입니다. 이를 위해 NLTK의 word_tokenize 함수가 사용됩니다.
결과는 다음과 같습니다.
이제 각 단어와 구두점 기호가 별도의 토큰으로 표시됩니다. 이는 각 단어가 텍스트에 나타나는 횟수를 계산해야 하는 단어 빈도 분석과 같은 작업에 필수적입니다.
토큰화를 위해 정규식 사용
경우에 따라 더욱 개인화된 토큰화가 필요할 수 있습니다. 정규식(regex)은 이를 위한 강력한 도구입니다. NLTK는 사용자 정의 토크나이저를 생성하기 위한 RegexpTokenizer 클래스를 제공합니다.
결과는 다음과 같습니다.
여기에서는 구두점을 무시하고 영숫자로 구성된 단어만 선택하는 정규식을 사용합니다.
워드넷 소개
WordNet은 단어를 synsets라는 동의어 집합으로 그룹화하고, 짧고 일반적인 정의를 제공하며, 이러한 단어 간의 다양한 의미 관계를 기록하는 어휘 데이터베이스입니다. NLTK에서 WordNet은 다른 관계 중에서 동의어, 반의어, 하위어 및 상위어를 찾는 데 사용됩니다.
WordNet을 사용하려면 NLTK에서 wordnet 모듈을 가져와야 합니다.
Synset 검색
synset 또는 동의어 집합은 동일한 의미를 공유하는 단어 그룹입니다. 단어의 synsets를 검색하려면 synsets 기능을 사용합니다.
결과는 "개"라는 단어의 다양한 의미를 나타내는 synset 목록이 됩니다.
각 synset은 단어, 품사(명사의 경우 n, 동사의 경우 v 등) 및 다양한 감각을 구별하는 숫자를 포함하는 이름으로 식별됩니다.
정의 및 예
특정 synset의 정의와 사용예를 얻을 수 있습니다.
결과는 다음과 같습니다.
이를 통해 우리는 이 맥락에서 "개"의 의미와 사용법을 명확하게 이해할 수 있습니다.
동의어 및 반의어 검색
단어의 동의어와 반의어를 찾으려면 synset 기본형을 탐색할 수 있습니다.
결과는 "good"이라는 단어에 대한 동의어와 반의어 목록이 됩니다.
의미론적 유사성 계산
WordNet을 사용하면 단어 간의 의미 유사성을 계산할 수도 있습니다. 유사성은 하위어/상위어 그래프의 synset 사이의 거리를 기반으로 합니다.
결과는 0과 1 사이의 유사성 값이 됩니다.
이 값은 "개"와 "고양이"가 의미상 매우 유사하다는 것을 나타냅니다.
Filtrando Stopwords
Stopwords são palavras comuns que geralmente não adicionam muito significado ao texto, como "e", "a", "de". Remover essas palavras pode ajudar a focar nas partes mais importantes do texto. O NLTK fornece uma lista de stopwords para várias línguas.
from nltk.corpus import stopwords stop_words = set(stopwords.words('portuguese')) palavras = ["Olá", "mundo", "é", "um", "lugar", "bonito"] palavras_filtradas = [w for w in palavras if not w in stop_words] print(palavras_filtradas)
O resultado será:
['Olá', 'mundo', 'lugar', 'bonito']
Aqui, as stopwords foram removidas da lista original de palavras.
Aplicações Práticas
Análise de Sentimentos
A análise de sentimentos é uma aplicação comum de PLN onde o objetivo é determinar a opinião ou emoção expressa em um texto. Tokenização e o uso de WordNet são passos importantes nesse processo.
Primeiro, dividimos o texto em palavras e removemos as stopwords. Em seguida, podemos usar os synsets para entender melhor o contexto e a polaridade das palavras.
texto = "Eu amo programação em Python!" palavras = word_tokenize(texto, language='portuguese') palavras_filtradas = [w for w in palavras if not w in stop_words] polaridade = 0 for palavra in palavras_filtradas: synsets = wordnet.synsets(palavra, lang='por') if synsets: for syn in synsets: polaridade += syn.pos_score() - syn.neg_score() print("Polaridade do texto:", polaridade)
Nesse exemplo simplificado, estamos somando os scores positivos e negativos dos synsets das palavras filtradas para determinar a polaridade geral do texto.
Reconhecimento de Entidades Nomeadas
Outra aplicação é o reconhecimento de entidades nomeadas (NER), que identifica e classifica nomes de pessoas, organizações, locais, etc., em um texto.
import nltk nltk.download('maxent_ne_chunker') nltk.download('words') frase = "Barack Obama foi o 44º presidente dos Estados Unidos." palavras = word_tokenize(frase, language='portuguese') tags = nltk.pos_tag(palavras) entidades = nltk.ne_chunk(tags) print(entidades)
O resultado será uma árvore que identifica "Barack Obama" como uma pessoa e "Estados Unidos" como um local.
Conclusão
Neste texto, exploramos os conceitos básicos de tokenização e uso do WordNet com a biblioteca NLTK em Python. Vimos como dividir textos em sentenças e palavras, como buscar sinônimos e antônimos, calcular similaridades semânticas, e aplicações práticas como análise de sentimentos e reconhecimento de entidades nomeadas. A NLTK é uma ferramenta poderosa para qualquer pessoa interessada em processamento de linguagem natural, oferecendo uma ampla gama de funcionalidades para transformar e analisar textos de forma eficaz.
위 내용은 Python 및 NLTK를 사용한 토큰화 및 WordNet 기본 소개의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

핫 AI 도구

Undresser.AI Undress
사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover
사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool
무료로 이미지를 벗다

Clothoff.io
AI 옷 제거제

Video Face Swap
완전히 무료인 AI 얼굴 교환 도구를 사용하여 모든 비디오의 얼굴을 쉽게 바꾸세요!

인기 기사

뜨거운 도구

메모장++7.3.1
사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전
중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기
강력한 PHP 통합 개발 환경

드림위버 CS6
시각적 웹 개발 도구

SublimeText3 Mac 버전
신 수준의 코드 편집 소프트웨어(SublimeText3)

Python은 데이터 과학, 웹 개발 및 자동화 작업에 적합한 반면 C는 시스템 프로그래밍, 게임 개발 및 임베디드 시스템에 적합합니다. Python은 단순성과 강력한 생태계로 유명하며 C는 고성능 및 기본 제어 기능으로 유명합니다.

Python은 게임 및 GUI 개발에서 탁월합니다. 1) 게임 개발은 Pygame을 사용하여 드로잉, 오디오 및 기타 기능을 제공하며 2D 게임을 만드는 데 적합합니다. 2) GUI 개발은 Tkinter 또는 PYQT를 선택할 수 있습니다. Tkinter는 간단하고 사용하기 쉽고 PYQT는 풍부한 기능을 가지고 있으며 전문 개발에 적합합니다.

2 시간 이내에 파이썬의 기본 사항을 배울 수 있습니다. 1. 변수 및 데이터 유형을 배우십시오. 이를 통해 간단한 파이썬 프로그램 작성을 시작하는 데 도움이됩니다.

2 시간 이내에 Python의 기본 프로그래밍 개념과 기술을 배울 수 있습니다. 1. 변수 및 데이터 유형을 배우기, 2. 마스터 제어 흐름 (조건부 명세서 및 루프), 3. 기능의 정의 및 사용을 이해하십시오. 4. 간단한 예제 및 코드 스 니펫을 통해 Python 프로그래밍을 신속하게 시작하십시오.

Python은 배우고 사용하기 쉽고 C는 더 강력하지만 복잡합니다. 1. Python Syntax는 간결하며 초보자에게 적합합니다. 동적 타이핑 및 자동 메모리 관리를 사용하면 사용하기 쉽지만 런타임 오류가 발생할 수 있습니다. 2.C는 고성능 응용 프로그램에 적합한 저수준 제어 및 고급 기능을 제공하지만 학습 임계 값이 높고 수동 메모리 및 유형 안전 관리가 필요합니다.

제한된 시간에 Python 학습 효율을 극대화하려면 Python의 DateTime, Time 및 Schedule 모듈을 사용할 수 있습니다. 1. DateTime 모듈은 학습 시간을 기록하고 계획하는 데 사용됩니다. 2. 시간 모듈은 학습과 휴식 시간을 설정하는 데 도움이됩니다. 3. 일정 모듈은 주간 학습 작업을 자동으로 배열합니다.

Python은 웹 개발, 데이터 과학, 기계 학습, 자동화 및 스크립팅 분야에서 널리 사용됩니다. 1) 웹 개발에서 Django 및 Flask 프레임 워크는 개발 프로세스를 단순화합니다. 2) 데이터 과학 및 기계 학습 분야에서 Numpy, Pandas, Scikit-Learn 및 Tensorflow 라이브러리는 강력한 지원을 제공합니다. 3) 자동화 및 스크립팅 측면에서 Python은 자동화 된 테스트 및 시스템 관리와 같은 작업에 적합합니다.

파이썬은 자동화, 스크립팅 및 작업 관리가 탁월합니다. 1) 자동화 : 파일 백업은 OS 및 Shutil과 같은 표준 라이브러리를 통해 실현됩니다. 2) 스크립트 쓰기 : PSUTIL 라이브러리를 사용하여 시스템 리소스를 모니터링합니다. 3) 작업 관리 : 일정 라이브러리를 사용하여 작업을 예약하십시오. Python의 사용 편의성과 풍부한 라이브러리 지원으로 인해 이러한 영역에서 선호하는 도구가됩니다.
