단어 벡터 임베딩의 자세한 예-파이썬 튜토리얼-php.cn

집

백엔드 개발

파이썬 튜토리얼

단어 벡터 임베딩의 자세한 예

PHP中文网

Jun 21, 2017 pm 04:11 PM

벡터 공부하다 메모

워드 벡터 임베딩에는 대규모 텍스트 말뭉치의 효율적인 처리가 필요합니다. word2vec. 간단한 방법으로, 단어는 원-핫 인코딩 학습 시스템으로 전송되며, 길이는 어휘 길이의 벡터이고, 단어의 해당 위치 요소는 1이고, 다른 요소는 0이다. 벡터 차원은 매우 높으며 서로 다른 단어의 의미적 연관성을 설명할 수 없습니다. 동시 발생은 단어를 나타내고, 의미론적 연관을 해결하고, 대규모 텍스트 코퍼스를 탐색하고, 각 단어의 특정 거리 내에 있는 주변 단어를 계산하고, 정규화된 주변 단어 수로 각 단어를 나타냅니다. 유사한 문맥에 있는 단어는 유사한 의미를 갖습니다. 더 조밀한 표현을 얻기 위해 PCA 또는 유사한 방법을 사용하여 발생 벡터의 차원을 줄입니다. 성능이 좋고 모든 어휘 동시 발생 행렬을 추적합니다. 너비와 높이는 어휘 길이입니다. 2013년에 Mikolov, Tomas 등은 문맥 계산 단어 표현 방법인 "벡터 공간에서 단어 표현의 효율적인 추정"(arXiv preprint arXiv:1301.3781(2013))을 제안했습니다. 스킵그램 모델은 무작위 표현에서 시작하여 현재 단어를 기반으로 문맥 단어의 간단한 분류자를 예측합니다. 오류는 분류기 가중치와 단어 표현을 통해 전파되고 예측 오류를 줄이기 위해 둘 다 조정됩니다. 대규모 코퍼스 훈련 모델 표현 벡터는 압축된 동시 발생 벡터를 근사화합니다.

데이터 세트, 영어 Wikipedia 덤프 파일에는 모든 페이지의 전체 개정 내역이 포함되어 있으며 현재 페이지 버전은 100GB입니다.

덤프 파일을 다운로드하고 페이지 단어를 추출하세요. 단어 발생 횟수를 세고 공통 어휘 목록을 작성하세요. 추출된 페이지를 어휘를 사용하여 인코딩합니다. 파일은 한 줄씩 읽혀지고 결과는 즉시 디스크에 기록됩니다. 프로그램 충돌을 방지하려면 여러 단계 사이에 체크포인트를 저장하세요.

__iter__는 단어 색인 목록 페이지를 탐색합니다. encode는 문자열 단어의 어휘 색인을 얻습니다. decode는 어휘 색인에 따라 문자열 단어를 반환합니다. _read_pages는 Wikipedia 덤프 파일(압축된 XML)에서 단어를 추출하여 페이지당 공백으로 구분된 한 줄의 단어로 페이지 파일에 저장합니다. bz2 모듈 열기 기능은 파일을 읽습니다. 중간 결과 압축 처리. 정규식은 일련의 연속 문자 또는 개별 특수 문자를 캡처합니다. _build_vocabulary는 페이지 파일의 단어 수를 계산하여 빈도가 높은 단어가 파일에 기록됩니다. 원-핫 인코딩에는 어휘가 필요합니다. 용어집 색인 인코딩. 철자 오류와 매우 흔하지 않은 단어가 제거되고 어휘에는 가장 일반적인 단어 1개인 Vocacia_size만 포함됩니다. 어휘에 없는 모든 단어는 로 표시되며 단어 벡터에는 나타나지 않습니다.

동적으로 학습 샘플을 구성하고, 많은 양의 데이터를 구성하며, 분류기가 메모리를 많이 차지하지 않습니다. 스킵그램 모델은 현재 단어의 문맥 단어를 예측합니다. 텍스트, 현재 단어 데이터, 주변 단어 대상을 탐색하고 훈련 샘플을 만듭니다. 컨텍스트 크기 R, 각 단어는 2R개의 샘플을 생성하며, 현재 단어의 왼쪽과 오른쪽에 R 단어가 있습니다. 의미론적 맥락, 가까운 거리가 중요합니다. 원거리 맥락 단어의 훈련 샘플을 가능한 한 적게 만들고, [1, D=10] 범위에서 단어 맥락 크기를 무작위로 선택합니다. 학습 쌍은 스킵그램 모델을 기반으로 형성됩니다. Numpy 배열은 숫자 스트림 배치 데이터를 생성합니다.

처음에는 단어가 임의의 벡터로 표시됩니다. 분류기는 중간 수준 표현을 기반으로 문맥 단어의 현재 표현을 예측합니다. 오류를 전파하고, 가중치를 미세 조정하고, 입력 단어 표현을 표현합니다. MomentumOptimizer 모델 최적화, 지능 부족 및 높은 효율성.

분류자는 모델의 핵심입니다. 잡음 대비 추정 손실은 우수한 성능을 가지고 있습니다. Softmax 분류기 모델링. tf.nn.nce_loss 새로운 무작위 벡터 음성 샘플(비교 샘플), 근사 소프트맥스 분류기.

훈련 모델이 종료되고 최종 단어 벡터가 파일에 기록됩니다. Wikipedia 자료의 하위 집합을 일반 CPU에서 5시간 동안 훈련하여 NumPy 배열 임베딩 표현을 얻었습니다. 완전한 말뭉치: . AttrDict 클래스는 키를 속성으로 액세스할 수 있는 Python dict와 동일합니다.

import bz2
컬렉션 가져오기
import os
reimport re
from lxml import etree
from helpers import download
class Wikipedia:
TOKEN_REGEX = re.compile(r'[A-Za-z]+|[!? .:, ()]')
def __init__(self, url, 캐시_디렉터리, 어휘_크기=10000):
self._cache_dir = os.path.expanduser(cache_dir)
self._pages_path = os.path.join(self._cache_dir, '페이지 .bz2')
self._vocabulary_path = os.path.join(self._cache_dir, 'vocabulary.bz2')
그렇지 않은 경우 os.path.isfile(self._pages_path):
print('페이지 읽기')
   본인. _read_pages(url)
그렇지 않은 경우 os.path.isfile(self._vocabulary_path):
print('어휘 구축')
self._build_vocabulary(vocabulary_size)
bz2.open(self._vocabulary_path, 'rt') 어휘로: + __iter__(자신 ):
bz2.open(self._pages_path, 'rt')을 페이지로:
페이지의 페이지:
단어 = page.strip().split()
단어 = [x에 대한 self.encode(x) 단어]
단어 생성
@property
defvocab_size(self):
return len(self._vocabulary)
def encode(self, word):
return self._indices.get(word, 0)
def decode(self, index):
return self._vocabulary[index]
def _read_pages(self, url):
wikipedia_path = download(url, self._cache_dir)
bz2.open(wikipedia_path)을 wikipedia로 사용,
bz2.open(self._pages_path , 'wt')를 페이지로:
for _, etree.iterparse(wikipedia, tag='{*}page')의 요소:
element.find('./{*}redirect')가 None이 아닌 경우:
continue
page = element.findtext('./{*}revision/{*}text')
words = self._tokenize(페이지)
Pages.write(' '.join(words) + 'n')
요소 .clear()
def _build_vocabulary(self,vocabulary_size):
counter = collections.Counter()
페이지로 bz2.open(self._pages_path, 'rt') 사용:
페이지 내 페이지:
   단어 = 페이지.스트립 ().split()
counter.update(words)
common = [''] + counter.most_common(vocabulary_size - 1)
common = [x[0] for x in common]
   bz2와 함께. open(self._vocabulary_path, 'wt')를 어휘로:
공통 단어의 경우:
Vocabulary.write(word + 'n')
@classmethod
def _tokenize(cls, page):
word = cls.TOKEN_REGEX.findall(page)
words = [x.lower() for x in word]
return word

import tensorflow as tf
import num py as np
도우미 제공 importlazy_property
class EmbeddingModel:
def __init__(self, data, target, params):
self.data = data
self.target = target
self.params = params
self.embeddings
self.cost
self.optimize
@lazy_property
def 임베딩(self):
초기 = tf.random_uniform(
[self.params.vocabulary_size, self.params.embedding_size],
-1.0, 1.0)
return tf.Variable(initial)
@lazy_property
def 최적화(self):
최적화 도구 = tf.train.MomentumOptimizer(
self.params.learning_rate, self.params.momentum)
returnoptimizer.minimize(self.cost)
@lazy_property
기본 비용(자체):
임베디드 = tf.nn.embedding_lookup(self.embeddings, self.data)
가중치 = tf.truncated_normal(
[self.params.vocabulary_size, self.params.embedding_size],
std dev=1.0 / self.params.embedding_size ** 0.5))
bias = tf.Variable(tf.zeros([self.params.vocabulary_size]))
target = tf.expand_dims(self.target, 1)
return tf.reduce_mean(tf.nn.nce_loss( ㅋㅋㅋ

컬렉션 가져오기
tensorflow를 tf로 가져오기
np로 numpy 가져오기
from 일괄 가져오기 일괄 가져오기
from EmbeddingModel import EmbeddingModel
from skimpgrams import skigrams
from Wikipedia import Wikipedia
from helpers import AttrDict
WIKI_DOWNLOAD_DIR = './wikipedia'
params = AttrDict (
Vocacia_size=10000,
max_context=10,
embedding_size=200,
Contrasive_examples=100,
learning_rate=0.5,
모멘텀=0.5,
배치_크기=1000,
)
data = tf.placeholder(tf.int32, [ None])
target = tf.placeholder(tf.int32, [None])
model = EmbeddingModel(data, target, params)
corpus = Wikipedia(
'https://dumps.wikimedia.org/enwiki/20160501/ '
'enwiki-20160501-pages-meta-current1.xml-p000000010p000030303.bz2',
WIKI_DOWNLOAD_DIR,
params.vocabulary_size)
예 = 스킵그램(말뭉치, params.max_context)
배치 = 배치(예, params.batch_size)
sess = tf.Session()
sess.run(tf.initialize_all_variables())
average = collections.deque(maxlen=100)
인덱스의 경우, 열거형 배치(배치):
Feed_dict = {data: 배치[0 ], 대상: 배치[1]}
비용, _ = sess.run([model.cost, model.optimize], Feed_dict)
average.append(cost)
print('{}: {:5.1f}' .format(index + 1, sum(average) / len(average)))
if index > 100000:
break
embeddings = sess.run(model.embeddings)
np.save(WIKI_DOWNLOAD_DIR + '/embeddings.npy', embeddings)

위 내용은 단어 벡터 임베딩의 자세한 예의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

본 웹사이트의 성명

본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.

핫 AI 도구

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

AI 옷 제거제

Video Face Swap

완전히 무료인 AI 얼굴 교환 도구를 사용하여 모든 비디오의 얼굴을 쉽게 바꾸세요!

뜨거운 도구

메모장++7.3.1

사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전

중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기

강력한 PHP 통합 개발 환경

드림위버 CS6

시각적 웹 개발 도구

SublimeText3 Mac 버전

신 수준의 코드 편집 소프트웨어(SublimeText3)

뜨거운 주제

Gmail 이메일의 로그인 입구는 어디에 있나요?

7659

Cakephp 튜토리얼

1393

C# 튜토리얼

1205

Steam의 계정 이름 형식은 무엇입니까?

Win11 활성화 키 영구

Related knowledge

Xiaohongshu 메모를 삭제하는 방법 Mar 21, 2024 pm 08:12 PM

Xiaohongshu 메모를 삭제하는 방법 Xiaohongshu 앱에서 메모를 편집할 수 있습니다. 다음으로 편집기는 Xiaohongshu 메모 삭제 방법에 대한 사용자 사진과 텍스트를 가져옵니다. 보세요! Xiaohongshu 사용 튜토리얼 Xiaohongshu 메모 삭제 방법 1. 먼저 Xiaohongshu 앱을 열고 메인 페이지로 들어가서 오른쪽 하단에 있는 [Me]를 선택하여 특별 영역으로 들어갑니다. 2. 그런 다음 내 영역에서 다음과 같이 메모 페이지를 클릭합니다. 3. 노트 페이지에 들어가서 오른쪽 상단에 있는 [점 3개]를 클릭합니다. 4. 마지막으로 기능 표시줄이 하단에 확장되고 [삭제]를 클릭하여 완료합니다.

pip를 완전히 제거하고 Python을 보다 효율적으로 사용하는 방법을 알아보세요. Jan 16, 2024 am 09:01 AM

더 이상 pip가 필요하지 않나요? 와서 pip를 효과적으로 제거하는 방법을 알아보세요! 소개: pip는 Python 패키지를 쉽게 설치, 업그레이드 및 제거할 수 있는 Python의 패키지 관리 도구 중 하나입니다. 그러나 때로는 다른 패키지 관리 도구를 사용하고 싶거나 Python 환경을 완전히 지워야 하기 때문에 pip를 제거해야 할 수도 있습니다. 이 문서에서는 pip를 효율적으로 제거하는 방법을 설명하고 구체적인 코드 예제를 제공합니다. 1. pip 제거 방법 다음은 pip 제거의 두 가지 일반적인 방법을 소개합니다.

Xiaohongshu에 게시한 메모가 누락된 경우 어떻게 해야 합니까? 방금 보낸 메모를 찾을 수 없는 이유는 무엇인가요? Mar 21, 2024 pm 09:30 PM

Xiaohongshu 사용자로서 우리 모두는 게시된 노트가 갑자기 사라지는 상황을 경험해 본 적이 있을 것입니다. 이는 의심할 여지 없이 혼란스럽고 걱정스러운 일입니다. 이런 경우, 우리는 어떻게 해야 합니까? 이번 글에서는 "샤오홍슈에서 발행한 노트가 누락된 경우 어떻게 해야 할까요?"라는 주제를 중심으로 자세한 답변을 드리겠습니다. 1. Xiaohongshu에서 발행한 노트가 누락된 경우 어떻게 해야 합니까? 첫째, 당황하지 마십시오. 메모가 누락된 경우 침착함을 유지하는 것이 중요하며 당황하지 마십시오. 이는 플랫폼 시스템 장애 또는 운영 오류로 인해 발생할 수 있습니다. 출시 기록을 확인하는 것은 쉽습니다. Xiaohongshu 앱을 열고 "나" → "게시" → "모든 출판물"을 클릭하면 자신의 출판 기록을 볼 수 있습니다. 여기에서는 이전에 게시된 메모를 쉽게 찾을 수 있습니다. 3.다시 게시합니다. 발견된 경우

Xiaohongshu의 노트에 제품 링크를 추가하는 방법 Xiaohongshu의 노트에 제품 링크를 추가하는 방법에 대한 튜토리얼 Mar 12, 2024 am 10:40 AM

Xiaohongshu 노트에 제품 링크를 추가하는 방법 Xiaohongshu 앱에서는 사용자가 다양한 콘텐츠를 탐색할 수 있을 뿐만 아니라 쇼핑도 할 수 있기 때문에 이 앱에는 쇼핑 추천 및 좋은 제품 공유에 대한 콘텐츠가 많이 있습니다. 이 앱에서는 일부 쇼핑 경험을 공유하고, 협력할 판매자를 찾고, 메모에 링크를 추가하는 등의 작업도 할 수 있습니다. 이 앱은 편리할 뿐만 아니라 많은 전문가가 만들 수 있기 때문에 많은 사람들이 쇼핑에 기꺼이 이 앱을 사용합니다. 흥미로운 콘텐츠를 탐색하고 자신에게 맞는 의류 제품이 있는지 확인할 수 있습니다. 노트에 제품 링크를 추가하는 방법을 살펴보겠습니다. 샤오홍슈 노트에 제품 링크를 추가하는 방법 휴대폰 데스크톱에서 앱을 엽니다. 앱 홈페이지를 클릭하세요

matplotlib의 컬러맵에 대해 자세히 알아보기 Jan 09, 2024 pm 03:51 PM

matplotlib 색상표에 대해 자세히 알아보려면 특정 코드 예제가 필요합니다. 1. 소개 matplotlib는 다양한 유형의 차트를 만드는 데 사용할 수 있는 풍부한 그리기 기능 및 도구 세트를 제공합니다. 컬러맵(colormap)은 차트의 색 구성표를 결정하는 matplotlib의 중요한 개념입니다. matplotlib 색상표에 대한 심층적인 연구는 matplotlib의 그리기 기능을 더 잘 익히고 그리기를 더 편리하게 만드는 데 도움이 될 것입니다.

C 언어의 매력을 밝히다: 프로그래머의 잠재력을 발견하다 Feb 24, 2024 pm 11:21 PM

C 언어 학습의 매력: 프로그래머의 잠재력을 여는 것 지속적인 기술 발전으로 컴퓨터 프로그래밍은 많은 주목을 받는 분야가 되었습니다. 많은 프로그래밍 언어 중에서 C 언어는 항상 프로그래머들에게 사랑을 받아 왔습니다. C 언어의 단순성, 효율성 및 폭넓은 적용 덕분에 많은 사람들이 프로그래밍 분야에 입문하는 첫 번째 단계는 C 언어입니다. 이 기사에서는 C 언어 학습의 매력과 C 언어 학습을 통해 프로그래머의 잠재력을 발휘하는 방법에 대해 설명합니다. 우선, C 언어 학습의 매력은 단순함에 있습니다. C언어는 다른 프로그래밍 언어에 비해

Pygame 시작하기: 종합적인 설치 및 구성 튜토리얼 Feb 19, 2024 pm 10:10 PM

처음부터 Pygame 배우기: 전체 설치 및 구성 튜토리얼, 특정 코드 예제 필요 소개: Pygame은 Python 프로그래밍 언어를 사용하여 개발된 오픈 소스 게임 개발 라이브러리로, 개발자가 다양한 유형을 쉽게 만들 수 있도록 풍부한 기능과 도구를 제공합니다. 게임의. 이 기사는 처음부터 Pygame을 배우는 데 도움이 될 것이며, 완전한 설치 및 구성 튜토리얼과 빠른 시작을 위한 특정 코드 예제를 제공할 것입니다. 1부: Python 및 Pygame 설치 먼저 다음 사항을 확인하세요.

워드에서 근수를 입력하는 방법을 함께 알아볼까요? Mar 19, 2024 pm 08:52 PM

Word에서 텍스트 내용을 편집할 때 수식 기호를 입력해야 하는 경우가 있습니다. 어떤 사람들은 Word에서 근수를 입력하는 방법을 모르기 때문에 편집자에게 Word에서 근수를 입력하는 방법에 대한 튜토리얼을 친구들과 공유해달라고 요청했습니다. 그것이 내 친구들에게 도움이 되기를 바랍니다. 먼저 컴퓨터에서 Word 소프트웨어를 연 다음 편집하려는 파일을 열고 루트 기호를 삽입해야 하는 위치로 커서를 이동합니다. 아래 그림 예를 참조하세요. 2. [삽입]을 선택한 후, 기호에서 [수식]을 선택하세요. 아래 그림의 빨간색 원과 같이 3. 아래의 [새 수식 삽입]을 선택하세요. 아래 그림의 빨간색 원과 같이 4. [부수]를 선택한 후 해당 부수를 선택합니다. 아래 그림의 빨간색 원에 표시된 대로:

See all articles