词向量嵌入的实例详解-Python教程-PHP中文网

首页

后端开发

Python教程

词向量嵌入的实例详解

PHP中文网

Jun 21, 2017 pm 04:11 PM

向量学习笔记

词向量嵌入需要高效率处理大规模文本语料库。word2vec。简单方式，词送入独热编码(one-hot encoding)学习系统，长度为词汇表长度的向量，词语对应位置元素为1,其余元素为0。向量维数很高，无法刻画不同词语的语义关联。共生关系(co-occurrence)表示单词，解决语义关联，遍历大规模文本语料库，统计每个单词一定距离范围内的周围词汇，用附近词汇规范化数量表示每个词语。类似语境中词语语义相似。用PCA或类似方法降维出现向量(occurrence vector)，得到更稠密表示。性能好，追踪所有词汇共生矩阵，宽度、高度为词汇表长度。2013年,Mikolov、Tomas等提出上下文计算词表示方法，《Efficient estimation of word representations in vector space》(arXiv preprint arXiv:1301.3781(2013))。skip-gram模型，从随机表示开始，依据当前词语预测上下文词语简单分类器，误差通过分类器权值和词表示传播，对两者调整减少预测误差。大规模语料库训练模型表示赂量逼近压缩后共生向量。

数据集, 英文维基百科转储文件包含所有页面完整修订历史，当前页面版本100GB，。

下载转储文件，提取页面词语。统计词语出现次数，构建常见词汇表。用词汇表对提取页面编码。逐行读取文件，结果立即写入磁盘。在不同步骤间保存检查点，避免程序崩溃重来。

__iter__遍历词语索引列表页面。encode获取字符串词语词汇索引。decode依据词汇索引返回字符串词语。_read_pages从维基百科转储文件(压缩XML)提取单词，保存到页面文件，每个页面一行空格分隔的单词。bz2模块open函数读取文件。中间结果压缩处理。正则表达式捕捉任意连续字母序列或单独特殊字母。_build_vocabulary统计页面文件单词数，出现频率高词语写入文件。独热编码需要词汇表。词汇表索引编码。移除拼写错误、极不常见词语，词汇表只包含vocabulary_size - 1个最常见词语。所有不在词汇表词语标记，未出现单词词向量。

动态形成训练样本，组织到大批数据，分类器不占大量内存。skip-gram模型预测当前词语的上下文词语。遍历文本，当前词语数据，周围词语目标，创建训练样本。上下文尺寸R，每个单词生成2R样本，当前词左右各R个词。语义上下文，距离近重要，尽量少创建远上下文词语训练样本，范围[1,D=10]随机选择词上下文尺寸。依据skip-gram模型形成训练对。Numpy数组生成数值流批数据。

初始，单词表示为随机向量。分类器根据中层表示预测上下文单词当前表示。传播误差，微调权值、输入单词表示。MomentumOptimizer 模型优化，智能不足，效率高。

分类器是模型核心。噪声对比估计损失(noisecontrastive estimation loss)性能优异。softmax分类器建模。tf.nn.nce_loss 新随机向量负样本(对比样本)，近似softmax分类器。

训练模型结束，最终词向量写入文件。维基百科语料库子集，普通CPU训练5小时，得到NumPy数组嵌入表示。完整语料库: 。AttrDict类等价Python dict，键可属性访问。

import bz2
import collections
import os
import re
from lxml import etree
from helpers import download
class Wikipedia:
TOKEN_REGEX = re.compile(r'[A-Za-z]+|[!?.:,()]')
def __init__(self, url, cache_dir, vocabulary_size=10000):
self._cache_dir = os.path.expanduser(cache_dir)
self._pages_path = os.path.join(self._cache_dir, 'pages.bz2')
self._vocabulary_path = os.path.join(self._cache_dir, 'vocabulary.bz2')
if not os.path.isfile(self._pages_path):
print('Read pages')
self._read_pages(url)
if not os.path.isfile(self._vocabulary_path):
print('Build vocabulary')
self._build_vocabulary(vocabulary_size)
with bz2.open(self._vocabulary_path, 'rt') as vocabulary:
print('Read vocabulary')
self._vocabulary = [x.strip() for x in vocabulary]
self._indices = {x: i for i, x in enumerate(self._vocabulary)}
def __iter__(self):
with bz2.open(self._pages_path, 'rt') as pages:
for page in pages:
words = page.strip().split()
words = [self.encode(x) for x in words]
yield words
@property
def vocabulary_size(self):
return len(self._vocabulary)
def encode(self, word):
return self._indices.get(word, 0)
def decode(self, index):
return self._vocabulary[index]
def _read_pages(self, url):
wikipedia_path = download(url, self._cache_dir)
with bz2.open(wikipedia_path) as wikipedia, \
bz2.open(self._pages_path, 'wt') as pages:
for _, element in etree.iterparse(wikipedia, tag='{*}page'):
if element.find('./{*}redirect') is not None:
continue
page = element.findtext('./{*}revision/{*}text')
words = self._tokenize(page)
pages.write(' '.join(words) + '\n')
element.clear()
def _build_vocabulary(self, vocabulary_size):
counter = collections.Counter()
with bz2.open(self._pages_path, 'rt') as pages:
for page in pages:
words = page.strip().split()
counter.update(words)
common = [''] + counter.most_common(vocabulary_size - 1)
common = [x[0] for x in common]
with bz2.open(self._vocabulary_path, 'wt') as vocabulary:
for word in common:
vocabulary.write(word + '\n')
@classmethod
def _tokenize(cls, page):
words = cls.TOKEN_REGEX.findall(page)
words = [x.lower() for x in words]
return words

import tensorflow as tf
import numpy as np
from helpers import lazy_property
class EmbeddingModel:
def __init__(self, data, target, params):
self.data = data
self.target = target
self.params = params
self.embeddings
self.cost
self.optimize
@lazy_property
def embeddings(self):
initial = tf.random_uniform(
[self.params.vocabulary_size, self.params.embedding_size],
-1.0, 1.0)
return tf.Variable(initial)
@lazy_property
def optimize(self):
optimizer = tf.train.MomentumOptimizer(
self.params.learning_rate, self.params.momentum)
return optimizer.minimize(self.cost)
@lazy_property
def cost(self):
embedded = tf.nn.embedding_lookup(self.embeddings, self.data)
weight = tf.Variable(tf.truncated_normal(
[self.params.vocabulary_size, self.params.embedding_size],
stddev=1.0 / self.params.embedding_size ** 0.5))
bias = tf.Variable(tf.zeros([self.params.vocabulary_size]))
target = tf.expand_dims(self.target, 1)
return tf.reduce_mean(tf.nn.nce_loss(
weight, bias, embedded, target,
self.params.contrastive_examples,
self.params.vocabulary_size))

import collections
import tensorflow as tf
import numpy as np
from batched import batched
from EmbeddingModel import EmbeddingModel
from skipgrams import skipgrams
from Wikipedia import Wikipedia
from helpers import AttrDict
WIKI_DOWNLOAD_DIR = './wikipedia'
params = AttrDict(
vocabulary_size=10000,
max_context=10,
embedding_size=200,
contrastive_examples=100,
learning_rate=0.5,
momentum=0.5,
batch_size=1000,
)
data = tf.placeholder(tf.int32, [None])
target = tf.placeholder(tf.int32, [None])
model = EmbeddingModel(data, target, params)
corpus = Wikipedia(
'https://dumps.wikimedia.org/enwiki/20160501/'
'enwiki-20160501-pages-meta-current1.xml-p000000010p000030303.bz2',
WIKI_DOWNLOAD_DIR,
params.vocabulary_size)
examples = skipgrams(corpus, params.max_context)
batches = batched(examples, params.batch_size)
sess = tf.Session()
sess.run(tf.initialize_all_variables())
average = collections.deque(maxlen=100)
for index, batch in enumerate(batches):
feed_dict = {data: batch[0], target: batch[1]}
cost, _ = sess.run([model.cost, model.optimize], feed_dict)
average.append(cost)
print('{}: {:5.1f}'.format(index + 1, sum(average) / len(average)))
if index > 100000:
break
embeddings = sess.run(model.embeddings)
np.save(WIKI_DOWNLOAD_DIR + '/embeddings.npy', embeddings)

以上是词向量嵌入的实例详解的详细内容。更多信息请关注PHP中文网其他相关文章！

本站声明

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

热AI工具

Undresser.AI Undress

人工智能驱动的应用程序，用于创建逼真的裸体照片

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

免费脱衣服图片

Clothoff.io

AI脱衣机

Video Face Swap

使用我们完全免费的人工智能换脸工具轻松在任何视频中换脸！

显示更多

热工具

记事本++7.3.1

好用且免费的代码编辑器

SublimeText3汉化版

中文版，非常好用

禅工作室 13.0.1

功能强大的PHP集成开发环境

Dreamweaver CS6

视觉化网页开发工具

SublimeText3 Mac版

神级代码编辑软件(SublimeText3)

显示更多

热门话题

Java教程

1655

CakePHP 教程

1414

Laravel 教程

1307

PHP教程

1253

C# 教程

1228

显示更多

Related knowledge

小红书笔记怎么删除 Mar 21, 2024 pm 08:12 PM

小红书笔记怎么删除?在小红书APP中是可以编辑笔记的，多数的用户不知道小红书笔记如何的删除，接下来就是小编为用户带来的小红书笔记删除方法图文教程，感兴趣的用户快来一起看看吧！小红书使用教程小红书笔记怎么删除1、首先打开小红书APP进入到主页面，选择右下角【我】进入到专区;2、之后在我的专区，点击下图所示的笔记页面，选择要删除的笔记;3、进入到笔记页面，右上角【三个点】;4、最后下方会展开功能栏，点击【删除】即可完成。

学会彻底卸载pip，使用Python更加高效 Jan 16, 2024 am 09:01 AM

不再需要pip？快来学习如何有效卸载pip！引言：pip是Python的包管理工具之一，它可以方便地安装、升级和卸载Python包。然而，有时候我们可能需要卸载pip，可能是因为我们希望使用其他的包管理工具，或者因为我们需要完全清除Python环境。本文将介绍如何有效地卸载pip，并提供具体的代码示例。一、卸载pip的方法下面将介绍两种常见的卸载pip的方法

小红书发布过的笔记不见了怎么办？它刚发的笔记搜不到的原因是什么？ Mar 21, 2024 pm 09:30 PM

作为一名小红书的用户，我们都曾遇到过发布过的笔记突然不见了的情况，这无疑让人感到困惑和担忧。在这种情况下，我们该怎么办呢？本文将围绕“小红书发布过的笔记不见了怎么办”这一主题，为你详细解答。一、小红书发布过的笔记不见了怎么办？首先，不要惊慌。如果你发现笔记不见了，保持冷静是关键，不要慌张。这可能是由于平台系统故障或操作失误引起的。检查发布记录很简单。只需打开小红书App，点击“我”→“发布”→“所有发布”，就可以查看自己的发布记录。在这里，你可以轻松找到之前发布的笔记。3.重新发布。如果找到了之

深入研究matplotlib的色彩映射表 Jan 09, 2024 pm 03:51 PM

深入学习matplotlib颜色表，需要具体代码示例一、引言matplotlib是一个功能强大的Python绘图库，它提供了丰富的绘图函数和工具，可以用于创建各种类型的图表。而颜色表(colormap)是matplotlib中一个重要的概念，它决定了图表的配色方案。深入学习matplotlib颜色表，将帮助我们更好地掌握matplotlib的绘图功能，使绘

小红书怎么在笔记中添加商品链接小红书在笔记中添加商品链接教程 Mar 12, 2024 am 10:40 AM

　　小红书怎么在笔记中添加商品链接?在小红书这款app中用户不仅可以浏览各种内容还可以进行购物，所以这款app中关于购物推荐、好物分享的内容是非常多的，如果小伙伴在这款app也是一个达人的话，也可以分享一些购物经验，找到商家进行合作，在笔记中添加连接之类的，很多人都愿意使用这款app购物，因为不仅方便，而且有很多达人会进行一些推荐，可以一边浏览有趣内容，一边看看有没有适合自己的衣服商品。一起看看如何在笔记中添加商品链接吧!小红书笔记添加商品链接方法　　在手机桌面上打开app。　　在app首页点击

Pygame入门指南：全面安装和配置教程 Feb 19, 2024 pm 10:10 PM

从零开始学习Pygame：完整的安装和配置教程，需要具体代码示例引言：Pygame是一个使用Python编程语言开发的开源游戏开发库，它提供了丰富的功能和工具，使得开发者可以轻松创建各种类型的游戏。本文将带您从零开始学习Pygame，并提供完整的安装和配置教程，以及具体的代码示例，让您快速入门。第一部分：安装Python和Pygame首先，确保您的计算机上已

揭秘C语言的吸引力: 发掘程序员的潜质 Feb 24, 2024 pm 11:21 PM

学习C语言的魅力：解锁程序员的潜力随着科技的不断发展，计算机编程已经成为了一个备受关注的领域。在众多编程语言中，C语言一直以来都备受程序员的喜爱。它的简单、高效以及广泛应用的特点，使得学习C语言成为了许多人进入编程领域的第一步。本文将讨论学习C语言的魅力，以及如何通过学习C语言来解锁程序员的潜力。首先，学习C语言的魅力在于其简洁性。相比其他编程语言而言，C语

一起学习word根号输入办法 Mar 19, 2024 pm 08:52 PM

在word中编辑文字内容时，有时会需要输入公式符号。有的小伙们不知道在word根号输入的方法，小面就让小编跟小伙伴们一起分享下word根号输入的方法教程。希望对小伙伴们有所帮助。首先，打开电脑上的Word软件，然后打开要编辑的文件，并将光标移动到需要插入根号的位置，参考下方的图片示例。2.选择【插入】，再选择符号里的【公式】。如下方的图片红色圈中部分内容所示：3.接着选择下方的【插入新公式】。如下方的图片红色圈中部分内容所示：4.选择【根式】，再选择合适的根号。如下方的图片红色圈中部分内容所示：

See all articles

词向量嵌入的实例详解

热AI工具

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

Video Face Swap

热门文章

热工具

记事本++7.3.1

SublimeText3汉化版

禅工作室 13.0.1

Dreamweaver CS6

SublimeText3 Mac版

热门话题