目录
where is word2vec?
训练语料获取
处理语料及分词
运行word2vec进行分析
首页 数据库 mysql教程 word2vec实践及对关键词聚类

word2vec实践及对关键词聚类

Jun 07, 2016 pm 03:17 PM
query 关键词 实践 搜索 聚类 领域

在搜索领域query的处理变得越来越重要,其中分类就是很重要的一环,对query分类是比较难的工程,因为query普遍较短,含有的信息(熵)很少,所以很难进行分类,普遍的方法是对query进行扩展,例如抓取搜索引擎的结果,或是直接将query扩展到对应的doc,然后

   在搜索领域query的处理变得越来越重要,其中分类就是很重要的一环,对query分类是比较难的工程,因为query普遍较短,含有的信息(熵)很少,所以很难进行分类,普遍的方法是对query进行扩展,例如抓取搜索引擎的结果,或是直接将query扩展到对应的doc,然后对doc进行分类,对doc分类就变得容易了,而且准确率比较高,最近看到word2vec很火,使用的是无监督的机器学习,也就是不需要标注数据,于是就研究了一下,看是否可以使用结果用于query分类扩展。

where is word2vec?

https://code.google.com/p/word2vec/

可以在上面下载具体的代码进行编译,生成相关的分析工具,上面的C代码写的有些“抽象”,以下有C++版本,看起来比较直观

https://github.com/jdeng/word2vec

训练语料获取

可以在搜狗试验室中获取一些新闻数据,尽管比较老但是将就着用,其实感觉微博的数据会好些,一是数据量大,二是信息含量比较高(新鲜东西比较多),新闻的语料可以在

http://www.sogou.com/labs/dl/ca.html 上获取,只要简单的注册一下就可以,在windows下下载还是比较麻烦的,需要用ftp工具,实际上可以用windows自带的ftp.exe就可以下载。

word2vec实践及对关键词聚类


1、在cmd窗口下执行 ftp ftp.labs.sogou.com

2、输入注册生成的用户名

3、输入注册生成的密码,然后就可以连接到ftp上

4、cd到对应的目录,执行dir或ls就可以看到具体的文件

5、get news_tensite_xml.full.tar.gz 就可以下载文件到个人文档目录了

处理语料及分词

语料是xml结构的,需要将新闻内容清洗出来

cat news_tensite_xml.dat | iconv -f gbk -t utf-8 -c | grep "<content>" | sed 's\<content>\\' | sed 's\</content>\\' > news.txt
登录后复制

这样就可以将新闻内容清洗出来,一行一篇文章,接下来就对对语料进行分词了,找了一些开源的分词,java版本的有些比较难用,有时莫名其妙的乱码问题就要折腾半天,这里就是用了中科院的分词ICTCLAS,C++版本的,在linux下运行比较简单,我已经写好了分词的程序,放到CSDN上,需要的可以直接下载,包括库,分词词典,还有二进制程序,分词工具,点此进入下载。ICTCLAS分词器相关资料可以查看http://hi.baidu.com/drkevinzhang/


        语料总计有1143394篇文章,分词后数据文件有2.2G,分词后的情况如下:

word2vec实践及对关键词聚类


运行word2vec进行分析

./word2vec -train out.txt -output vectors.bin -cbow 0 -size 200 -window 5 -negative 0 -hs 1 -sample 1e-3 -threads 12 -binary 1
登录后复制

word2vec实践及对关键词聚类

这个过程可能需要一段时间的等待,运行完成后,会生成vectors.bin文件,接着就可以利用提供的余弦计算工具查看关键词的相关词了

执行./distance vectors.bin 然后输入想看的查询词就可以看到效果了。

word2vec实践及对关键词聚类


word2vec实践及对关键词聚类


word2vec实践及对关键词聚类


可以看到针对实体名称,分析的结果还是很靠谱的,如果针对语料做些预处理相信结果会更好。

可以通过

./word2vec -train out.txt -output classes.txt -cbow 0 -size 200 -window 5 -negative 0 -hs 1 -sample 1e-3 -threads 12 -classes 500

对分析结果进行聚类用于query方面的分类,结果如下:

word2vec实践及对关键词聚类

将单词去除后,结果还是比较可观的。


参考:

http://blog.csdn.net/zhaoxinfan/article/details/11069485

https://code.google.com/p/word2vec/




请关注我的博客 word2vec实践及对关键词聚类

本站声明
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn

热AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

Undress AI Tool

免费脱衣服图片

Clothoff.io

Clothoff.io

AI脱衣机

AI Hentai Generator

AI Hentai Generator

免费生成ai无尽的。

热门文章

R.E.P.O.能量晶体解释及其做什么(黄色晶体)
3 周前 By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.最佳图形设置
3 周前 By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.如果您听不到任何人,如何修复音频
3 周前 By 尊渡假赌尊渡假赌尊渡假赌

热工具

记事本++7.3.1

记事本++7.3.1

好用且免费的代码编辑器

SublimeText3汉化版

SublimeText3汉化版

中文版,非常好用

禅工作室 13.0.1

禅工作室 13.0.1

功能强大的PHP集成开发环境

Dreamweaver CS6

Dreamweaver CS6

视觉化网页开发工具

SublimeText3 Mac版

SublimeText3 Mac版

神级代码编辑软件(SublimeText3)

小米 14 Ultra怎么调整光圈? 小米 14 Ultra怎么调整光圈? Mar 19, 2024 am 09:01 AM

光圈大小的调整对于拍照效果有着至关重要的影响,小米14Ultra在相机光圈调节方面提供了前所未有的灵活性。为了让大家都能顺利调节光圈,实现光圈大小的自由调节,小编在这里为大家带来了小米14Ultra怎么设置光圈的详细教程。小米14Ultra怎么调整光圈?启动相机,切换至“专业模式”,选择主摄-W镜头。点击光圈,打开光圈转盘,A为自动,按需选择f/1.9或f/4.0。

Cheat Engine怎么设置中文?ce修改器设置中文的方法 Cheat Engine怎么设置中文?ce修改器设置中文的方法 Mar 18, 2024 pm 01:20 PM

Ce修改器(CheatEngine)是一款专用于对游戏内存进行修改和编辑的游戏修改工具,那么在CheatEngine中怎么设置中文呢?接下来小编为大伙讲述ce修改器设置中文的方法内容,希望可以帮助到有需要的朋友。在我们下载的新软件中,若发现它不是中文界面,可能会让人感到困惑。尽管这款软件不是由中国开发的,但我们仍有方法将其转换为中文版本。只需简单地应用中文补丁,就能解决这个问题。在下载并安装了CheatEngine(ce修改器)软件后,打开安装位置,找到名为languages的文件夹,如下图所示

wps表格找不到正在搜索的数据,请检查搜索选项位置 wps表格找不到正在搜索的数据,请检查搜索选项位置 Mar 19, 2024 pm 10:13 PM

智能为主导的时代,办公软件也普及开来,Wps表格由于它的灵活性被广大的办公人员采用。在工作中要求我们不只是要学会简单的表格制作和文字录入,我们要掌握更多的操作技能,才能完成实际工作中的任务,有数据的报表,运用表格更方便更清楚更准确。今天我们给大家带来的课程是:wps表格找不到正在搜索的数据,为什么请检查搜索选项位置?1、首先选中Excel表格,双击打开。然后在该界面中,选中所有的单元格。  2、然后在该界面中,点击顶部工具栏里“文件”里的“编辑”选项。  3、其次在该界面中,点击顶部工具栏里的“

荣耀 90 GT怎么更新荣耀MagicOS 8.0? 荣耀 90 GT怎么更新荣耀MagicOS 8.0? Mar 18, 2024 pm 06:46 PM

荣耀90GT是一款性价比很高的智能手机,拥有出色的性能和出色的用户体验。然而,有时候我们可能会遇到一些问题,比如荣耀90GT怎么更新荣耀MagicOS8.0呢?这个步骤因为不同的手机不同的机型可能会有些区别,那么,让我们一起来探讨一下,如何正确地升级系统吧。荣耀90GT怎么更新荣耀MagicOS8.0?2月28日消息,荣耀今天为旗下90GT/100/100Pro三款手机推送MagicOS8.0公测更新,包版本号为8.0.0.106(C00E106R3P1)1.确保您的荣耀90GT的电池电量充足,

Planet Mojo:从自走棋游戏Mojo Melee建起Web3游戏元宇宙 Planet Mojo:从自走棋游戏Mojo Melee建起Web3游戏元宇宙 Mar 14, 2024 pm 05:55 PM

成立于上个加密周期的热门元宇宙游戏项目们正在加速扩张。3月4日,Web3游戏元宇宙平台PlanetMojo宣布了其游戏生态的多个重要动态,包括预告即将推出跑酷游戏GoGoMojo、旗舰自走棋游戏MojoMelee推出新赛季“战之道”,以及为庆祝新赛季与MagicEden合作推出的首个ETH系列“WarBannerNFT”。另外,PlanetMojo还透露,他们计划在今年晚些时候推出MojoMelee的Android和iOS移动版本。这个项目在2021年底启动,经过在熊市中近两年的努力建设,即将在

自媒体最赚钱的五大领域是什么?2024年抖音扶持方向是什么? 自媒体最赚钱的五大领域是什么?2024年抖音扶持方向是什么? Mar 22, 2024 am 10:11 AM

随着互联网的快速发展,自媒体行业成为了越来越多人的关注焦点。在这个行业中,有些领域因其广阔的市场前景和盈利能力而备受瞩目。本文将为您揭示自媒体最赚钱的五大领域,同时探讨2024年抖音的扶持方向,帮助您更好地把握自媒体发展机遇。一、自媒体最赚钱的五大领域是什么?随着在线教育的兴起,教育培训领域变得越来越受欢迎。人们愿意为获取知识和技能进行投资,这不仅包括学术课程,还包括技能培训和职场提升等方面。自媒体创作者可以通过创作高质量的教育内容来吸引学员付费学习,从而实现盈利。这种趋势显示出人们对于终身学习

手机淘宝怎么搜索店铺 搜索店铺名的方法 手机淘宝怎么搜索店铺 搜索店铺名的方法 Mar 13, 2024 am 11:00 AM

  手机淘宝app软件内提供的商品好物非常多,随时随地想买就买,而且件件都是正品,每一件商品的价格标签一清二楚,完全没有任何的复杂操作,享受更加便捷的购物乐趣。随心所欲自由搜索选购,不同品类的商品板块都是开放的,添加个人的收货地址以及联系电话,方便快递公司联系到你,实时查看最新的物流动态,那么有些新人用户第一次使用它,不知道如何搜索商品,当然只需要在搜索栏输入关键词就能找到所有的商品结果,自由选购根本停不下来,现在小编在线详细为手机淘宝用户们带来搜索店铺名的方法。  1.首先打开手机淘宝app,

织梦CMS站群实践分享 织梦CMS站群实践分享 Mar 18, 2024 am 10:18 AM

织梦CMS站群实践分享近年来,随着互联网的快速发展,网站建设变得越来越重要。在建设多个网站时,站群技术成为了一个非常有效的方法。而在众多网站建设工具中,织梦CMS凭借其灵活性和易用性成为了不少站群爱好者的首选。本文将分享一些关于织梦CMS站群的实践经验,以及一些具体的代码示例,希望能为正在探索站群技术的读者提供一些帮助。1.什么是织梦CMS站群?织梦CMS

See all articles