目錄
where is word2vec?
训练语料获取
处理语料及分词
运行word2vec进行分析
首頁 資料庫 mysql教程 word2vec实践及对关键词聚类

word2vec实践及对关键词聚类

Jun 07, 2016 pm 03:17 PM
query 關鍵字 實踐 搜尋 聚類 領域

在搜索领域query的处理变得越来越重要,其中分类就是很重要的一环,对query分类是比较难的工程,因为query普遍较短,含有的信息(熵)很少,所以很难进行分类,普遍的方法是对query进行扩展,例如抓取搜索引擎的结果,或是直接将query扩展到对应的doc,然后

   在搜索领域query的处理变得越来越重要,其中分类就是很重要的一环,对query分类是比较难的工程,因为query普遍较短,含有的信息(熵)很少,所以很难进行分类,普遍的方法是对query进行扩展,例如抓取搜索引擎的结果,或是直接将query扩展到对应的doc,然后对doc进行分类,对doc分类就变得容易了,而且准确率比较高,最近看到word2vec很火,使用的是无监督的机器学习,也就是不需要标注数据,于是就研究了一下,看是否可以使用结果用于query分类扩展。

where is word2vec?

https://code.google.com/p/word2vec/

可以在上面下载具体的代码进行编译,生成相关的分析工具,上面的C代码写的有些“抽象”,以下有C++版本,看起来比较直观

https://github.com/jdeng/word2vec

训练语料获取

可以在搜狗试验室中获取一些新闻数据,尽管比较老但是将就着用,其实感觉微博的数据会好些,一是数据量大,二是信息含量比较高(新鲜东西比较多),新闻的语料可以在

http://www.sogou.com/labs/dl/ca.html 上获取,只要简单的注册一下就可以,在windows下下载还是比较麻烦的,需要用ftp工具,实际上可以用windows自带的ftp.exe就可以下载。

word2vec实践及对关键词聚类


1、在cmd窗口下执行 ftp ftp.labs.sogou.com

2、输入注册生成的用户名

3、输入注册生成的密码,然后就可以连接到ftp上

4、cd到对应的目录,执行dir或ls就可以看到具体的文件

5、get news_tensite_xml.full.tar.gz 就可以下载文件到个人文档目录了

处理语料及分词

语料是xml结构的,需要将新闻内容清洗出来

cat news_tensite_xml.dat | iconv -f gbk -t utf-8 -c | grep "<content>" | sed 's\<content>\\' | sed 's\</content>\\' > news.txt</content>
登入後複製

这样就可以将新闻内容清洗出来,一行一篇文章,接下来就对对语料进行分词了,找了一些开源的分词,java版本的有些比较难用,有时莫名其妙的乱码问题就要折腾半天,这里就是用了中科院的分词ICTCLAS,C++版本的,在linux下运行比较简单,我已经写好了分词的程序,放到CSDN上,需要的可以直接下载,包括库,分词词典,还有二进制程序,分词工具,点此进入下载。ICTCLAS分词器相关资料可以查看http://hi.baidu.com/drkevinzhang/


        语料总计有1143394篇文章,分词后数据文件有2.2G,分词后的情况如下:

word2vec实践及对关键词聚类


运行word2vec进行分析

./word2vec -train out.txt -output vectors.bin -cbow 0 -size 200 -window 5 -negative 0 -hs 1 -sample 1e-3 -threads 12 -binary 1
登入後複製

word2vec实践及对关键词聚类

这个过程可能需要一段时间的等待,运行完成后,会生成vectors.bin文件,接着就可以利用提供的余弦计算工具查看关键词的相关词了

执行./distance vectors.bin 然后输入想看的查询词就可以看到效果了。

word2vec实践及对关键词聚类


word2vec实践及对关键词聚类


word2vec实践及对关键词聚类


可以看到针对实体名称,分析的结果还是很靠谱的,如果针对语料做些预处理相信结果会更好。

可以通过

./word2vec -train out.txt -output classes.txt -cbow 0 -size 200 -window 5 -negative 0 -hs 1 -sample 1e-3 -threads 12 -classes 500

对分析结果进行聚类用于query方面的分类,结果如下:

word2vec实践及对关键词聚类

将单词去除后,结果还是比较可观的。


参考:

http://blog.csdn.net/zhaoxinfan/article/details/11069485

https://code.google.com/p/word2vec/




请关注我的博客 word2vec实践及对关键词聚类

本網站聲明
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

Video Face Swap

Video Face Swap

使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

<🎜>:泡泡膠模擬器無窮大 - 如何獲取和使用皇家鑰匙
3 週前 By 尊渡假赌尊渡假赌尊渡假赌
北端:融合系統,解釋
4 週前 By 尊渡假赌尊渡假赌尊渡假赌
Mandragora:巫婆樹的耳語 - 如何解鎖抓鉤
3 週前 By 尊渡假赌尊渡假赌尊渡假赌

熱工具

記事本++7.3.1

記事本++7.3.1

好用且免費的程式碼編輯器

SublimeText3漢化版

SublimeText3漢化版

中文版,非常好用

禪工作室 13.0.1

禪工作室 13.0.1

強大的PHP整合開發環境

Dreamweaver CS6

Dreamweaver CS6

視覺化網頁開發工具

SublimeText3 Mac版

SublimeText3 Mac版

神級程式碼編輯軟體(SublimeText3)

熱門話題

Java教學
1669
14
CakePHP 教程
1428
52
Laravel 教程
1329
25
PHP教程
1273
29
C# 教程
1256
24
小米 14 Ultra怎麼調整光圈? 小米 14 Ultra怎麼調整光圈? Mar 19, 2024 am 09:01 AM

光圈大小的調整對於拍照效果有著至關重要的影響,小米14Ultra在相機光圈調整方面提供了前所未有的靈活性。為了讓大家都能順利調節光圈,實現光圈大小的自由調節,小編在這裡為大家帶來了小米14Ultra怎麼設定光圈的詳細教學。小米14Ultra怎麼調整光圈?啟動相機,切換至“專業模式”,選擇主鏡頭-W鏡頭。點選光圈,開啟光圈轉盤,A為自動,按需選擇f/1.9或f/4.0。

Cheat Engine怎麼設定中文?ce修改器設定中文的方法 Cheat Engine怎麼設定中文?ce修改器設定中文的方法 Mar 18, 2024 pm 01:20 PM

Ce修改器(CheatEngine)是一款專用於對遊戲內存進行修改和編輯的遊戲修改工具,那麼在CheatEngine中怎麼設置中文呢?接下來小編為大夥講述ce修改器設置中文的方法內容,希望可以幫助到有需要的朋友。在我們下載的新軟體中,若發現它不是中文介面,可能會讓人感到困惑。儘管這款軟體不是由中國開發的,但我們仍有方法將其轉換為中文版本。只要簡單地套用中文補丁,就能解決這個問題。在下載並安裝了CheatEngine(ce修改器)軟體後,開啟安裝位置,找到名為languages的資料夾,如下圖所示

wps表格找不到正在搜尋的資料,請檢查搜尋選項位置 wps表格找不到正在搜尋的資料,請檢查搜尋選項位置 Mar 19, 2024 pm 10:13 PM

智能為主導的時代,辦公室軟體也普及開來,Wps表格由於它的靈活性被廣大的辦公室人員採用。在工作上要求我們不只是要學會簡單的表格製作和文字輸入,我們要掌握更多的操作技能,才能完成實際工作中的任務,有數據的報表,運用表格更方便更清楚更準確。今天我們帶給大家的課程是:wps表格找不到正在搜尋的資料,為什麼請檢查搜尋選項位置? 1.先選取Excel表格,雙擊開啟。然後在該介面中,選取所有的儲存格。  2、然後在該介面中,點選頂部工具列裡「檔案」裡的「編輯」選項。  3、其次在該介面中,點選頂部工具列裡的“

榮耀 90 GT怎麼更新榮耀MagicOS 8.0? 榮耀 90 GT怎麼更新榮耀MagicOS 8.0? Mar 18, 2024 pm 06:46 PM

榮耀90GT是一款性價比很高的智慧型手機,擁有出色的效能和出色的使用者體驗。然而,有時候我們可能會遇到一些問題,例如榮耀90GT怎麼更新榮耀MagicOS8.0呢?這個步驟因為不同的手機不同的機型可能會有些差別,那麼,讓我們一起來探討一下,如何正確地升級系統。榮耀90GT怎麼更新榮耀MagicOS8.0?2月28日訊息,榮耀今天為旗下90GT/100/100Pro三款手機推送MagicOS8.0公測更新,包版本號為8.0.0.106(C00E106R3P1)1.確保您的榮耀90GT的電池電量充足,

Planet Mojo:從自走棋遊戲Mojo Melee建起Web3遊戲元宇宙 Planet Mojo:從自走棋遊戲Mojo Melee建起Web3遊戲元宇宙 Mar 14, 2024 pm 05:55 PM

成立於上個加密週期的熱門元宇宙遊戲項目們正在加速擴張。 3月4日,Web3遊戲元宇宙平台PlanetMojo宣布了其遊戲生態的多個重要動態,包括預告即將推出跑酷遊戲GoGoMojo、旗艦自走棋遊戲MojoMelee推出新賽季“戰之道”,以及為慶祝新賽季與MagicEden合作推出的首個ETH系列「WarBannerNFT」。另外,PlanetMojo也透露,他們計劃在今年稍後推出MojoMelee的Android和iOS行動版本。這個計畫在2021年底啟動,經過在熊市中近兩年的努力建設,即將在

手機淘寶怎麼搜尋店鋪 搜尋店舖名的方法 手機淘寶怎麼搜尋店鋪 搜尋店舖名的方法 Mar 13, 2024 am 11:00 AM

手機淘寶app軟體內提供的商品好物非常多,隨時隨地想買就買,而且件件都是正品,每一件商品的價格標籤一清二楚,完全沒有任何的複雜操作,享受更加便捷的購物樂趣。隨心所欲自由搜尋選購,不同品類的商品板塊都是開放的,添加個人的收貨地址以及聯絡電話,方便快遞公司聯繫到你,實時查看最新的物流動態,那麼有些新人用戶第一次使用它,不知道如何搜尋商品,當然只需要在搜尋欄輸入關鍵字就能找到所有的商品結果,自由選購根本停不下來,現在小編在線詳細為手機淘寶用戶們帶來搜尋店鋪名的方法。  1.先打開手機淘寶app,

Cheat Engine如何設定中文? Cheat Engine設定中文方法 Cheat Engine如何設定中文? Cheat Engine設定中文方法 Mar 13, 2024 pm 04:49 PM

  CheatEngine是一款遊戲編輯器,能夠對遊戲的記憶體進行編輯修改。但是它的預設語言是非中文的,對於很多小夥伴來說比較不方便,那麼CheatEngine怎麼設定中文呢?今天小編就跟大家詳細介紹一下CheatEngine設定中文的方法,希望可以幫助到你。  設定方法一  1、雙擊開啟軟體,點選左上角的「edit」。  2、接著點選下方選項清單中的「settings」。  3、在開啟的視窗介面中,點選左側欄中的“languages”

用Golang函數簡化檔案上傳處理 用Golang函數簡化檔案上傳處理 May 02, 2024 pm 06:45 PM

答案:是,Golang提供的函數可以簡化檔案上傳處理。詳情:MultipartFile類型提供對文件元資料和內容的存取。 FormFile函數從表單請求中取得特定檔案。 ParseForm和ParseMultipartForm函數用於解析表單資料和多部分錶單資料。使用這些函數簡化了文件處理流程,讓開發者專注於業務邏輯。

See all articles