word2vec实践及对关键词聚类
在搜索领域query的处理变得越来越重要,其中分类就是很重要的一环,对query分类是比较难的工程,因为query普遍较短,含有的信息(熵)很少,所以很难进行分类,普遍的方法是对query进行扩展,例如抓取搜索引擎的结果,或是直接将query扩展到对应的doc,然后
在搜索领域query的处理变得越来越重要,其中分类就是很重要的一环,对query分类是比较难的工程,因为query普遍较短,含有的信息(熵)很少,所以很难进行分类,普遍的方法是对query进行扩展,例如抓取搜索引擎的结果,或是直接将query扩展到对应的doc,然后对doc进行分类,对doc分类就变得容易了,而且准确率比较高,最近看到word2vec很火,使用的是无监督的机器学习,也就是不需要标注数据,于是就研究了一下,看是否可以使用结果用于query分类扩展。
where is word2vec?
https://code.google.com/p/word2vec/
可以在上面下载具体的代码进行编译,生成相关的分析工具,上面的C代码写的有些“抽象”,以下有C++版本,看起来比较直观
https://github.com/jdeng/word2vec
训练语料获取
可以在搜狗试验室中获取一些新闻数据,尽管比较老但是将就着用,其实感觉微博的数据会好些,一是数据量大,二是信息含量比较高(新鲜东西比较多),新闻的语料可以在
http://www.sogou.com/labs/dl/ca.html 上获取,只要简单的注册一下就可以,在windows下下载还是比较麻烦的,需要用ftp工具,实际上可以用windows自带的ftp.exe就可以下载。
1、在cmd窗口下执行 ftp ftp.labs.sogou.com
2、输入注册生成的用户名
3、输入注册生成的密码,然后就可以连接到ftp上
4、cd到对应的目录,执行dir或ls就可以看到具体的文件
5、get news_tensite_xml.full.tar.gz 就可以下载文件到个人文档目录了
处理语料及分词
语料是xml结构的,需要将新闻内容清洗出来
cat news_tensite_xml.dat | iconv -f gbk -t utf-8 -c | grep "<content>" | sed 's\<content>\\' | sed 's\</content>\\' > news.txt</content>
这样就可以将新闻内容清洗出来,一行一篇文章,接下来就对对语料进行分词了,找了一些开源的分词,java版本的有些比较难用,有时莫名其妙的乱码问题就要折腾半天,这里就是用了中科院的分词ICTCLAS,C++版本的,在linux下运行比较简单,我已经写好了分词的程序,放到CSDN上,需要的可以直接下载,包括库,分词词典,还有二进制程序,分词工具,点此进入下载。ICTCLAS分词器相关资料可以查看http://hi.baidu.com/drkevinzhang/
语料总计有1143394篇文章,分词后数据文件有2.2G,分词后的情况如下:
运行word2vec进行分析
./word2vec -train out.txt -output vectors.bin -cbow 0 -size 200 -window 5 -negative 0 -hs 1 -sample 1e-3 -threads 12 -binary 1

这个过程可能需要一段时间的等待,运行完成后,会生成vectors.bin文件,接着就可以利用提供的余弦计算工具查看关键词的相关词了
执行./distance vectors.bin 然后输入想看的查询词就可以看到效果了。
可以看到针对实体名称,分析的结果还是很靠谱的,如果针对语料做些预处理相信结果会更好。
可以通过
./word2vec -train out.txt -output classes.txt -cbow 0 -size 200 -window 5 -negative 0 -hs 1 -sample 1e-3 -threads 12 -classes 500
对分析结果进行聚类用于query方面的分类,结果如下:
将单词去除后,结果还是比较可观的。
参考:
http://blog.csdn.net/zhaoxinfan/article/details/11069485
https://code.google.com/p/word2vec/
请关注我的博客 word2vec实践及对关键词聚类

Outils d'IA chauds

Undresser.AI Undress
Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover
Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool
Images de déshabillage gratuites

Clothoff.io
Dissolvant de vêtements AI

AI Hentai Generator
Générez AI Hentai gratuitement.

Article chaud

Outils chauds

Bloc-notes++7.3.1
Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise
Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1
Puissant environnement de développement intégré PHP

Dreamweaver CS6
Outils de développement Web visuel

SublimeText3 version Mac
Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Le réglage de la taille de l'ouverture a un impact crucial sur l'effet photo. Le Xiaomi Mi 14 Ultra offre une flexibilité sans précédent dans le réglage de l'ouverture de l'appareil photo. Afin de permettre à chacun d'ajuster l'ouverture en douceur et de réaliser le réglage libre de la taille de l'ouverture, l'éditeur vous propose ici un tutoriel détaillé sur la façon de régler l'ouverture sur Xiaomi Mi 14Ultra. Comment régler l’ouverture sur Xiaomi Mi 14Ultra ? Démarrez l'appareil photo, passez en « Mode professionnel » et sélectionnez l'appareil photo principal - l'objectif W. Cliquez sur l'ouverture, ouvrez la molette d'ouverture, A est automatique, sélectionnez f/1.9 ou f/4.0 selon vos besoins.

Ce Modifier (CheatEngine) est un outil de modification de jeu dédié à la modification et à l'édition de la mémoire du jeu. Alors, comment définir le chinois dans CheatEngine ? Ensuite, l'éditeur vous expliquera comment définir le chinois dans Ce Modifier. Dans le nouveau logiciel que nous téléchargeons, il peut être déroutant de constater que l'interface n'est pas en chinois. Même si ce logiciel n'a pas été développé en Chine, il existe des moyens de le convertir en version chinoise. Ce problème peut être résolu en appliquant simplement le patch chinois. Après avoir téléchargé et installé le logiciel CheatEngine (ce modificateur), ouvrez l'emplacement d'installation et recherchez le dossier nommé langues, comme indiqué dans la figure ci-dessous.

À l'ère dominée par l'intelligence, les logiciels de bureautique sont également devenus populaires et les formulaires Wps sont adoptés par la majorité des employés de bureau en raison de leur flexibilité. Au travail, nous devons non seulement apprendre à créer des formulaires simples et à saisir du texte, mais également à maîtriser des compétences plus opérationnelles afin d'accomplir les tâches du travail réel. Les rapports contenant des données et l'utilisation de formulaires sont plus pratiques, clairs et précis. La leçon que nous vous apportons aujourd'hui est la suivante : la table WPS ne trouve pas les données que vous recherchez. Pourquoi veuillez vérifier l'emplacement de l'option de recherche ? 1. Sélectionnez d'abord le tableau Excel et double-cliquez pour l'ouvrir. Ensuite dans cette interface, sélectionnez toutes les cellules. 2. Ensuite, dans cette interface, cliquez sur l'option « Modifier » dans « Fichier » dans la barre d'outils supérieure. 3. Deuxièmement, dans cette interface, cliquez sur «

Honor 90GT est un smartphone économique offrant d'excellentes performances et une excellente expérience utilisateur. Cependant, nous pouvons parfois rencontrer certains problèmes, comme par exemple comment mettre à jour Honor MagicOS8.0 sur Honor 90GT ? Cette étape peut être différente selon les téléphones mobiles et les différents modèles. Voyons donc comment mettre à niveau correctement le système. Comment mettre à jour Honor MagicOS 8.0 sur Honor 90GT ? Selon les informations du 28 février, Honor a lancé aujourd'hui la mise à jour bêta publique MagicOS8.0 pour ses trois téléphones mobiles 90GT/100/100Pro. Le numéro de version du package est 8.0.0.106 (C00E106R3P1) 1. . Assurez votre honneur La batterie du 90GT est complètement chargée ;

Les projets de jeux Metaverse populaires fondés au cours du dernier cycle cryptographique accélèrent leur expansion. Le 4 mars, PlanetMojo, la plateforme de métaverse de jeux Web3, a annoncé un certain nombre de développements importants dans son écologie de jeu, notamment l'annonce du prochain jeu de parkour GoGoMojo, le lancement de la nouvelle saison "Way of War" dans le jeu phare d'échecs automatiques. jeu MojoMelee, et la célébration de la nouvelle La première série ETH "WarBannerNFT" lancée cette saison en coopération avec MagicEden. En outre, PlanetMojo a également révélé qu'ils prévoyaient de lancer les versions mobiles Android et iOS de MojoMelee plus tard cette année. Ce projet sera lancé fin 2021. Après près de deux ans de dur labeur dans le marché baissier, il sera bientôt achevé.

Avec le développement rapide d'Internet, l'industrie des médias personnels est devenue le centre d'attention de plus en plus de personnes. Dans cette industrie, certains domaines ont attiré beaucoup d’attention en raison de leurs vastes perspectives de marché et de leur rentabilité. Cet article vous dévoilera les cinq domaines les plus rentables du self-média, et discutera de l'orientation du soutien de Douyin en 2024 pour vous aider à mieux saisir les opportunités de développement du self-média. 1. Quels sont les cinq domaines les plus rentables du self-média ? Avec l’essor de l’éducation en ligne, le domaine de l’éducation et de la formation est devenu de plus en plus populaire. Les gens sont prêts à investir dans l’acquisition de connaissances et de compétences, non seulement dans les cours universitaires, mais également dans la formation professionnelle et l’avancement professionnel. Les créateurs auto-médias peuvent atteindre la rentabilité en créant du contenu éducatif de haute qualité pour inciter les étudiants à payer pour apprendre. Cette tendance montre que les gens sont intéressés par l'apprentissage tout au long de la vie.

Le logiciel de l'application mobile Taobao propose de nombreux bons produits. Vous pouvez les acheter à tout moment et n'importe où, et tout est authentique. Il n'y a aucune opération compliquée, ce qui vous permet de faire des achats plus pratiques. Vous pouvez rechercher et acheter librement à votre guise. Les sections de produits des différentes catégories sont toutes ouvertes. Ajoutez votre adresse de livraison personnelle et votre numéro de contact pour permettre à l'entreprise de messagerie de vous contacter, et vérifiez les dernières tendances logistiques en temps réel. les utilisateurs l'utilisent pour la première fois. Si vous ne savez pas comment rechercher des produits, il vous suffit bien sûr de saisir des mots-clés dans la barre de recherche pour trouver tous les résultats des produits. Vous ne pouvez pas arrêter d'acheter librement. L'éditeur fournira des méthodes en ligne détaillées permettant aux utilisateurs mobiles de Taobao de rechercher des noms de magasins. 1. Ouvrez d'abord l'application Taobao sur votre téléphone mobile,

Réponse : Oui, Golang fournit des fonctions qui simplifient le traitement du téléchargement de fichiers. Détails : le type MultipartFile permet d'accéder aux métadonnées et au contenu des fichiers. La fonction FormFile obtient un fichier spécifique à partir de la demande de formulaire. Les fonctions ParseForm et ParseMultipartForm sont utilisées pour analyser les données de formulaire et les données de formulaire en plusieurs parties. L'utilisation de ces fonctions simplifie le processus de traitement des fichiers et permet aux développeurs de se concentrer sur la logique métier.
