Explication détaillée de la façon d'utiliser Node.js pour segmenter le contenu du texte et extraire des mots-clés-js tutoriel-php.cn

Maison

interface Web

js tutoriel

Explication détaillée de la façon d'utiliser Node.js pour segmenter le contenu du texte et extraire des mots-clés

黄舟

May 28, 2017 am 10:36 AM

Cet article présente principalement l'utilisation de Node.js pour segmenter le contenu du texte et extraire des mots-clés. Les amis dans le besoin peuvent se référer à

avant de discuter de technologie Soyons. mignon d'abord, vous ne comprenez pas le monde des gourmets~~

Les articles traduits par Zhongcheng ont des balises. Les utilisateurs peuvent filtrer rapidement les articles qui les intéressent en fonction des balises. Les articles sont également des recommandations pertinentes peuvent être formulées sur la base d'associations de balises. Mais maintenant, les balises de Zhongcheng Translation sont définies lors de la recommandation d'articles, et elles sont toutes en anglais, et les paramètres manuels ne sont inévitablement pas standardisés et complets. Bien que les articles puissent être modifiés manuellement après la publication, nous ne pouvons pas nous attendre à ce que les utilisateurs ou les administrateurs modifient les balises appropriées à tout moment. Nous devons donc utiliser des outils pour générer automatiquement des balises.

Parmi les outils de segmentation de mots open source actuels, jieba est un composant de segmentation de mots doté de fonctions puissantes et d'excellentes performances. Heureusement, il dispose d'une version nœud.

L'installation et l'utilisation de nodejieba sont très simples :

npm install nodejieba
var nodejieba = require("nodejieba");
var result = nodejieba.cut("帝国主义要把我们的地瓜分掉");
console.log(result);
//[ &#39;帝国主义&#39;, &#39;要&#39;, &#39;把&#39;, &#39;我们&#39;, &#39;的&#39;, &#39;地&#39;, &#39;瓜分&#39;, &#39;掉&#39; ]
result = nodejieba.cut(&#39;土地，俺老孙的金箍棒在哪里？&#39;);
console.log(result);
//[ &#39;土地&#39;, &#39;，&#39;, &#39;俺&#39;, &#39;老&#39;, &#39;孙&#39;, &#39;的&#39;, &#39;金箍棒&#39;, &#39;在&#39;, &#39;哪里&#39;, &#39;？&#39; ]
result = nodejieba.cut(&#39;大圣，您的金箍棒就棒在特别配您的头型！&#39;);
console.log(result); 
//[ &#39;大圣&#39;,&#39;，&#39;,&#39;您&#39;,&#39;的&#39;,&#39;金箍棒&#39;,&#39;就&#39;,&#39;棒&#39;,&#39;在&#39;,&#39;特别&#39;,&#39;配&#39;,&#39;您&#39;,&#39;的&#39;,&#39;头型&#39;,&#39;！&#39; ]

Copier après la connexion

Nous pouvons charger notre propre dictionnaire et définir le poids et la partie du discours pour chaque mot du dictionnaire :

Modifier user.uft8
Patate douce 9999 n
Golden Hoop 9999 n
Super est génial à 9999
Chargez ensuite le dictionnaire via nodejieba.load.

var nodejieba = require("nodejieba");
nodejieba.load({
 userDict: &#39;./user.utf8&#39;,
});
var result = nodejieba.cut("帝国主义要把我们的地瓜分掉");
console.log(result);
//[ &#39;帝国主义&#39;, &#39;要&#39;, &#39;把&#39;, &#39;我们&#39;, &#39;的&#39;, &#39;地瓜&#39;, &#39;分&#39;, &#39;掉&#39; ]
result = nodejieba.cut(&#39;土地，俺老孙的金箍棒在哪里？&#39;);
console.log(result);
//[ &#39;土地&#39;, &#39;，&#39;, &#39;俺&#39;, &#39;老&#39;, &#39;孙&#39;, &#39;的&#39;, &#39;金箍棒&#39;, &#39;在&#39;, &#39;哪里&#39;, &#39;？&#39; ]
result = nodejieba.cut(&#39;大圣，您的金箍棒就棒在特别配您的头型！&#39;);
console.log(result); 
//[ &#39;大圣&#39;, &#39;，&#39;, &#39;您&#39;, &#39;的&#39;, &#39;金箍&#39;, &#39;棒就棒在&#39;, &#39;特别&#39;, &#39;配&#39;, &#39;您&#39;, &#39;的&#39;, &#39;头型&#39;, &#39;！&#39; ]

Copier après la connexion

En plus de la segmentation de mots, nous pouvons utiliser nodejieba pour extraire des mots-clés :

const content = `

Copier après la connexion

HTTP, HTTP/2 et Optimisation des performances

Le but de cet article est de vous expliquer par comparaison pourquoi vous devriez migrer de HTTP vers HTTPS, et pourquoi le support de HTTP/2 devrait être ajouté. Avant de comparer HTTP et HTTP/2, regardons d’abord ce qu’est HTTP.

Qu'est-ce que HTTP

HTTP est un ensemble de règles de communication sur le World Wide Web. HTTP est un protocole de couche application et s'exécute au-dessus de la couche TCP/IP. Lorsqu'un utilisateur demande une page Web via un navigateur, HTTP est responsable du traitement de la demande et de l'établissement d'une connexion entre le serveur Web et le client.

Avec HTTP/2, les performances peuvent être améliorées sans utiliser d'images de sprite, de compression ou d'épissage. Toutefois, cela ne signifie pas que ces techniques ne doivent pas être utilisées. Mais cela a clairement démontré la nécessité pour nous de passer de HTTP/1.1 à HTTP/2.
`;

const nodejieba = require("nodejieba");
const result = nodejieba.extract(content, 20);
console.log(result);

Copier après la connexion

Le résultat de sortie est similaire au suivant :

[ { word: &#39;HTTP&#39;, weight: 140.8704516850025 },
 { word: &#39;请求&#39;, weight: 14.23018001394 },
 { word: &#39;应该&#39;, weight: 14.052171126120001 },
 { word: &#39;万维网&#39;, weight: 12.2912397395 },
 { word: &#39;TCP&#39;, weight: 11.739204307083542 },
 { word: &#39;1.1&#39;, weight: 11.739204307083542 },
 { word: &#39;Web&#39;, weight: 11.739204307083542 },
 { word: &#39;雪碧图&#39;, weight: 11.739204307083542 },
 { word: &#39;HTTPS&#39;, weight: 11.739204307083542 },
 { word: &#39;IP&#39;, weight: 11.739204307083542 },
 { word: &#39;应用层&#39;, weight: 11.2616203224 },
 { word: &#39;客户端&#39;, weight: 11.1926274509 },
 { word: &#39;浏览器&#39;, weight: 10.8561552143 },
 { word: &#39;拼接&#39;, weight: 9.85762638414 },
 { word: &#39;比较&#39;, weight: 9.5435285574 },
 { word: &#39;网页&#39;, weight: 9.53122979951 },
 { word: &#39;服务器&#39;, weight: 9.41204128224 },
 { word: &#39;使用&#39;, weight: 9.03259988558 },
 { word: &#39;必要性&#39;, weight: 8.81927328699 },
 { word: &#39;添加&#39;, weight: 8.0484751722 } ]

Copier après la connexion

Nous ajoutons de nouveaux mots-clés au dictionnaire :

Performance
HTTP/2

Les résultats de sortie sont les suivants :

[ { word: &#39;HTTP&#39;, weight: 105.65283876375187 },
 { word: &#39;HTTP/2&#39;, weight: 58.69602153541771 },
 { word: &#39;请求&#39;, weight: 14.23018001394 },
 { word: &#39;应该&#39;, weight: 14.052171126120001 },
 { word: &#39;性能&#39;, weight: 12.61259281884 },
 { word: &#39;万维网&#39;, weight: 12.2912397395 },
 { word: &#39;IP&#39;, weight: 11.739204307083542 },
 { word: &#39;HTTPS&#39;, weight: 11.739204307083542 },
 { word: &#39;1.1&#39;, weight: 11.739204307083542 },
 { word: &#39;TCP&#39;, weight: 11.739204307083542 },
 { word: &#39;Web&#39;, weight: 11.739204307083542 },
 { word: &#39;雪碧图&#39;, weight: 11.739204307083542 },
 { word: &#39;应用层&#39;, weight: 11.2616203224 },
 { word: &#39;客户端&#39;, weight: 11.1926274509 },
 { word: &#39;浏览器&#39;, weight: 10.8561552143 },
 { word: &#39;拼接&#39;, weight: 9.85762638414 },
 { word: &#39;比较&#39;, weight: 9.5435285574 },
 { word: &#39;网页&#39;, weight: 9.53122979951 },
 { word: &#39;服务器&#39;, weight: 9.41204128224 },
 { word: &#39;使用&#39;, weight: 9.03259988558 } ]

Copier après la connexion

Sur cette base, nous utilisons une liste blanche pour filtrer certains mots pouvant être utilisés comme balises :

const content = `

Copier après la connexion

HTTP, HTTP/2 et optimisation des performances

Le but de cet article est de vous expliquer par comparaison pourquoi vous devriez migrer du HTTP vers HTTPS , et pourquoi vous devriez l'ajouter au support HTTP/2. Avant de comparer HTTP et HTTP/2, regardons d’abord ce qu’est HTTP.

Qu'est-ce que HTTP

const nodejieba = require("nodejieba");
nodejieba.load({
 userDict: &#39;./user.utf8&#39;,
});
const result = nodejieba.extract(content, 20);
const tagList = [&#39;HTTPS&#39;, &#39;HTTP&#39;, &#39;HTTP/2&#39;, &#39;Web&#39;, &#39;浏览器&#39;, &#39;性能&#39;];
console.log(result.filter(item => tagList.indexOf(item.word) >= 0));

Copier après la connexion

Finalement on obtient :

[ { word: &#39;HTTP&#39;, weight: 105.65283876375187 },
 { word: &#39;HTTP/2&#39;, weight: 58.69602153541771 },
 { word: &#39;性能&#39;, weight: 12.61259281884 },
 { word: &#39;HTTPS&#39;, weight: 11.739204307083542 },
 { word: &#39;Web&#39;, weight: 11.739204307083542 },
 { word: &#39;浏览器&#39;, weight: 10.8561552143 } ]

Copier après la connexion

C'est le résultat qu'on souhaite.

Ce qui précède est la méthode de base d'utilisation de la bibliothèque de segmentation de mots nodejieba. À l'avenir, nous pourrons l'utiliser pour analyser et ajouter automatiquement les balises correspondantes aux traductions publiées par Zhongcheng Translation, afin de fournir des traducteurs et des lecteurs. avec une meilleure expérience utilisateur.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration de ce site Web

Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn

Outils d'IA chauds

Undresser.AI Undress

Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover

Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool

Images de déshabillage gratuites

Clothoff.io

Dissolvant de vêtements AI

Video Face Swap

Échangez les visages dans n'importe quelle vidéo sans effort grâce à notre outil d'échange de visage AI entièrement gratuit !

Afficher plus

Article chaud

Assassin's Creed Shadows: Solution d'énigmes de coquille

3 Il y a quelques semaines By DDD

Quoi de neuf dans Windows 11 KB5054979 et comment résoudre les problèmes de mise à jour

2 Il y a quelques semaines By DDD

Assassin's Creed Shadows - Comment trouver le forgeron et déverrouiller les armes et la personnalisation des armes

1 Il y a quelques mois By DDD

Où trouver la courte de la grue à atomide atomique

3 Il y a quelques semaines By DDD

<🎜>: Dead Rails - Comment relever chaque défi

3 Il y a quelques semaines By DDD

Afficher plus

Outils chauds

Bloc-notes++7.3.1

Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise

Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1

Puissant environnement de développement intégré PHP

Dreamweaver CS6

Outils de développement Web visuel

SublimeText3 version Mac

Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Afficher plus

Sujets chauds

Où se trouve l'entrée de connexion pour la messagerie Gmail ?

7642

Tutoriel CakePHP

1392

Quel est le format du nom de compte de Steam

Clé d&amp;amp;amp;amp;amp;amp;#39;activation Win11 permanent

NYT Connexions Indices et réponses

150

Afficher plus

Related knowledge

Explication graphique détaillée de la mémoire et du GC du moteur Node V8 Mar 29, 2023 pm 06:02 PM

Cet article vous donnera une compréhension approfondie de la mémoire et du garbage collector (GC) du moteur NodeJS V8. J'espère qu'il vous sera utile !

Un article pour parler du contrôle de la mémoire dans Node Apr 26, 2023 pm 05:37 PM

Le service Node construit sur une base non bloquante et piloté par les événements présente l'avantage d'une faible consommation de mémoire et est très adapté à la gestion de requêtes réseau massives. Dans le contexte de demandes massives, les questions liées au « contrôle de la mémoire » doivent être prises en compte. 1. Le mécanisme de récupération de place du V8 et les limitations de mémoire Js sont contrôlés par la machine de récupération de place

Parlons de la façon de choisir la meilleure image Docker Node.js ? Dec 13, 2022 pm 08:00 PM

Le choix d'une image Docker pour Node peut sembler trivial, mais la taille et les vulnérabilités potentielles de l'image peuvent avoir un impact significatif sur votre processus CI/CD et votre sécurité. Alors, comment choisir la meilleure image Docker Node.js ?

Parlons en profondeur du module File dans Node Apr 24, 2023 pm 05:49 PM

Le module de fichiers est une encapsulation des opérations de fichiers sous-jacentes, telles que l'ajout de lecture/écriture/ouverture/fermeture/suppression de fichiers, etc. La plus grande caractéristique du module de fichiers est que toutes les méthodes fournissent deux versions de **synchrone** et ** asynchrone**, with Les méthodes avec le suffixe sync sont toutes des méthodes de synchronisation, et celles qui n'en ont pas sont toutes des méthodes hétérogènes.

Node.js 19 est officiellement sorti, parlons de ses 6 fonctionnalités majeures ! Nov 16, 2022 pm 08:34 PM

Node 19 est officiellement publié. Cet article vous donnera une explication détaillée des 6 fonctionnalités majeures de Node.js 19. J'espère qu'il vous sera utile !

Parlons du mécanisme GC (garbage collection) dans Node.js Nov 29, 2022 pm 08:44 PM

Comment Node.js fait-il le GC (garbage collection) ? L’article suivant vous guidera à travers cela.

Parlons de la boucle d'événements dans Node Apr 11, 2023 pm 07:08 PM

La boucle d'événements est un élément fondamental de Node.js et permet une programmation asynchrone en garantissant que le thread principal n'est pas bloqué. Comprendre la boucle d'événements est crucial pour créer des applications efficaces. L'article suivant vous donnera une compréhension approfondie de la boucle d'événements dans Node. J'espère qu'il vous sera utile !

Parlons de la façon d'utiliser pkg pour empaqueter des projets Node.js dans des fichiers exécutables. Dec 02, 2022 pm 09:06 PM

Comment empaqueter le fichier exécutable nodejs avec pkg ? L'article suivant vous expliquera comment utiliser pkg pour empaqueter un projet Node dans un fichier exécutable. J'espère qu'il vous sera utile !

See all articles