Heim Web-Frontend js-Tutorial Ausführliche Erklärung, wie Sie Node.js zum Segmentieren von Textinhalten und zum Extrahieren von Schlüsselwörtern verwenden

Ausführliche Erklärung, wie Sie Node.js zum Segmentieren von Textinhalten und zum Extrahieren von Schlüsselwörtern verwenden

May 28, 2017 am 10:36 AM

In diesem Artikel wird hauptsächlich die Verwendung von Node.js zum Segmentieren von Textinhalten und zum Extrahieren von Schlüsselwörtern vorgestellt. Freunde in Not können sich auf

beziehen, bevor sie über Technologie sprechen Erstens süß, du verstehst die Welt der Feinschmecker nicht ~~

Zhongcheng-übersetzte Artikel haben Tags, Benutzer können interessante Artikel schnell anhand von Tags filtern, und die Artikel sind Außerdem können relevante Empfehlungen basierend auf Tag-Assoziationen ausgesprochen werden. Aber jetzt werden die Tags von Zhongcheng Translation bei der Empfehlung von Artikeln festgelegt, und sie sind alle auf Englisch, und manuelle Einstellungen sind zwangsläufig nicht standardisiert und vollständig. Obwohl Artikel nach der Veröffentlichung manuell bearbeitet werden können, können wir nicht erwarten, dass Benutzer oder Administratoren ständig die entsprechenden Tags bearbeiten. Daher müssen wir Tools verwenden, um Tags automatisch zu generieren.

Unter den aktuellen Open-Source-Wortsegmentierungstools ist jieba eine Wortsegmentierungskomponente mit leistungsstarken Funktionen und hervorragender Leistung. Glücklicherweise gibt es eine Knotenversion.

nodejiebas Installation und Verwendung sind sehr einfach:

npm install nodejieba
var nodejieba = require("nodejieba");
var result = nodejieba.cut("帝国主义要把我们的地瓜分掉");
console.log(result);
//[ '帝国主义', '要', '把', '我们', '的', '地', '瓜分', '掉' ]
result = nodejieba.cut('土地,俺老孙的金箍棒在哪里?');
console.log(result);
//[ '土地', ',', '俺', '老', '孙', '的', '金箍棒', '在', '哪里', '?' ]
result = nodejieba.cut('大圣,您的金箍棒就棒在特别配您的头型!');
console.log(result); 
//[ '大圣',',','您','的','金箍棒','就','棒','在','特别','配','您','的','头型','!' ]
Nach dem Login kopieren

Wir können unser eigenes Wörterbuch laden und die Gewichtung und Wortart für jedes Wort im Wörterbuch festlegen:

Benutzer.uft8 bearbeiten
Süßkartoffel 9999 n
Golden Hoop 9999 n
Großartig ist großartig bei 9999
Laden Sie dann das Wörterbuch über nodejieba.load.

var nodejieba = require("nodejieba");
nodejieba.load({
 userDict: './user.utf8',
});
var result = nodejieba.cut("帝国主义要把我们的地瓜分掉");
console.log(result);
//[ '帝国主义', '要', '把', '我们', '的', '地瓜', '分', '掉' ]
result = nodejieba.cut('土地,俺老孙的金箍棒在哪里?');
console.log(result);
//[ '土地', ',', '俺', '老', '孙', '的', '金箍棒', '在', '哪里', '?' ]
result = nodejieba.cut('大圣,您的金箍棒就棒在特别配您的头型!');
console.log(result); 
//[ '大圣', ',', '您', '的', '金箍', '棒就棒在', '特别', '配', '您', '的', '头型', '!' ]
Nach dem Login kopieren

Zusätzlich zur Wortsegmentierung können wir nodejieba verwenden, um Schlüsselwörter zu extrahieren:

const content = `
Nach dem Login kopieren
Nach dem Login kopieren

HTTP, HTTP/2 und Leistungsoptimierung

Der Zweck dieses Artikels besteht darin, Ihnen durch einen Vergleich zu erklären, warum Sie von HTTP auf HTTPS migrieren sollten und warum Unterstützung für HTTP/2 hinzugefügt werden sollte. Bevor wir HTTP und HTTP/2 vergleichen, schauen wir uns zunächst an, was HTTP ist.

Was ist HTTP?

HTTP ist eine Reihe von Regeln für die Kommunikation im World Wide Web. HTTP ist ein Protokoll der Anwendungsschicht und läuft auf der TCP/IP-Schicht. Wenn ein Benutzer eine Webseite über einen Browser anfordert, ist HTTP für die Verarbeitung der Anfrage und den Aufbau einer Verbindung zwischen dem Webserver und dem Client verantwortlich.

Mit HTTP/2 kann die Leistung verbessert werden, ohne Sprite-Bilder, Komprimierung oder Spleißen zu verwenden. Dies bedeutet jedoch nicht, dass diese Techniken nicht verwendet werden sollten. Dies hat jedoch deutlich gezeigt, dass wir von HTTP/1.1 auf HTTP/2 umsteigen müssen.
`;

const nodejieba = require("nodejieba");
const result = nodejieba.extract(content, 20);
console.log(result);
Nach dem Login kopieren

Das Ausgabeergebnis ähnelt dem folgenden:

[ { word: 'HTTP', weight: 140.8704516850025 },
 { word: '请求', weight: 14.23018001394 },
 { word: '应该', weight: 14.052171126120001 },
 { word: '万维网', weight: 12.2912397395 },
 { word: 'TCP', weight: 11.739204307083542 },
 { word: '1.1', weight: 11.739204307083542 },
 { word: 'Web', weight: 11.739204307083542 },
 { word: '雪碧图', weight: 11.739204307083542 },
 { word: 'HTTPS', weight: 11.739204307083542 },
 { word: 'IP', weight: 11.739204307083542 },
 { word: '应用层', weight: 11.2616203224 },
 { word: '客户端', weight: 11.1926274509 },
 { word: '浏览器', weight: 10.8561552143 },
 { word: '拼接', weight: 9.85762638414 },
 { word: '比较', weight: 9.5435285574 },
 { word: '网页', weight: 9.53122979951 },
 { word: '服务器', weight: 9.41204128224 },
 { word: '使用', weight: 9.03259988558 },
 { word: '必要性', weight: 8.81927328699 },
 { word: '添加', weight: 8.0484751722 } ]
Nach dem Login kopieren

Wir fügen dem Wörterbuch einige neue Schlüsselwörter hinzu:

Leistung
HTTP/2

Die Ausgabeergebnisse lauten wie folgt:

[ { word: 'HTTP', weight: 105.65283876375187 },
 { word: 'HTTP/2', weight: 58.69602153541771 },
 { word: '请求', weight: 14.23018001394 },
 { word: '应该', weight: 14.052171126120001 },
 { word: '性能', weight: 12.61259281884 },
 { word: '万维网', weight: 12.2912397395 },
 { word: 'IP', weight: 11.739204307083542 },
 { word: 'HTTPS', weight: 11.739204307083542 },
 { word: '1.1', weight: 11.739204307083542 },
 { word: 'TCP', weight: 11.739204307083542 },
 { word: 'Web', weight: 11.739204307083542 },
 { word: '雪碧图', weight: 11.739204307083542 },
 { word: '应用层', weight: 11.2616203224 },
 { word: '客户端', weight: 11.1926274509 },
 { word: '浏览器', weight: 10.8561552143 },
 { word: '拼接', weight: 9.85762638414 },
 { word: '比较', weight: 9.5435285574 },
 { word: '网页', weight: 9.53122979951 },
 { word: '服务器', weight: 9.41204128224 },
 { word: '使用', weight: 9.03259988558 } ]
Nach dem Login kopieren

Auf dieser Basis verwenden wir eine Whitelist, um einige Wörter herauszufiltern, die als Tags verwendet werden können:

const content = `
Nach dem Login kopieren
Nach dem Login kopieren

HTTP, HTTP/2 und Leistungsoptimierung

Der Zweck dieses Artikels besteht darin, Ihnen durch einen Vergleich zu erklären, warum Sie von HTTP auf HTTPS migrieren sollten und warum Sie es zur HTTP/2-Unterstützung hinzufügen sollten. Bevor wir HTTP und HTTP/2 vergleichen, schauen wir uns zunächst an, was HTTP ist.

Was ist HTTP?

HTTP ist eine Reihe von Regeln für die Kommunikation im World Wide Web. HTTP ist ein Protokoll der Anwendungsschicht und läuft auf der TCP/IP-Schicht. Wenn ein Benutzer eine Webseite über einen Browser anfordert, ist HTTP für die Verarbeitung der Anfrage und den Aufbau einer Verbindung zwischen dem Webserver und dem Client verantwortlich.

Mit HTTP/2 kann die Leistung verbessert werden, ohne Sprite-Bilder, Komprimierung oder Spleißen zu verwenden. Dies bedeutet jedoch nicht, dass diese Techniken nicht verwendet werden sollten. Dies hat jedoch deutlich gezeigt, dass wir von HTTP/1.1 auf HTTP/2 umsteigen müssen.
`;

const nodejieba = require("nodejieba");
nodejieba.load({
 userDict: './user.utf8',
});
const result = nodejieba.extract(content, 20);
const tagList = ['HTTPS', 'HTTP', 'HTTP/2', 'Web', '浏览器', '性能'];
console.log(result.filter(item => tagList.indexOf(item.word) >= 0));
Nach dem Login kopieren

Endlich bekommen wir:

[ { word: 'HTTP', weight: 105.65283876375187 },
 { word: 'HTTP/2', weight: 58.69602153541771 },
 { word: '性能', weight: 12.61259281884 },
 { word: 'HTTPS', weight: 11.739204307083542 },
 { word: 'Web', weight: 11.739204307083542 },
 { word: '浏览器', weight: 10.8561552143 } ]
Nach dem Login kopieren

Das ist das Ergebnis, das wir wollen.

Das Obige ist die grundlegende Methode zur Verwendung der Wortsegmentierungsbibliothek nodejieba. In Zukunft können wir damit die von Zhongcheng Translation veröffentlichten Übersetzungen automatisch analysieren und entsprechende Tags hinzufügen, um Übersetzer und Leser bereitzustellen mit einer besseren Benutzererfahrung.

Das obige ist der detaillierte Inhalt vonAusführliche Erklärung, wie Sie Node.js zum Segmentieren von Textinhalten und zum Extrahieren von Schlüsselwörtern verwenden. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Erklärung dieser Website
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn

Heiße KI -Werkzeuge

Undresser.AI Undress

Undresser.AI Undress

KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover

AI Clothes Remover

Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool

Undress AI Tool

Ausziehbilder kostenlos

Clothoff.io

Clothoff.io

KI-Kleiderentferner

Video Face Swap

Video Face Swap

Tauschen Sie Gesichter in jedem Video mühelos mit unserem völlig kostenlosen KI-Gesichtstausch-Tool aus!

Heiße Werkzeuge

Notepad++7.3.1

Notepad++7.3.1

Einfach zu bedienender und kostenloser Code-Editor

SublimeText3 chinesische Version

SublimeText3 chinesische Version

Chinesische Version, sehr einfach zu bedienen

Senden Sie Studio 13.0.1

Senden Sie Studio 13.0.1

Leistungsstarke integrierte PHP-Entwicklungsumgebung

Dreamweaver CS6

Dreamweaver CS6

Visuelle Webentwicklungstools

SublimeText3 Mac-Version

SublimeText3 Mac-Version

Codebearbeitungssoftware auf Gottesniveau (SublimeText3)

Detaillierte grafische Erläuterung des Speichers und des GC der Node V8-Engine Detaillierte grafische Erläuterung des Speichers und des GC der Node V8-Engine Mar 29, 2023 pm 06:02 PM

Dieser Artikel vermittelt Ihnen ein detailliertes Verständnis des Speichers und Garbage Collectors (GC) der NodeJS V8-Engine. Ich hoffe, er wird Ihnen hilfreich sein!

Ein Artikel über Speichersteuerung in Node Ein Artikel über Speichersteuerung in Node Apr 26, 2023 pm 05:37 PM

Der nicht blockierende und ereignisgesteuerte Knotendienst hat den Vorteil eines geringen Speicherverbrauchs und eignet sich sehr gut für die Verarbeitung massiver Netzwerkanforderungen. Unter der Voraussetzung massiver Anfragen müssen Probleme im Zusammenhang mit der „Speicherkontrolle“ berücksichtigt werden. 1. Der Garbage-Collection-Mechanismus und die Speicherbeschränkungen von V8 Js wird von der Garbage-Collection-Maschine gesteuert

Lassen Sie uns darüber sprechen, wie Sie das beste Node.js-Docker-Image auswählen. Lassen Sie uns darüber sprechen, wie Sie das beste Node.js-Docker-Image auswählen. Dec 13, 2022 pm 08:00 PM

Die Auswahl eines Docker-Images für Node mag trivial erscheinen, aber die Größe und potenziellen Schwachstellen des Images können erhebliche Auswirkungen auf Ihren CI/CD-Prozess und Ihre Sicherheit haben. Wie wählen wir also das beste Node.js-Docker-Image aus?

Lassen Sie uns ausführlich über das File-Modul in Node sprechen Lassen Sie uns ausführlich über das File-Modul in Node sprechen Apr 24, 2023 pm 05:49 PM

Das Dateimodul ist eine Kapselung der zugrunde liegenden Dateioperationen, wie z. B. Lesen/Schreiben/Öffnen/Schließen/Löschen von Dateien, Hinzufügen usw. Das größte Merkmal des Dateimoduls besteht darin, dass alle Methoden zwei Versionen von **synchronem** und **bereitstellen. asynchron**, mit Methoden mit dem Suffix sync sind alle Synchronisationsmethoden, und diejenigen ohne sind alle heterogene Methoden.

Node.js 19 ist offiziell veröffentlicht, lassen Sie uns über seine 6 Hauptfunktionen sprechen! Node.js 19 ist offiziell veröffentlicht, lassen Sie uns über seine 6 Hauptfunktionen sprechen! Nov 16, 2022 pm 08:34 PM

Node 19 wurde offiziell veröffentlicht. Dieser Artikel wird Ihnen eine detaillierte Erklärung der 6 Hauptfunktionen von Node.js 19 geben. Ich hoffe, er wird Ihnen hilfreich sein!

Lassen Sie uns über den GC-Mechanismus (Garbage Collection) in Node.js sprechen Lassen Sie uns über den GC-Mechanismus (Garbage Collection) in Node.js sprechen Nov 29, 2022 pm 08:44 PM

Wie führt Node.js GC (Garbage Collection) durch? Der folgende Artikel führt Sie durch.

Lassen Sie uns über die Ereignisschleife in Node sprechen Lassen Sie uns über die Ereignisschleife in Node sprechen Apr 11, 2023 pm 07:08 PM

Die Ereignisschleife ist ein grundlegender Bestandteil von Node.js und ermöglicht die asynchrone Programmierung, indem sie sicherstellt, dass der Hauptthread nicht blockiert wird. Das Verständnis der Ereignisschleife ist für die Erstellung effizienter Anwendungen von entscheidender Bedeutung. Der folgende Artikel wird Ihnen ein detailliertes Verständnis der Ereignisschleife in Node vermitteln. Ich hoffe, er wird Ihnen hilfreich sein!

Lassen Sie uns darüber sprechen, wie Sie mit pkg Node.js-Projekte in ausführbare Dateien packen. Lassen Sie uns darüber sprechen, wie Sie mit pkg Node.js-Projekte in ausführbare Dateien packen. Dec 02, 2022 pm 09:06 PM

Wie packe ich die ausführbare Datei von nodejs mit pkg? Im folgenden Artikel erfahren Sie, wie Sie mit pkg ein Node-Projekt in eine ausführbare Datei packen. Ich hoffe, dass er Ihnen weiterhilft!

See all articles