如何使用Node.js對文字內容分詞以及關鍵字抽取的詳解-js教程-PHP中文網

首頁

web前端

js教程

如何使用Node.js對文字內容分詞以及關鍵字抽取的詳解

黄舟

May 28, 2017 am 10:36 AM

這篇文章主要介紹了使用Node.js 對文本內容分詞和關鍵字抽取,需要的朋友可以參考下

在討論技術前先賣個萌，吃貨的世界你不懂~~

眾成翻譯的文章有tag，用戶可以基於tag 來快速篩選感興趣的文章，文章也可以依照tag 關聯來進行相關推薦。但現在眾成翻譯的 tag 是在推薦文章的時候設定的，都是英文的，而且人工設定難免不規範和不完全。雖然發佈文章後也可以人工編輯，但是我們也不能指望使用者或管理員能夠時時刻刻編輯出恰當的 tag，所以我們需要用工具來自動產生 tag。

在現在開源的分詞工具裡面，jieba是一個功能強大性能優越的分詞元件，更幸運地是，它有 node 版本。

nodejieba 的安裝和使用十分簡單：

npm install nodejieba
var nodejieba = require("nodejieba");
var result = nodejieba.cut("帝国主义要把我们的地瓜分掉");
console.log(result);
//[ &#39;帝国主义&#39;, &#39;要&#39;, &#39;把&#39;, &#39;我们&#39;, &#39;的&#39;, &#39;地&#39;, &#39;瓜分&#39;, &#39;掉&#39; ]
result = nodejieba.cut(&#39;土地，俺老孙的金箍棒在哪里？&#39;);
console.log(result);
//[ &#39;土地&#39;, &#39;，&#39;, &#39;俺&#39;, &#39;老&#39;, &#39;孙&#39;, &#39;的&#39;, &#39;金箍棒&#39;, &#39;在&#39;, &#39;哪里&#39;, &#39;？&#39; ]
result = nodejieba.cut(&#39;大圣，您的金箍棒就棒在特别配您的头型！&#39;);
console.log(result); 
//[ &#39;大圣&#39;,&#39;，&#39;,&#39;您&#39;,&#39;的&#39;,&#39;金箍棒&#39;,&#39;就&#39;,&#39;棒&#39;,&#39;在&#39;,&#39;特别&#39;,&#39;配&#39;,&#39;您&#39;,&#39;的&#39;,&#39;头型&#39;,&#39;！&#39; ]

登入後複製

我們可以載入自己的字典，在字典裡給每個字分別設定權重和詞性：

編輯user.uft8
地瓜9999 n
金箍9999 n
棒就棒在9999
然後透過nodejieba.load 載入字典。

var nodejieba = require("nodejieba");
nodejieba.load({
 userDict: &#39;./user.utf8&#39;,
});
var result = nodejieba.cut("帝国主义要把我们的地瓜分掉");
console.log(result);
//[ &#39;帝国主义&#39;, &#39;要&#39;, &#39;把&#39;, &#39;我们&#39;, &#39;的&#39;, &#39;地瓜&#39;, &#39;分&#39;, &#39;掉&#39; ]
result = nodejieba.cut(&#39;土地，俺老孙的金箍棒在哪里？&#39;);
console.log(result);
//[ &#39;土地&#39;, &#39;，&#39;, &#39;俺&#39;, &#39;老&#39;, &#39;孙&#39;, &#39;的&#39;, &#39;金箍棒&#39;, &#39;在&#39;, &#39;哪里&#39;, &#39;？&#39; ]
result = nodejieba.cut(&#39;大圣，您的金箍棒就棒在特别配您的头型！&#39;);
console.log(result); 
//[ &#39;大圣&#39;, &#39;，&#39;, &#39;您&#39;, &#39;的&#39;, &#39;金箍&#39;, &#39;棒就棒在&#39;, &#39;特别&#39;, &#39;配&#39;, &#39;您&#39;, &#39;的&#39;, &#39;头型&#39;, &#39;！&#39; ]

登入後複製

除了分詞以外，我們可以利用nodejieba 提取關鍵字：

const content = `

登入後複製

HTTP、HTTP/2與效能最佳化

#本文的目的是透過比較告訴大家，為什麼應該從HTTP遷移到HTTPS，以及為什麼應該加入HTTP/2的支援。在比較HTTP和HTTP/2之前，先來看看什麼是HTTP。

什麼是HTTP

HTTP是在萬維網路上通訊的一組規則。 HTTP屬於應用層協議，跑在TCP/IP層之上。當使用者透過瀏覽器請求網頁時，HTTP負責處理請求並在Web伺服器與客戶端之間建立連線。

有了HTTP/2，不使用雪碧圖、壓縮、拼接，也可以提升效能。然而，這不代表不應該使用這些技術。不過這已經清楚顯示了我們從HTTP/1.1移動到HTTP/2的必要性。
`;

const nodejieba = require("nodejieba");
const result = nodejieba.extract(content, 20);
console.log(result);

登入後複製

輸出的結果類似下面這樣：

[ { word: &#39;HTTP&#39;, weight: 140.8704516850025 },
 { word: &#39;请求&#39;, weight: 14.23018001394 },
 { word: &#39;应该&#39;, weight: 14.052171126120001 },
 { word: &#39;万维网&#39;, weight: 12.2912397395 },
 { word: &#39;TCP&#39;, weight: 11.739204307083542 },
 { word: &#39;1.1&#39;, weight: 11.739204307083542 },
 { word: &#39;Web&#39;, weight: 11.739204307083542 },
 { word: &#39;雪碧图&#39;, weight: 11.739204307083542 },
 { word: &#39;HTTPS&#39;, weight: 11.739204307083542 },
 { word: &#39;IP&#39;, weight: 11.739204307083542 },
 { word: &#39;应用层&#39;, weight: 11.2616203224 },
 { word: &#39;客户端&#39;, weight: 11.1926274509 },
 { word: &#39;浏览器&#39;, weight: 10.8561552143 },
 { word: &#39;拼接&#39;, weight: 9.85762638414 },
 { word: &#39;比较&#39;, weight: 9.5435285574 },
 { word: &#39;网页&#39;, weight: 9.53122979951 },
 { word: &#39;服务器&#39;, weight: 9.41204128224 },
 { word: &#39;使用&#39;, weight: 9.03259988558 },
 { word: &#39;必要性&#39;, weight: 8.81927328699 },
 { word: &#39;添加&#39;, weight: 8.0484751722 } ]

登入後複製

我們加入一些新的關鍵字到字典裡：

效能
HTTP/2

輸出結果如下：

[ { word: &#39;HTTP&#39;, weight: 105.65283876375187 },
 { word: &#39;HTTP/2&#39;, weight: 58.69602153541771 },
 { word: &#39;请求&#39;, weight: 14.23018001394 },
 { word: &#39;应该&#39;, weight: 14.052171126120001 },
 { word: &#39;性能&#39;, weight: 12.61259281884 },
 { word: &#39;万维网&#39;, weight: 12.2912397395 },
 { word: &#39;IP&#39;, weight: 11.739204307083542 },
 { word: &#39;HTTPS&#39;, weight: 11.739204307083542 },
 { word: &#39;1.1&#39;, weight: 11.739204307083542 },
 { word: &#39;TCP&#39;, weight: 11.739204307083542 },
 { word: &#39;Web&#39;, weight: 11.739204307083542 },
 { word: &#39;雪碧图&#39;, weight: 11.739204307083542 },
 { word: &#39;应用层&#39;, weight: 11.2616203224 },
 { word: &#39;客户端&#39;, weight: 11.1926274509 },
 { word: &#39;浏览器&#39;, weight: 10.8561552143 },
 { word: &#39;拼接&#39;, weight: 9.85762638414 },
 { word: &#39;比较&#39;, weight: 9.5435285574 },
 { word: &#39;网页&#39;, weight: 9.53122979951 },
 { word: &#39;服务器&#39;, weight: 9.41204128224 },
 { word: &#39;使用&#39;, weight: 9.03259988558 } ]

登入後複製

在這個基礎上，我們採用白名單的方式過濾出一些可以作為tag 的字：

const content = `

登入後複製

HTTP、HTTP/2與效能最佳化

本文的目的是透過比較告訴大家，為什麼應該從HTTP遷移到HTTPS，以及為什麼應該加入到HTTP/2的支援。在比較HTTP和HTTP/2之前，先來看看什麼是HTTP。

什麼是HTTP

const nodejieba = require("nodejieba");
nodejieba.load({
 userDict: &#39;./user.utf8&#39;,
});
const result = nodejieba.extract(content, 20);
const tagList = [&#39;HTTPS&#39;, &#39;HTTP&#39;, &#39;HTTP/2&#39;, &#39;Web&#39;, &#39;浏览器&#39;, &#39;性能&#39;];
console.log(result.filter(item => tagList.indexOf(item.word) >= 0));

登入後複製

最後得到：

[ { word: &#39;HTTP&#39;, weight: 105.65283876375187 },
 { word: &#39;HTTP/2&#39;, weight: 58.69602153541771 },
 { word: &#39;性能&#39;, weight: 12.61259281884 },
 { word: &#39;HTTPS&#39;, weight: 11.739204307083542 },
 { word: &#39;Web&#39;, weight: 11.739204307083542 },
 { word: &#39;浏览器&#39;, weight: 10.8561552143 } ]

登入後複製

這就是我們想要的結果。

以上就是分詞庫 nodejieba 基本的使用方法，在將來我們可以利用它對眾成翻譯發布的譯文自動分析添加相應的 tag，以為各位譯者和讀者提供更好的用戶體驗。

以上是如何使用Node.js對文字內容分詞以及關鍵字抽取的詳解的詳細內容。更多資訊請關注PHP中文網其他相關文章！

本網站聲明

本文內容由網友自願投稿，版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容，請聯絡admin@php.cn