> 웹 프론트엔드 > JS 튜토리얼 > Node.js를 사용하여 텍스트 콘텐츠를 분할하고 키워드를 추출하는 방법에 대한 자세한 설명

Node.js를 사용하여 텍스트 콘텐츠를 분할하고 키워드를 추출하는 방법에 대한 자세한 설명

黄舟
풀어 주다: 2017-05-28 10:36:08
원래의
2013명이 탐색했습니다.

이 글에서는 주로 텍스트 콘텐츠 분할 및 키워드 추출을 위한 Node.js의 사용을 소개합니다. 필요한 친구들은 참고해도 됩니다.

기술을 논의하기 전에, 여러분은 의 세계를 이해하지 못합니다. foodies~~

Zhongcheng이 번역한 기사에는 태그가 있습니다. 사용자는 태그를 기반으로 관심 있는 기사를 빠르게 필터링할 수 있으며 태그 연관을 기반으로 추천할 수도 있습니다. 하지만 이제 Zhongcheng Translation의 태그는 기사 추천시 설정되고 모두 영어로되어 있으며 수동 설정은 필연적으로 표준화되지 않고 완전하지 않습니다. 기사를 게시한 후 수동으로 편집할 수 있지만 사용자나 관리자가 항상 적절한 태그를 편집할 것이라고 기대할 수는 없으므로 태그를 자동으로 생성하는 도구를 사용해야 합니다.

현재 오픈 소스 단어 분할 도구 중 jieba는 강력한 기능과 뛰어난 성능을 갖춘 단어 분할 구성 요소입니다. 다행히 노드 버전이 있습니다. ㅋㅋㅋ 9999n

9999로 딱이네요

그런 다음 nodejieba.load를 통해 사전을 로드하세요.

단어 분할 외에도 nodejieba를 사용하여 키워드를 추출할 수 있습니다:

var nodejieba = require("nodejieba");
nodejieba.load({
 userDict: './user.utf8',
});
var result = nodejieba.cut("帝国主义要把我们的地瓜分掉");
console.log(result);
//[ '帝国主义', '要', '把', '我们', '的', '地瓜', '分', '掉' ]
result = nodejieba.cut('土地,俺老孙的金箍棒在哪里?');
console.log(result);
//[ '土地', ',', '俺', '老', '孙', '的', '金箍棒', '在', '哪里', '?' ]
result = nodejieba.cut('大圣,您的金箍棒就棒在特别配您的头型!');
console.log(result); 
//[ '大圣', ',', '您', '的', '金箍', '棒就棒在', '特别', '配', '您', '的', '头型', '!' ]
로그인 후 복사

HTTP, HTTP/2 및

성능 최적화



이 기사의 목적은 HTTP에서 HTTP로 마이그레이션해야 하는 이유를 비교를 통해 알려주는 것입니다. HTTPS, 그리고 HTTP/2에 대한 지원을 추가해야 하는 이유. HTTP와 HTTP/2를 비교하기 전에 먼저 HTTP가 무엇인지 살펴보겠습니다.

HTTP란 무엇인가요

HTTP는 World Wide Web에서의 통신 규칙 집합입니다. HTTP는

TCP/IP

계층 위에서 실행되는 애플리케이션 계층 프로토콜입니다. 사용자가 브라우저를 통해 웹 페이지를 요청하면 HTTP는 요청을 처리하고 웹 서버와 클라이언트 간의 연결을 설정합니다.

HTTP/2를 사용하면 스프라이트 이미지, 압축 또는 접합을 사용하지 않고도 성능을 향상시킬 수 있습니다. 그러나 이것이 이러한 기술을 사용해서는 안된다는 의미는 아닙니다. 그러나 이는 HTTP/1.1에서 HTTP/2로 전환해야 할 필요성을 분명히 보여주었습니다. `;

const content = `
로그인 후 복사
로그인 후 복사
출력 결과는 다음과 유사합니다.
const nodejieba = require("nodejieba");
const result = nodejieba.extract(content, 20);
console.log(result);
로그인 후 복사

사전에 몇 가지 새 키워드를 추가합니다.

PerformanceHTTP/2

출력 결과는 다음과 같습니다.

[ { word: 'HTTP', weight: 140.8704516850025 },
 { word: '请求', weight: 14.23018001394 },
 { word: '应该', weight: 14.052171126120001 },
 { word: '万维网', weight: 12.2912397395 },
 { word: 'TCP', weight: 11.739204307083542 },
 { word: '1.1', weight: 11.739204307083542 },
 { word: 'Web', weight: 11.739204307083542 },
 { word: '雪碧图', weight: 11.739204307083542 },
 { word: 'HTTPS', weight: 11.739204307083542 },
 { word: 'IP', weight: 11.739204307083542 },
 { word: '应用层', weight: 11.2616203224 },
 { word: '客户端', weight: 11.1926274509 },
 { word: '浏览器', weight: 10.8561552143 },
 { word: '拼接', weight: 9.85762638414 },
 { word: '比较', weight: 9.5435285574 },
 { word: '网页', weight: 9.53122979951 },
 { word: '服务器', weight: 9.41204128224 },
 { word: '使用', weight: 9.03259988558 },
 { word: '必要性', weight: 8.81927328699 },
 { word: '添加', weight: 8.0484751722 } ]
로그인 후 복사

이를 기준으로, 우리는 화이트리스트 방법을 사용하여 태그로 사용할 수 있는 일부 단어를 필터링합니다:

[ { word: 'HTTP', weight: 105.65283876375187 },
 { word: 'HTTP/2', weight: 58.69602153541771 },
 { word: '请求', weight: 14.23018001394 },
 { word: '应该', weight: 14.052171126120001 },
 { word: '性能', weight: 12.61259281884 },
 { word: '万维网', weight: 12.2912397395 },
 { word: 'IP', weight: 11.739204307083542 },
 { word: 'HTTPS', weight: 11.739204307083542 },
 { word: '1.1', weight: 11.739204307083542 },
 { word: 'TCP', weight: 11.739204307083542 },
 { word: 'Web', weight: 11.739204307083542 },
 { word: '雪碧图', weight: 11.739204307083542 },
 { word: '应用层', weight: 11.2616203224 },
 { word: '客户端', weight: 11.1926274509 },
 { word: '浏览器', weight: 10.8561552143 },
 { word: '拼接', weight: 9.85762638414 },
 { word: '比较', weight: 9.5435285574 },
 { word: '网页', weight: 9.53122979951 },
 { word: '服务器', weight: 9.41204128224 },
 { word: '使用', weight: 9.03259988558 } ]
로그인 후 복사

HTTP, HTTP/2 및 성능 최적화


이 문서의 목적은 HTTP에서 마이그레이션해야 하는 이유를 비교를 통해 설명하는 것입니다. HTTPS에, 그리고 HTTP/2에 대한 지원을 추가해야 하는 이유. HTTP와 HTTP/2를 비교하기 전에 먼저 HTTP가 무엇인지 살펴보겠습니다.

HTTP란 무엇인가요HTTP는 World Wide Web에서의 통신 규칙 집합입니다. HTTP는 TCP/IP 계층 위에서 실행되는 애플리케이션 계층 프로토콜입니다. 사용자가 브라우저를 통해 웹 페이지를 요청하면 HTTP는 요청을 처리하고 웹 서버와 클라이언트 간의 연결을 설정합니다.

HTTP/2를 사용하면 스프라이트 이미지, 압축 또는 접합을 사용하지 않고도 성능을 향상시킬 수 있습니다. 그러나 이것이 이러한 기술을 사용해서는 안된다는 의미는 아닙니다. 그러나 이는 HTTP/1.1에서 HTTP/2로 전환해야 할 필요성을 분명히 보여주었습니다.

`;

const content = `
로그인 후 복사
로그인 후 복사
마지막으로 우리는 다음을 얻습니다:
const nodejieba = require("nodejieba");
nodejieba.load({
 userDict: './user.utf8',
});
const result = nodejieba.extract(content, 20);
const tagList = ['HTTPS', 'HTTP', 'HTTP/2', 'Web', '浏览器', '性能'];
console.log(result.filter(item => tagList.indexOf(item.word) >= 0));
로그인 후 복사
이것이 우리가 원하는 결과입니다.

위는 단어 분할 라이브러리 nodejieba를 사용하는 기본 방법입니다. 앞으로는 이를 사용하여 Zhongcheng 번역에서 출판된 번역에 해당 태그를 자동으로 분석하고 추가하여 번역자와 독자에게 더 나은 사용자를 제공할 수 있습니다. 경험.

위 내용은 Node.js를 사용하여 텍스트 콘텐츠를 분할하고 키워드를 추출하는 방법에 대한 자세한 설명의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

원천:php.cn
본 웹사이트의 성명
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.
인기 튜토리얼
더>
최신 다운로드
더>
웹 효과
웹사이트 소스 코드
웹사이트 자료
프론트엔드 템플릿