正しい学習方法PHP CMS はどのようにしてキーワードを自動的に取得しますか? 主なステップは次の 3 つのステップに分けることができます:
1. PHP CMS は、単語分割アルゴリズムを通じて、キーワードと頻度を抽出します。
コンテンツの単語分割段階では、現在、2 つの主要なアルゴリズムは、中国科学院の ICTCLAS と隠れマルコフ モデルです。しかし、どちらもハイエンドすぎるため、一定のしきい値があり、どちらも C++/JAVA のみをサポートしています。現在、PHP ベースの PSCWS と HTTPCWS の 2 つが推奨されています。
SCWS は 2008 年 3 月 8 日に正式バージョン 1.0.0 をリリースし、現在最新バージョンは 1.0.4 です。 PSCWS はその PHP バージョンです。
HTTPCWS は Zhang Yan によって開発され、以前は PHPCWS と呼ばれていました。 PHPCWS は、最初の単語分割処理に「ICTCLAS 3.0 共通版中国語単語分割アルゴリズム」の API を使用し、その後、独自に作成した「逆最大一致アルゴリズム」を使用して単語の分割と結合を行い、句読点フィルタリング機能を追加して、単語の分割処理を行います。単語の分割結果。現在、Linux/Unix システムのみがサポートされています。
2. PHP CMS は抽出結果を既存のシソーラスと比較して、ルールに最もよく準拠するキーワードを取得します
ここで重要なのは、シソーラスを独自に定義することも、既存のシソーラスを使用することもできます。シソーラスの成熟した辞書。
3. 次に、PHP CMS は 2 つのキーワード セットを比較して、現在のコンテンツに最も適合するキーワードを取得します。
この段階で、特定の状況が詳細に分析されます。現在、すべての PHP CMS には独自のキーワード抽出システムがあります。その中で、DEDECMS の単語分割ソース コードは、インターネット上で最も広く流通しています。私も POPCMS でテストしましたが、「we」のような意味のない単語がキーワードとして抽出され、リストされる頻度は非常に良好でした。が高すぎて、スペースを含む HTML がキーワードとして使用されることもあるため、早急に改善する必要があります。しかし、補助機能としては、すでに非常に優れています。
また、PHP CMSやDISCUZのキーワード自動抽出機能も非常に強力です。