現在取り組んでいます今ではどのCMSにも収集機能が組み込まれており、コンテンツやタイトルの処理は比較的簡単ですが、キーワードの抽出は困難な場合がほとんどです。そのため、キーワードの自動取得は現在のPHPベースCMSにおける「伝統的な問題」となっています。
では、キーワードを自動的に取得するために PHP を実装するにはどうすればよいでしょうか? 主なステップは次の 3 つのステップに分けることができます:
PHP はキーワードを自動的に取得します 1. 単語分割アルゴリズムを使用して、タイトルとコンテンツをそれぞれ分割し、キーワードを抽出します。キーワードと頻度
コンテンツの単語分割段階では、現在 2 つの主なアルゴリズムは、中国科学院の ICTCLAS と隠れマルコフ モデルです。しかし、どちらもハイエンドすぎるため、一定のしきい値があり、どちらも C++/JAVA のみをサポートしています。現在、PHP ベースの PSCWS と HTTPCWS の 2 つが推奨されています。
SCWS は 2008 年 3 月 8 日に正式バージョン 1.0.0 をリリースし、現在最新バージョンは 1.0.4 です。 PSCWS はその PHP バージョンです。 HTTPCWS は Zhang Yan によって開発され、以前は PHPCWS と呼ばれていました。
PHPCWSは、最初の単語分割処理に「ICTCLAS 3.0共有版中国語単語分割アルゴリズム」のAPIを使用し、その後、独自に作成した「逆最大一致アルゴリズム」を使用して単語の分割と結合を行い、句読点フィルタリング機能を追加して、単語の分割結果。現在、Linux/Unix システムのみがサポートされています。
PHP は自動的にキーワード 2 を取得し、抽出結果を既存のシソーラスと比較し、ルールに最もよく適合するキーワードを取得します
ここで重要なことは、シソーラスを自分で定義することも、使用することもできます。既存の成熟した辞書。
PHP はキーワード 3 を自動的に取得し、2 つのキーワード セットを比較して、現在のコンテンツに最も一致するキーワードを取得します。
この段階では、特定の状況を詳細に分析します。現在、すべての PHP CMS には独自のキーワード抽出システムがあります。その中で、DEDECMS の単語分割ソース コードはインターネット上で最も広く流通しています。私も POPCMS でテストしましたが、その効果は非常に良好でした。ただし、「we」などの意味のない単語が抽出される頻度が高くなります。キーワードとしてリストされている文字数が多すぎ、スペースを含む HTML がキーワードとして使用される場合もあるため、早急に改善する必要があります。しかし、補助機能としては、すでに非常に優れています。
さらに、キーワードを自動的に取得するPHPCMSとDISCUZのPHP機能も非常に強力です。