复制代 代码如下:
header("Content-Type:text/html; charset=utf -8");
define('APP_ROOT', str_replace('\', '/', dirname(__FILE__)));
$test = '这里是一段中文测试代码!';
function get_tags_arr($title)
{
require(APP_ROOT.'/pscws4.class.php');
$pscws = 新しい PSCWS4();
$pscws->set_dict(APP_ROOT.'/scws/dict.utf8.xdb');
$pscws->set_rule(APP_ROOT.'/scws/rules.utf8.ini');
$pscws->set_ignore(true);
$pscws->send_text($title);
$words = $pscws->get_tops(5);
$tags = array();
foreach ($words as $val) {
$tags[] = $val['word'];
}
$pscws->close();
$tag を返します;
}
print_r(get_tags_arr($test));
//=========================================== ===============
function get_keywords_str($content){
require(APP_ROOT.'/phpanalysis.class.php');
PhpAnalysis::$loadInit = false;
$pa = new PhpAnalysis('utf-8', 'utf-8', false);
$pa->LoadDict();
$pa->SetSource($content);
$pa->StartAnalysis( false );
$tags = $pa->GetFinallyResult();
$tag を返します;
}
print(get_keywords_str($test));
SCWS – 简易中文分词系统
SCWS は、概念上、新しい要素はなく、自走採集による音声词典が採用されており、ある程度の名前、人名、地名、数字時代などを含む、经小范围調査大凡標準率が使用されています。 SCWS は、Unix ライク OS での主要なプラットフォーム環境として、いくつかの中小型インデックス、関連文字抽出などの組み合わせに基本的に対応しています。さらに、GBK、UTF-8、BIG5 などの文字コードをサポートしており、切断効率が高くなります。
系统平台:Windows/Unix开公開语言:C
使用方法:PHP扩展
开源官网:http://www.ftphp.com/scws/
PhpanAracy 分词システムは、文字列一致に基づいた分別方法であり、この方法はまた実行される機械的分別方法であり、分析対象の文字列を「十分に大きい」コンピューターの誂典で実行するための一定の戦略に基づいています。なお、書籍内で特定の文字列に到達すると、マッチングは成功する(いずれかの文字列を認識する)。
系统平台:PHP環境
开公開语言:PHP
使用方法:HTTPサービス务
演示网址:http://www.itgrass.com/phpanalysis/
开源官网:http://www.itgrass.com/phpanalysis/
追加点: 非常に簡単で、簡単に使用でき、いくつかの単一用途を実行できますが、大量のデータの計算効率は以前のものではありません。
http://www .jb51.net/codes/40139.html