phpSplit は、PHP に基づいて開発された中国語単語分割ライブラリです。
Unicode エンコード辞書に基づく PHP トークナイザー
は php5 にのみ適用でき、必要な関数 iconv
このプログラムはRMM 逆マッチング アルゴリズムは単語の分割を実行し、このクラスは MakeDict() メソッドを提供する
単純な操作プロセス: SetSource -> ; GetResult
メイン辞書をエンコードするために特別な形式を使用します。辞書をメモリにロードする必要はありません
まず、必ず 5.3 以降の php を使用してください
コンポーザーをインストールします
composer install
require __DIR__ .'/vendor/autoload.php';$split = new Split();var_dump( $split->simple("您好 phpSplit"));$this->assertTrue(True);
array(3) { [0] => string(0) "" [1] => string(6) "您好" [2] => string(8) "phpSplit"}
名詞 n、時間単語 t、場所単語 s、位置単語 f、数字 m、数量詞 q、微分詞 b、代名詞 r、動詞 v、形容詞 a、状態単語 z、副詞d、前置詞 p、接続詞 c. 助詞 u、様態助詞 y、感動詞 e、オノマトペ o、熟語 i、熟語 l、略語 j、前成分 h、後成分 k、形態素 g、非形態素語 x、句読点 w
同僚は以下の 3 種類のタグを追加しました * 固有名詞、つまり人名 nr、地名 ns、団体名や機関名 nt、その他の固有名詞の分類タグ * サブカテゴリー タグ形態素、すなわち名詞形態素 Ng 、動詞形態素 Vg、形容詞形態素 Ag、時制形態素 Tg、副詞形態素 Dg など。 *動詞と形容詞のサブクラス マーカー、すなわち名詞動詞 vn (名詞の特徴を持つ動詞)、名詞形態素 an (形容詞)名詞の特徴を持つ)、副詞 vd (副詞の特徴を持つ動詞)、副詞 ad (副詞の特徴を持つ形容詞)
合計 40 個ほど。
プロジェクトのホームページ: http://www.open-open.com/lib/view/home/1448200861473