PHP では、UTF-8 文字列の言語を検出するのが一般的なタスクです。汎用性の高いソリューションの 1 つは、Text_LanguageDetect PEAR パッケージです。
このパッケージは、52 言語のデータベースを備えており、使いやすさを提供します。ただし、東アジア言語の検出はサポートされていません。
Text_LanguageDetect パッケージを使用するには、次の手順に従います。
検出が成功すると、検出された言語とその信頼スコアを含む配列を受け取ります。それ以外の場合は、エラー メッセージが表示されます。
次の例を考えてみましょう:
require_once 'Text/LanguageDetect.php'; $l = new Text_LanguageDetect(); $result = $l->detect("Hallo Welt", 4); if (PEAR::isError($result)) { echo $result->getMessage(); } else { print_r($result); }
このコードは、文字列「Hallo Welt」の言語を検出し、検出された言語の配列とその信頼スコアを返します。配列は次のようになります:
Array ( [german] => 0.407037037037 [dutch] => 0.288065843621 [english] => 0.283333333333 [danish] => 0.234526748971 )
以上がPHP はどのようにして UTF-8 文字列の言語を検出できるのでしょうか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。