PHP、漢字比率でスパムコメントを判定する方法を実現、_PHPチュートリアル-PHPチュートリアル-php.cn

PHP、漢字比率でスパムコメントを判定する方法を実現、_PHPチュートリアル

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

リリース： 2016-07-13 10:16:31

オリジナル

1312 人が閲覧しました

PHPは漢字の比率によってスパムコメントを判断するメソッドを実装しています

この記事の例では、漢字の比率によってスパムコメントを判断する方法を PHP で実装する方法を説明します。参考のためにみんなで共有してください。具体的な実装方法は以下の通りです

この種のスパムコメントは最近よく表示されます。英語の大きな段落に、漢字を含む珍しい漢字が 1 つまたは 2 つ混じっており、中国語の機密用語が含まれていないため、コメントフィルターを堂々と通過しました。このようなコメントの処理は、漢字の割合を判断することで確認できますが、場合によっては誤判断も発生します。

2. 解決策:

2 つの PHP 関数 strlen と mb_strlen を使用する必要があります。strlen は 1 つの漢字の長さを 3 として識別し、mb_strlen は 1 つの漢字の長さを 1 として識別します。 2 つの関数によって取得される同じ文字セグメントの長さの差は、実際の中国語の文字数の 2 倍であり、mb_strlen によって取得される長さとの比率を計算して、中国語の比率を取得します。文字数を合計文字数にします。

3. 実装コード:

コードをコピーしますコードは次のとおりです:

$len_all = strlen($comment['text']); $len_st = mb_strlen($comment['text'], 'UTF-8');
if(($len_all-$len_st)/(2*$len_st) $error = "中国語の文字が 50% 未満"
}

コメントにコードを投稿する場合、漢字の割合が低くなるため、コードフィールドをフィルタリングしてから判断する必要があります。

この記事で説明した内容が皆様の PHP プログラミング設計に役立つことを願っています。