前面介紹過一個過濾了些特殊字符的php程序,下面我們升級一下這個敏感詞過濾函數更強大了有了它再也不怕敏感詞中間加空格或者其他標點符號了。
只要用戶可以發言的地方,就可能出現廣告或其他敏感詞,因此必須加入敏感詞過濾機制來保持站點的」純潔」。
過濾機制:加入php關鍵字正規比對
//$str 為使用者資料
function wordFilter($str)
{
/*
.文件中(一般的方法)
2:儲存在快取(比較好的方法)
我儲存在memcachd中。
*/
$words = getSensitiveWords();
foreach ($words as $word
{//配對中文
$str = strtolower($str);
$str = strtolower($str);
$str. +)|([^A-Za-z]+' . $word . 's+)|(s+' . $word . '[^A-Za-z]+)|(^' . $word . '[ ^A-Za-z]+)|([^A-Za-z]+' . $word.'$)/';
//敏感字兩邊不為空
if (preg_match($pattern_ ))
{
$flag = TRUE;
. 's+)|(s+' . $word . '$) |(^' . $word . '$)/';
//敏感字兩腳可以空格
if (preg_match($pattern_ $flag = TRUE;
}
}
{//符合英文字串,大小寫不敏感
$pattern = '/s*' . $word . 's*/';
$flag = TRUE ;
}
}
}
}
存在問題:
如果單純只加入關鍵字配對,使用者反標過濾的方法五花八門符號加入其他使用單一空格。
範例:
敏感字:扣扣
用戶處理後:
扣 扣
扣,扣
扣@扣
這時候代碼的正規匹配就可能匹配不出來。
解決方法:
先對使用者資料移除所有的標點符號和一些特殊字符,然後再進行敏感詞判斷。
代碼:
$flag_arr=array('?','!','¥','(',')',':',''',''','“','”' ,'《','》',',','…','。 ','、','nbsp','】','【','~');
$content_filter 就是處理後的用戶數據,然後再進行wordFilter($content_filter ) 過濾操作