84669인 학습
152542인 학습
20005인 학습
5487인 학습
7821인 학습
359900인 학습
3350인 학습
180660인 학습
48569인 학습
18603인 학습
40936인 학습
1549인 학습
1183인 학습
32909인 학습
彻底地过滤敏感词
拥有18年软件开发和IT教学经验。曾任多家上市公司技术总监、架构师、项目经理、高级软件工程师等职务。 网络人气名人讲师,...
过滤和谐词其实并不是一个好策略,有一万种说出敏感词的方法,就一定会有第一万零一种,如果你反复设置程序去和谐这些词,最后会发现,你的会员连最基本的一些话都不能发了。和谐没有终极解决方案,却能最终作茧自缚,自缚双手。对付这些内容最佳的方案还是靠人工,如果你的系统用户比较多,信息产生得比较快,可以参考参考微博的社区委员会制度,通过发动一些热心的会员来辅助管理内容。
人工审核吧上有政策 下有对策很难通过程序完全过滤全部敏感词(特殊分隔、简繁等)
你需要正则表达式。
$content = "新开的淘[防和谐]宝网店欢迎光顾!"; preg_replace('/淘.{0,6}宝/uU', '****', $content);
用以上的正则表达式,只要“淘”和“宝”中间有0到6个字符,管你什么字符,照和谐不误。
更多用法请自行学习正则表达式。
这种要看策略了,不过大部分的都还是机器+人工的方式来处理,没法用机器100%处理掉敏感信息
关键词过滤容易误杀,而且总有方法绕过,所以只能用来做初步过滤,最终还是要靠人工来审核
过滤和谐词其实并不是一个好策略,有一万种说出敏感词的方法,就一定会有第一万零一种,如果你反复设置程序去和谐这些词,最后会发现,你的会员连最基本的一些话都不能发了。和谐没有终极解决方案,却能最终作茧自缚,自缚双手。对付这些内容最佳的方案还是靠人工,如果你的系统用户比较多,信息产生得比较快,可以参考参考微博的社区委员会制度,通过发动一些热心的会员来辅助管理内容。
人工审核吧
上有政策 下有对策
很难通过程序完全过滤全部敏感词(特殊分隔、简繁等)
你需要正则表达式。
用以上的正则表达式,只要“淘”和“宝”中间有0到6个字符,管你什么字符,照和谐不误。
更多用法请自行学习正则表达式。
这种要看策略了,不过大部分的都还是机器+人工的方式来处理,没法用机器100%处理掉敏感信息
关键词过滤容易误杀,而且总有方法绕过,所以只能用来做初步过滤,最终还是要靠人工来审核