SpringBoot如何實現過濾敏感詞
過濾敏感字
#1. 建立一個儲存要過濾的敏感字的文字檔
#先建立一個文字檔案儲存要過濾的敏感字
在下面的工具類別中我們會讀取這個文字文件,這裡提前給出
@PostConstruct // 这个注解表示当容器实例化这个bean(服务启动的时候)之后在调用构造器之后这个方法会自动的调用 public void init(){ try( // 读取写有“敏感词”的文件,getClass表示从程序编译之后的target/classes读配置文件,读之后是字节流 // java7语法,在这里的句子最后会自动执行close语句 InputStream is = this.getClass().getClassLoader().getResourceAsStream("sensitive-words.txt"); // 字节流 -> 字符流 -> 缓冲流 BufferedReader reader = new BufferedReader(new InputStreamReader(is)); ) { String keyword; // 从文件中一行一行读 while ((keyword = reader.readLine()) != null){ // 添加到前缀树 this.addKeyword(keyword); } } catch (IOException e) { logger.error("加载敏感词文件失败: " + e.getMessage()); } }
2. 發展過濾敏感詞的工具類
開發過濾敏感詞組件
為了方便以後復用,我們把過濾敏感詞寫成一個工具類SensitiveFilter。
@Component public class SensitiveFilter { private static final Logger logger = LoggerFactory.getLogger(SensitiveFilter.class); // 当检测到敏感词后我们要把敏感词替换成什么符号 private static final String REPLACEMENT = "***"; // 根节点 private TrieNode rootNode = new TrieNode(); @PostConstruct // 这个注解表示当容器实例化这个bean(服务启动的时候)之后在调用构造器之后这个方法会自动的调用 public void init(){ try( // 读取写有“敏感词”的文件,getClass表示从程序编译之后的target/classes读配置文件,读之后是字节流 // java7语法,在这里的句子最后会自动执行close语句 InputStream is = this.getClass().getClassLoader().getResourceAsStream("sensitive-words.txt"); // 字节流 -> 字符流 -> 缓冲流 BufferedReader reader = new BufferedReader(new InputStreamReader(is)); ) { String keyword; // 从文件中一行一行读 while ((keyword = reader.readLine()) != null){ // 添加到前缀树 this.addKeyword(keyword); } } catch (IOException e) { logger.error("加载敏感词文件失败: " + e.getMessage()); } } // 将一个敏感词添加到前缀树中 private void addKeyword(String keyword){ // 首先默认指向根 TrieNode tempNode = rootNode; for (int i = 0; i < keyword.length(); i++) { char c = keyword.charAt(i); TrieNode subNode = tempNode.getSubNode(c); if(subNode == null){ // subNode为空,初始化子节点;subNode不为空,直接用就可以了 subNode = new TrieNode(); tempNode.addSubNode(c, subNode); } // 指针指向子节点,进入下一轮循环 tempNode = subNode; } // 最后要设置结束标识 tempNode.setKeywordEnd(true); } /** * 过滤敏感词 * @param text 待过滤的文本 * @return 过滤后的文本 */ public String filter(String text){ if(StringUtils.isBlank(text)){ // 待过滤的文本为空,直接返回null return null; } // 指针1,指向树 TrieNode tempNode = rootNode; // 指针2,指向正在检测的字符串段的首 int begin = 0; // 指针3,指向正在检测的字符串段的尾 int position = 0; // 储存过滤后的文本 StringBuilder sb = new StringBuilder(); while (begin < text.length()){ char c = text.charAt(position); // 跳过符号,比如 “开票”是敏感词 #开#票# 这个字符串中间的 '#' 应该跳过 if(isSymbol(c)){ // 是特殊字符 // 若指针1处于根节点,将此符号计入结果,指针2、3向右走一步 if(tempNode == rootNode){ sb.append(c); begin++; } // 无论符号在开头或中间,指针3都向下走一步 position++; // 符号处理完,进入下一轮循环 continue; } // 执行到这里说明字符不是特殊符号 // 检查下级节点 tempNode = tempNode.getSubNode(c); if(tempNode == null){ // 以begin开头的字符串不是敏感词 sb.append(text.charAt(begin)); // 进入下一个位置 position = ++begin; // 重新指向根节点 tempNode = rootNode; } else if(tempNode.isKeywordEnd()){ // 发现敏感词,将begin~position字符串替换掉,存 REPLACEMENT (里面是***) sb.append(REPLACEMENT); // 进入下一个位置 begin = ++position; // 重新指向根节点 tempNode = rootNode; } else { // 检查下一个字符 position++; } } return sb.toString(); } // 判断是否为特殊符号,是则返回true,不是则返回false private boolean isSymbol(Character c){ // CharUtils.isAsciiAlphanumeric(c)方法:a、b、1、2···返回true,特殊字符返回false // 0x2E80 ~ 0x9FFF 是东亚的文字范围,东亚文字范围我们不认为是符号 return !CharUtils.isAsciiAlphanumeric(c) && (c < 0x2E80 || c > 0x9FFF); } // 前缀树 private class TrieNode{ // 关键词结束标识 private boolean isKeywordEnd = false; // 当前节点的子节点(key是下级字符、value是下级节点) private Map<Character, TrieNode> subNodes = new HashMap<>(); public boolean isKeywordEnd() { return isKeywordEnd; } public void setKeywordEnd(boolean keywordEnd) { isKeywordEnd = keywordEnd; } // 添加子节点 public void addSubNode(Character c, TrieNode node){ subNodes.put(c, node); } // 获取子节点 public TrieNode getSubNode(Character c){ return subNodes.get(c); } } }
上面就是過濾敏感詞工具類別的全部程式碼,接下來我們來解釋一下開發步驟
開發過濾敏感詞元件分為三步:
1.定義前綴樹(Tree)
我們將定義前綴樹寫為SensitiveFilter工具類別的內部類別
// 前缀树 private class TrieNode{ // 关键词结束标识 private boolean isKeywordEnd = false; // 当前节点的子节点(key是下级字符、value是下级节点) private Map<Character, TrieNode> subNodes = new HashMap<>(); public boolean isKeywordEnd() { return isKeywordEnd; } public void setKeywordEnd(boolean keywordEnd) { isKeywordEnd = keywordEnd; } // 添加子节点 public void addSubNode(Character c, TrieNode node){ subNodes.put(c, node); } // 获取子节点 public TrieNode getSubNode(Character c){ return subNodes.get(c); } }
2.根據敏感詞,初始化前綴樹
將敏感詞加入前綴樹
// 将一个敏感词添加到前缀树中 private void addKeyword(String keyword){ // 首先默认指向根 TrieNode tempNode = rootNode; for (int i = 0; i < keyword.length(); i++) { char c = keyword.charAt(i); TrieNode subNode = tempNode.getSubNode(c); if(subNode == null){ // subNode为空,初始化子节点;subNode不为空,直接用就可以了 subNode = new TrieNode(); tempNode.addSubNode(c, subNode); } // 指针指向子节点,进入下一轮循环 tempNode = subNode; } // 最后要设置结束标识 tempNode.setKeywordEnd(true); }
3.寫出過濾敏感字的方法
如何篩選文字中的敏感字:
特殊符號怎麼處理:
敏感詞前綴樹初始化完畢之後,過濾文字中的敏感詞的演算法應該如下:
定義三個指標:
指標1指向Tree樹
#指標2指向待過濾字串段的
頭指標3指向待過濾字串段的
尾
/** * 过滤敏感词 * @param text 待过滤的文本 * @return 过滤后的文本 */ public String filter(String text){ if(StringUtils.isBlank(text)){ // 待过滤的文本为空,直接返回null return null; } // 指针1,指向树 TrieNode tempNode = rootNode; // 指针2,指向正在检测的字符串段的首 int begin = 0; // 指针3,指向正在检测的字符串段的尾 int position = 0; // 储存过滤后的文本 StringBuilder sb = new StringBuilder(); while (begin < text.length()){ char c = text.charAt(position); // 跳过符号,比如 “开票”是敏感词 #开#票# 这个字符串中间的 '#' 应该跳过 if(isSymbol(c)){ // 是特殊字符 // 若指针1处于根节点,将此符号计入结果,指针2、3向右走一步 if(tempNode == rootNode){ sb.append(c); begin++; } // 无论符号在开头或中间,指针3都向下走一步 position++; // 符号处理完,进入下一轮循环 continue; } // 执行到这里说明字符不是特殊符号 // 检查下级节点 tempNode = tempNode.getSubNode(c); if(tempNode == null){ // 以begin开头的字符串不是敏感词 sb.append(text.charAt(begin)); // 进入下一个位置 position = ++begin; // 重新指向根节点 tempNode = rootNode; } else if(tempNode.isKeywordEnd()){ // 发现敏感词,将begin~position字符串替换掉,存 REPLACEMENT (里面是***) sb.append(REPLACEMENT); // 进入下一个位置 begin = ++position; // 重新指向根节点 tempNode = rootNode; } else { // 检查下一个字符 position++; } } return sb.toString(); } // 判断是否为特殊符号,是则返回true,不是则返回false private boolean isSymbol(Character c){ // CharUtils.isAsciiAlphanumeric(c)方法:a、b、1、2···返回true,特殊字符返回false // 0x2E80 ~ 0x9FFF 是东亚的文字范围,东亚文字范围我们不认为是符号 return !CharUtils.isAsciiAlphanumeric(c) && (c < 0x2E80 || c > 0x9FFF); }
最後:建議在測試類別中測試一下
經過測試,過濾敏感字的工具類開發完成,這個工具會在接下來的
發佈貼文###的功能中用到。 ###以上是SpringBoot如何實現過濾敏感詞的詳細內容。更多資訊請關注PHP中文網其他相關文章!

熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

Video Face Swap
使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

熱工具

記事本++7.3.1
好用且免費的程式碼編輯器

SublimeText3漢化版
中文版,非常好用

禪工作室 13.0.1
強大的PHP整合開發環境

Dreamweaver CS6
視覺化網頁開發工具

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)

Jasypt介紹Jasypt是一個java庫,它允許開發員以最少的努力為他/她的專案添加基本的加密功能,並且不需要對加密工作原理有深入的了解用於單向和雙向加密的高安全性、基於標準的加密技術。加密密碼,文本,數字,二進位檔案...適合整合到基於Spring的應用程式中,開放API,用於任何JCE提供者...添加如下依賴:com.github.ulisesbocchiojasypt-spring-boot-starter2. 1.1Jasypt好處保護我們的系統安全,即使程式碼洩露,也可以保證資料來源的

一、Redis實現分散式鎖原理為什麼需要分散式鎖在聊分散式鎖之前,有必要先解釋一下,為什麼需要分散式鎖。與分散式鎖相對就的是單機鎖,我們在寫多執行緒程式時,避免同時操作一個共享變數產生資料問題,通常會使用一把鎖來互斥以保證共享變數的正確性,其使用範圍是在同一個進程中。如果換做是多個進程,需要同時操作一個共享資源,如何互斥?現在的業務應用通常是微服務架構,這也意味著一個應用會部署多個進程,多個進程如果需要修改MySQL中的同一行記錄,為了避免操作亂序導致髒數據,此時就需要引入分佈式鎖了。想要實現分

使用場景1、下單成功,30分鐘未支付。支付超時,自動取消訂單2、訂單簽收,簽收後7天未進行評估。訂單超時未評價,系統預設好評3、下單成功,商家5分鐘未接單,訂單取消4、配送超時,推播簡訊提醒…對於延時比較長的場景、即時性不高的場景,我們可以採用任務調度的方式定時輪詢處理。如:xxl-job今天我們採

springboot讀取文件,打成jar包後訪問不到最新開發出現一種情況,springboot打成jar包後讀取不到文件,原因是打包之後,文件的虛擬路徑是無效的,只能通過流去讀取。文件在resources下publicvoidtest(){Listnames=newArrayList();InputStreamReaderread=null;try{ClassPathResourceresource=newClassPathResource("name.txt");Input

在Springboot+Mybatis-plus不使用SQL語句進行多表添加操作我所遇到的問題準備工作在測試環境下模擬思維分解一下:創建出一個帶有參數的BrandDTO對像模擬對後台傳遞參數我所遇到的問題我們都知道,在我們使用Mybatis-plus中進行多表操作是極其困難的,如果你不使用Mybatis-plus-join這一類的工具,你只能去配置對應的Mapper.xml文件,配置又臭又長的ResultMap,然後再寫對應的sql語句,這種方法雖然看上去很麻煩,但具有很高的靈活性,可以讓我們

1.自訂RedisTemplate1.1、RedisAPI預設序列化機制基於API的Redis快取實作是使用RedisTemplate範本進行資料快取操作的,這裡開啟RedisTemplate類,查看該類別的源碼資訊publicclassRedisTemplateextendsRedisAccessorimplementsRedisOperations,BeanClassLoaderAware{//聲明了value的各種序列化方式,初始值為空@NullableprivateRedisSe

SpringBoot和SpringMVC都是Java開發中常用的框架,但它們之間有一些明顯的差異。本文將探究這兩個框架的特點和用途,並對它們的差異進行比較。首先,我們來了解一下SpringBoot。 SpringBoot是由Pivotal團隊開發的,它旨在簡化基於Spring框架的應用程式的建立和部署。它提供了一種快速、輕量級的方式來建立獨立的、可執行

在專案中,很多時候需要用到一些配置信息,這些信息在測試環境和生產環境下可能會有不同的配置,後面根據實際業務情況有可能還需要再做修改。我們不能將這些設定在程式碼中寫死,最好是寫到設定檔中,例如可以把這些資訊寫到application.yml檔案中。那麼,怎麼在程式碼裡取得或使用這個位址呢?有2個方法。方法一:我們可以透過@Value註解的${key}即可取得設定檔(application.yml)中和key對應的value值,這個方法適用於微服務比較少的情形方法二:在實際專案中,遇到業務繁瑣,邏
