kmp演算法跟之前講的bm演算法想法有一定的相似性。之前提到過,bm演算法中有個好後綴的概念,而在kmp中有個好前綴的概念,什麼是好前綴,我們先來看下面這個例子。
觀察上面這個例子,已經匹配的abcde稱為好前綴,a與之後的bcde都不匹配,所以沒有必要再比一次,直接滑動到e之後即可。
那如果好前綴中有互相匹配的字元呢?
觀察上面這個例子,這個時候如果我們直接滑到好前綴之後,則會過度滑動,錯失符合子字串。那麼我們如何根據好前綴來進行合理滑動?
其實就是看目前的好前綴的前綴和後綴是否有匹配的,找到最長匹配長度,直接滑動。鑑於不只一次找最長匹配長度,我們完全可以先初始化一個數組,保存在當前好前綴情況下,最長匹配長度是多少,這時候我們的next數組就出來了。
我們定義一個next數組,表示在當前好前綴下,好前綴的前綴和後綴的最長匹配子串長度,這個最長匹配長度表示這個子串之前已經匹配過匹配了,不需要再次進行匹配,直接從子字串的下一個字元開始匹配。
我們是否每次算next[i]時都需要每一個字元進行匹配,是否可以根據next[i - 1]進行推導以便減少不必要的比較。
帶著這個想法我們來看看下面的步驟:
假設next[i - 1] = k - 1;
如果modelStr[k] = modelStr[ i] 則next[i]=k
如果modelStr[k] != modelStr[i],我們是否可以直接認定next[i] = next[i - 1]?
透過上面這個例子,我們可以很清楚的看到,next[i]!=next[i-1],那當modelStr[k]!=modelStr [i]時候,我們已知next[0],next[1]…next[i-1],如何推倒出next[i]?
假設modelStr[x…i]是前綴後綴能匹配的最長後綴子字串,那麼最長匹配前綴子字串為modelStr[0…i-x]
##我們在求這個最長匹配串的時候,他的前面的次長匹配串(不包含當前i的),也就是modelStr[x…i-1]在之前應該是已經求解出來了的,因此我們只需要找到這個某一個已經求解的匹配串,假設前綴子字串為modelStr[0…i-x-1],後綴子串為modelStr[x…i-1],且modelStr[i-x] == modelStr [i],這個前綴後綴子字串即為次前綴子字串,加上當前字元即為最長匹配前綴後綴子字串。
首先在kmp演算法中最主要的next數組,這個數組標誌著截止到目前下標的最長前綴後綴匹配子字串字元數,kmp演算法裡面,如果某個前綴是好前綴,即與模式串前綴匹配,我們就可以利用一定的技巧不止向前滑動一個字符,具體看前面的講解。我們事先不知道哪些是好前綴,而且比對過程不只一次,因此我們在最開始呼叫一個初始化方法,初始化next陣列。
1.如果上一個字符的最長前綴子串的下一個字符==當前字符,上一個字符的最長前綴子串直接加上當前字符即可
#2 .如果不等於,需要找到之前存在的最長前綴子字串的下一個字元等於當前子字串的,然後設定當前字元子字串的最長前綴後綴子字串
int[] next ; /** * 初始化next数组 * @param modelStr */ public void init(char[] modelStr) { //首先计算next数组 //遍历modelStr,遍历到的字符与之前字符组成一个串 next = new int[modelStr.length]; int start = 0; while (start < modelStr.length) { next[start] = this.recursion(start, modelStr); ++ start; } } /** * * @param i 当前遍历到的字符 * @return */ private int recursion(int i, char[] modelStr) { //next记录的是个数,不是下标 if (0 == i) { return 0; } int last = next[i -1]; //没有匹配的,直接判断第一个是否匹配 if (0 == last) { if (modelStr[last] == modelStr[i]) { return 1; } return 0; } //如果last不为0,有值,可以作为最长匹配的前缀 if (modelStr[last] == modelStr[i]) { return next[i - 1] + 1; } //当next[i-1]对应的子串的下一个值与modelStr不匹配时,需要找到当前要找的最长匹配子串的次长子串 //依据就是次长子串对应的子串的下一个字符==modelStr[i]; int tempIndex = i; while (tempIndex > 0) { last = next[tempIndex - 1]; //找到第一个下一个字符是当前字符的匹配子串 if (modelStr[last] == modelStr[i]) { return last + 1; } -- tempIndex; } return 0; }
然後開始利用next數組進行匹配,從第一個字符開始匹配進行匹配,找到第一個不匹配的字符,這時候之前的都是匹配的,接下來先判斷是否已經是完全匹配,是直接返回,不是,判斷是否第一個就不匹配,是直接往後面匹配。如果有好前綴,這時候就利用到了next數組,透過next數組知道目前可以從哪個開始匹配,之前的都不用進行匹配。
public int kmp(char[] mainStr, char[] modelStr) { //开始进行匹配 int i = 0, j = 0; while (i + modelStr.length <= mainStr.length) { while (j < modelStr.length) { //找到第一个不匹配的位置 if (modelStr[j] != mainStr[i]) { break; } ++ i; ++ j; } if (j == modelStr.length) { //证明完全匹配 return i - j; } //走到这里找到的是第一个不匹配的位置 if (j == 0) { ++ i; continue; } //从好前缀后一个匹配 j = next[j - 1]; } return -1; }
以上是Java中KMP演算法的實作方法是怎麼樣的?的詳細內容。更多資訊請關注PHP中文網其他相關文章!