给定一个由不带空格的单词组成的字符串,本文提出了一种高效的分割算法
输入:“tableapplechairtablecupboard...”
输出:["table", "apple", " chair", "table", ["cupboard", ["cup", "board"]], ...]
该算法不是使用简单的方法,而是使用简单的方法利用词频来提高准确性。假设单词独立分布并遵循齐普夫定律,算法使用动态规划来识别最可能的单词序列。
<code class="python">from math import log words = open("words-by-frequency.txt").read().split() wordcost = dict((k, log((i+1)*log(len(words)))) for i,k in enumerate(words)) maxword = max(len(x) for x in words) def infer_spaces(s): cost = [0] for i in range(1,len(s)+1): c,k = best_match(i) cost.append(c) out = [] i = len(s) while i>0: c,k = best_match(i) out.append(s[i-k:i]) i -= k return " ".join(reversed(out)) def best_match(i): candidates = enumerate(reversed(cost[max(0, i-maxword):i])) return min((c + wordcost.get(s[i-k-1:i], 9e999), k+1) for k,c in candidates) s = 'thumbgreenappleactiveassignmentweeklymetaphor' print(infer_spaces(s))</code>
该算法依赖于字典,该字典将单词映射到它们的相对频率,假设齐普夫定律。为了考虑到未见过的单词,为它们分配了很高的成本。
算法计算每个可能的单词片段的成本,考虑潜在的下一个单词。它使用动态规划来选择成本最低的路径,确保最有可能的单词序列。
对于大量输入,可以通过将文本拆分为块并处理来优化算法他们独立。这可以减少内存使用,而不会显着影响准确性。
以上是我们如何利用词频和动态规划有效地将没有空格的文本分离到单词列表中?的详细内容。更多信息请关注PHP中文网其他相关文章!