2000w行的文本数据如何检索

WBOY
发布: 2016-08-04 09:19:11
原创
976 人浏览过

在一个txt文档中有2000w行数据,数据的格式如下
行尸走肉_Mother
金蝉脱壳_Smile
霸王别姬_Love
逍遥法外_Eternity
.......
八仙过海_Destiny

请问如何快速检索出成语或者英文单词,麻烦请给我算法,谢谢大牛们

回复内容:

在一个txt文档中有2000w行数据,数据的格式如下
行尸走肉_Mother
金蝉脱壳_Smile
霸王别姬_Love
逍遥法外_Eternity
.......
八仙过海_Destiny

请问如何快速检索出成语或者英文单词,麻烦请给我算法,谢谢大牛们

你的目的到底是要确定某个成语/英文存在不存在还是要计算这个成语/单词出现的次数?
我以为不论什么方法,最大的可能性就是把全文都要过一遍。如果你这个检索的频率很高,这2000万个数据放到内存中再索引存储下会最快,如果只运行一次,那么最快的时间就是把文件都读一遍的时间(计算出现次数)。

搭一个 solr,创建索引,这样搜索效率提升很大

相关标签:
php
来源:php.cn
本站声明
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn
热门教程
更多>
最新下载
更多>
网站特效
网站源码
网站素材
前端模板