正则表达式 - Java 读取txt格式语料库并匹配指定字符串，如何可以快速完成？

Question

有一个9M多行的语料库，文件大小4G。现在需要匹配指定动词，符合句子条件的输出。
但是文件过大。每次读取一行。匹配下来要好久。请问有没有什么方法可以加快处理速度。

ringa_lee · Answer

读文件的话应该是没有问题的，不过你可以尝试改为缓冲式读取，因为一行的大小可能是不确定的，会对效率造成影响吧。。
匹配的话如果是单个单词的话，可以改用更好的匹配方法，正则的话就不晓得了

高洛峰 · Answer

你的程序是按行处理，单线程处理肯定慢，用多线程处理，每个线程处理一行，处理完后再请求处理下一行，读取行的话最好用缓存读取多行，然后再分配给多个线程处理，这样可以最大利用CPU。

PHP中文网 · Answer

nio+多线程

怪我咯 · Answer

Pattern.compile("(.*\%\&\$cook\%\&\$VB.*)")

这个在循环里边，每次都要编译正则，所以很慢，你把这个放到while外边看看