正则表达式 - Java 读取txt格式语料库并匹配指定字符串，如何可以快速完成？

Question

有一个9M多行的语料库，文件大小4G。现在需要匹配指定动词，符合句子条件的输出。
但是文件过大。每次读取一行。匹配下来要好久。请问有没有什么方法可以加快处理速度。

ringa_lee · Answer

讀檔案的話應該是沒有問題的，不過你可以嘗試改為緩衝式讀取，因為一行的大小可能是不確定的，會對效率造成影響吧。。
配對的話如果是單字的話，可以改用更好的配對方法，正規的話就不曉得了

高洛峰 · Answer

你的程式是按行處理，單執行緒處理一定慢，用多執行緒處理，每個執行緒處理一行，處理完後再請求處理下一行，讀取行的話最好用快取讀取多行，然後再分配給多個線程處理，這樣可以最大利用CPU。

PHP中文网 · Answer

nio+多執行緒

怪我咯 · Answer

Pattern.compile("(.*\%\&\$cook\%\&\$VB.*)")

這個在循環裡邊，每次都要編譯正則，所以很慢，你把這個放到while外邊看看