正则表达式 - Java 读取txt格式语料库并匹配指定字符串,如何可以快速完成?
迷茫
迷茫 2017-04-17 17:50:07
0
4
740

有一个9M多行的语料库,文件大小4G。现在需要匹配指定动词,符合句子条件的输出。
但是文件过大。每次读取一行。匹配下来要好久。请问有没有什么方法可以加快处理速度。

BufferedReader cpreader = new BufferedReader(new InputStreamReader(new FileInputStream(this.getCorpusPath())));
tring line = cpreader.readLine();
while(line != null)
            {
                ArrayList<String> verbList = new ArrayList();
                matcher_line = Pattern.compile("(.*\\%\\&\\$cook\\%\\&\\$VB.*)").matcher(line);
                if(matcher_line.find())
                {
                    System.out.println(line);
                }
                
                
                
                line = cpreader.readLine();
            }
迷茫
迷茫

业精于勤,荒于嬉;行成于思,毁于随。

全部回覆(4)
左手右手慢动作

讀檔案的話應該是沒有問題的,不過你可以嘗試改為緩衝式讀取,因為一行的大小 可能是不確定的,會對效率造成影響吧。 。
配對的話如果是單字的話,可以改用更好的配對方法,正規的話就不曉得了

小葫芦

你的程式是按行處理,單執行緒處理一定慢,用多執行緒處理,每個執行緒處理一行,處理完後再請求處理下一行,讀取行的話最好用快取讀取多行,然後再分配給多個線程處理,這樣可以最大利用CPU。

Ty80

nio+多執行緒

刘奇
Pattern.compile("(.*\%\&\$cook\%\&\$VB.*)")

這個在循環裡邊,每次都要編譯正則,所以很慢,你把這個放到while外邊看看

熱門教學
更多>
最新下載
更多>
網站特效
網站源碼
網站素材
前端模板