正则表达式 - Java 读取txt格式语料库并匹配指定字符串,如何可以快速完成?
迷茫
迷茫 2017-04-17 17:50:07
0
4
737

有一个9M多行的语料库,文件大小4G。现在需要匹配指定动词,符合句子条件的输出。
但是文件过大。每次读取一行。匹配下来要好久。请问有没有什么方法可以加快处理速度。

BufferedReader cpreader = new BufferedReader(new InputStreamReader(new FileInputStream(this.getCorpusPath())));
tring line = cpreader.readLine();
while(line != null)
            {
                ArrayList<String> verbList = new ArrayList();
                matcher_line = Pattern.compile("(.*\\%\\&\\$cook\\%\\&\\$VB.*)").matcher(line);
                if(matcher_line.find())
                {
                    System.out.println(line);
                }
                
                
                
                line = cpreader.readLine();
            }
迷茫
迷茫

业精于勤,荒于嬉;行成于思,毁于随。

全員に返信(4)
左手右手慢动作

ファイルの読み取りに問題はありませんが、行のサイズが不確実な可能性があり、効率に影響するため、バッファ読み取りに変更してみることもできます。 。
一致する単語が 1 つの単語の場合は、通常の一致方法かどうかはわかりませんが、より適切な一致方法を使用できます。

いいねを押す +0
小葫芦

プログラムは行単位で処理されるため、各スレッドが 1 行の処理を行うと、次の行の処理が要求されます。キャッシュを使用して複数の行を読み取り、それを複数のスレッドに割り当てて処理することで、CPU を最大限に活用できます。

いいねを押す +0
Ty80

nio+マルチスレッド

いいねを押す +0
刘奇

リーリー

これはループ内にあり、正規表現は毎回コンパイルする必要があるため、非常に時間がかかります。これを while の外に置いて確認してください。

いいねを押す +0
人気のチュートリアル
詳細>
最新のダウンロード
詳細>
ウェブエフェクト
公式サイト
サイト素材
フロントエンドテンプレート