Implementasi Java 8 untuk Kiraan Frekuensi Perkataan
Mengenal pasti kekerapan perkataan dalam senarai yang diberikan ialah tugas penting dalam pemprosesan bahasa semula jadi. Java 8 menawarkan pendekatan serba boleh untuk mengira kemunculan perkataan dengan cekap menggunakan API aliran teguh dan pengumpul terbina dalam.
Masalah:
Pertimbangkan senarai perkataan berikut :
<code class="java">List<String> wordsList = Lists.newArrayList("hello", "bye", "ciao", "bye", "ciao");</code>
Objektifnya adalah untuk menentukan kiraan kekerapan setiap perkataan, menghasilkan output seperti:
<code class="java">{ciao=2, hello=1, bye=2}</code>
Penyelesaian Java 8:
Tidak seperti kaedah konvensional, Java 8 menggunakan pendekatan berbeza:
<code class="java">Map<String, Long> collect = wordsList.stream() .collect(Collectors.groupingBy(Function.identity(), Collectors.counting()));</code>
Dalam baris kod ini, kaedah stream() digunakan untuk memulakan aliran elemen daripada wordsList. Selepas itu, Collectors.groupingBy() mengumpulkan elemen berdasarkan identiti mereka (perkataan itu sendiri) dan Collectors.counting() mengira kekerapan setiap kejadian.
Untuk integer, kod boleh diubah suai sedikit:
<code class="java">Map<String, Integer> collect = wordsList.stream() .collect(Collectors.groupingBy(Function.identity(), Collectors.summingInt(e -> 1)));</code>
Isih mengikut Nilai:
Selain itu, peta yang terhasil boleh diisih mengikut susunan menurun kekerapan perkataan:
<code class="java">LinkedHashMap<String, Long> countByWordSorted = collect.entrySet() .stream() .sorted(Map.Entry.comparingByValue(Comparator.reverseOrder())) .collect(Collectors.toMap( Map.Entry::getKey, Map.Entry::getValue, (v1, v2) -> { throw new IllegalStateException(); }, LinkedHashMap::new ));</code>
Coretan kod tambahan ini menambahkan entri yang ditetapkan pada strim, mengisihnya dalam tertib menurun berdasarkan nilai dan mengumpulkan entri ke dalam LinkedHashMap untuk mengekalkan susunan yang diisih.
Atas ialah kandungan terperinci Bagaimanakah API Stream Java 8 boleh digunakan untuk mengira frekuensi perkataan dengan cekap dalam senarai?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!