


Algoritma pengekstrakan kata kunci dan contoh aplikasi yang dilaksanakan dalam Java
Algoritma pengekstrakan kata kunci dan contoh aplikasi yang dilaksanakan dalam Java
Dengan kemunculan era Internet, data teks yang besar telah menyebabkan kesukaran yang besar untuk orang ramai mendapatkan dan menganalisis, jadi pengekstrakan kata kunci diperlukan teknologi pemprosesan bahasa semula jadi. Pengekstrakan kata kunci merujuk kepada mengekstrak perkataan atau frasa daripada sekeping teks yang paling mewakili topik teks, memberikan sokongan untuk tugasan seperti pengelasan teks, perolehan semula dan pengelompokan. Artikel ini memperkenalkan beberapa algoritma pengekstrakan kata kunci dan contoh aplikasi yang dilaksanakan dalam Java.
1. Algoritma TF-IDF
TF-IDF ialah algoritma yang biasa digunakan untuk mengekstrak kata kunci daripada teks Ia berdasarkan kekerapan perkataan dalam teks dan kekerapan kejadian dalam keseluruhan korpus Kekerapan, pengiraan pemberat untuk perkataan. TF mewakili kekerapan perkataan dalam teks semasa, dan IDF mewakili kekerapan dokumen songsang bagi perkataan dalam keseluruhan korpus Formula pengiraan adalah seperti berikut:
TF = (bilangan kemunculan perkataan dalam. teks) / (jumlah bilangan perkataan dalam teks) )
IDF = log (jumlah bilangan dokumen dalam korpus / bilangan dokumen yang mengandungi perkataan)
TF-IDF = TF * IDF
Pelaksanaan kod Java:
public Map<String, Double> tfIdf(List<String> docs) { Map<String, Integer> wordFreq = new HashMap<>(); int totalWords = 0; for (String doc : docs) { String[] words = doc.split(" "); for (String word : words) { wordFreq.put(word, wordFreq.getOrDefault(word, 0) + 1); totalWords++; } } Map<String, Double> tfIdf = new HashMap<>(); int docSize = docs.size(); for (String word : wordFreq.keySet()) { double tf = (double) wordFreq.get(word) / totalWords; int docCount = 0; for (String doc : docs) { if (doc.contains(word)) { docCount++; } } double idf = Math.log((double) docSize / (docCount + 1)); tfIdf.put(word, tf * idf); } return tfIdf; }
2. Algoritma TextRank
TextRank ialah algoritma berasaskan graf yang digunakan untuk pengekstrakan kata kunci teks dan pengekstrakan ringkasan. hubungan kejadian perkataan untuk membina graf dan menilai kepentingan perkataan dalam graf Pemeringkatan dilakukan berdasarkan jantina, dan perkataan berpangkat tinggi dikenal pasti sebagai kata kunci atau ayat penting. Idea teras TextRank ialah algoritma PageRank, yang menganggap perhubungan kejadian bersama perkataan sebagai pautan antara halaman, menyusun perkataan dan mendapatkan kata kunci dalam teks. Proses pengiraan algoritma TextRank merangkumi langkah-langkah berikut:
1 Ekstrak perkataan atau frasa dalam teks
2 Wujudkan graf kejadian bersama dan gunakan hubungan kejadian bersama untuk mewakili tepi;
3 , mengisih perkataan dan mengira nilai PageRank bagi setiap perkataan
4. Pilih perkataan kedudukan teratas sebagai kata kunci berdasarkan nilai PageRank.
Pelaksanaan kod Java:
public List<String> textrank(List<String> docs, int numKeywords) { List<String> sentences = new ArrayList<>(); for (String doc : docs) { sentences.addAll(Arrays.asList(doc.split("[。?!;]"))); } List<String> words = new ArrayList<>(); for (String sentence : sentences) { words.addAll(segment(sentence)); } Map<String, Integer> wordFreq = new HashMap<>(); Map<String, Set<String>> wordCooc = new HashMap<>(); for (String word : words) { wordFreq.put(word, wordFreq.getOrDefault(word, 0) + 1); wordCooc.put(word, new HashSet<>()); } for (String sentence : sentences) { List<String> senWords = segment(sentence); for (String w1 : senWords) { if (!wordFreq.containsKey(w1)) { continue; } for (String w2 : senWords) { if (!wordFreq.containsKey(w2)) { continue; } if (!w1.equals(w2)) { wordCooc.get(w1).add(w2); wordCooc.get(w2).add(w1); } } } } Map<String, Double> wordScore = new HashMap<>(); for (String word : words) { double score = 1.0; for (String coocWord : wordCooc.get(word)) { score += wordScore.getOrDefault(coocWord, 1.0) / wordCooc.get(coocWord).size(); } wordScore.put(word, score); } List<Map.Entry<String, Double>> sortedWords = wordScore.entrySet().stream() .sorted(Collections.reverseOrder(Map.Entry.comparingByValue())) .collect(Collectors.toList()); List<String> keywords = new ArrayList<>(); for (int i = 0; i < numKeywords && i < sortedWords.size(); i++) { keywords.add(sortedWords.get(i).getKey()); } return keywords; } private List<String> segment(String text) { // 使用中文分词器分词 // TODO return Arrays.asList(text.split(" ")); }
3. Model topik LDA
LDA ialah model topik kebarangkalian yang boleh menganggap teks sebagai campuran pelbagai topik dan melakukan analisis teks pada teks. Klasifikasi topik dan pengekstrakan kata kunci. Model topik LDA menganggap perkataan dalam teks sebagai taburan kebarangkalian, di mana setiap perkataan boleh ditugaskan kepada berbilang topik. Model topik LDA perlu menentukan bilangan topik dan bilangan lelaran, dan kemudian menyelesaikannya melalui algoritma EM untuk mendapatkan pengedaran perkataan setiap topik dan pengedaran topik setiap teks.
Pelaksanaan kod Java:
public List<String> lda(List<String> docs, int numTopics, int numKeywords, int iterations) { List<List<String>> words = new ArrayList<>(); for (String doc : docs) { words.add(segment(doc)); } Dictionary dictionary = new Dictionary(words); Corpus corpus = new Corpus(dictionary); for (List<String> docWords : words) { Document doc = new Document(dictionary); for (String word : docWords) { doc.addWord(new Word(word)); } corpus.addDocument(doc); } LdaGibbsSampler sampler = new LdaGibbsSampler(corpus, numTopics, 0.5, 0.1); sampler.gibbs(iterations); List<String> keywords = new ArrayList<>(); for (int i = 0; i < numTopics; i++) { List<WordProbability> wordProbs = sampler.getSortedWordsByWeight(i); for (int j = 0; j < numKeywords && j < wordProbs.size(); j++) { keywords.add(wordProbs.get(j).getWord().getName()); } } return keywords; } private List<String> segment(String text) { // 使用中文分词器分词 // TODO return Arrays.asList(text.split(" ")); }
Contoh aplikasi
Pengekstrakan kata kunci boleh digunakan pada klasifikasi teks, pengekstrakan ringkasan, kedudukan enjin carian dan medan lain. Berikut adalah contoh aplikasi berdasarkan algoritma di atas.
1. Klasifikasi berita
Memandangkan teks beberapa laporan berita, algoritma TF-IDF boleh digunakan untuk mengekstrak kata kunci setiap teks, dan kemudian algoritma pembelajaran mesin boleh digunakan untuk pengelasan. Sebagai contoh, algoritma pepohon keputusan boleh digunakan untuk mengklasifikasikan berita dan kata kunci boleh dimasukkan ke dalam pepohon keputusan sebagai ciri. Kesan pengelasan boleh dinilai melalui kaedah seperti pengesahan silang.
2. Pengekstrakan ringkasan
Memandangkan teks artikel, anda boleh menggunakan algoritma TextRank untuk mengekstrak ayat utama dan menggabungkannya ke dalam ringkasan. Pengekstrakan abstrak boleh digunakan untuk ringkasan automatik, paparan enjin carian dan medan lain.
3. Carian kesusasteraan saintifik dan teknologi
Dalam perolehan kesusasteraan saintifik dan teknologi, pengguna biasanya memasukkan kata kunci atau gabungan kata kunci, dan kemudian enjin carian mengira tahap padanan antara dokumen dan kata kunci melalui algoritma TF-IDF , dan diisih mengikut tahap yang sepadan, membolehkan pengguna mencari dokumen yang berkaitan dengan cepat. Selain itu, digabungkan dengan model topik LDA, dokumen boleh diklasifikasikan ke dalam topik dan kata kunci topik boleh digunakan sebagai input carian untuk meningkatkan hasil carian.
Kesimpulan
Artikel ini memperkenalkan beberapa algoritma pengekstrakan kata kunci dan contoh aplikasi yang dilaksanakan dalam Java. Algoritma TF-IDF ialah salah satu algoritma yang paling biasa digunakan dalam pemprosesan teks Algoritma TextRank boleh mengekstrak ayat utama, dan model topik LDA boleh mengklasifikasikan topik teks. Algoritma ini boleh digunakan untuk klasifikasi dokumen, ringkasan automatik, kedudukan enjin carian dan medan lain, dan mempunyai prospek aplikasi yang luas.
Atas ialah kandungan terperinci Algoritma pengekstrakan kata kunci dan contoh aplikasi yang dilaksanakan dalam Java. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Alat AI Hot

Undresser.AI Undress
Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover
Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool
Gambar buka pakaian secara percuma

Clothoff.io
Penyingkiran pakaian AI

AI Hentai Generator
Menjana ai hentai secara percuma.

Artikel Panas

Alat panas

Notepad++7.3.1
Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina
Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1
Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6
Alat pembangunan web visual

SublimeText3 versi Mac
Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Topik panas



Panduan Nombor Sempurna di Jawa. Di sini kita membincangkan Definisi, Bagaimana untuk menyemak nombor Perfect dalam Java?, contoh dengan pelaksanaan kod.

Panduan untuk Penjana Nombor Rawak di Jawa. Di sini kita membincangkan Fungsi dalam Java dengan contoh dan dua Penjana berbeza dengan contoh lain.

Panduan untuk Weka di Jawa. Di sini kita membincangkan Pengenalan, cara menggunakan weka java, jenis platform, dan kelebihan dengan contoh.

Panduan untuk Nombor Smith di Jawa. Di sini kita membincangkan Definisi, Bagaimana untuk menyemak nombor smith di Jawa? contoh dengan pelaksanaan kod.

Dalam artikel ini, kami telah menyimpan Soalan Temuduga Spring Java yang paling banyak ditanya dengan jawapan terperinci mereka. Supaya anda boleh memecahkan temuduga.

Java 8 memperkenalkan API Stream, menyediakan cara yang kuat dan ekspresif untuk memproses koleksi data. Walau bagaimanapun, soalan biasa apabila menggunakan aliran adalah: bagaimana untuk memecahkan atau kembali dari operasi foreach? Gelung tradisional membolehkan gangguan awal atau pulangan, tetapi kaedah Foreach Stream tidak menyokong secara langsung kaedah ini. Artikel ini akan menerangkan sebab -sebab dan meneroka kaedah alternatif untuk melaksanakan penamatan pramatang dalam sistem pemprosesan aliran. Bacaan Lanjut: Penambahbaikan API Java Stream Memahami aliran aliran Kaedah Foreach adalah operasi terminal yang melakukan satu operasi pada setiap elemen dalam aliran. Niat reka bentuknya adalah

Panduan untuk TimeStamp to Date di Java. Di sini kita juga membincangkan pengenalan dan cara menukar cap waktu kepada tarikh dalam java bersama-sama dengan contoh.

Kapsul adalah angka geometri tiga dimensi, terdiri daripada silinder dan hemisfera di kedua-dua hujungnya. Jumlah kapsul boleh dikira dengan menambahkan isipadu silinder dan jumlah hemisfera di kedua -dua hujungnya. Tutorial ini akan membincangkan cara mengira jumlah kapsul yang diberikan dalam Java menggunakan kaedah yang berbeza. Formula volum kapsul Formula untuk jumlah kapsul adalah seperti berikut: Kelantangan kapsul = isipadu isipadu silinder Dua jumlah hemisfera dalam, R: Radius hemisfera. H: Ketinggian silinder (tidak termasuk hemisfera). Contoh 1 masukkan Jejari = 5 unit Ketinggian = 10 unit Output Jilid = 1570.8 Unit padu menjelaskan Kirakan kelantangan menggunakan formula: Kelantangan = π × r2 × h (4
