Rumah > Java > javaTutorial > teks badan

Algoritma pengekstrakan kata kunci dan contoh aplikasi yang dilaksanakan dalam Java

WBOY
Lepaskan: 2023-06-18 12:14:01
asal
3777 orang telah melayarinya

Algoritma pengekstrakan kata kunci dan contoh aplikasi yang dilaksanakan dalam Java

Dengan kemunculan era Internet, data teks yang besar telah menyebabkan kesukaran yang besar untuk orang ramai mendapatkan dan menganalisis, jadi pengekstrakan kata kunci diperlukan teknologi pemprosesan bahasa semula jadi. Pengekstrakan kata kunci merujuk kepada mengekstrak perkataan atau frasa daripada sekeping teks yang paling mewakili topik teks, memberikan sokongan untuk tugasan seperti pengelasan teks, perolehan semula dan pengelompokan. Artikel ini memperkenalkan beberapa algoritma pengekstrakan kata kunci dan contoh aplikasi yang dilaksanakan dalam Java.

1. Algoritma TF-IDF

TF-IDF ialah algoritma yang biasa digunakan untuk mengekstrak kata kunci daripada teks Ia berdasarkan kekerapan perkataan dalam teks dan kekerapan kejadian dalam keseluruhan korpus Kekerapan, pengiraan pemberat untuk perkataan. TF mewakili kekerapan perkataan dalam teks semasa, dan IDF mewakili kekerapan dokumen songsang bagi perkataan dalam keseluruhan korpus Formula pengiraan adalah seperti berikut:

TF = (bilangan kemunculan perkataan dalam. teks) / (jumlah bilangan perkataan dalam teks) )

IDF = log (jumlah bilangan dokumen dalam korpus / bilangan dokumen yang mengandungi perkataan)

TF-IDF = TF * IDF

Pelaksanaan kod Java:

public Map<String, Double> tfIdf(List<String> docs) {
    Map<String, Integer> wordFreq = new HashMap<>();
    int totalWords = 0;
    for (String doc : docs) {
        String[] words = doc.split(" ");
        for (String word : words) {
            wordFreq.put(word, wordFreq.getOrDefault(word, 0) + 1);
            totalWords++;
        }
    }
    Map<String, Double> tfIdf = new HashMap<>();
    int docSize = docs.size();
    for (String word : wordFreq.keySet()) {
        double tf = (double) wordFreq.get(word) / totalWords;
        int docCount = 0;
        for (String doc : docs) {
            if (doc.contains(word)) {
                docCount++;
            }
        }
        double idf = Math.log((double) docSize / (docCount + 1));
        tfIdf.put(word, tf * idf);
    }
    return tfIdf;
}
Salin selepas log masuk

2. Algoritma TextRank

TextRank ialah algoritma berasaskan graf yang digunakan untuk pengekstrakan kata kunci teks dan pengekstrakan ringkasan. hubungan kejadian perkataan untuk membina graf dan menilai kepentingan perkataan dalam graf Pemeringkatan dilakukan berdasarkan jantina, dan perkataan berpangkat tinggi dikenal pasti sebagai kata kunci atau ayat penting. Idea teras TextRank ialah algoritma PageRank, yang menganggap perhubungan kejadian bersama perkataan sebagai pautan antara halaman, menyusun perkataan dan mendapatkan kata kunci dalam teks. Proses pengiraan algoritma TextRank merangkumi langkah-langkah berikut:

1 Ekstrak perkataan atau frasa dalam teks
2 Wujudkan graf kejadian bersama dan gunakan hubungan kejadian bersama untuk mewakili tepi;
3 , mengisih perkataan dan mengira nilai PageRank bagi setiap perkataan
4. Pilih perkataan kedudukan teratas sebagai kata kunci berdasarkan nilai PageRank.

Pelaksanaan kod Java:

public List<String> textrank(List<String> docs, int numKeywords) {
    List<String> sentences = new ArrayList<>();
    for (String doc : docs) {
        sentences.addAll(Arrays.asList(doc.split("[。?!;]")));
    }
    List<String> words = new ArrayList<>();
    for (String sentence : sentences) {
        words.addAll(segment(sentence));
    }
    Map<String, Integer> wordFreq = new HashMap<>();
    Map<String, Set<String>> wordCooc = new HashMap<>();
    for (String word : words) {
        wordFreq.put(word, wordFreq.getOrDefault(word, 0) + 1);
        wordCooc.put(word, new HashSet<>());
    }
    for (String sentence : sentences) {
        List<String> senWords = segment(sentence);
        for (String w1 : senWords) {
            if (!wordFreq.containsKey(w1)) {
                continue;
            }
            for (String w2 : senWords) {
                if (!wordFreq.containsKey(w2)) {
                    continue;
                }
                if (!w1.equals(w2)) {
                    wordCooc.get(w1).add(w2);
                    wordCooc.get(w2).add(w1);
                }
            }
        }
    }
    Map<String, Double> wordScore = new HashMap<>();
    for (String word : words) {
        double score = 1.0;
        for (String coocWord : wordCooc.get(word)) {
            score += wordScore.getOrDefault(coocWord, 1.0) / wordCooc.get(coocWord).size();
        }
        wordScore.put(word, score);
    }
    List<Map.Entry<String, Double>> sortedWords =
            wordScore.entrySet().stream()
                     .sorted(Collections.reverseOrder(Map.Entry.comparingByValue()))
                     .collect(Collectors.toList());
    List<String> keywords = new ArrayList<>();
    for (int i = 0; i < numKeywords && i < sortedWords.size(); i++) {
        keywords.add(sortedWords.get(i).getKey());
    }
    return keywords;
}

private List<String> segment(String text) {
    // 使用中文分词器分词
    // TODO
    return Arrays.asList(text.split(" "));
}
Salin selepas log masuk

3. Model topik LDA

LDA ialah model topik kebarangkalian yang boleh menganggap teks sebagai campuran pelbagai topik dan melakukan analisis teks pada teks. Klasifikasi topik dan pengekstrakan kata kunci. Model topik LDA menganggap perkataan dalam teks sebagai taburan kebarangkalian, di mana setiap perkataan boleh ditugaskan kepada berbilang topik. Model topik LDA perlu menentukan bilangan topik dan bilangan lelaran, dan kemudian menyelesaikannya melalui algoritma EM untuk mendapatkan pengedaran perkataan setiap topik dan pengedaran topik setiap teks.

Pelaksanaan kod Java:

public List<String> lda(List<String> docs, int numTopics,
                        int numKeywords, int iterations) {
    List<List<String>> words = new ArrayList<>();
    for (String doc : docs) {
        words.add(segment(doc));
    }
    Dictionary dictionary = new Dictionary(words);
    Corpus corpus = new Corpus(dictionary);
    for (List<String> docWords : words) {
        Document doc = new Document(dictionary);
        for (String word : docWords) {
            doc.addWord(new Word(word));
        }
        corpus.addDocument(doc);
    }
    LdaGibbsSampler sampler = new LdaGibbsSampler(corpus, numTopics, 0.5, 0.1);
    sampler.gibbs(iterations);
    List<String> keywords = new ArrayList<>();
    for (int i = 0; i < numTopics; i++) {
        List<WordProbability> wordProbs = sampler.getSortedWordsByWeight(i);
        for (int j = 0; j < numKeywords && j < wordProbs.size(); j++) {
            keywords.add(wordProbs.get(j).getWord().getName());
        }
    }
    return keywords;
}

private List<String> segment(String text) {
    // 使用中文分词器分词
    // TODO
    return Arrays.asList(text.split(" "));
}
Salin selepas log masuk

Contoh aplikasi

Pengekstrakan kata kunci boleh digunakan pada klasifikasi teks, pengekstrakan ringkasan, kedudukan enjin carian dan medan lain. Berikut adalah contoh aplikasi berdasarkan algoritma di atas.

1. Klasifikasi berita

Memandangkan teks beberapa laporan berita, algoritma TF-IDF boleh digunakan untuk mengekstrak kata kunci setiap teks, dan kemudian algoritma pembelajaran mesin boleh digunakan untuk pengelasan. Sebagai contoh, algoritma pepohon keputusan boleh digunakan untuk mengklasifikasikan berita dan kata kunci boleh dimasukkan ke dalam pepohon keputusan sebagai ciri. Kesan pengelasan boleh dinilai melalui kaedah seperti pengesahan silang.

2. Pengekstrakan ringkasan

Memandangkan teks artikel, anda boleh menggunakan algoritma TextRank untuk mengekstrak ayat utama dan menggabungkannya ke dalam ringkasan. Pengekstrakan abstrak boleh digunakan untuk ringkasan automatik, paparan enjin carian dan medan lain.

3. Carian kesusasteraan saintifik dan teknologi

Dalam perolehan kesusasteraan saintifik dan teknologi, pengguna biasanya memasukkan kata kunci atau gabungan kata kunci, dan kemudian enjin carian mengira tahap padanan antara dokumen dan kata kunci melalui algoritma TF-IDF , dan diisih mengikut tahap yang sepadan, membolehkan pengguna mencari dokumen yang berkaitan dengan cepat. Selain itu, digabungkan dengan model topik LDA, dokumen boleh diklasifikasikan ke dalam topik dan kata kunci topik boleh digunakan sebagai input carian untuk meningkatkan hasil carian.

Kesimpulan

Artikel ini memperkenalkan beberapa algoritma pengekstrakan kata kunci dan contoh aplikasi yang dilaksanakan dalam Java. Algoritma TF-IDF ialah salah satu algoritma yang paling biasa digunakan dalam pemprosesan teks Algoritma TextRank boleh mengekstrak ayat utama, dan model topik LDA boleh mengklasifikasikan topik teks. Algoritma ini boleh digunakan untuk klasifikasi dokumen, ringkasan automatik, kedudukan enjin carian dan medan lain, dan mempunyai prospek aplikasi yang luas.

Atas ialah kandungan terperinci Algoritma pengekstrakan kata kunci dan contoh aplikasi yang dilaksanakan dalam Java. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Label berkaitan:
sumber:php.cn
Kenyataan Laman Web ini
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn
Tutorial Popular
Lagi>
Muat turun terkini
Lagi>
kesan web
Kod sumber laman web
Bahan laman web
Templat hujung hadapan
Tentang kita Penafian Sitemap
Laman web PHP Cina:Latihan PHP dalam talian kebajikan awam,Bantu pelajar PHP berkembang dengan cepat!