Algoritma pengekstrakan kata kunci dan contoh aplikasi yang dilaksanakan dalam Java-javaTutorial-php.cn

Rumah

Java

javaTutorial

Algoritma pengekstrakan kata kunci dan contoh aplikasi yang dilaksanakan dalam Java

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Jun 18, 2023 pm 12:14 PM

java Contoh aplikasi Pengekstrakan kata kunci

Algoritma pengekstrakan kata kunci dan contoh aplikasi yang dilaksanakan dalam Java

Dengan kemunculan era Internet, data teks yang besar telah menyebabkan kesukaran yang besar untuk orang ramai mendapatkan dan menganalisis, jadi pengekstrakan kata kunci diperlukan teknologi pemprosesan bahasa semula jadi. Pengekstrakan kata kunci merujuk kepada mengekstrak perkataan atau frasa daripada sekeping teks yang paling mewakili topik teks, memberikan sokongan untuk tugasan seperti pengelasan teks, perolehan semula dan pengelompokan. Artikel ini memperkenalkan beberapa algoritma pengekstrakan kata kunci dan contoh aplikasi yang dilaksanakan dalam Java.

1. Algoritma TF-IDF

TF-IDF ialah algoritma yang biasa digunakan untuk mengekstrak kata kunci daripada teks Ia berdasarkan kekerapan perkataan dalam teks dan kekerapan kejadian dalam keseluruhan korpus Kekerapan, pengiraan pemberat untuk perkataan. TF mewakili kekerapan perkataan dalam teks semasa, dan IDF mewakili kekerapan dokumen songsang bagi perkataan dalam keseluruhan korpus Formula pengiraan adalah seperti berikut:

TF = (bilangan kemunculan perkataan dalam. teks) / (jumlah bilangan perkataan dalam teks) )

IDF = log (jumlah bilangan dokumen dalam korpus / bilangan dokumen yang mengandungi perkataan)

TF-IDF = TF * IDF

Pelaksanaan kod Java:

public Map<String, Double> tfIdf(List<String> docs) {
    Map<String, Integer> wordFreq = new HashMap<>();
    int totalWords = 0;
    for (String doc : docs) {
        String[] words = doc.split(" ");
        for (String word : words) {
            wordFreq.put(word, wordFreq.getOrDefault(word, 0) + 1);
            totalWords++;
        }
    }
    Map<String, Double> tfIdf = new HashMap<>();
    int docSize = docs.size();
    for (String word : wordFreq.keySet()) {
        double tf = (double) wordFreq.get(word) / totalWords;
        int docCount = 0;
        for (String doc : docs) {
            if (doc.contains(word)) {
                docCount++;
            }
        }
        double idf = Math.log((double) docSize / (docCount + 1));
        tfIdf.put(word, tf * idf);
    }
    return tfIdf;
}

Salin selepas log masuk

2. Algoritma TextRank

TextRank ialah algoritma berasaskan graf yang digunakan untuk pengekstrakan kata kunci teks dan pengekstrakan ringkasan. hubungan kejadian perkataan untuk membina graf dan menilai kepentingan perkataan dalam graf Pemeringkatan dilakukan berdasarkan jantina, dan perkataan berpangkat tinggi dikenal pasti sebagai kata kunci atau ayat penting. Idea teras TextRank ialah algoritma PageRank, yang menganggap perhubungan kejadian bersama perkataan sebagai pautan antara halaman, menyusun perkataan dan mendapatkan kata kunci dalam teks. Proses pengiraan algoritma TextRank merangkumi langkah-langkah berikut:

1 Ekstrak perkataan atau frasa dalam teks
2 Wujudkan graf kejadian bersama dan gunakan hubungan kejadian bersama untuk mewakili tepi;
3 , mengisih perkataan dan mengira nilai PageRank bagi setiap perkataan
4. Pilih perkataan kedudukan teratas sebagai kata kunci berdasarkan nilai PageRank.

Pelaksanaan kod Java:

public List<String> textrank(List<String> docs, int numKeywords) {
    List<String> sentences = new ArrayList<>();
    for (String doc : docs) {
        sentences.addAll(Arrays.asList(doc.split("[。？！；]")));
    }
    List<String> words = new ArrayList<>();
    for (String sentence : sentences) {
        words.addAll(segment(sentence));
    }
    Map<String, Integer> wordFreq = new HashMap<>();
    Map<String, Set<String>> wordCooc = new HashMap<>();
    for (String word : words) {
        wordFreq.put(word, wordFreq.getOrDefault(word, 0) + 1);
        wordCooc.put(word, new HashSet<>());
    }
    for (String sentence : sentences) {
        List<String> senWords = segment(sentence);
        for (String w1 : senWords) {
            if (!wordFreq.containsKey(w1)) {
                continue;
            }
            for (String w2 : senWords) {
                if (!wordFreq.containsKey(w2)) {
                    continue;
                }
                if (!w1.equals(w2)) {
                    wordCooc.get(w1).add(w2);
                    wordCooc.get(w2).add(w1);
                }
            }
        }
    }
    Map<String, Double> wordScore = new HashMap<>();
    for (String word : words) {
        double score = 1.0;
        for (String coocWord : wordCooc.get(word)) {
            score += wordScore.getOrDefault(coocWord, 1.0) / wordCooc.get(coocWord).size();
        }
        wordScore.put(word, score);
    }
    List<Map.Entry<String, Double>> sortedWords =
            wordScore.entrySet().stream()
                     .sorted(Collections.reverseOrder(Map.Entry.comparingByValue()))
                     .collect(Collectors.toList());
    List<String> keywords = new ArrayList<>();
    for (int i = 0; i < numKeywords && i < sortedWords.size(); i++) {
        keywords.add(sortedWords.get(i).getKey());
    }
    return keywords;
}

private List<String> segment(String text) {
    // 使用中文分词器分词
    // TODO
    return Arrays.asList(text.split(" "));
}

Salin selepas log masuk

3. Model topik LDA

LDA ialah model topik kebarangkalian yang boleh menganggap teks sebagai campuran pelbagai topik dan melakukan analisis teks pada teks. Klasifikasi topik dan pengekstrakan kata kunci. Model topik LDA menganggap perkataan dalam teks sebagai taburan kebarangkalian, di mana setiap perkataan boleh ditugaskan kepada berbilang topik. Model topik LDA perlu menentukan bilangan topik dan bilangan lelaran, dan kemudian menyelesaikannya melalui algoritma EM untuk mendapatkan pengedaran perkataan setiap topik dan pengedaran topik setiap teks.

Pelaksanaan kod Java:

public List<String> lda(List<String> docs, int numTopics,
                        int numKeywords, int iterations) {
    List<List<String>> words = new ArrayList<>();
    for (String doc : docs) {
        words.add(segment(doc));
    }
    Dictionary dictionary = new Dictionary(words);
    Corpus corpus = new Corpus(dictionary);
    for (List<String> docWords : words) {
        Document doc = new Document(dictionary);
        for (String word : docWords) {
            doc.addWord(new Word(word));
        }
        corpus.addDocument(doc);
    }
    LdaGibbsSampler sampler = new LdaGibbsSampler(corpus, numTopics, 0.5, 0.1);
    sampler.gibbs(iterations);
    List<String> keywords = new ArrayList<>();
    for (int i = 0; i < numTopics; i++) {
        List<WordProbability> wordProbs = sampler.getSortedWordsByWeight(i);
        for (int j = 0; j < numKeywords && j < wordProbs.size(); j++) {
            keywords.add(wordProbs.get(j).getWord().getName());
        }
    }
    return keywords;
}

private List<String> segment(String text) {
    // 使用中文分词器分词
    // TODO
    return Arrays.asList(text.split(" "));
}

Salin selepas log masuk

Contoh aplikasi

Pengekstrakan kata kunci boleh digunakan pada klasifikasi teks, pengekstrakan ringkasan, kedudukan enjin carian dan medan lain. Berikut adalah contoh aplikasi berdasarkan algoritma di atas.

1. Klasifikasi berita

Memandangkan teks beberapa laporan berita, algoritma TF-IDF boleh digunakan untuk mengekstrak kata kunci setiap teks, dan kemudian algoritma pembelajaran mesin boleh digunakan untuk pengelasan. Sebagai contoh, algoritma pepohon keputusan boleh digunakan untuk mengklasifikasikan berita dan kata kunci boleh dimasukkan ke dalam pepohon keputusan sebagai ciri. Kesan pengelasan boleh dinilai melalui kaedah seperti pengesahan silang.

2. Pengekstrakan ringkasan

Memandangkan teks artikel, anda boleh menggunakan algoritma TextRank untuk mengekstrak ayat utama dan menggabungkannya ke dalam ringkasan. Pengekstrakan abstrak boleh digunakan untuk ringkasan automatik, paparan enjin carian dan medan lain.

3. Carian kesusasteraan saintifik dan teknologi

Dalam perolehan kesusasteraan saintifik dan teknologi, pengguna biasanya memasukkan kata kunci atau gabungan kata kunci, dan kemudian enjin carian mengira tahap padanan antara dokumen dan kata kunci melalui algoritma TF-IDF , dan diisih mengikut tahap yang sepadan, membolehkan pengguna mencari dokumen yang berkaitan dengan cepat. Selain itu, digabungkan dengan model topik LDA, dokumen boleh diklasifikasikan ke dalam topik dan kata kunci topik boleh digunakan sebagai input carian untuk meningkatkan hasil carian.

Kesimpulan

Artikel ini memperkenalkan beberapa algoritma pengekstrakan kata kunci dan contoh aplikasi yang dilaksanakan dalam Java. Algoritma TF-IDF ialah salah satu algoritma yang paling biasa digunakan dalam pemprosesan teks Algoritma TextRank boleh mengekstrak ayat utama, dan model topik LDA boleh mengklasifikasikan topik teks. Algoritma ini boleh digunakan untuk klasifikasi dokumen, ringkasan automatik, kedudukan enjin carian dan medan lain, dan mempunyai prospek aplikasi yang luas.

Atas ialah kandungan terperinci Algoritma pengekstrakan kata kunci dan contoh aplikasi yang dilaksanakan dalam Java. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan Laman Web ini

Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn

Alat AI Hot

Undresser.AI Undress

Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover

Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool

Gambar buka pakaian secara percuma

Clothoff.io

Penyingkiran pakaian AI

AI Hentai Generator

Menjana ai hentai secara percuma.

Tunjukkan Lagi

Artikel Panas

R.E.P.O. Kristal tenaga dijelaskan dan apa yang mereka lakukan (kristal kuning)

4 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌

R.E.P.O. Tetapan grafik terbaik

4 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌

Assassin's Creed Shadows: Penyelesaian Riddle Seashell

2 minggu yang lalu By DDD

R.E.P.O. Cara Memperbaiki Audio Jika anda tidak dapat mendengar sesiapa

4 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌

WWE 2K25: Cara Membuka Segala -galanya Di Myrise

1 bulan yang lalu By 尊渡假赌尊渡假赌尊渡假赌

Tunjukkan Lagi

Alat panas

Notepad++7.3.1

Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina

Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1

Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6

Alat pembangunan web visual

SublimeText3 versi Mac

Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Tunjukkan Lagi

Topik panas

Di manakah pintu masuk log masuk untuk e-mel gmail?

7517

Tutorial CakePHP

1378

Apakah format nama akaun stim

kunci pengaktifan win11 kekal

Sambungan NYT menunjukkan dan jawapan

Tunjukkan Lagi

Related knowledge

Nombor Sempurna di Jawa Aug 30, 2024 pm 04:28 PM

Panduan Nombor Sempurna di Jawa. Di sini kita membincangkan Definisi, Bagaimana untuk menyemak nombor Perfect dalam Java?, contoh dengan pelaksanaan kod.

Penjana Nombor Rawak di Jawa Aug 30, 2024 pm 04:27 PM

Panduan untuk Penjana Nombor Rawak di Jawa. Di sini kita membincangkan Fungsi dalam Java dengan contoh dan dua Penjana berbeza dengan contoh lain.

Weka di Jawa Aug 30, 2024 pm 04:28 PM

Panduan untuk Weka di Jawa. Di sini kita membincangkan Pengenalan, cara menggunakan weka java, jenis platform, dan kelebihan dengan contoh.

Nombor Smith di Jawa Aug 30, 2024 pm 04:28 PM

Panduan untuk Nombor Smith di Jawa. Di sini kita membincangkan Definisi, Bagaimana untuk menyemak nombor smith di Jawa? contoh dengan pelaksanaan kod.

Soalan Temuduga Java Spring Aug 30, 2024 pm 04:29 PM

Dalam artikel ini, kami telah menyimpan Soalan Temuduga Spring Java yang paling banyak ditanya dengan jawapan terperinci mereka. Supaya anda boleh memecahkan temuduga.

Cuti atau kembali dari Java 8 Stream Foreach? Feb 07, 2025 pm 12:09 PM

Java 8 memperkenalkan API Stream, menyediakan cara yang kuat dan ekspresif untuk memproses koleksi data. Walau bagaimanapun, soalan biasa apabila menggunakan aliran adalah: bagaimana untuk memecahkan atau kembali dari operasi foreach? Gelung tradisional membolehkan gangguan awal atau pulangan, tetapi kaedah Foreach Stream tidak menyokong secara langsung kaedah ini. Artikel ini akan menerangkan sebab -sebab dan meneroka kaedah alternatif untuk melaksanakan penamatan pramatang dalam sistem pemprosesan aliran. Bacaan Lanjut: Penambahbaikan API Java Stream Memahami aliran aliran Kaedah Foreach adalah operasi terminal yang melakukan satu operasi pada setiap elemen dalam aliran. Niat reka bentuknya adalah

TimeStamp to Date in Java Aug 30, 2024 pm 04:28 PM

Panduan untuk TimeStamp to Date di Java. Di sini kita juga membincangkan pengenalan dan cara menukar cap waktu kepada tarikh dalam java bersama-sama dengan contoh.

Program Java untuk mencari kelantangan kapsul Feb 07, 2025 am 11:37 AM

Kapsul adalah angka geometri tiga dimensi, terdiri daripada silinder dan hemisfera di kedua-dua hujungnya. Jumlah kapsul boleh dikira dengan menambahkan isipadu silinder dan jumlah hemisfera di kedua -dua hujungnya. Tutorial ini akan membincangkan cara mengira jumlah kapsul yang diberikan dalam Java menggunakan kaedah yang berbeza. Formula volum kapsul Formula untuk jumlah kapsul adalah seperti berikut: Kelantangan kapsul = isipadu isipadu silinder Dua jumlah hemisfera dalam, R: Radius hemisfera. H: Ketinggian silinder (tidak termasuk hemisfera). Contoh 1 masukkan Jejari = 5 unit Ketinggian = 10 unit Output Jilid = 1570.8 Unit padu menjelaskan Kirakan kelantangan menggunakan formula: Kelantangan = π × r2 × h (4

See all articles