Javaで実装したキーワード抽出アルゴリズムと応用例
インターネット時代の到来により、膨大なテキストデータの取得や分析が非常に困難になったため、キーワード抽出の研究と応用が求められています。自然言語処理技術。キーワード抽出とは、テキストのトピックを最もよく表す単語や語句をテキストから抽出することを指し、テキストの分類、検索、クラスタリングなどのタスクをサポートします。この記事では、Java で実装されたいくつかのキーワード抽出アルゴリズムとアプリケーション例を紹介します。
1. TF-IDF アルゴリズム
TF-IDF は、テキストからキーワードを抽出するために一般的に使用されるアルゴリズムで、テキスト内の単語の出現頻度とテキスト内の単語の出現頻度に基づいています。コーパス全体、単語の頻度、重み付け計算。 TF は現在のテキスト内の単語の頻度を表し、IDF はコーパス全体内の単語の逆文書頻度を表します。計算式は次のとおりです。テキスト) / (テキスト内の単語の総数) )
IDF = log(コーパス内の文書の総数 / 単語を含む文書の数)
TF-IDF = TF * IDF
Java コード実装:
public Map<String, Double> tfIdf(List<String> docs) { Map<String, Integer> wordFreq = new HashMap<>(); int totalWords = 0; for (String doc : docs) { String[] words = doc.split(" "); for (String word : words) { wordFreq.put(word, wordFreq.getOrDefault(word, 0) + 1); totalWords++; } } Map<String, Double> tfIdf = new HashMap<>(); int docSize = docs.size(); for (String word : wordFreq.keySet()) { double tf = (double) wordFreq.get(word) / totalWords; int docCount = 0; for (String doc : docs) { if (doc.contains(word)) { docCount++; } } double idf = Math.log((double) docSize / (docCount + 1)); tfIdf.put(word, tf * idf); } return tfIdf; }
2. TextRank アルゴリズム
TextRank は、テキスト キーワードの抽出と概要の抽出に使用されるグラフベースのアルゴリズムです。単語の出現関係をグラフ化してグラフ内の単語の重要度を評価し、男女別にランキングを行い、上位の単語をキーワードや重要文として特定します。 TextRank の中核となる考え方は、単語の共起関係をページ間のリンクとみなして単語を並べ替え、テキスト内のキーワードを取得する PageRank アルゴリズムです。 TextRank アルゴリズムの計算プロセスには次のステップが含まれます:
1. テキスト内の単語またはフレーズを抽出します;
2. 単語の共起グラフを確立し、共起関係を使用してエッジを表します。3 , 単語を並べ替えて各単語の PageRank 値を計算します;
4. PageRank 値に基づいて上位の単語をキーワードとして選択します。
Java コード実装:
public List<String> textrank(List<String> docs, int numKeywords) { List<String> sentences = new ArrayList<>(); for (String doc : docs) { sentences.addAll(Arrays.asList(doc.split("[。?!;]"))); } List<String> words = new ArrayList<>(); for (String sentence : sentences) { words.addAll(segment(sentence)); } Map<String, Integer> wordFreq = new HashMap<>(); Map<String, Set<String>> wordCooc = new HashMap<>(); for (String word : words) { wordFreq.put(word, wordFreq.getOrDefault(word, 0) + 1); wordCooc.put(word, new HashSet<>()); } for (String sentence : sentences) { List<String> senWords = segment(sentence); for (String w1 : senWords) { if (!wordFreq.containsKey(w1)) { continue; } for (String w2 : senWords) { if (!wordFreq.containsKey(w2)) { continue; } if (!w1.equals(w2)) { wordCooc.get(w1).add(w2); wordCooc.get(w2).add(w1); } } } } Map<String, Double> wordScore = new HashMap<>(); for (String word : words) { double score = 1.0; for (String coocWord : wordCooc.get(word)) { score += wordScore.getOrDefault(coocWord, 1.0) / wordCooc.get(coocWord).size(); } wordScore.put(word, score); } List<Map.Entry<String, Double>> sortedWords = wordScore.entrySet().stream() .sorted(Collections.reverseOrder(Map.Entry.comparingByValue())) .collect(Collectors.toList()); List<String> keywords = new ArrayList<>(); for (int i = 0; i < numKeywords && i < sortedWords.size(); i++) { keywords.add(sortedWords.get(i).getKey()); } return keywords; } private List<String> segment(String text) { // 使用中文分词器分词 // TODO return Arrays.asList(text.split(" ")); }
3. LDA トピック モデル
LDA は、テキストを複数のトピックの混合物として扱い、テキスト分析を実行できる確率的トピック モデルです。テキスト、トピックの分類とキーワードの抽出。 LDA トピック モデルは、テキスト内の単語を確率分布として扱い、各単語を複数のトピックに割り当てることができます。 LDA トピック モデルでは、トピックの数と反復回数を指定し、それを EM アルゴリズムを通じて解決して、各トピックの単語分布と各テキストのトピック分布を取得する必要があります。
Java コードの実装:
public List<String> lda(List<String> docs, int numTopics, int numKeywords, int iterations) { List<List<String>> words = new ArrayList<>(); for (String doc : docs) { words.add(segment(doc)); } Dictionary dictionary = new Dictionary(words); Corpus corpus = new Corpus(dictionary); for (List<String> docWords : words) { Document doc = new Document(dictionary); for (String word : docWords) { doc.addWord(new Word(word)); } corpus.addDocument(doc); } LdaGibbsSampler sampler = new LdaGibbsSampler(corpus, numTopics, 0.5, 0.1); sampler.gibbs(iterations); List<String> keywords = new ArrayList<>(); for (int i = 0; i < numTopics; i++) { List<WordProbability> wordProbs = sampler.getSortedWordsByWeight(i); for (int j = 0; j < numKeywords && j < wordProbs.size(); j++) { keywords.add(wordProbs.get(j).getWord().getName()); } } return keywords; } private List<String> segment(String text) { // 使用中文分词器分词 // TODO return Arrays.asList(text.split(" ")); }
アプリケーション例
キーワード抽出は、テキスト分類、概要抽出、検索エンジンのランキングなどの分野に適用できます。上記アルゴリズムに基づいた応用例を以下に示します。
1. ニュース分類
一部のニュース レポートのテキストを考慮して、TF-IDF アルゴリズムを使用して各テキストのキーワードを抽出し、機械学習アルゴリズムを使用して、分類。たとえば、決定木アルゴリズムを使用してニュースを分類したり、キーワードを特徴として決定木に入力したりできます。分類効果は相互検証などの方法で評価できます。
2. 要約の抽出
記事のテキストが与えられた場合、TextRank アルゴリズムを使用して重要な文を抽出し、それらを結合して要約を作成できます。要約抽出は自動要約や検索エンジン表示などに応用できます。
3. 科学技術文献検索
科学技術文献の検索では、通常、ユーザーがキーワードまたはキーワードの組み合わせを入力すると、検索エンジンがその文書とその文書との一致度を計算します。 TF-IDF アルゴリズムを使用してキーワードを検索し、一致度に応じてソートすることで、ユーザーは関連するドキュメントをすばやく見つけることができます。さらに、LDA トピック モデルと組み合わせることで、ドキュメントをトピックに分類し、トピック キーワードを検索入力として使用して検索結果を向上させることができます。
結論
この記事では、Java で実装されたいくつかのキーワード抽出アルゴリズムとアプリケーション例を紹介します。 TF-IDF アルゴリズムは、テキスト処理で最も一般的に使用されるアルゴリズムの 1 つで、TextRank アルゴリズムはキー センテンスを抽出でき、LDA トピック モデルはテキスト トピックを分類できます。これらのアルゴリズムは、文書分類、自動要約、検索エンジンランキングなどの分野に適用でき、幅広い応用が期待されています。
以上がJavaで実装したキーワード抽出アルゴリズムと応用例の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。