使用 C++ 進行自然語言處理涉及安裝 Boost.Regex、ICU 和 pugixml 函式庫。文章詳細介紹了詞幹分析器的創建過程,它可以將單字簡化為根詞,以及詞袋模型的創建,它將文字表示為單字頻率向量。示範使用分詞、詞乾化和詞袋模型來分析文本,輸出分詞後的單字、詞幹和詞頻。
#自然語言處理(NLP) 是一門利用電腦進行處理、分析和產生人語言的任務的學科。本文將介紹如何使用 C++ 程式語言進行 NLP 和文字分析。
你需要安裝以下函式庫:
在Ubuntu 上安裝這些函式庫的命令如下:
sudo apt install libboost-regex-dev libicu-dev libpugixml-dev
詞幹分析器用於將單字縮減為其根詞。
#include <boost/algorithm/string/replace.hpp> #include <iostream> #include <map> std::map<std::string, std::string> stemmer_map = { {"ing", ""}, {"ed", ""}, {"es", ""}, {"s", ""} }; std::string stem(const std::string& word) { std::string stemmed_word = word; for (auto& rule : stemmer_map) { boost::replace_all(stemmed_word, rule.first, rule.second); } return stemmed_word; }
詞袋模型是將文字表示為單字頻數向量的模型。
#include <map> #include <string> #include <vector> std::map<std::string, int> create_bag_of_words(const std::vector<std::string>& tokens) { std::map<std::string, int> bag_of_words; for (const auto& token : tokens) { std::string stemmed_token = stem(token); bag_of_words[stemmed_token]++; } return bag_of_words; }
以下是使用上述程式碼進行文字分析的示範:
#include <iostream> #include <vector> std::vector<std::string> tokenize(const std::string& text) { // 将文本按空格和句点分词 std::vector<std::string> tokens; std::istringstream iss(text); std::string token; while (iss >> token) { tokens.push_back(token); } return tokens; } int main() { std::string text = "Natural language processing is a subfield of linguistics, computer science, information engineering, and artificial intelligence concerned with the interactions between computers and human (natural) languages."; // 分词并词干化 std::vector<std::string> tokens = tokenize(text); for (auto& token : tokens) { std::cout << stem(token) << " "; } std::cout << std::endl; // 创建词袋模型 std::map<std::string, int> bag_of_words = create_bag_of_words(tokens); for (const auto& [word, count] : bag_of_words) { std::cout << word << ": " << count << std::endl; } }
輸出:
nat lang process subfield linguist comput sci inf engin artifi intell concern interact comput hum nat lang nat: 1 lang: 2 process: 1 subfield: 1 linguist: 1 comput: 1 sci: 1 inf: 1 engin: 1 artifi: 1 intell: 1 concern: 1 interact: 1 hum: 1
以上是如何使用C++進行自然語言處理與文字分析?的詳細內容。更多資訊請關注PHP中文網其他相關文章!