Dengan perkembangan Internet dan media sosial, orang ramai terus menjana pelbagai data teks. Cara mengekstrak maklumat berguna daripada data teks besar-besaran telah menjadi masalah mendesak yang perlu diselesaikan. Analisis sentimen, sebagai teknologi pengelasan teks, boleh membantu kami mengklasifikasikan teks secara automatik dan mengekstrak maklumat emosi teks. Artikel ini akan memperkenalkan cara menggunakan Java untuk menulis sistem pengelasan teks pintar berdasarkan analisis sentimen.
1. Dapatkan data
Pertama, kita perlu mendapatkan data yang sesuai untuk analisis sentimen daripada Internet. Secara umum, sejumlah besar data teks boleh diperoleh melalui teknologi perangkak. Data teks ini perlu dipraproses, seperti pembahagian perkataan, penyingkiran perkataan berhenti, penandaan sebahagian daripada pertuturan, dsb. Artikel ini tidak melibatkan perangkak dan teknologi prapemprosesan Pembaca boleh merujuk kepada tutorial lain yang berkaitan untuk dipelajari.
2. Model latihan
Selepas mendapat data teks yang diproses, kita perlu menggunakan data ini untuk melatih model analisis sentimen. Kita boleh memilih untuk menggunakan teknik pembelajaran mendalam seperti algoritma seperti rangkaian neural convolutional (CNN) atau rangkaian neural berulang (RNN). Teknik pembelajaran mesin tradisional juga boleh digunakan, seperti Naive Bayes, Mesin Vektor Sokongan (SVM) dan algoritma lain. Dalam artikel ini, kami memilih algoritma Naive Bayes.
Algoritma Naive Bayes ialah algoritma pengelasan berdasarkan statistik kebarangkalian. Ia menganggap bahawa semua ciri adalah bebas antara satu sama lain dan setiap ciri mempunyai kesan yang sama pada pengelasan (iaitu, ia membentangkan andaian Naive Bayes). Kita boleh menggunakan perpustakaan pembelajaran mesin sumber terbuka Java Weka untuk melaksanakan latihan algoritma Naive Bayes.
Berikut ialah pelaksanaan kod Java yang mudah:
// 加载训练数据 DataSource source = new DataSource("train.arff"); Instances train = source.getDataSet(); train.setClassIndex(train.numAttributes()-1); // 构建模型 BayesNet classifier = new BayesNet(); classifier.buildClassifier(train); // 保存模型 ObjectOutputStream oos = new ObjectOutputStream( new FileOutputStream("model.bin")); oos.writeObject(classifier); oos.flush(); oos.close();
Dalam kod di atas, kami mula-mula menggunakan kelas DataSource Weka untuk memuatkan data daripada fail data latihan, dan kemudian menggunakan kelas BayesNet untuk membina model Bayes yang naif. Akhir sekali, simpan model ke fail untuk kegunaan kemudian.
3. Kelaskan teks baharu
Selepas kami melengkapkan latihan model, kami boleh menggunakan model untuk mengklasifikasikan teks baharu dan melakukan analisis sentimen. Berikut ialah pelaksanaan kod Java yang mudah:
// 加载模型 ObjectInputStream ois = new ObjectInputStream( new FileInputStream("model.bin")); BayesNet classifier = (BayesNet) ois.readObject(); // 构建待分类的实例 Instance instance = new DenseInstance(2); instance.setValue(0, "这个电影真是太好看了!"); instance.setValue(1, "正片太赞,恶评都是骗点击的!"); // 进行分类 double label = classifier.classifyInstance(instance); System.out.println("分类标签:" + train.classAttribute().value((int)label));
Dalam kod di atas, kami mula-mula menggunakan teknologi penyahserialisasian Java untuk memuatkan model daripada fail model, dan kemudian membina contoh untuk diklasifikasikan. Ambil perhatian bahawa kejadian yang akan dikelaskan perlu mempunyai struktur atribut yang sama seperti data latihan, jika tidak ralat akan berlaku. Akhir sekali, model digunakan untuk klasifikasi dan keputusan klasifikasi adalah output.
4. Sepadukan ke dalam aplikasi Web
Jika anda ingin menyepadukan model analisis sentimen ke dalam aplikasi Web, anda perlu merangkumkan kod di atas ke dalam API dan menyediakan antara muka Web supaya program lain boleh menggunakannya.
Java menyediakan banyak perpustakaan pengaturcaraan rangkaian, seperti: Servlet, JAX-RS, Spark, dll. Dalam artikel ini, kami memilih untuk menggunakan teknologi yang disediakan oleh Spring Boot dan Spring Web untuk membina aplikasi Web yang lengkap dengan cepat.
Pertama, kita perlu menggunakan pemalam Spring Boot's Maven untuk menjana rangka aplikasi web. Perintahnya adalah seperti berikut:
mvn archetype:generate -DgroupId=com.example -DartifactId=myproject -DarchetypeArtifactId=maven-archetype-quickstart -DinteractiveMode=false
Kemudian, integrasikan model analisis sentimen yang disebutkan sebelum ini ke dalam aplikasi web. Berikut ialah pelaksanaan kod Java yang mudah:
@RestController public class SentimentAnalysisController { private BayesNet classifier; public SentimentAnalysisController() { // 加载模型 try { ObjectInputStream ois = new ObjectInputStream( new FileInputStream("model.bin")); classifier = (BayesNet) ois.readObject(); ois.close(); } catch (IOException | ClassNotFoundException e) { e.printStackTrace(); } } @PostMapping("/predict") public String predict(@RequestBody Map<String, String> reqBody) { String text = reqBody.get("text"); // 获取待分类的文本 Instance instance = createInstance(text); // 构建待分类的实例 double label = classifier.classifyInstance(instance); // 进行分类 return train.classAttribute().value((int)label); // 返回分类结果 } private Instance createInstance(String text) { Instance instance = new DenseInstance(1); instance.setValue(0, text); instance.setDataset(new Instances(createAttributes(), 1)); return instance; } private Instances createAttributes() { FastVector attributes = new FastVector(); attributes.addElement(new Attribute("text", (FastVector) null)); attributes.addElement(new Attribute("class", createClasses())); Instances instances = new Instances("data", attributes, 0); instances.setClassIndex(1); return instances; } private FastVector createClasses() { FastVector classes = new FastVector(); classes.addElement("positive"); classes.addElement("negative"); return classes; } }
Dalam kod di atas, kami mula-mula memuatkan model analisis sentimen dalam pembina kelas. Kemudian, tentukan pengendali untuk permintaan HTTP POST untuk menerima teks untuk dikelaskan dan mengembalikan hasil pengelasan. Dalam pemproses, kita mula-mula membina contoh untuk dikelaskan, kemudian menggunakan model untuk mengelas, dan akhirnya mengembalikan hasil pengelasan.
5. Deployment and Testing
Selepas kami menyelesaikan pelaksanaan kod di atas, kami boleh menggunakan Maven untuk membungkusnya ke dalam pakej Jar boleh laku dan menjalankannya pada pelayan. Sebagai contoh, kami boleh menjalankan aplikasi web pada mesin tempatan kami menggunakan arahan berikut:
mvn package java -jar target/myproject-1.0-SNAPSHOT.jar
Kami kemudiannya boleh menggunakan alat, seperti Postman atau curl, untuk menghantar permintaan HTTP POST ke aplikasi web untuk mengujinya. Sebagai contoh, kita boleh menguji aplikasi web menggunakan arahan berikut:
curl --request POST --url http://localhost:8080/predict --header 'content-type: application/json' --data '{"text": "这个电影真是太好看了!"}'
Ambil perhatian bahawa kita perlu menggantikan localhost:8080 dalam arahan di atas dengan alamat IP dan nombor port pelayan.
6. Ringkasan
Dalam artikel ini, kami memperkenalkan cara menggunakan Java untuk menulis sistem pengelasan teks pintar berdasarkan analisis sentimen. Kami mula-mula menerangkan cara mendapatkan data teks yang sesuai untuk analisis sentimen dan menggunakan algoritma Naive Bayes untuk latihan model. Kami kemudian menunjukkan cara menggunakan model terlatih untuk mengklasifikasikan dan menganalisis teks baharu. Akhir sekali, kami menyepadukan model ke dalam aplikasi web dan menyediakan pengendali untuk permintaan HTTP POST untuk ujian. Program ini hanyalah rangka kerja asas, dan pembaca boleh mengembangkannya mengikut keperluan mereka sendiri.
Atas ialah kandungan terperinci Cara menulis sistem pengelasan teks pintar berdasarkan analisis sentimen menggunakan Java. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!