Python menawarkan pelbagai perpustakaan berkuasa untuk mencipta visualisasi, termasuk awan perkataan, carta bar dan histogram. Visualisasi ini amat berguna untuk menganalisis data teks dan mendapatkan cerapan tentang kekerapan perkataan, sentimen dan ciri lain.
Mari kita lakukan visualisasi data teks.
Langkah untuk dilakukan:
Muat Data Teks
Praproses Data Teks
Buat Word Cloud
Buat Carta Bar
Buat Carta Histogram
Kami akan menggunakan NLTK (Natural Language Toolkit) yang menyediakan alatan untuk pemprosesan dan analisis teks.
Kami menggunakan pakej Seaborn yang merupakan perpustakaan visualisasi data peringkat tinggi yang dibina di atas Matplotlib.
Awan Kata
Awan perkataan secara visual mewakili kekerapan perkataan dalam teks dengan mengubah saiz dan kedudukan perkataan berdasarkan kepentingannya.
Lihat, beginilah rupa visualisasi awan perkataan ini. ini telah mencipta perkataan awan bergantung pada kekerapan perkataan yang muncul dalam saiz yang lebih besar berbanding.
Sekarang, Mari lihat bagaimana kita boleh mencipta carta palang.
Carta Bar
Carta bar adalah berkesan untuk menggambarkan kekerapan perkataan atau frasa dalam korpus teks.
Saya akan mengakses 20 perkataan yang paling biasa. Kami akan membuat plot menggunakan perkara di atas. Mari lihat bagaimana kita boleh mencipta carta histogram.
Carta Histogram
Histogram boleh digunakan untuk menggambarkan taburan panjang perkataan atau ciri berangka lain bagi data teks.
Perpustakaan Tambahan:
Gensim: Perpustakaan untuk pemodelan topik dan persamaan dokumen.
Seaborn: Pustaka visualisasi data peringkat tinggi yang dibina di atas Matplotlib.
Dengan menggabungkan perpustakaan dan teknik ini, anda boleh mencipta visualisasi bermaklumat dan menarik secara visual untuk meneroka dan memahami data teks.
Atas ialah kandungan terperinci Teknik Visualisasi Data untuk Data Teks. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!