Tujuan artikel ini adalah untuk membantu anda mula merancang data dalam python. Kami akan mencipta carta bar untuk memplot kekerapan aksara dalam fail teks yang diberikan. Dalam kes ini, fail teks mengandungi kandungan daripada The Great Gatsby.
Persekitaran untuk projek ini akan menjadi lebih kecil. Persekitaran maya membolehkan anda menambah kefungsian tambahan pada ruang kerja anda tanpa menjejaskan seluruh komputer anda!
Buat direktori dan bukanya dalam editor kod dan terminal (tempat anda menjalankan arahan).
Mari jalankan:
$ python3 -m venv venv $ source venv/bin/activate
Kami boleh memasang kebergantungan yang diperlukan
$ pip3 install matplotlib
Kami juga akan mencipta dua fail, read.txt dan wordcount.py.
Kami akan menggunakan wordcount.py untuk menganalisis teks dalam read.txt.
Kita boleh mulakan dengan agak mudah,
import matplotlib.pyplot as plt # plot from collections import OrderedDict # this will be used for sorting later file = open('read.txt') text = file.read() file.close()
Itu sahaja yang kami perlukan untuk "membaca" fail dan menyimpan kandungan dalam pembolehubah.
Cara terbaik kita boleh menjejaki aksara ialah menggunakan kamus python (dipanggil peta cincang dalam bahasa pengaturcaraan lain).
Kamus ialah cara yang sangat berguna untuk menyimpan data. Sama seperti kamus sebenar, ia akan mempunyai senarai "perkataan" yang boleh anda lihat untuk melihat definisi.
Dalam pengaturcaraan, konsep ini digeneralisasikan kepada pasangan "kunci/nilai". Ini bermakna kita boleh menyediakan kamus dan apabila saya meminta kamus untuk "a" ia akan mengembalikan jumlah bilangan kejadian "a".
Jadi mari kod!
charDict = {} # dictionaries are defined by curly braces def count_letter(character): character = character.lower() if character.isspace(): return if character in charDict: charDict[character] = charDict[character] + 1 else: charDict[character] = 1 # loop through text for i in text: count_letter(i) charDict = OrderedDict(sorted(charDict.items()))
Mari kita semak semula perkara yang berlaku di sini.
Sekarang setelah set data kami dicipta, mari susunkannya ke dalam paksi dan plotkannya!
Kami akan membuat senarai untuk mewakili setiap paksi
num_list = []
char_list = []
Senarai ini sepadan dengan setiap other , jadi jika item 1 dalam char_list ialah "a", item 1 dalam num_list akan menjadi kekerapan yang sepadan. Mari kita mengekod itu juga.
char_list = [] # character num_list = [] # frequency # create x and y axes for x,y in charDict.items(): char_list.append(x) num_list.append(y)
Kami menggunakan dua pembolehubah untuk menggelungkan pasangan kunci/nilai dalam kamus yang kami buat dan kemudian menambahkannya pada senarai data kami.
Akhir sekali mari buat dan simpan carta bar ini menggunakan matplotlib.
fig = plt.figure() # create a new figure ax = fig.add_subplot() # create a new bar graph within the figure fig.canvas.manager.set_window_title('The Great Gatsby') # title of window ax.bar(char_list, num_list) # add the data to the graph plt.savefig('chars.png') # download an image of the bar graph plt.show() # show the image
Sudah tiba masanya untuk mengujinya
Jalankan fail anda menggunakan kod di bawah dan bersedia untuk keputusan kami!
$ python3 wordcount.py
Jadi untuk menjawab soalan yang saya ajukan pada permulaan post ini, huruf e digunakan lebih 25,000 kali dalam The Great Gatsby! Wah!
Pada akhir artikel ini, saya harap anda mendapat pemahaman tentang matplotlib dan sains data.
Atas ialah kandungan terperinci Lukis aksara dalam teks menggunakan Python dan Matplotlib. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!