Lukis aksara dalam teks menggunakan Python dan Matplotlib

王林
Lepaskan: 2023-04-29 19:31:05
ke hadapan
917 orang telah melayarinya

Tujuan artikel ini adalah untuk membantu anda mula merancang data dalam python. Kami akan mencipta carta bar untuk memplot kekerapan aksara dalam fail teks yang diberikan. Dalam kes ini, fail teks mengandungi kandungan daripada The Great Gatsby.

使用 Python 和 Matplotlib 在文本中绘制字符

Langkah 1: Cipta persekitaran maya anda

Persekitaran untuk projek ini akan menjadi lebih kecil. Persekitaran maya membolehkan anda menambah kefungsian tambahan pada ruang kerja anda tanpa menjejaskan seluruh komputer anda!

Buat direktori dan bukanya dalam editor kod dan terminal (tempat anda menjalankan arahan).

Mari jalankan:

$ python3 -m venv venv
$ source venv/bin/activate
Salin selepas log masuk

Kami boleh memasang kebergantungan yang diperlukan

$ pip3 install matplotlib
Salin selepas log masuk

Kami juga akan mencipta dua fail, read.txt dan wordcount.py.

Kami akan menggunakan wordcount.py untuk menganalisis teks dalam read.txt.

Langkah 2: Baca teks

Kita boleh mulakan dengan agak mudah,

import matplotlib.pyplot as plt # plot
from collections import OrderedDict # this will be used for sorting later

file = open('read.txt')
text = file.read()
file.close()
Salin selepas log masuk
  • Pertama, ia mengimport pustaka lukisan dan pengisihan kami
  • Kedua , kami menggunakan fungsi terbuka terbina dalam, yang membolehkan kami membuka fail untuk membaca dan menulis
  • Kemudian kami membaca teks di dalam fail dan menyimpannya ke dalam pembolehubah teks
  • Akhir sekali, kami Tutup fail kerana kami tidak lagi menggunakannya

Itu sahaja yang kami perlukan untuk "membaca" fail dan menyimpan kandungan dalam pembolehubah.

Langkah 3: Analisis Aksara

Cara terbaik kita boleh menjejaki aksara ialah menggunakan kamus python (dipanggil peta cincang dalam bahasa pengaturcaraan lain).

Kamus ialah cara yang sangat berguna untuk menyimpan data. Sama seperti kamus sebenar, ia akan mempunyai senarai "perkataan" yang boleh anda lihat untuk melihat definisi.

Dalam pengaturcaraan, konsep ini digeneralisasikan kepada pasangan "kunci/nilai". Ini bermakna kita boleh menyediakan kamus dan apabila saya meminta kamus untuk "a" ia akan mengembalikan jumlah bilangan kejadian "a".

Jadi mari kod!

charDict = {} # dictionaries are defined by curly braces
def count_letter(character):
character = character.lower()
if character.isspace():
return
if character in charDict:
charDict[character] = charDict[character] + 1
else:
charDict[character] = 1

# loop through text
for i in text:
count_letter(i)

charDict = OrderedDict(sorted(charDict.items()))
Salin selepas log masuk

Mari kita semak semula perkara yang berlaku di sini.

  • Mula-mula kita mentakrifkan kamus kosong
  • Seterusnya kita menggunakan kata kunci def untuk mentakrifkan fungsi. Fungsi ini mengambil pembolehubah "char" dan menyemak sama ada ia adalah ruang (ruang, tab, baris baharu). Anda boleh menambah kriteria lain pada pilihan anda, seperti isalpha() untuk menentukan sama ada aksara itu huruf
  • dan kemudian semak sama ada ia sudah ada dalam kamus. Jika ia berada dalam kamus, ia menukar nilai kepada nilai sebelumnya tambah 1 (kerana kita mengira aksara ini), jika tidak ia menambah entri baharu dalam kamus dengan kiraan awal 1
  • dan kemudian kita iterate over Untuk setiap aksara dalam pembolehubah teks, di mana "i" mewakili aksara individu, kami menyimpan dan menjalankan fungsi kami untuk mengira mereka
  • Akhir sekali, kami menggunakan import OrderdedDict untuk mengisih kamus mengikut abjad

Langkah 4: Lukiskannya!

Sekarang setelah set data kami dicipta, mari susunkannya ke dalam paksi dan plotkannya!

Kami akan membuat senarai untuk mewakili setiap paksi

num_list = []
char_list = []

Senarai ini sepadan dengan setiap other , jadi jika item 1 dalam char_list ialah "a", item 1 dalam num_list akan menjadi kekerapan yang sepadan. Mari kita mengekod itu juga.

char_list = [] # character
num_list = [] # frequency
# create x and y axes
for x,y in charDict.items():
char_list.append(x)
num_list.append(y)
Salin selepas log masuk

Kami menggunakan dua pembolehubah untuk menggelungkan pasangan kunci/nilai dalam kamus yang kami buat dan kemudian menambahkannya pada senarai data kami.

Akhir sekali mari buat dan simpan carta bar ini menggunakan matplotlib.

fig = plt.figure() # create a new figure
ax = fig.add_subplot() # create a new bar graph within the figure
fig.canvas.manager.set_window_title('The Great Gatsby') # title of window
ax.bar(char_list, num_list) # add the data to the graph
plt.savefig('chars.png') # download an image of the bar graph
plt.show() # show the image
Salin selepas log masuk
  • Mula-mula, kami cipta bentuk baharu. Digambarkan ialah tetingkap keseluruhan
  • Tambah plot pada graf
  • Tambah carta bar menggunakan data yang kami pilih
  • Muat turun imej
  • Paparkan imej

Sudah tiba masanya untuk mengujinya

Jalankan fail anda menggunakan kod di bawah dan bersedia untuk keputusan kami!

$ python3 wordcount.py
Salin selepas log masuk

使用 Python 和 Matplotlib 在文本中绘制字符

Jadi untuk menjawab soalan yang saya ajukan pada permulaan post ini, huruf e digunakan lebih 25,000 kali dalam The Great Gatsby! Wah!

Kesimpulan

Pada akhir artikel ini, saya harap anda mendapat pemahaman tentang matplotlib dan sains data.

Atas ialah kandungan terperinci Lukis aksara dalam teks menggunakan Python dan Matplotlib. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Label berkaitan:
sumber:51cto.com
Kenyataan Laman Web ini
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn
Tutorial Popular
Lagi>
Muat turun terkini
Lagi>
kesan web
Kod sumber laman web
Bahan laman web
Templat hujung hadapan