Dengan kemunculan era data besar, perlombongan data telah menjadi tugas yang sangat penting. Dalam proses ini, ungkapan biasa Python menyediakan alat berkuasa yang boleh membantu kami menapis maklumat yang diperlukan daripada set data yang besar dengan lebih berkesan. Artikel ini akan memperkenalkan cara menggunakan ungkapan biasa Python untuk perlombongan data.
1. Pengenalan kepada ungkapan biasa
Ungkapan biasa ialah bahasa yang menerangkan corak rentetan. Dalam Python, kita boleh menggunakan modul semula untuk melaksanakan fungsi ekspresi biasa. Ungkapan biasa digunakan terutamanya untuk memadankan rentetan dan mengekstrak maklumat daripadanya. Dalam Python, kita boleh menggunakan ungkapan biasa untuk mencari, menggantikan, memisahkan rentetan dan operasi lain.
2. Gunakan ungkapan biasa Python untuk perlombongan data
Dalam Python, kami boleh menggunakan ungkapan biasa untuk menapis maklumat yang diperlukan. Berikut ialah contoh mudah:
import semula
teks = "hello dunia, nama saya John"
corak = "nama ialah (w+)"
hasil = re.search(corak, teks)
nama = hasil.kumpulan(1)
cetak(nama)
Hasil berjalan:
John
di atas Dalam contoh , kami menggunakan ungkapan biasa untuk mengekstrak maklumat nama dalam rentetan "nama saya John".
Seterusnya, saya akan memperkenalkan beberapa kaedah ungkapan biasa yang biasa digunakan.
(1) kaedah carian
kaedah re.search(corak, rentetan) digunakan untuk mencari corak ungkapan biasa dalam rentetan dan mengembalikan hasil pertama yang memenuhi syarat. Jika tiada padanan ditemui, Tiada dikembalikan.
Berikut ialah contoh:
import semula
text = "hello world, my name is John"
pattern = "name is (w+)"
hasil = re.search(corak, teks)
nama = hasil.kumpulan(1)
cetak(nama)
Hasil berjalan:
John
Dalam contoh di atas, kami menggunakan kaedah carian untuk mencari sama ada rentetan mengandungi maklumat nama dan mengekstrak kandungannya.
(2) kaedah findall
kaedah re.findall(corak, rentetan) digunakan untuk mencari corak ungkapan biasa dalam rentetan dan mengembalikan semua hasil yang sepadan. Hasil yang dikembalikan oleh kaedah ini ialah senarai.
Berikut ialah contoh:
import semula
text = "hello world, my name is John, and my friend's name is Lily"
pattern = "name ialah (w+)"
hasil = re.findall(corak, teks)
cetak(hasil)
Hasil operasi:
['John', 'Lily']
Dalam contoh di atas, kami menggunakan kaedah findall untuk mencari semua maklumat nama dalam rentetan dan mengembalikannya dalam senarai.
(3) kaedah sub
kaedah re.sub(corak, repl, rentetan) digunakan untuk mencari corak ungkapan biasa dalam rentetan dan menggantikan kandungan yang layak dengan rentetan yang ditentukan.
Berikut ialah contoh:
import semula
text = "hello world, my name is John"
pattern = "(w+)s(w+)"
repl = r" "
result = re.sub(corak, repl, teks)
print(hasil)
Hasil jalankan:
world hello, John is name my
Dalam contoh di atas, kami menggunakan kaedah sub untuk menggantikan kedudukan nama dan tajuk dalam rentetan.
3. Kesimpulan
Dengan menggunakan fungsi ekspresi biasa Python, kami boleh menjana maklumat yang diperlukan dengan lebih mudah daripada sejumlah besar data, menyediakan alat yang berkuasa untuk perlombongan data. Ungkapan biasa adalah bahagian yang sangat penting dalam perlombongan data. Menguasai ungkapan biasa boleh membantu kami melombong data dengan lebih cekap dan mencapai hasil yang lebih baik.
Atas ialah kandungan terperinci Cara menggunakan ungkapan biasa Python untuk perlombongan data. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!