Dalam analisis dan prapemprosesan data, selalunya perlu memproses item pendua dalam data. Menggunakan ungkapan biasa Python ialah cara yang cekap dan fleksibel untuk mengalih keluar pendua. Dalam artikel ini, kami akan menerangkan cara mengalih keluar pendua menggunakan ungkapan biasa Python.
Pertama, kita perlu mengimport perpustakaan yang diperlukan, termasuk semula dan panda. Antaranya, perpustakaan semula ialah perpustakaan yang digunakan khusus untuk operasi ekspresi biasa dalam perpustakaan standard Python manakala perpustakaan panda adalah perpustakaan penting dalam bidang analisis data dan digunakan untuk memproses data.
import semula
import panda sebagai pd
Seterusnya, kita perlu membaca data untuk diproses. Di sini kita mengambil fail csv sebagai contoh dan menggunakan fungsi read_csv perpustakaan panda untuk membaca data.
data = pd.read_csv('data.csv')
Sebelum mengalih keluar pendua, kita perlu mencari pendua terlebih dahulu dalam data tersebut. Kita boleh menggunakan fungsi pendua pustaka panda untuk menentukan sama ada setiap baris data diduplikasi dengan baris data sebelumnya.
is_duplicated = data.duplicated()
duplicated_data = data[is_duplicated]
print('Terdapat %d pendua' % len(data_pendua))
Dengan indeks pendua, kami boleh menggunakan Ekspresi biasa mengalih keluar pendua. Di sini, kita boleh menggunakan sub fungsi perpustakaan semula, yang boleh menggantikan sesuatu dalam rentetan berdasarkan ungkapan biasa.
Sebagai contoh, jika kita ingin mengalih keluar ruang tambahan dalam rentetan, kita boleh menggunakan ungkapan biasa berikut:
pattern = r's+'
replacement = ' '
di mana, Corak ialah corak ungkapan biasa yang sepadan dengan ruang tambahan, iaitu, s+ bermaksud memadankan satu atau lebih ruang dan penggantian ialah kandungan yang akan digantikan di sini kita menggantikan ruang tambahan dengan satu ruang.
Seterusnya, kami menggunakan corak regex ini pada setiap lajur dalam data, mengalih keluar pendua.
corak = r's+'
replacement = ' '
untuk col dalam data.columns:
data[col] = data[col].apply(lambda x: re.sub(pattern, replacement, str(x)))
Selepas melengkapkan penduaan, kita boleh menggunakan fungsi pendua untuk menyemak semula sama ada terdapat pendua dalam data untuk memastikan ketepatan operasi penduaan.
is_duplicated = data.duplicated()
if is_duplicated.any():
print('数据中仍存在重复项')
else:
print('数据中不存在重复项')
Akhir sekali, kita boleh menulis data yang diproses ke fail untuk kegunaan seterusnya.
data.to_csv('processed_data.csv', index=False)
Ringkasan
Ungkapan biasa ialah alat pemprosesan teks yang sangat berkuasa yang boleh digunakan untuk pemadanan rentetan aksara , penggantian dan operasi lain. Dalam analisis dan prapemprosesan data, menggunakan ungkapan biasa untuk mengalih keluar pendua ialah kaedah yang cekap dan fleksibel. Artikel ini memperkenalkan cara menggunakan ungkapan biasa Python untuk mengalih keluar pendua. Saya harap ia akan membantu pembaca.
Atas ialah kandungan terperinci Bagaimana untuk mengalih keluar pendua menggunakan ungkapan biasa Python. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!