Cara menggunakan ungkapan biasa Python untuk pemprosesan data besar-Tutorial Python-php.cn

Rumah

pembangunan bahagian belakang

Tutorial Python

Cara menggunakan ungkapan biasa Python untuk pemprosesan data besar

王林

Jun 23, 2023 am 10:03 AM

python ungkapan biasa pemprosesan data besar

Dalam proses pemprosesan data, kadangkala kita perlu menapis dan membersihkan sejumlah besar data Pada masa ini, menggunakan ungkapan biasa Python boleh meningkatkan kecekapan pemprosesan data. Berikut akan memperkenalkan cara menggunakan ungkapan biasa Python untuk pemprosesan data besar.

Sediakan data

Pertama, anda perlu menyediakan data yang perlu diproses, seperti set data yang mengandungi 500,000 teks Mandarin. Set data ini boleh diperolehi dari Internet atau dibuat sendiri.

Import modul semula

Sebelum menggunakan ungkapan biasa Python, anda perlu mengimport modul semula terbina dalam Python Modul ini menyediakan banyak Fungsi berkaitan ungkapan biasa dan kaedah.

import re

Salin selepas log masuk

Pengenalan kepada sintaks ungkapan biasa

Ungkapan biasa ialah ungkapan yang digunakan untuk memadankan rentetan sintaksnya agak rumit, tetapi selepas menguasai yang biasa digunakan Selepas sintaks, kecekapan pemprosesan data bertambah baik.

3.1. Ungkapan

Sintaks asas ungkapan biasa ialah ungkapan yang terdiri daripada satu siri aksara dan aksara meta. Antaranya, watak mewakili watak dalam rentetan yang sepadan, dan metacharacter mewakili jenis watak tertentu.

3.2. Metacharacter

Metacharacter dibahagikan kepada metacharacter aksara tunggal dan metacharacter gabungan.

Metacharacter aksara tunggal termasuk:

.: sepadan dengan mana-mana aksara (kecuali baris baharu).
w: Padankan mana-mana huruf, nombor atau garis bawah.
d: Padankan sebarang nombor.
s: Padankan mana-mana aksara ruang putih (termasuk ruang, tab, baris baharu, dsb.).
W: Memadankan mana-mana aksara bukan huruf, nombor atau garis bawah.
D: Padan dengan mana-mana aksara bukan angka.
S: Padan dengan mana-mana aksara bukan ruang putih.

Metakarakter aksara gabungan termasuk:

[]: sepadan dengan mana-mana aksara dalam kurungan segi empat sama.
-: mewakili tanda sempang, digunakan untuk mewakili julat, seperti [0-9] untuk memadankan sebarang aksara angka.
^: bermaksud bukan, digunakan untuk menunjukkan aksara yang tidak sepadan, seperti ¹ bermaksud memadankan mana-mana aksara abjad bukan huruf kecil.
|: bermaksud atau, digunakan untuk memadankan berbilang ungkapan biasa, seperti a|b bermaksud memadankan aksara a atau aksara b.

3.3. Pengkuantiti

Pengkuantiti digunakan untuk menunjukkan bilangan aksara yang sepadan yang biasa digunakan adalah seperti berikut:

*: menunjukkan sebarang aksara. , sepadan dengan 0 atau lebih.
+: mewakili mana-mana watak, sepadan dengan 1 atau lebih.
?: Menunjukkan sebarang aksara, sepadan dengan 0 atau 1.
{}: Menunjukkan sebarang aksara, memadankan nombor yang ditentukan, seperti {3,5} bermakna memadankan 3 hingga 5 aksara.

Gunakan ungkapan biasa untuk pemprosesan data

Selepas memperkenalkan sintaks ungkapan biasa di atas, kita boleh mula menggunakan ungkapan biasa untuk pemprosesan data . Berikut akan mengambil contoh mudah untuk menunjukkan cara menggunakan ungkapan biasa untuk pemprosesan data.

4.1. Membaca data

Mula-mula, anda perlu membaca data masuk. Di sini anda boleh memilih untuk menggunakan fungsi terbuka terbina dalam Python untuk membaca, atau anda boleh menggunakan perpustakaan pihak ketiga panda untuk dibaca.

# 使用pandas读取数据
import pandas as pd

data = pd.read_csv('data.csv', encoding='utf-8')

Salin selepas log masuk

4.2. Gunakan ungkapan biasa untuk pembersihan data

Andaikan sekarang anda perlu menapis nombor telefon mudah alih dalam data dan menyimpan data yang ditapis ke fail baharu. Dalam contoh ini, kami menganggap bahawa nombor telefon bimbit ialah 11 digit.

Dalam sintaks ungkapan biasa di atas, d bermaksud memadankan sebarang nombor dan {11} bermakna 11 nombor tersebut perlu dipadankan. Jadi ungkapan biasa yang lengkap boleh ditulis sebagai:

regexp = r'd{11}'

Salin selepas log masuk

Kemudian kita boleh menggunakan modul semula Python untuk menapis dan membersihkan data Mula-mula, baca data ke dalam memori, dan kemudian gunakan ungkapan biasa untuk pemadanan dan pengekstrakan.

import re

with open('data.csv', encoding='utf-8') as f:
    lines = f.readlines()
# 使用正则表达式进行数据清洗
result = []
regexp = r'd{11}'
for line in lines:
    match_obj = re.search(regexp, line)
    # 如果匹配成功，则把匹配的内容加入到result
    if match_obj:
        result.append(match_obj.group(0))

# 把结果写入到文件中
with open('result.txt', 'w', encoding='utf-8') as f:
    f.write('
'.join(result))

Salin selepas log masuk

Melalui kod di atas, kami berjaya menggunakan ungkapan biasa untuk memadankan semua nombor telefon mudah alih dan menyimpannya dalam fail result.txt.

Ringkasan

Dalam artikel ini, kami memperkenalkan cara menggunakan ungkapan biasa Python untuk pemprosesan data besar. Modul semula terbina dalam Python menyediakan banyak fungsi dan kaedah ungkapan biasa yang biasa digunakan Dengan menguasai sintaks ungkapan biasa, kami boleh melakukan penapisan data, pembersihan dan operasi lain dengan cepat dan cekap dalam pemprosesan data besar.

a-z ↩

Atas ialah kandungan terperinci Cara menggunakan ungkapan biasa Python untuk pemprosesan data besar. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan Laman Web ini

Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn

Alat AI Hot

Undresser.AI Undress

Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover

Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool

Gambar buka pakaian secara percuma

Clothoff.io

Penyingkiran pakaian AI

AI Hentai Generator

Menjana ai hentai secara percuma.

Tunjukkan Lagi

Artikel Panas

R.E.P.O. Kristal tenaga dijelaskan dan apa yang mereka lakukan (kristal kuning)

4 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌

R.E.P.O. Tetapan grafik terbaik

4 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌

Assassin's Creed Shadows: Penyelesaian Riddle Seashell

2 minggu yang lalu By DDD

R.E.P.O. Cara Memperbaiki Audio Jika anda tidak dapat mendengar sesiapa

4 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌

WWE 2K25: Cara Membuka Segala -galanya Di Myrise

1 bulan yang lalu By 尊渡假赌尊渡假赌尊渡假赌

Tunjukkan Lagi

Alat panas

Notepad++7.3.1

Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina

Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1

Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6

Alat pembangunan web visual

SublimeText3 versi Mac

Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Tunjukkan Lagi

Topik panas

Di manakah pintu masuk log masuk untuk e-mel gmail?

7511

Tutorial CakePHP

1378

Apakah format nama akaun stim

kunci pengaktifan win11 kekal

Sambungan NYT menunjukkan dan jawapan

Tunjukkan Lagi

Related knowledge

Rancangan Python 2 jam: Pendekatan yang realistik Apr 11, 2025 am 12:04 AM

Anda boleh mempelajari konsep pengaturcaraan asas dan kemahiran Python dalam masa 2 jam. 1. Belajar Pembolehubah dan Jenis Data, 2.

Python: meneroka aplikasi utamanya Apr 10, 2025 am 09:41 AM

Python digunakan secara meluas dalam bidang pembangunan web, sains data, pembelajaran mesin, automasi dan skrip. 1) Dalam pembangunan web, kerangka Django dan Flask memudahkan proses pembangunan. 2) Dalam bidang sains data dan pembelajaran mesin, numpy, panda, scikit-learn dan perpustakaan tensorflow memberikan sokongan yang kuat. 3) Dari segi automasi dan skrip, Python sesuai untuk tugas -tugas seperti ujian automatik dan pengurusan sistem.

Kaedah Navicat untuk melihat kata laluan pangkalan data MongoDB Apr 08, 2025 pm 09:39 PM

Tidak mustahil untuk melihat kata laluan MongoDB secara langsung melalui Navicat kerana ia disimpan sebagai nilai hash. Cara mendapatkan kata laluan yang hilang: 1. Tetapkan semula kata laluan; 2. Periksa fail konfigurasi (mungkin mengandungi nilai hash); 3. Semak Kod (boleh kata laluan Hardcode).

Cara Menggunakan AWS Glue Crawler dengan Amazon Athena Apr 09, 2025 pm 03:09 PM

Sebagai profesional data, anda perlu memproses sejumlah besar data dari pelbagai sumber. Ini boleh menimbulkan cabaran kepada pengurusan data dan analisis. Nasib baik, dua perkhidmatan AWS dapat membantu: AWS Glue dan Amazon Athena.

Cara memulakan pelayan dengan redis Apr 10, 2025 pm 08:12 PM

Langkah -langkah untuk memulakan pelayan Redis termasuk: Pasang Redis mengikut sistem operasi. Mulakan perkhidmatan Redis melalui Redis-server (Linux/macOS) atau redis-server.exe (Windows). Gunakan redis-cli ping (linux/macOS) atau redis-cli.exe ping (windows) perintah untuk memeriksa status perkhidmatan. Gunakan klien Redis, seperti redis-cli, python, atau node.js untuk mengakses pelayan.

Cara Membaca Gilir Redis Apr 10, 2025 pm 10:12 PM

Untuk membaca giliran dari Redis, anda perlu mendapatkan nama giliran, membaca unsur -unsur menggunakan arahan LPOP, dan memproses barisan kosong. Langkah-langkah khusus adalah seperti berikut: Dapatkan nama giliran: Namakannya dengan awalan "giliran:" seperti "giliran: my-queue". Gunakan arahan LPOP: Keluarkan elemen dari kepala barisan dan kembalikan nilainya, seperti LPOP Queue: My-Queue. Memproses Baris kosong: Jika barisan kosong, LPOP mengembalikan nihil, dan anda boleh menyemak sama ada barisan wujud sebelum membaca elemen.

Cara melihat versi pelayan Redis Apr 10, 2025 pm 01:27 PM

Soalan: Bagaimana untuk melihat versi pelayan Redis? Gunakan alat perintah Redis-cli -version untuk melihat versi pelayan yang disambungkan. Gunakan arahan pelayan INFO untuk melihat versi dalaman pelayan dan perlu menghuraikan dan mengembalikan maklumat. Dalam persekitaran kluster, periksa konsistensi versi setiap nod dan boleh diperiksa secara automatik menggunakan skrip. Gunakan skrip untuk mengautomasikan versi tontonan, seperti menyambung dengan skrip Python dan maklumat versi percetakan.

Betapa selamatnya kata laluan Navicat? Apr 08, 2025 pm 09:24 PM

Keselamatan kata laluan Navicat bergantung pada gabungan penyulitan simetri, kekuatan kata laluan dan langkah -langkah keselamatan. Langkah -langkah khusus termasuk: menggunakan sambungan SSL (dengan syarat bahawa pelayan pangkalan data menyokong dan mengkonfigurasi sijil dengan betul), mengemas kini Navicat, menggunakan kaedah yang lebih selamat (seperti terowong SSH), menyekat hak akses, dan yang paling penting, tidak pernah merakam kata laluan.

See all articles