如何使用Python正規表示式進行身分證號碼擷取
在資料處理的過程中,經常需要從文字中提取特定格式的資訊。而身分證號碼作為一種比較常見的個人訊息,在資料處理中也常被用到。使用Python正規表示式可以方便地提取身分證號碼,並且還能對其進行一定的驗證。
身分證號碼是由18位數組成的,包含了身分證號碼中的地區、出生年月日和校驗碼等資訊。在Python中,我們可以使用re模組的正規表示式函數來提取身分證號碼。
首先,我們需要準備一個包含身分證號碼的文字檔案。假設檔案名稱為id_list.txt,其中每行包含一個身分證號碼。
接下來,我們可以使用以下程式碼來讀取檔案並提取身分證號碼:
import re # 读取文件 with open('id_list.txt', 'r') as f: content = f.read() # 使用正则表达式匹配身份证号码 pattern = r'd{18}|(d{17}(d|X|x))' id_list = re.findall(pattern, content)
在上面的程式碼中,我們使用了正規表示式r'd{ 18}|(d{17}(d|X|x))'
來符合身分證號碼。此正規表示式中有兩部分,分別為d{18}
和d{17}(d|X|x)
。其中,d{18}
表示符合18位元數字,即完整的身分證號碼;d{17}(d|X|x)
表示符合17位元數字和最後一位元可能為數字或字母X/x的身分證號碼。透過使用|
符號連接兩部分,我們可以同時匹配完整的身份證號碼和帶有校驗碼的身份證號碼。
使用re.findall
函數可以在文字中符合所有符合正規表示式的字串,並傳回符合結果的清單。在這裡,我們將提取到的身份證號碼清單保存到id_list
變數中。
接下來,我們可以對提取到的身分證號碼進行校驗。身分證號碼的校驗規則可以參考相關標準,這裡簡單介紹一下。
校驗碼是身分證號碼中的最後一位數字或字母X/x,它是由前17位數字透過一定的演算法得出的。校驗碼的計算方法如下:
- 將前17位數字分別乘以對應權係數,得到17個乘積;
- 將17個乘積相加,得到一個總和;
- 將總和除以11,得到一個餘數;
- 根據餘數得到校驗碼,具體對應關係如下:餘數為0時,校驗碼為1;餘數為1時,校驗碼為0;
餘數為2時,校驗碼為X/x;餘數為3-10時,校驗碼為11減餘數。
以下是校驗碼的Python程式碼實作:
# 校验码计算 def check_code(id_num: str) -> str: if len(id_num) == 18: factor_list = [7, 9, 10, 5, 8, 4, 2, 1, 6, 3, 7, 9, 10, 5, 8, 4, 2] check_list = list(id_num[:-1]) check_sum = sum([int(check_list[i]) * factor_list[i] for i in range(17)]) check_num = (12 - check_sum % 11) % 11 if check_num == 0: return '1' elif check_num == 1: return '0' elif check_num == 2: return 'X' else: return str(12 - check_num) else: return ''
在上述程式碼中,我們定義了一個名為check_code的函數來計算身分證號碼的校驗碼。函數的參數為身分證號碼,傳回值為校驗碼。
最後,我們可以在循環中對提取到的身份證號碼進行校驗,只保留校驗碼正確的身份證號碼:
# 进行校验,并输出结果 valid_id_list = [] for id_num in id_list: # 计算校验码 code = check_code(id_num[0]) if code and code == id_num[0][-1]: valid_id_list.append(id_num[0]) print(valid_id_list)
在上述代碼中,我們定義了一個名為valid_id_list的空白列表,用來儲存校驗碼正確的身分證號碼。使用循環遍歷所有提取到的身份證號碼,計算其校驗碼,如果校驗碼與提取到的身份證號碼中的校驗碼相同,就將該身份證號碼添加到valid_id_list中。最後,我們輸出valid_id_list,即可得到校驗碼正確的身分證號碼清單。
總的來說,使用Python的re模組和正規表示式可以方便地從文字中提取身分證號碼,並且還能對其進行一定的驗證。這對於身份證號碼等格式化資訊的處理是非常有幫助的。
以上是如何使用Python正規表示式進行身分證號碼擷取的詳細內容。更多資訊請關注PHP中文網其他相關文章!

熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

Video Face Swap
使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

熱工具

記事本++7.3.1
好用且免費的程式碼編輯器

SublimeText3漢化版
中文版,非常好用

禪工作室 13.0.1
強大的PHP整合開發環境

Dreamweaver CS6
視覺化網頁開發工具

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)

PHP主要是過程式編程,但也支持面向對象編程(OOP);Python支持多種範式,包括OOP、函數式和過程式編程。 PHP適合web開發,Python適用於多種應用,如數據分析和機器學習。

PHP適合網頁開發和快速原型開發,Python適用於數據科學和機器學習。 1.PHP用於動態網頁開發,語法簡單,適合快速開發。 2.Python語法簡潔,適用於多領域,庫生態系統強大。

Python更適合初學者,學習曲線平緩,語法簡潔;JavaScript適合前端開發,學習曲線較陡,語法靈活。 1.Python語法直觀,適用於數據科學和後端開發。 2.JavaScript靈活,廣泛用於前端和服務器端編程。

VS Code可以在Windows 8上運行,但體驗可能不佳。首先確保系統已更新到最新補丁,然後下載與系統架構匹配的VS Code安裝包,按照提示安裝。安裝後,注意某些擴展程序可能與Windows 8不兼容,需要尋找替代擴展或在虛擬機中使用更新的Windows系統。安裝必要的擴展,檢查是否正常工作。儘管VS Code在Windows 8上可行,但建議升級到更新的Windows系統以獲得更好的開發體驗和安全保障。

PHP起源於1994年,由RasmusLerdorf開發,最初用於跟踪網站訪問者,逐漸演變為服務器端腳本語言,廣泛應用於網頁開發。 Python由GuidovanRossum於1980年代末開發,1991年首次發布,強調代碼可讀性和簡潔性,適用於科學計算、數據分析等領域。

在 VS Code 中,可以通過以下步驟在終端運行程序:準備代碼和打開集成終端確保代碼目錄與終端工作目錄一致根據編程語言選擇運行命令(如 Python 的 python your_file_name.py)檢查是否成功運行並解決錯誤利用調試器提升調試效率

VS Code 擴展存在惡意風險,例如隱藏惡意代碼、利用漏洞、偽裝成合法擴展。識別惡意擴展的方法包括:檢查發布者、閱讀評論、檢查代碼、謹慎安裝。安全措施還包括:安全意識、良好習慣、定期更新和殺毒軟件。

VS Code 可用於編寫 Python,並提供許多功能,使其成為開發 Python 應用程序的理想工具。它允許用戶:安裝 Python 擴展,以獲得代碼補全、語法高亮和調試等功能。使用調試器逐步跟踪代碼,查找和修復錯誤。集成 Git,進行版本控制。使用代碼格式化工具,保持代碼一致性。使用 Linting 工具,提前發現潛在問題。
