Python爬蟲實作取名字的程式碼實例-Python教學-PHP中文網

首頁

後端開發

Python教學

Python爬蟲實作取名字的程式碼實例

Y2J

May 10, 2017 am 11:42 AM

python 爬蟲

每個人一生中都會遇到一件事情，在事情出現之前不會關心，但是事情一旦來臨就發現它極其重要，並且需要在很短的時間內做出重大決定，那就是給自己的新生寶寶取個名字。以下這篇文章主要介紹如何利用Python爬蟲為孩子取個好名字，需要的朋友可以參考下。

前言

相信每位家長都有所體會，因為要在孩子出生後兩週內起個名字（需要辦理出生證明了），估計很多人都跟我一樣，剛開始是很慌亂的，雖然感覺漢字非常的多隨便找個字做名字都行，後來才發現真不是隨便的事情，怎麼想都發現不合適，於是到處翻字典、網上搜、翻唐詩宋詞、詩經、甚至武俠小說，然而想了很久得到的名字，往往卻受到家屬的意見和反對，比如不順口、和親戚重名重音等問題，這樣就陷入了重複尋找和否定的循環，越來越混亂。

於是我們再次回到網上各種搜尋，找到很多網上給出的“男寶寶好聽的名字大全”之類的文章，這些文章一下子給出幾百上千個名字，看的眼花撩亂沒辦法使用。而有不少的測名字的網站或者APP，輸入名字能給八字或者五格的評分，這樣的功能感覺還挺好的能給個參考，然而要么我們需要一個個名字的輸入進行測試、要么這些網站或是APP自身的名字很少、要嘛無法滿足我們的需求例如限定字、要嘛就開始收費，到最後也找不到一個好用的。

於是我想做這麼一個程式：

#主要的功能，是給大量名字提供參考，這些名字是結合寶寶的生辰八字算出來的；
自己可以擴充名字庫，例如網路上發現了一批詩經裡的好名字，想看看怎麼樣，加入進去就能用；
可以限定名字的使用字，例如有的家譜有限定，目前是「國」字輩，名字中必須有「國」字；
#名字清單可以給評分，這樣倒排後就可以從高分往低分來看名字；

透過這種方式可以得到一份符合自己孩子生辰八字、自己的家譜限制、以及自己喜好的名字列表，並且該列表已經給出了分數用於參考，以此為基準我們可以挨個琢磨找出心儀的名字。當然如果有新的想法，隨時可以把新的名字加到詞庫裡面，重新計算。

程式的程式碼結構

#程式碼介紹：

/chinese-name-score 程式碼根目錄
/chinese-name-score/main 程式碼目錄
/chinese-name-score/main/dicts 字典文件目錄
/chinese-name-score/main/dicts/names_boys_double.txt 字典文件，男孩的雙字名字
/chinese-name-score/main/dicts/names_boys_single.txt 字典文件，男孩的單字名稱
##/chinese-name-score/ main/dicts/names_girls_single.txt 字典文件，女孩的雙字名稱
/chinese-name-score/main/dicts/names_grils_double.txt 字典文件，女孩的單字名稱
/chinese-name-score/main/outputs 輸出資料目錄
/chinese-name-score/main/outputs/names_girls_source_wxy.txt 輸出的範例檔案
/chinese-name-score/main/scripts 一些對字典檔案做預處理的腳本
/chinese-name -score/main/scripts/unique_
file_lines.py 設定字典文件，對字典中的名字去重和去空白行
/chinese-name -score/main/sys_config.py 程式的系統配置，包含爬取得目標URL、字典檔案路徑
/chinese-name-score/main/user_config.py 程式的使用者配置，包括寶寶的年月日時分性別等設定
/chinese-name-score/main/get_name_score.py 程式的運行入口

使用程式碼的方法：

如果沒有限定字，就找到字典檔案names_boys_double.txt和names_grils_double.txt，可以在這裡新增自己找到的一些名字列表，按行分割添加在最後即可；
如果有限定字，就找到字典文件names_boys_single.txt和names_girls_single.txt，在這裡添加自己預先中意的單字列表，按行分割加入最後即可；
開啟user_config.py，進行配置，配置項目請見下一節；
#運行腳本get_name_score.py
#
在outputs目錄中，查看自己的產出文件，可以複製到Excel，進行排序等操作；

程序的設定入口

程式的設定如下：

# coding:GB18030
 
"""
在这里写好配置
"""
 
setting = {}
 
# 限定字，如果配置了该值，则会取用单字字典，否则取用多字字典
setting["limit_world"] = "国"
# 姓
setting["name_prefix"] = "李"
# 性别，取值为 男 或者 女
setting["sex"] = "男"
# 省份
setting["area_province"] = "北京"
# 城市
setting["area_region"] = "海淀"
# 出生的公历年份
setting[&#39;year&#39;] = "2017"
# 出生的公历月份
setting[&#39;month&#39;] = "1"
# 出生的公历日子
setting[&#39;day&#39;] = "11"
# 出生的公历小时
setting[&#39;hour&#39;] = "11"
# 出生的公历分钟
setting[&#39;minute&#39;] = "11"
# 结果产出文件名称
setting[&#39;output_fname&#39;] = "names_girls_source_xxx.txt"

登入後複製

根據設定項目setting[「limit_world」] ，系統會自動來決定選用單字字典還是多字字典：

如果設定了該項，例如等於“國”，那麼程式會組合所有的單字為名字用於計算，例如國浩和浩國兩個名字都會計算；
如果不設定該項，保持空字串，則程式只會讀取*_double.txt的雙字字典

程式的原理

這是一個簡單的爬蟲。大家可以打開life.httpcn.com/xingming.asp網站查看，這是一個POST表單，填寫需要的參數，點提交，就會打開一個結果頁面，結果頁面的最下方包含了八字分數和五格分數。

如果想得到分數，就需要做兩件事情，一是爬蟲自動提交表單，獲取結果頁面；二是從結果頁面提取分數；

對於第一件事情，很簡單，urllib2即可實現（程式碼在/chinese-name-score/main/get_name_score.py）：

 post_data = urllib.urlencode(params)
 req = urllib2.urlopen(sys_config.REQUEST_URL, post_data)
 content = req.read()

登入後複製

這裡的params是個參數dict，使用這種方式，就進行了POST帶資料的提交，然後從content得到了結果數據。

params的參數設定如下：

 params = {}
 
 # 日期类型，0表示公历，1表示农历
 params[&#39;data_type&#39;] = "0"
 params[&#39;year&#39;] = "%s" % str(user_config.setting["year"])
 params[&#39;month&#39;] = "%s" % str(user_config.setting["month"])
 params[&#39;day&#39;] = "%s" % str(user_config.setting["day"])
 params[&#39;hour&#39;] = "%s" % str(user_config.setting["hour"])
 params[&#39;minute&#39;] = "%s" % str(user_config.setting["minute"])
 params[&#39;pid&#39;] = "%s" % str(user_config.setting["area_province"])
 params[&#39;cid&#39;] = "%s" % str(user_config.setting["area_region"])
 # 喜用五行，0表示自动分析，1表示自定喜用神
 params[&#39;wxxy&#39;] = "0"
 params[&#39;xing&#39;] = "%s" % (user_config.setting["name_prefix"])
 params[&#39;ming&#39;] = name_postfix
 # 表示女，1表示男
 if user_config.setting["sex"] == "男":
  params[&#39;sex&#39;] = "1"
 else:
  params[&#39;sex&#39;] = "0"
  
 params[&#39;act&#39;] = "submit"
 params[&#39;isbz&#39;] = "1"

登入後複製

第二件事情，就是從網頁中提取所需的分數，我們可以使用BeautifulSoup4來實現，其語法也很簡單：

 soup = BeautifulSoup(content, &#39;html.parser&#39;, from_encoding="GB18030")
 full_name = get_full_name(name_postfix)
 
 # print soup.find(string=re.compile(u"姓名五格评分"))
 for node in soup.find_all("p", class_="chaxun_b"):
  node_cont = node.get_text()
  if u&#39;姓名五格评分&#39; in node_cont:
   name_wuge = node.find(string=re.compile(u"姓名五格评分"))
   result_data[&#39;wuge_score&#39;] = name_wuge.next_sibling.b.get_text()
  
  if u&#39;姓名八字评分&#39; in node_cont:
   name_wuge = node.find(string=re.compile(u"姓名八字评分"))
   result_data[&#39;bazi_score&#39;] = name_wuge.next_sibling.b.get_text()

登入後複製

透過此方法，就能對HTML解析，提取八字和五格的分數。

運行結果範例

1/1287 李国锦 姓名八字评分=61.5 姓名五格评分=78.6 总分=140.1
2/1287 李国铁 姓名八字评分=61 姓名五格评分=89.7 总分=150.7
3/1287 李国晶 姓名八字评分=21 姓名五格评分=81.6 总分=102.6
4/1287 李鸣国 姓名八字评分=21 姓名五格评分=90.3 总分=111.3
5/1287 李柔国 姓名八字评分=64 姓名五格评分=78.3 总分=142.3
6/1287 李国经 姓名八字评分=21 姓名五格评分=89.8 总分=110.8
7/1287 李国蒂 姓名八字评分=22 姓名五格评分=87.2 总分=109.2
8/1287 李国登 姓名八字评分=21 姓名五格评分=81.6 总分=102.6
9/1287 李略国 姓名八字评分=21 姓名五格评分=83.7 总分=104.7
10/1287 李国添 姓名八字评分=21 姓名五格评分=81.6 总分=102.6
11/1287 李国天 姓名八字评分=22 姓名五格评分=83.7 总分=105.7
12/1287 李国田 姓名八字评分=22 姓名五格评分=93.7 总分=115.7

登入後複製

有了這些分數，我們就可以進行排序，是一個很實用的參考資料。

友誼提示

分數跟很多因素有關，例如出生時刻、已經限定的字、限定字的筆畫等因素，這些條件決定了有些名字不會分數高，不要受此影響，找出相對分數高的就可以了；
#目前程式只能抓取一個網站的內容，網址是http ://life.httpcn.com/xingming.asp
本列表僅供參考，看過一些文章，歷史上很多名人偉人，姓名八字評分都非常低但是都建功立業，名字確實會有些影響但有時朗朗上口就是最好的；
從本列表中選取名字之後，可以在百度、人人網等地方查查，以防有些負面的人重名、或起這個名字的人太多了爛大街；
八字分數是中國傳承，五格分數是日本人近代發明的，有時候也可以試試西方的星座取名法，並且奇怪的是八字和五個分數不同網站打分相差很大，更說明了這東西只供參考；

本文的程式碼已上傳到github

#總結

【相關推薦】

1. Python免費視訊教學

##2.

python遇見資料擷取影片教學

Python學習手冊

以上是Python爬蟲實作取名字的程式碼實例的詳細內容。更多資訊請關注PHP中文網其他相關文章！

本網站聲明

本文內容由網友自願投稿，版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容，請聯絡admin@php.cn

熱AI工具

熱工具

熱門話題

gmail信箱登陸入口在哪裡

7541

CakePHP 教程

1381

steam的賬戶名稱是什麼格式

win11激活密鑰永久

NYT連接提示和答案

Related knowledge

PHP和Python：代碼示例和比較 Apr 15, 2025 am 12:07 AM

PHP和Python各有優劣，選擇取決於項目需求和個人偏好。 1.PHP適合快速開發和維護大型Web應用。 2.Python在數據科學和機器學習領域佔據主導地位。

CentOS上如何進行PyTorch模型訓練 Apr 14, 2025 pm 03:03 PM

在CentOS系統上高效訓練PyTorch模型，需要分步驟進行，本文將提供詳細指南。一、環境準備：Python及依賴項安裝:CentOS系統通常預裝Python，但版本可能較舊。建議使用yum或dnf安裝Python3併升級pip：sudoyumupdatepython3(或sudodnfupdatepython3)，pip3install--upgradepip。 CUDA與cuDNN(GPU加速):如果使用NVIDIAGPU，需安裝CUDATool

docker原理詳解 Apr 14, 2025 pm 11:57 PM

Docker利用Linux內核特性，提供高效、隔離的應用運行環境。其工作原理如下：1. 鏡像作為只讀模板，包含運行應用所需的一切；2. 聯合文件系統（UnionFS）層疊多個文件系統，只存儲差異部分，節省空間並加快速度；3. 守護進程管理鏡像和容器，客戶端用於交互；4. Namespaces和cgroups實現容器隔離和資源限制；5. 多種網絡模式支持容器互聯。理解這些核心概念，才能更好地利用Docker。

CentOS上PyTorch的GPU支持情況如何 Apr 14, 2025 pm 06:48 PM

在CentOS系統上啟用PyTorchGPU加速，需要安裝CUDA、cuDNN以及PyTorch的GPU版本。以下步驟將引導您完成這一過程：CUDA和cuDNN安裝確定CUDA版本兼容性:使用nvidia-smi命令查看您的NVIDIA顯卡支持的CUDA版本。例如，您的MX450顯卡可能支持CUDA11.1或更高版本。下載並安裝CUDAToolkit:訪問NVIDIACUDAToolkit官網，根據您顯卡支持的最高CUDA版本下載並安裝相應的版本。安裝cuDNN庫:前

Python vs. JavaScript：社區，圖書館和資源 Apr 15, 2025 am 12:16 AM

Python和JavaScript在社區、庫和資源方面的對比各有優劣。 1)Python社區友好，適合初學者，但前端開發資源不如JavaScript豐富。 2)Python在數據科學和機器學習庫方面強大，JavaScript則在前端開發庫和框架上更勝一籌。 3)兩者的學習資源都豐富，但Python適合從官方文檔開始，JavaScript則以MDNWebDocs為佳。選擇應基於項目需求和個人興趣。

minio安裝centos兼容性 Apr 14, 2025 pm 05:45 PM

MinIO對象存儲：CentOS系統下的高性能部署MinIO是一款基於Go語言開發的高性能、分佈式對象存儲系統，與AmazonS3兼容。它支持多種客戶端語言，包括Java、Python、JavaScript和Go。本文將簡要介紹MinIO在CentOS系統上的安裝和兼容性。 CentOS版本兼容性MinIO已在多個CentOS版本上得到驗證，包括但不限於：CentOS7.9:提供完整的安裝指南，涵蓋集群配置、環境準備、配置文件設置、磁盤分區以及MinI

CentOS下PyTorch版本怎麼選 Apr 14, 2025 pm 02:51 PM

在CentOS下選擇PyTorch版本時，需要考慮以下幾個關鍵因素：1.CUDA版本兼容性GPU支持：如果你有NVIDIAGPU並且希望利用GPU加速，需要選擇支持相應CUDA版本的PyTorch。可以通過運行nvidia-smi命令查看你的顯卡支持的CUDA版本。 CPU版本：如果沒有GPU或不想使用GPU，可以選擇CPU版本的PyTorch。 2.Python版本PyTorch

centos如何安裝nginx Apr 14, 2025 pm 08:06 PM

CentOS 安裝 Nginx 需要遵循以下步驟：安裝依賴包，如開發工具、pcre-devel 和 openssl-devel。下載 Nginx 源碼包，解壓後編譯安裝，並指定安裝路徑為 /usr/local/nginx。創建 Nginx 用戶和用戶組，並設置權限。修改配置文件 nginx.conf，配置監聽端口和域名/IP 地址。啟動 Nginx 服務。需要注意常見的錯誤，如依賴問題、端口衝突和配置文件錯誤。性能優化需要根據具體情況調整，如開啟緩存和調整 worker 進程數量。

See all articles

Python爬蟲實作取名字的程式碼實例

熱AI工具

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

AI Hentai Generator

熱門文章

熱工具

記事本++7.3.1

SublimeText3漢化版

禪工作室 13.0.1

Dreamweaver CS6

SublimeText3 Mac版

熱門話題