首頁 後端開發 Python教學 Python爬蟲實作取名字的程式碼實例

Python爬蟲實作取名字的程式碼實例

May 10, 2017 am 11:42 AM
python 爬蟲

每個人一生中都會遇到一件事情,在事情出現之前不會關心,但是事情一旦來臨就發現它極其重要,並且需要在很短的時間內做出重大決定,那就是給自己的新生寶寶取個名字。以下這篇文章主要介紹如何利用Python爬蟲為孩子取個好名字,需要的朋友可以參考下。

前言

相信每位家長都有所體會,因為要在孩子出生後兩週內起個名字(需要辦理出生證明了),估計很多人都跟我一樣,剛開始是很慌亂的,雖然感覺漢字非常的多隨便找個字做名字都行,後來才發現真不是隨便的事情,怎麼想都發現不合適,於是到處翻字典、網上搜、翻唐詩宋詞、詩經、甚至武俠小說,然而想了很久得到的名字,往往卻受到家屬的意見和反對,比如不順口、和親戚重名重音等問題,這樣就陷入了重複尋找和否定的循環,越來越混亂。

於是我們再次回到網上各種搜尋,找到很多網上給出的“男寶寶好聽的名字大全”之類的文章,這些文章一下子給出幾百上千個名字,看的眼花撩亂沒辦法使用。而有不少的測名字的網站或者APP,輸入名字能給八字或者五格的評分,這樣的功能感覺還挺好的能給個參考,然而要么我們需要一個個名字的輸入進行測試、要么這些網站或是APP自身的名字很少、要嘛無法滿足我們的需求例如限定字、要嘛就開始收費,到最後也找不到一個好用的。

於是我想做這麼一個程式:

  1. #主要的功能,是給大量名字提供參考,這些名字是結合寶寶的生辰八字算出來的;

  2. 自己可以擴充名字庫,例如網路上發現了一批詩經裡的好名字,想看看怎麼樣,加入進去就能用;

  3. 可以限定名字的使用字,例如有的家譜有限定,目前是「國」字輩,名字中必須有「國」字;

  4. #名字清單可以給評分,這樣倒排後就可以從高分往低分來看名字;

透過這種方式可以得到一份符合自己孩子生辰八字、自己的家譜限制、以及自己喜好的名字列表,並且該列表已經給出了分數用於參考,以此為基準我們可以挨個琢磨找出心儀的名字。當然如果有新的想法,隨時可以把新的名字加到詞庫裡面,重新計算。

程式的程式碼結構

#程式碼介紹:

  • /chinese-name-score 程式碼根目錄

  • /chinese-name-score/main 程式碼目錄

  • /chinese-name-score/main/dicts 字典文件目錄

  • /chinese-name-score/main/dicts/names_boys_double.txt 字典文件,男孩的雙字名字

  • /chinese-name-score/main/dicts/names_boys_single.txt 字典文件,男孩的單字名稱

  • ##/chinese-name-score/ main/dicts/names_girls_single.txt 字典文件,女孩的雙字名稱

  • /chinese-name-score/main/dicts/names_grils_double.txt 字典文件,女孩的單字名稱

  • /chinese-name-score/main/outputs 輸出資料目錄

  • /chinese-name-score/main/outputs/names_girls_source_wxy.txt 輸出的範例檔案

  • /chinese-name-score/main/scripts 一些對字典檔案做預處理的腳本

  • /chinese-name -score/main/scripts/unique_

    file_lines.py 設定字典文件,對字典中的名字去重和去空白行

  • /chinese-name -score/main/sys_config.py 程式的系統配置,包含爬取得目標URL、字典檔案路徑

  • /chinese-name-score/main/user_config.py 程式的使用者配置,包括寶寶的年月日時分性別等設定

  • /chinese-name-score/main/get_name_score.py 程式的運行入口


使用程式碼的方法:

  1. 如果沒有限定字,就找到字典檔案names_boys_double.txt和names_grils_double.txt,可以在這裡新增自己找到的一些名字列表,按行分割添加在最後即可;

  2. 如果有限定字,就找到字典文件names_boys_single.txt和names_girls_single.txt,在這裡添加自己預先中意的單字列表,按行分割加入最後即可;

  3. 開啟user_config.py,進行配置,配置項目請見下一節;

  4. #運行腳本get_name_score.py

    #

  5. 在outputs目錄中,查看自己的產出文件,可以複製到Excel,進行排序等操作;

程序的設定入口

程式的設定如下:

# coding:GB18030
 
"""
在这里写好配置
"""
 
setting = {}
 
# 限定字,如果配置了该值,则会取用单字字典,否则取用多字字典
setting["limit_world"] = "国"
# 姓
setting["name_prefix"] = "李"
# 性别,取值为 男 或者 女
setting["sex"] = "男"
# 省份
setting["area_province"] = "北京"
# 城市
setting["area_region"] = "海淀"
# 出生的公历年份
setting['year'] = "2017"
# 出生的公历月份
setting['month'] = "1"
# 出生的公历日子
setting['day'] = "11"
# 出生的公历小时
setting['hour'] = "11"
# 出生的公历分钟
setting['minute'] = "11"
# 结果产出文件名称
setting['output_fname'] = "names_girls_source_xxx.txt"
登入後複製

根據設定項目setting[「limit_world」] ,系統會自動來決定選用單字字典還是多字字典:

  1. 如果設定了該項,例如等於“國”,那麼程式會組合所有的單字為名字用於計算,例如國浩和浩國兩個名字都會計算;

  2. 如果不設定該項,保持空字串,則程式只會讀取*_double.txt的雙字字典

程式的原理

這是一個簡單的爬蟲。大家可以打開life.httpcn.com/xingming.asp網站查看,這是一個POST表單,填寫需要的參數,點提交,就會打開一個結果頁面,結果頁面的最下方包含了八字分數和五格分數。

如果想得到分數,就需要做兩件事情,一是爬蟲自動提交表單,獲取結果頁面;二是從結果頁面提取分數;

對於第一件事情,很簡單,urllib2即可實現(程式碼在/chinese-name-score/main/get_name_score.py):

 post_data = urllib.urlencode(params)
 req = urllib2.urlopen(sys_config.REQUEST_URL, post_data)
 content = req.read()
登入後複製

這裡的params是個參數dict,使用這種方式,就進行了POST帶資料的提交,然後從content得到了結果數據。

params的參數設定如下:

 params = {}
 
 # 日期类型,0表示公历,1表示农历
 params['data_type'] = "0"
 params['year'] = "%s" % str(user_config.setting["year"])
 params['month'] = "%s" % str(user_config.setting["month"])
 params['day'] = "%s" % str(user_config.setting["day"])
 params['hour'] = "%s" % str(user_config.setting["hour"])
 params['minute'] = "%s" % str(user_config.setting["minute"])
 params['pid'] = "%s" % str(user_config.setting["area_province"])
 params['cid'] = "%s" % str(user_config.setting["area_region"])
 # 喜用五行,0表示自动分析,1表示自定喜用神
 params['wxxy'] = "0"
 params['xing'] = "%s" % (user_config.setting["name_prefix"])
 params['ming'] = name_postfix
 # 表示女,1表示男
 if user_config.setting["sex"] == "男":
  params['sex'] = "1"
 else:
  params['sex'] = "0"
  
 params['act'] = "submit"
 params['isbz'] = "1"
登入後複製

第二件事情,就是從網頁中提取所需的分數,我們可以使用BeautifulSoup4來實現,其語法也很簡單:

 soup = BeautifulSoup(content, 'html.parser', from_encoding="GB18030")
 full_name = get_full_name(name_postfix)
 
 # print soup.find(string=re.compile(u"姓名五格评分"))
 for node in soup.find_all("p", class_="chaxun_b"):
  node_cont = node.get_text()
  if u'姓名五格评分' in node_cont:
   name_wuge = node.find(string=re.compile(u"姓名五格评分"))
   result_data['wuge_score'] = name_wuge.next_sibling.b.get_text()
  
  if u'姓名八字评分' in node_cont:
   name_wuge = node.find(string=re.compile(u"姓名八字评分"))
   result_data['bazi_score'] = name_wuge.next_sibling.b.get_text()
登入後複製

透過此方法,就能對HTML解析,提取八字和五格的分數。

運行結果範例

1/1287 李国锦 姓名八字评分=61.5 姓名五格评分=78.6 总分=140.1
2/1287 李国铁 姓名八字评分=61 姓名五格评分=89.7 总分=150.7
3/1287 李国晶 姓名八字评分=21 姓名五格评分=81.6 总分=102.6
4/1287 李鸣国 姓名八字评分=21 姓名五格评分=90.3 总分=111.3
5/1287 李柔国 姓名八字评分=64 姓名五格评分=78.3 总分=142.3
6/1287 李国经 姓名八字评分=21 姓名五格评分=89.8 总分=110.8
7/1287 李国蒂 姓名八字评分=22 姓名五格评分=87.2 总分=109.2
8/1287 李国登 姓名八字评分=21 姓名五格评分=81.6 总分=102.6
9/1287 李略国 姓名八字评分=21 姓名五格评分=83.7 总分=104.7
10/1287 李国添 姓名八字评分=21 姓名五格评分=81.6 总分=102.6
11/1287 李国天 姓名八字评分=22 姓名五格评分=83.7 总分=105.7
12/1287 李国田 姓名八字评分=22 姓名五格评分=93.7 总分=115.7
登入後複製

有了這些分數,我們就可以進行排序,是一個很實用的參考資料。

友誼提示

  1. 分數跟很多因素有關,例如出生時刻、已經限定的字、限定字的筆畫等因素,這些條件決定了有些名字不會分數高,不要受此影響,找出相對分數高的就可以了;

  2. #目前程式只能抓取一個網站的內容,網址是http ://life.httpcn.com/xingming.asp

  3. 本列表僅供參考,看過一些文章,歷史上很多名人偉人,姓名八字評分都非常低但是都建功立業,名字確實會有些影響但有時朗朗上口就是最好的;

  4. 從本列表中選取名字之後,可以在百度、人人網等地方查查,以防有些負面的人重名、或起這個名字的人太多了爛大街;

  5. 八字分數是中國傳承,五格分數是日本人近代發明的,有時候也可以試試西方的星座取名法,並且奇怪的是八字和五個分數不同網站打分相差很大,更說明了這東西只供參考;

本文的程式碼已上傳github 

#總結

【相關推薦】

1. Python免費視訊教學

##2.

python遇見資料擷取影片教學

3.

Python學習手冊

以上是Python爬蟲實作取名字的程式碼實例的詳細內容。更多資訊請關注PHP中文網其他相關文章!

本網站聲明
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

AI Hentai Generator

AI Hentai Generator

免費產生 AI 無盡。

熱門文章

R.E.P.O.能量晶體解釋及其做什麼(黃色晶體)
1 個月前 By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.最佳圖形設置
1 個月前 By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.如果您聽不到任何人,如何修復音頻
1 個月前 By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.聊天命令以及如何使用它們
1 個月前 By 尊渡假赌尊渡假赌尊渡假赌

熱工具

記事本++7.3.1

記事本++7.3.1

好用且免費的程式碼編輯器

SublimeText3漢化版

SublimeText3漢化版

中文版,非常好用

禪工作室 13.0.1

禪工作室 13.0.1

強大的PHP整合開發環境

Dreamweaver CS6

Dreamweaver CS6

視覺化網頁開發工具

SublimeText3 Mac版

SublimeText3 Mac版

神級程式碼編輯軟體(SublimeText3)

PHP和Python:代碼示例和比較 PHP和Python:代碼示例和比較 Apr 15, 2025 am 12:07 AM

PHP和Python各有優劣,選擇取決於項目需求和個人偏好。 1.PHP適合快速開發和維護大型Web應用。 2.Python在數據科學和機器學習領域佔據主導地位。

CentOS上如何進行PyTorch模型訓練 CentOS上如何進行PyTorch模型訓練 Apr 14, 2025 pm 03:03 PM

在CentOS系統上高效訓練PyTorch模型,需要分步驟進行,本文將提供詳細指南。一、環境準備:Python及依賴項安裝:CentOS系統通常預裝Python,但版本可能較舊。建議使用yum或dnf安裝Python3併升級pip:sudoyumupdatepython3(或sudodnfupdatepython3),pip3install--upgradepip。 CUDA與cuDNN(GPU加速):如果使用NVIDIAGPU,需安裝CUDATool

docker原理詳解 docker原理詳解 Apr 14, 2025 pm 11:57 PM

Docker利用Linux內核特性,提供高效、隔離的應用運行環境。其工作原理如下:1. 鏡像作為只讀模板,包含運行應用所需的一切;2. 聯合文件系統(UnionFS)層疊多個文件系統,只存儲差異部分,節省空間並加快速度;3. 守護進程管理鏡像和容器,客戶端用於交互;4. Namespaces和cgroups實現容器隔離和資源限制;5. 多種網絡模式支持容器互聯。理解這些核心概念,才能更好地利用Docker。

CentOS上PyTorch的GPU支持情況如何 CentOS上PyTorch的GPU支持情況如何 Apr 14, 2025 pm 06:48 PM

在CentOS系統上啟用PyTorchGPU加速,需要安裝CUDA、cuDNN以及PyTorch的GPU版本。以下步驟將引導您完成這一過程:CUDA和cuDNN安裝確定CUDA版本兼容性:使用nvidia-smi命令查看您的NVIDIA顯卡支持的CUDA版本。例如,您的MX450顯卡可能支持CUDA11.1或更高版本。下載並安裝CUDAToolkit:訪問NVIDIACUDAToolkit官網,根據您顯卡支持的最高CUDA版本下載並安裝相應的版本。安裝cuDNN庫:前

Python vs. JavaScript:社區,圖書館和資源 Python vs. JavaScript:社區,圖書館和資源 Apr 15, 2025 am 12:16 AM

Python和JavaScript在社區、庫和資源方面的對比各有優劣。 1)Python社區友好,適合初學者,但前端開發資源不如JavaScript豐富。 2)Python在數據科學和機器學習庫方面強大,JavaScript則在前端開發庫和框架上更勝一籌。 3)兩者的學習資源都豐富,但Python適合從官方文檔開始,JavaScript則以MDNWebDocs為佳。選擇應基於項目需求和個人興趣。

minio安裝centos兼容性 minio安裝centos兼容性 Apr 14, 2025 pm 05:45 PM

MinIO對象存儲:CentOS系統下的高性能部署MinIO是一款基於Go語言開發的高性能、分佈式對象存儲系統,與AmazonS3兼容。它支持多種客戶端語言,包括Java、Python、JavaScript和Go。本文將簡要介紹MinIO在CentOS系統上的安裝和兼容性。 CentOS版本兼容性MinIO已在多個CentOS版本上得到驗證,包括但不限於:CentOS7.9:提供完整的安裝指南,涵蓋集群配置、環境準備、配置文件設置、磁盤分區以及MinI

CentOS下PyTorch版本怎麼選 CentOS下PyTorch版本怎麼選 Apr 14, 2025 pm 02:51 PM

在CentOS下選擇PyTorch版本時,需要考慮以下幾個關鍵因素:1.CUDA版本兼容性GPU支持:如果你有NVIDIAGPU並且希望利用GPU加速,需要選擇支持相應CUDA版本的PyTorch。可以通過運行nvidia-smi命令查看你的顯卡支持的CUDA版本。 CPU版本:如果沒有GPU或不想使用GPU,可以選擇CPU版本的PyTorch。 2.Python版本PyTorch

centos如何安裝nginx centos如何安裝nginx Apr 14, 2025 pm 08:06 PM

CentOS 安裝 Nginx 需要遵循以下步驟:安裝依賴包,如開發工具、pcre-devel 和 openssl-devel。下載 Nginx 源碼包,解壓後編譯安裝,並指定安裝路徑為 /usr/local/nginx。創建 Nginx 用戶和用戶組,並設置權限。修改配置文件 nginx.conf,配置監聽端口和域名/IP 地址。啟動 Nginx 服務。需要注意常見的錯誤,如依賴問題、端口衝突和配置文件錯誤。性能優化需要根據具體情況調整,如開啟緩存和調整 worker 進程數量。

See all articles