利用Python爬蟲為孩子取個好名字-Python教學-PHP中文網

首頁

後端開發

Python教學

利用Python爬蟲為孩子取個好名字

高洛峰

Feb 20, 2017 am 10:13 AM

前言

相信每位家長都有所體會，因為要在孩子出生後兩週內取個名字（需要辦理出生證明了），估計很多人都像我一樣，剛開始是很慌亂的，雖然感覺漢字非常的多隨便找個字做名字都行，後來才發現真不是隨便的事情，怎麼想都發現不合適，於是到處翻字典、網上搜、翻唐詩宋詞、詩經、甚至武俠小說，然而想了很久得到的名字，往往卻受到家屬的意見和反對，比如不順口、和親戚重名重音等問題，這樣就陷入了重複尋找和否定的循環，越來越混亂。

於是我們再次回到網上各種搜索，找到很多網上給出的“男寶寶好聽的名字大全”之類的文章，這些文章一下子給出幾百上千個名字，看的眼花撩亂沒法使用。而有不少的測名字的網站或者APP，輸入名字能給八字或者五格的評分，這樣的功能感覺還挺好的能給個參考，然而要么我們需要一個個名字的輸入進行測試、要么這些網站或是APP自身的名字很少、要嘛無法滿足我們的需求比如限定字、要嘛就開始收費，到最後也找不到一個好用的。

於是我想做這麼一個程式：

主要的功能，是給批次名字提供參考，這些名字是結合寶寶的生辰八字算出來的；
自己可以擴充名字庫，例如網路上發現了一批詩經裡的好名字，想看看怎麼樣，加入進去就能用；
可以限定名字的使用字，例如有的家譜有限定，目前是「國」字輩，名字中必須有「國」字；
名字清單可以給予評分，這樣倒排後就可以從高分往低分來看名字；

透過這種方式可以得到一份符合自己孩子生辰八字、自己的家譜限制、以及自己喜好的名字列表，並且該列表已經給出了分數用於參考，以此為基準我們可以挨個琢磨找出心儀的名字。當然如果有新的想法，隨時可以把新的名字加到詞庫裡面，重新計算。

程式的程式碼結構

利用Python爬蟲為孩子取個好名字

程式碼介紹：

/chinese-name-score 程式碼根目錄
/chinese-name-score/main 程式碼目錄
/chinese-name- score/main/dicts 字典檔案目錄
/chinese-name-score/main/dicts/names_boys_double.txt 字典文件，男孩的雙字名字
/chinese-name-score/main/dicts/names_boys_single.txt 字典文件，男孩的單字名稱
/chinese-name-score/main/dicts/names_girls_single. txt 字典文件，女孩的雙字名字
/chinese-name-score/main/dicts/names_grils_double.txt 字典文件，女孩的單字名字
/chinese-name-score/main/outputs 輸出資料目錄
/chinese-name-score/main/outputs/names_girls_source_wxy.txt 輸出的範例檔案
/chinese-name-score/main/scripts 一些對字典檔案做預處理的腳本
/chinese-name-score/main/scripts /unique_file_lines.py 設定字典文件，對字典中的名字去重和去空白行
/chinese-name-score/main/sys_config.py 程式的系統配置，包含爬取得目標URL、字典檔案路徑
/chinese-name-score/main/user_config.py 程式的使用者配置，包括寶寶的年月日時分性別等設定
/chinese-name-score/main/get_name_score.py 程式的運行入口

使用程式碼的方法：

如果沒有限定字，就找到字典文件names_boys_double.txt和names_grils_double.txt，可以在這裡添加自己找到的一些名字列表，按行分割添加在最後即可；
如果有限定字，就找到字典文件names_boys_single.txt和names_girls_single.txt，在這裡添加自己預先中意的單字列表，按行分割添加在最後即可；
開啟user_config.py，進行配置，配置項目見下一節；
運行腳本get_name_score.py
在outputs目錄中，檢視自己的產出文件，可以複製到Excel，進行排序等操作；

程式的設定入口

程式的配置如下：

# coding:GB18030
 
"""
在这里写好配置
"""
 
setting = {}
 
# 限定字，如果配置了该值，则会取用单字字典，否则取用多字字典
setting["limit_world"] = "国"
# 姓
setting["name_prefix"] = "李"
# 性别，取值为 男 或者 女
setting["sex"] = "男"
# 省份
setting["area_province"] = "北京"
# 城市
setting["area_region"] = "海淀"
# 出生的公历年份
setting[&#39;year&#39;] = "2017"
# 出生的公历月份
setting[&#39;month&#39;] = "1"
# 出生的公历日子
setting[&#39;day&#39;] = "11"
# 出生的公历小时
setting[&#39;hour&#39;] = "11"
# 出生的公历分钟
setting[&#39;minute&#39;] = "11"
# 结果产出文件名称
setting[&#39;output_fname&#39;] = "names_girls_source_xxx.txt"

登入後複製

根據配置項setting[“limit_world”] ，系統自動來決定選用單字字典還是多字字典：

如果设置了该项，比如等于“国”，那么程序会组合所有的单字为名字用于计算，比如国浩和浩国两个名字都会计算；
如果不设置该项，保持空字符串，则程序只会读取*_double.txt的双字词典

程序的原理

这是一个简单的爬虫。大家可以打开http://www.php.cn/网站查看，这是一个POST表单，填写需要的参数，点提交，就会打开一个结果页面，结果页面的最下方包含了八字分数和五格分数。

如果想得到分数，就需要做两件事情，一是爬虫自动提交表单，获取结果页面；二是从结果页面提取分数；

对于第一件事情，很简单，urllib2即可实现（代码在/chinese-name-score/main/get_name_score.py）：

 post_data = urllib.urlencode(params)
 req = urllib2.urlopen(sys_config.REQUEST_URL, post_data)
 content = req.read()

登入後複製

这里的params是个参数dict，使用这种方式，就进行了POST带数据的提交，然后从content得到了结果数据。

params的参数设定如下：

 params = {}
 
 # 日期类型，0表示公历，1表示农历
 params[&#39;data_type&#39;] = "0"
 params[&#39;year&#39;] = "%s" % str(user_config.setting["year"])
 params[&#39;month&#39;] = "%s" % str(user_config.setting["month"])
 params[&#39;day&#39;] = "%s" % str(user_config.setting["day"])
 params[&#39;hour&#39;] = "%s" % str(user_config.setting["hour"])
 params[&#39;minute&#39;] = "%s" % str(user_config.setting["minute"])
 params[&#39;pid&#39;] = "%s" % str(user_config.setting["area_province"])
 params[&#39;cid&#39;] = "%s" % str(user_config.setting["area_region"])
 # 喜用五行，0表示自动分析，1表示自定喜用神
 params[&#39;wxxy&#39;] = "0"
 params[&#39;xing&#39;] = "%s" % (user_config.setting["name_prefix"])
 params[&#39;ming&#39;] = name_postfix
 # 表示女，1表示男
 if user_config.setting["sex"] == "男":
  params[&#39;sex&#39;] = "1"
 else:
  params[&#39;sex&#39;] = "0"
  
 params[&#39;act&#39;] = "submit"
 params[&#39;isbz&#39;] = "1"

登入後複製

第二件事情，就是从网页中提取需要的分数，我们可以使用BeautifulSoup4来实现，其语法也很简单：

 soup = BeautifulSoup(content, &#39;html.parser&#39;, from_encoding="GB18030")
 full_name = get_full_name(name_postfix)
 
 # print soup.find(string=re.compile(u"姓名五格评分"))
 for node in soup.find_all("p", class_="chaxun_b"):
  node_cont = node.get_text()
  if u&#39;姓名五格评分&#39; in node_cont:
   name_wuge = node.find(string=re.compile(u"姓名五格评分"))
   result_data[&#39;wuge_score&#39;] = name_wuge.next_sibling.b.get_text()
  
  if u&#39;姓名八字评分&#39; in node_cont:
   name_wuge = node.find(string=re.compile(u"姓名八字评分"))
   result_data[&#39;bazi_score&#39;] = name_wuge.next_sibling.b.get_text()

登入後複製

通过该方法，就能对HTML解析，提取八字和五格的分数。

运行结果事例

1/1287 李国锦 姓名八字评分=61.5 姓名五格评分=78.6 总分=140.1
2/1287 李国铁 姓名八字评分=61 姓名五格评分=89.7 总分=150.7
3/1287 李国晶 姓名八字评分=21 姓名五格评分=81.6 总分=102.6
4/1287 李鸣国 姓名八字评分=21 姓名五格评分=90.3 总分=111.3
5/1287 李柔国 姓名八字评分=64 姓名五格评分=78.3 总分=142.3
6/1287 李国经 姓名八字评分=21 姓名五格评分=89.8 总分=110.8
7/1287 李国蒂 姓名八字评分=22 姓名五格评分=87.2 总分=109.2
8/1287 李国登 姓名八字评分=21 姓名五格评分=81.6 总分=102.6
9/1287 李略国 姓名八字评分=21 姓名五格评分=83.7 总分=104.7
10/1287 李国添 姓名八字评分=21 姓名五格评分=81.6 总分=102.6
11/1287 李国天 姓名八字评分=22 姓名五格评分=83.7 总分=105.7
12/1287 李国田 姓名八字评分=22 姓名五格评分=93.7 总分=115.7

登入後複製

有了这些分数，我们就可以进行排序，是一个很实用的参考资料。

友情提示