怎么使用Python编写诗词接龙程序-Python教程-PHP中文网

诗歌语料库

诗歌分句

诗歌接龙

测试运行

首页

后端开发

Python教程

怎么使用Python编写诗词接龙程序

PHPz

May 13, 2023 pm 05:37 PM

python

诗歌语料库

首先，我们利用Python爬虫来爬取诗歌，制作语料库。爬取的页面如下：

怎么使用Python编写诗词接龙程序

爬取的诗歌

由于本文主要为试了展示该项目的思路，因此，只爬取了该页面中的唐诗三百首、古诗三百、宋词三百、宋词精选，一共大约1100多首诗歌。为了加速爬虫，采用并发实现爬虫，并保存到poem.txt文件。完整的Python程序如下：

import re
import requests
from bs4 import BeautifulSoup
from concurrent.futures import ThreadPoolExecutor, wait, ALL_COMPLETED

# 爬取的诗歌网址
urls = [&#39;https://so.gushiwen.org/gushi/tangshi.aspx&#39;,
       &#39;https://so.gushiwen.org/gushi/sanbai.aspx&#39;,
       &#39;https://so.gushiwen.org/gushi/songsan.aspx&#39;,
       &#39;https://so.gushiwen.org/gushi/songci.aspx&#39;
       ]

poem_links = []
# 诗歌的网址
for url in urls:
   # 请求头部
   headers = {: &#39;Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.87 Safari/537.36&#39;}
   req = requests.get(url, headers=headers)

   soup = BeautifulSoup(req.text, "lxml")
   content = soup.find_all(&#39;div&#39;, class_="sons")[0]
   links = content.find_all(&#39;a&#39;)

   for link in links:
       poem_links.append(&#39;https://so.gushiwen.org&#39;+link[&#39;href&#39;])

poem_list = []
# 爬取诗歌页面
def get_poem(url):
   #url = &#39;https://so.gushiwen.org/shiwenv_45c396367f59.aspx&#39;
   # 请求头部
   headers = {: &#39;Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.87 Safari/537.36&#39;}
   req = requests.get(url, headers=headers)
   soup = BeautifulSoup(req.text, "lxml")
   poem = soup.find(&#39;div&#39;, class_=&#39;contson&#39;).text.strip()
   poem = poem.replace(&#39; &#39;, &#39;&#39;)
   poem = re.sub(re.compile(r"([sS]*?)"), &#39;&#39;, poem)
   poem = re.sub(re.compile(r"（[sS]*?）"), &#39;&#39;, poem)
   poem = re.sub(re.compile(r"。([sS]*?）"), &#39;&#39;, poem)
   poem = poem.replace(&#39;!&#39;, &#39;！&#39;).replace(&#39;?&#39;, &#39;？&#39;)
   poem_list.append(poem)

# 利用并发爬取
executor = ThreadPoolExecutor(max_workers=10)  # 可以自己调整max_workers,即线程的个数
# submit()的参数： 第一个为函数， 之后为该函数的传入参数，允许有多个
future_tasks = [executor.submit(get_poem, url) for url in poem_links]
# 等待所有的线程完成，才进入后续的执行
wait(future_tasks, return_when=ALL_COMPLETED)

# 将爬取的诗句写入txt文件
poems = list(set(poem_list))
poems = sorted(poems, key=lambda x:len(x))
for poem in poems:
   poem = poem.replace(&#39;《&#39;,&#39;&#39;).replace(&#39;》&#39;,&#39;&#39;) 
              .replace(&#39;：&#39;, &#39;&#39;).replace(&#39;“&#39;, &#39;&#39;)
   print(poem)
   with open(&#39;F://poem.txt&#39;, &#39;a&#39;) as f:
       f.write(poem)
       f.write(&#39;
&#39;)

登录后复制

该程序爬取了1100多首诗歌，并将诗歌保存至poem.txt文件，形成我们的诗歌语料库。当然，这些诗歌并不能直接使用，需要清理数据，比如有些诗歌标点不规范，有些并不是诗歌，只是诗歌的序等等，这个过程需要人工操作，虽然稍显麻烦，但为了后面的诗歌分句效果，也是值得的。

诗歌分句

有了诗歌语料库，我们需要对诗歌进行分句，分句的标准为：按照结尾为。？！进行分句，这可以用正则表达式实现。之后，将分句好的诗歌写成字典：键（key）为该句首字的拼音，值（value）为该拼音对应的诗句，并将字典保存为pickle文件。完整的Python代码如下：

import re
import pickle
from xpinyin import Pinyin
from collections import defaultdict

def main():
   with open(&#39;F://poem.txt&#39;, &#39;r&#39;) as f:
       poems = f.readlines()

   sents = []
   for poem in poems:
       parts = re.findall(r&#39;[sS]*?[。？！]&#39;, poem.strip())
       for part in parts:
           if len(part) >= 5:
               sents.append(part)

   poem_dict = defaultdict(list)
   for sent in sents:
       print(part)
       head = Pinyin().get_pinyin(sent, tone_marks=&#39;marks&#39;, splitter=&#39; &#39;).split()[0]
       poem_dict[head].append(sent)

   with open(&#39;./poemDict.pk&#39;, &#39;wb&#39;) as f:
       pickle.dump(poem_dict, f)

main()

登录后复制

我们可以看一下该pickle文件（poemDict.pk）的内容：

怎么使用Python编写诗词接龙程序

pickle文件的内容（部分）

当然，一个拼音可以对应多个诗歌。

诗歌接龙

读取pickle文件，编写程序，以exe文件形式运行该程序。为了能够在编译形成exe文件的时候不出错，我们需要改写xpinyin模块的init.py文件，将该文件的全部代码复制至mypinyin.py，并将代码中的下面这句代码

data_path = os.path.join(os.path.dirname(os.path.abspath(__file__)),
                            &#39;Mandarin.dat&#39;)

登录后复制

改写为

data_path = os.path.join(os.getcwd(), &#39;Mandarin.dat&#39;)

登录后复制

这样我们就完成了mypinyin.py文件。接下来，我们需要编写诗歌接龙的代码（Poem_Jielong.py），完整代码如下：

import pickle
from mypinyin import Pinyin
import random
import ctypes

STD_INPUT_HANDLE = -10
STD_OUTPUT_HANDLE = -11
STD_ERROR_HANDLE = -12

FOREGROUND_DARKWHITE = 0x07  # 暗白色
FOREGROUND_BLUE = 0x09  # 蓝色
FOREGROUND_GREEN = 0x0a  # 绿色
FOREGROUND_SKYBLUE = 0x0b  # 天蓝色
FOREGROUND_RED = 0x0c  # 红色
FOREGROUND_PINK = 0x0d  # 粉红色
FOREGROUND_YELLOW = 0x0e  # 黄色
FOREGROUND_WHITE = 0x0f  # 白色

std_out_handle = ctypes.windll.kernel32.GetStdHandle(STD_OUTPUT_HANDLE)

# 设置CMD文字颜色
def set_cmd_text_color(color, handle=std_out_handle):
   Bool = ctypes.windll.kernel32.SetConsoleTextAttribute(handle, color)
   return Bool

# 重置文字颜色为暗白色
def resetColor():
   set_cmd_text_color(FOREGROUND_DARKWHITE)

# 在CMD中以指定颜色输出文字
def cprint(mess, color):
   color_dict = {
                 : FOREGROUND_BLUE,
                 : FOREGROUND_GREEN,
                 : FOREGROUND_SKYBLUE,
                 : FOREGROUND_RED,
                 : FOREGROUND_PINK,
                 : FOREGROUND_YELLOW,
                 : FOREGROUND_WHITE
                }
   set_cmd_text_color(color_dict[color])
   print(mess)
   resetColor()

color_list = [&#39;蓝色&#39;,&#39;绿色&#39;,&#39;天蓝色&#39;,&#39;红色&#39;,&#39;粉红色&#39;,&#39;黄色&#39;,&#39;白色&#39;]

# 获取字典
with open(&#39;./poemDict.pk&#39;, &#39;rb&#39;) as f:
   poem_dict = pickle.load(f)

#for key, value in poem_dict.items():
   #print(key, value)

MODE = str(input(&#39;Choose MODE(1 for 人工接龙, 2 for 机器接龙): &#39;))

while True:
   try:
       if MODE == &#39;1&#39;:
           enter = str(input(&#39;
请输入一句诗或一个字开始：&#39;))
           while enter != &#39;exit&#39;:
               test = Pinyin().get_pinyin(enter, tone_marks=&#39;marks&#39;, splitter=&#39; &#39;)
               tail = test.split()[-1]
               if tail not in poem_dict.keys():
                   cprint(&#39;无法接这句诗。
&#39;, &#39;红色&#39;)
                   MODE = 0
                   break
               else:
                   cprint(&#39;
机器回复：%s&#39;%random.sample(poem_dict[tail], 1)[0], random.sample(color_list, 1)[0])
                   enter = str(input(&#39;你的回复：&#39;))[:-1]

           MODE = 0

       if MODE == &#39;2&#39;:
           enter = input(&#39;
请输入一句诗或一个字开始：&#39;)

           for i in range(10):
               test = Pinyin().get_pinyin(enter, tone_marks=&#39;marks&#39;, splitter=&#39; &#39;)
               tail = test.split()[-1]
               if tail not in poem_dict.keys():
                   cprint(&#39;------>无法接下去了啦...&#39;, &#39;红色&#39;)
                   MODE = 0
                   break
               else:
                   answer = random.sample(poem_dict[tail], 1)[0]
                   cprint(&#39;（%d）--> %s&#39; % (i+1, answer), random.sample(color_list, 1)[0])
                   enter = answer[:-1]

           print(&#39;
（*****最多展示前10回接龙。*****）&#39;)
           MODE = 0

   except Exception as err:
       print(err)
   finally:
       if MODE not in [&#39;1&#39;,&#39;2&#39;]:
           MODE = str(input(&#39;
Choose MODE(1 for 人工接龙, 2 for 机器接龙): &#39;))

登录后复制

现在整个项目的结构如下（Mandarin.dat文件从xpinyin模块对应的文件夹下复制过来）：

怎么使用Python编写诗词接龙程序

项目文件

切换至该文件夹，输入以下命令即可生成exe文件：

pyinstaller -F Poem_jielong.py

登录后复制

生成的exe文件为Poem_jielong.exe，位于该文件夹的dist文件夹下。为了能够让exe成功运行，需要将poemDict.pk和Mandarin.dat文件复制到dist文件夹下。

测试运行

运行Poem_jielong.exe文件，页面如下：

怎么使用Python编写诗词接龙程序

exe文件开始页面

本项目的诗歌接龙有两种模式，一种为人工接龙，就是你先输入一句诗或一个字，然后就是计算机回复一句，你回复一句，负责诗歌接龙的规则；另一种模式为机器接龙，就是你先输入一句诗或一个字，机器会自动输出后面的接龙诗句（最多10个）。先测试人工接龙模式：

怎么使用Python编写诗词接龙程序

人工接龙

再测试机器接龙模式：

怎么使用Python编写诗词接龙程序

以上是怎么使用Python编写诗词接龙程序的详细内容。更多信息请关注PHP中文网其他相关文章！

本站声明

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

热AI工具

热工具

热门话题

gmail邮箱登陆入口在哪里

7460

CakePHP 教程

1376

steam的账户名称是什么格式

win11激活密钥永久

NYT连接提示和答案

显示更多

Related knowledge

PS一直显示正在载入是什么原因？ Apr 06, 2025 pm 06:39 PM

PS“正在载入”问题是由资源访问或处理问题引起的：硬盘读取速度慢或有坏道：使用CrystalDiskInfo检查硬盘健康状况并更换有问题的硬盘。内存不足：升级内存以满足PS对高分辨率图片和复杂图层处理的需求。显卡驱动程序过时或损坏：更新驱动程序以优化PS和显卡之间的通信。文件路径过长或文件名有特殊字符：使用简短的路径和避免使用特殊字符。PS自身问题：重新安装或修复PS安装程序。

PS启动时一直显示正在载入如何解决？ Apr 06, 2025 pm 06:36 PM

PS启动时卡在“正在载入”可能是由于各种原因造成的：禁用损坏或冲突的插件。删除或重命名损坏的配置文件。关闭不必要的程序或升级内存，避免内存不足。升级到固态硬盘，加快硬盘读取速度。重装PS修复损坏的系统文件或安装包问题。查看错误日志分析启动过程中的错误信息。

PS打开文件时一直显示正在载入如何解决？ Apr 06, 2025 pm 06:33 PM

PS打开文件时出现“正在载入”卡顿，原因可能包括：文件过大或损坏、内存不足、硬盘速度慢、显卡驱动问题、PS版本或插件冲突。解决方法依次为：检查文件大小和完整性、增加内存、升级硬盘、更新显卡驱动、卸载或禁用可疑插件、重装PS。通过逐步排查，并善用PS的性能设置，养成良好的文件管理习惯，可以有效解决该问题。

mysql安装后怎么使用 Apr 08, 2025 am 11:48 AM

文章介绍了MySQL数据库的上手操作。首先，需安装MySQL客户端，如MySQLWorkbench或命令行客户端。1.使用mysql-uroot-p命令连接服务器，并使用root账户密码登录；2.使用CREATEDATABASE创建数据库，USE选择数据库；3.使用CREATETABLE创建表，定义字段及数据类型；4.使用INSERTINTO插入数据，SELECT查询数据，UPDATE更新数据，DELETE删除数据。熟练掌握这些步骤，并学习处理常见问题和优化数据库性能，才能高效使用MySQL。

PS羽化如何控制过渡的柔和度？ Apr 06, 2025 pm 07:33 PM

羽化控制的关键在于理解其渐变本质。PS本身不提供直接控制渐变曲线的选项，但你可以通过多次羽化、配合蒙版、精细选区，灵活调整半径和渐变柔和度，实现自然过渡效果。

mysql 是否要付费 Apr 08, 2025 pm 05:36 PM

MySQL 有免费的社区版和收费的企业版。社区版可免费使用和修改，但支持有限，适合稳定性要求不高、技术能力强的应用。企业版提供全面商业支持，适合需要稳定可靠、高性能数据库且愿意为支持买单的应用。选择版本时考虑的因素包括应用关键性、预算和技术技能。没有完美的选项，只有最合适的方案，需根据具体情况谨慎选择。

mysql安装后怎么优化数据库性能 Apr 08, 2025 am 11:36 AM

MySQL性能优化需从安装配置、索引及查询优化、监控与调优三个方面入手。1.安装后需根据服务器配置调整my.cnf文件，例如innodb_buffer_pool_size参数，并关闭query_cache_size；2.创建合适的索引，避免索引过多，并优化查询语句，例如使用EXPLAIN命令分析执行计划；3.利用MySQL自带监控工具(SHOWPROCESSLIST,SHOWSTATUS)监控数据库运行状况，定期备份和整理数据库。通过这些步骤，持续优化，才能提升MySQL数据库性能。

PS卡在载入界面怎么办？ Apr 06, 2025 pm 06:54 PM

PS卡在载入界面可能是由软件自身（文件损坏或插件冲突）、系统环境（驱动过时或系统文件损坏）或硬件（硬盘损坏或内存条故障）问题造成的。首先检查计算机资源是否充足，关闭后台程序释放内存和CPU资源。修复PS安装或检查插件是否存在兼容性问题。更新或回退PS版本。检查显卡驱动并更新，运行系统文件检查。若排除上述问题，则可以尝试硬盘检测和内存测试。

See all articles

怎么使用Python编写诗词接龙程序

诗歌语料库

诗歌分句

诗歌接龙

测试运行

热AI工具

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

AI Hentai Generator

热门文章

热工具

记事本++7.3.1

SublimeText3汉化版

禅工作室 13.0.1

Dreamweaver CS6

SublimeText3 Mac版

热门话题