Python编写诗词接龙程序-Python教程-PHP中文网

诗歌语料库

诗歌分句

诗歌接龙

测试运行

首页

后端开发

Python教程

Python编写诗词接龙程序

王林

May 08, 2023 am 09:04 AM

python

诗歌语料库

首先，我们利用Python爬虫来爬取诗歌，制作语料库。爬取的页面如下：

Python编写诗词接龙程序

爬取的诗歌

由于本文主要为试了展示该项目的思路，因此，只爬取了该页面中的唐诗三百首、古诗三百、宋词三百、宋词精选，一共大约1100多首诗歌。为了加速爬虫，采用并发实现爬虫，并保存到poem.txt文件。完整的Python程序如下：

import re
import requests
from bs4 import BeautifulSoup
from concurrent.futures import ThreadPoolExecutor, wait, ALL_COMPLETED

# 爬取的诗歌网址
urls = [&#39;https://so.gushiwen.org/gushi/tangshi.aspx&#39;,
       &#39;https://so.gushiwen.org/gushi/sanbai.aspx&#39;,
       &#39;https://so.gushiwen.org/gushi/songsan.aspx&#39;,
       &#39;https://so.gushiwen.org/gushi/songci.aspx&#39;
       ]

poem_links = []
# 诗歌的网址
for url in urls:
   # 请求头部
   headers = {: &#39;Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.87 Safari/537.36&#39;}
   req = requests.get(url, headers=headers)

   soup = BeautifulSoup(req.text, "lxml")
   content = soup.find_all(&#39;div&#39;, class_="sons")[0]
   links = content.find_all(&#39;a&#39;)

   for link in links:
       poem_links.append(&#39;https://so.gushiwen.org&#39;+link[&#39;href&#39;])

poem_list = []
# 爬取诗歌页面
def get_poem(url):
   #url = &#39;https://so.gushiwen.org/shiwenv_45c396367f59.aspx&#39;
   # 请求头部
   headers = {: &#39;Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.87 Safari/537.36&#39;}
   req = requests.get(url, headers=headers)
   soup = BeautifulSoup(req.text, "lxml")
   poem = soup.find(&#39;div&#39;, class_=&#39;contson&#39;).text.strip()
   poem = poem.replace(&#39; &#39;, &#39;&#39;)
   poem = re.sub(re.compile(r"([sS]*?)"), &#39;&#39;, poem)
   poem = re.sub(re.compile(r"（[sS]*?）"), &#39;&#39;, poem)
   poem = re.sub(re.compile(r"。([sS]*?）"), &#39;&#39;, poem)
   poem = poem.replace(&#39;!&#39;, &#39;！&#39;).replace(&#39;?&#39;, &#39;？&#39;)
   poem_list.append(poem)

# 利用并发爬取
executor = ThreadPoolExecutor(max_workers=10)  # 可以自己调整max_workers,即线程的个数
# submit()的参数： 第一个为函数， 之后为该函数的传入参数，允许有多个
future_tasks = [executor.submit(get_poem, url) for url in poem_links]
# 等待所有的线程完成，才进入后续的执行
wait(future_tasks, return_when=ALL_COMPLETED)

# 将爬取的诗句写入txt文件
poems = list(set(poem_list))
poems = sorted(poems, key=lambda x:len(x))
for poem in poems:
   poem = poem.replace(&#39;《&#39;,&#39;&#39;).replace(&#39;》&#39;,&#39;&#39;) 
              .replace(&#39;：&#39;, &#39;&#39;).replace(&#39;“&#39;, &#39;&#39;)
   print(poem)
   with open(&#39;F://poem.txt&#39;, &#39;a&#39;) as f:
       f.write(poem)
       f.write(&#39;
&#39;)

登录后复制

该程序爬取了1100多首诗歌，并将诗歌保存至poem.txt文件，形成我们的诗歌语料库。当然，这些诗歌并不能直接使用，需要清理数据，比如有些诗歌标点不规范，有些并不是诗歌，只是诗歌的序等等，这个过程需要人工操作，虽然稍显麻烦，但为了后面的诗歌分句效果，也是值得的。

诗歌分句

有了诗歌语料库，我们需要对诗歌进行分句，分句的标准为：按照结尾为。？！进行分句，这可以用正则表达式实现。之后，将分句好的诗歌写成字典：键（key）为该句首字的拼音，值（value）为该拼音对应的诗句，并将字典保存为pickle文件。完整的Python代码如下：

import re
import pickle
from xpinyin import Pinyin
from collections import defaultdict

def main():
   with open(&#39;F://poem.txt&#39;, &#39;r&#39;) as f:
       poems = f.readlines()

   sents = []
   for poem in poems:
       parts = re.findall(r&#39;[sS]*?[。？！]&#39;, poem.strip())
       for part in parts:
           if len(part) >= 5:
               sents.append(part)

   poem_dict = defaultdict(list)
   for sent in sents:
       print(part)
       head = Pinyin().get_pinyin(sent, tone_marks=&#39;marks&#39;, splitter=&#39; &#39;).split()[0]
       poem_dict[head].append(sent)

   with open(&#39;./poemDict.pk&#39;, &#39;wb&#39;) as f:
       pickle.dump(poem_dict, f)

main()

登录后复制

我们可以看一下该pickle文件（poemDict.pk）的内容：

Python编写诗词接龙程序

pickle文件的内容（部分）

当然，一个拼音可以对应多个诗歌。

诗歌接龙

读取pickle文件，编写程序，以exe文件形式运行该程序。为了能够在编译形成exe文件的时候不出错，我们需要改写xpinyin模块的init.py文件，将该文件的全部代码复制至mypinyin.py，并将代码中的下面这句代码

data_path = os.path.join(os.path.dirname(os.path.abspath(__file__)),
                            &#39;Mandarin.dat&#39;)

登录后复制

改写为

data_path = os.path.join(os.getcwd(), &#39;Mandarin.dat&#39;)

登录后复制

这样我们就完成了mypinyin.py文件。接下来，我们需要编写诗歌接龙的代码（Poem_Jielong.py），完整代码如下：

import pickle
from mypinyin import Pinyin
import random
import ctypes

STD_INPUT_HANDLE = -10
STD_OUTPUT_HANDLE = -11
STD_ERROR_HANDLE = -12

FOREGROUND_DARKWHITE = 0x07  # 暗白色
FOREGROUND_BLUE = 0x09  # 蓝色
FOREGROUND_GREEN = 0x0a  # 绿色
FOREGROUND_SKYBLUE = 0x0b  # 天蓝色
FOREGROUND_RED = 0x0c  # 红色
FOREGROUND_PINK = 0x0d  # 粉红色
FOREGROUND_YELLOW = 0x0e  # 黄色
FOREGROUND_WHITE = 0x0f  # 白色

std_out_handle = ctypes.windll.kernel32.GetStdHandle(STD_OUTPUT_HANDLE)

# 设置CMD文字颜色
def set_cmd_text_color(color, handle=std_out_handle):
   Bool = ctypes.windll.kernel32.SetConsoleTextAttribute(handle, color)
   return Bool

# 重置文字颜色为暗白色
def resetColor():
   set_cmd_text_color(FOREGROUND_DARKWHITE)

# 在CMD中以指定颜色输出文字
def cprint(mess, color):
   color_dict = {
                 : FOREGROUND_BLUE,
                 : FOREGROUND_GREEN,
                 : FOREGROUND_SKYBLUE,
                 : FOREGROUND_RED,
                 : FOREGROUND_PINK,
                 : FOREGROUND_YELLOW,
                 : FOREGROUND_WHITE
                }
   set_cmd_text_color(color_dict[color])
   print(mess)
   resetColor()

color_list = [&#39;蓝色&#39;,&#39;绿色&#39;,&#39;天蓝色&#39;,&#39;红色&#39;,&#39;粉红色&#39;,&#39;黄色&#39;,&#39;白色&#39;]

# 获取字典
with open(&#39;./poemDict.pk&#39;, &#39;rb&#39;) as f:
   poem_dict = pickle.load(f)

#for key, value in poem_dict.items():
   #print(key, value)

MODE = str(input(&#39;Choose MODE(1 for 人工接龙, 2 for 机器接龙): &#39;))

while True:
   try:
       if MODE == &#39;1&#39;:
           enter = str(input(&#39;
请输入一句诗或一个字开始：&#39;))
           while enter != &#39;exit&#39;:
               test = Pinyin().get_pinyin(enter, tone_marks=&#39;marks&#39;, splitter=&#39; &#39;)
               tail = test.split()[-1]
               if tail not in poem_dict.keys():
                   cprint(&#39;无法接这句诗。
&#39;, &#39;红色&#39;)
                   MODE = 0
                   break
               else:
                   cprint(&#39;
机器回复：%s&#39;%random.sample(poem_dict[tail], 1)[0], random.sample(color_list, 1)[0])
                   enter = str(input(&#39;你的回复：&#39;))[:-1]

           MODE = 0

       if MODE == &#39;2&#39;:
           enter = input(&#39;
请输入一句诗或一个字开始：&#39;)

           for i in range(10):
               test = Pinyin().get_pinyin(enter, tone_marks=&#39;marks&#39;, splitter=&#39; &#39;)
               tail = test.split()[-1]
               if tail not in poem_dict.keys():
                   cprint(&#39;------>无法接下去了啦...&#39;, &#39;红色&#39;)
                   MODE = 0
                   break
               else:
                   answer = random.sample(poem_dict[tail], 1)[0]
                   cprint(&#39;（%d）--> %s&#39; % (i+1, answer), random.sample(color_list, 1)[0])
                   enter = answer[:-1]

           print(&#39;
（*****最多展示前10回接龙。*****）&#39;)
           MODE = 0

   except Exception as err:
       print(err)
   finally:
       if MODE not in [&#39;1&#39;,&#39;2&#39;]:
           MODE = str(input(&#39;
Choose MODE(1 for 人工接龙, 2 for 机器接龙): &#39;))

登录后复制

现在整个项目的结构如下（Mandarin.dat文件从xpinyin模块对应的文件夹下复制过来）：

Python编写诗词接龙程序

项目文件

切换至该文件夹，输入以下命令即可生成exe文件：

pyinstaller -F Poem_jielong.py

登录后复制

生成的exe文件为Poem_jielong.exe，位于该文件夹的dist文件夹下。为了能够让exe成功运行，需要将poemDict.pk和Mandarin.dat文件复制到dist文件夹下。

测试运行

运行Poem_jielong.exe文件，页面如下：

Python编写诗词接龙程序

exe文件开始页面

本项目的诗歌接龙有两种模式，一种为人工接龙，就是你先输入一句诗或一个字，然后就是计算机回复一句，你回复一句，负责诗歌接龙的规则；另一种模式为机器接龙，就是你先输入一句诗或一个字，机器会自动输出后面的接龙诗句（最多10个）。先测试人工接龙模式：

Python编写诗词接龙程序

人工接龙

再测试机器接龙模式：

Python编写诗词接龙程序

以上是Python编写诗词接龙程序的详细内容。更多信息请关注PHP中文网其他相关文章！

本站声明

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

热AI工具

热工具

热门话题

gmail邮箱登陆入口在哪里

7478

CakePHP 教程

1377

steam的账户名称是什么格式

win11激活密钥永久

NYT连接提示和答案

显示更多

Related knowledge

mysql 是否要付费 Apr 08, 2025 pm 05:36 PM

MySQL 有免费的社区版和收费的企业版。社区版可免费使用和修改，但支持有限，适合稳定性要求不高、技术能力强的应用。企业版提供全面商业支持，适合需要稳定可靠、高性能数据库且愿意为支持买单的应用。选择版本时考虑的因素包括应用关键性、预算和技术技能。没有完美的选项，只有最合适的方案，需根据具体情况谨慎选择。

mysql安装后怎么使用 Apr 08, 2025 am 11:48 AM

文章介绍了MySQL数据库的上手操作。首先，需安装MySQL客户端，如MySQLWorkbench或命令行客户端。1.使用mysql-uroot-p命令连接服务器，并使用root账户密码登录；2.使用CREATEDATABASE创建数据库，USE选择数据库；3.使用CREATETABLE创建表，定义字段及数据类型；4.使用INSERTINTO插入数据，SELECT查询数据，UPDATE更新数据，DELETE删除数据。熟练掌握这些步骤，并学习处理常见问题和优化数据库性能，才能高效使用MySQL。

mySQL下载完安装不了 Apr 08, 2025 am 11:24 AM

MySQL安装失败的原因主要有：1.权限问题，需以管理员身份运行或使用sudo命令；2.依赖项缺失，需安装相关开发包；3.端口冲突，需关闭占用3306端口的程序或修改配置文件；4.安装包损坏，需重新下载并验证完整性；5.环境变量配置错误，需根据操作系统正确配置环境变量。解决这些问题，仔细检查每个步骤，就能顺利安装MySQL。

mysql下载文件损坏无法安装的修复方案 Apr 08, 2025 am 11:21 AM

MySQL下载文件损坏，咋整？哎，下载个MySQL都能遇到文件损坏，这年头真是不容易啊！这篇文章就来聊聊怎么解决这个问题，让大家少走弯路。读完之后，你不仅能修复损坏的MySQL安装包，还能对下载和安装过程有更深入的理解，避免以后再踩坑。先说说为啥下载文件会损坏这原因可多了去了，网络问题是罪魁祸首，下载过程中断、网络不稳定都可能导致文件损坏。还有就是下载源本身的问题，服务器文件本身就坏了，你下载下来当然也是坏的。另外，一些杀毒软件过度“热情”的扫描也可能造成文件损坏。诊断问题：确定文件是否真的损坏

mysql 需要互联网吗 Apr 08, 2025 pm 02:18 PM

MySQL 可在无需网络连接的情况下运行，进行基本的数据存储和管理。但是，对于与其他系统交互、远程访问或使用高级功能（如复制和集群）的情况，则需要网络连接。此外，安全措施（如防火墙）、性能优化（选择合适的网络连接）和数据备份对于连接到互联网的 MySQL 数据库至关重要。

如何针对高负载应用程序优化 MySQL 性能？ Apr 08, 2025 pm 06:03 PM

MySQL数据库性能优化指南在资源密集型应用中，MySQL数据库扮演着至关重要的角色，负责管理海量事务。然而，随着应用规模的扩大，数据库性能瓶颈往往成为制约因素。本文将探讨一系列行之有效的MySQL性能优化策略，确保您的应用在高负载下依然保持高效响应。我们将结合实际案例，深入讲解索引、查询优化、数据库设计以及缓存等关键技术。1.数据库架构设计优化合理的数据库架构是MySQL性能优化的基石。以下是一些核心原则：选择合适的数据类型选择最小的、符合需求的数据类型，既能节省存储空间，又能提升数据处理速度

MySQL安装后服务无法启动的解决办法 Apr 08, 2025 am 11:18 AM

MySQL拒启动？别慌，咱来排查！很多朋友安装完MySQL后，发现服务死活启动不了，心里那个急啊！别急，这篇文章带你从容应对，揪出幕后黑手！读完后，你不仅能解决这个问题，还能提升对MySQL服务的理解，以及排查问题的思路，成为一名更强大的数据库管理员！MySQL服务启动失败，原因五花八门，从简单的配置错误到复杂的系统问题都有可能。咱们先从最常见的几个方面入手。基础知识：服务启动流程简述MySQL服务启动，简单来说，就是操作系统加载MySQL相关的文件，然后启动MySQL守护进程。这其中涉及到配置

mysql安装后怎么优化数据库性能 Apr 08, 2025 am 11:36 AM

MySQL性能优化需从安装配置、索引及查询优化、监控与调优三个方面入手。1.安装后需根据服务器配置调整my.cnf文件，例如innodb_buffer_pool_size参数，并关闭query_cache_size；2.创建合适的索引，避免索引过多，并优化查询语句，例如使用EXPLAIN命令分析执行计划；3.利用MySQL自带监控工具(SHOWPROCESSLIST,SHOWSTATUS)监控数据库运行状况，定期备份和整理数据库。通过这些步骤，持续优化，才能提升MySQL数据库性能。

See all articles

Python编写诗词接龙程序

诗歌语料库

诗歌分句

诗歌接龙

测试运行

热AI工具

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

AI Hentai Generator

热门文章

热工具

记事本++7.3.1

SublimeText3汉化版

禅工作室 13.0.1

Dreamweaver CS6

SublimeText3 Mac版

热门话题