재미있는 재미 - '삼국지'에서 Python을 사용하여 소셜 네트워크 분석
저는 항상 자연어 처리와 소셜 네트워크 분석에 관심이 있었습니다. 전자는 텍스트에서 많은 발견을 하는 데 도움이 되고 후자는 사람 간의 관계를 이해하는 데 도움이 됩니다. 유비쿼터스 네트워크와 같은 연결에 대한 인식이 높아졌습니다. 이 둘이 합쳐지면 어떤 마법이 생길까요? 삼국지 팬으로서 저는 이런 생각을 했습니다. '삼국지'에 등장하는 등장인물의 소셜 네트워크를 텍스트 처리 방법으로 얻은 다음 분석할 수 있을까요? Python에는 내 호기심 많은 아이디어를 구현하는 데 도움이 되는 좋은 도구가 많이 있습니다. 지금 시작해 보겠습니다.
준비
'3인의 로맨스' 텍스트 가져오기 왕국"# 🎜🎜#.
chapters = get_sanguo() # 文本列表,每个元素为一章的文本print(chapters[0][:106])第一回 宴桃园豪杰三结义 斩黄巾英雄首立功滚滚长江东逝水,浪花淘尽英雄。是非成败转头空。青山依旧在,几度夕阳红。白发渔樵江渚上,惯看秋月春风。一壶浊酒喜相逢。古今多少事,都付笑谈中
entity_mention_dict, entity_type_dict = get_sanguo_entity_dict() print("刘备的指称有:",entity_mention_dict["刘备"] 刘备的指称有: [ 刘备 , 刘玄德 , 玄德 , 使君 ]
print("刘备的类型为",entity_type_dict["刘备"]) print("蜀的类型为",entity_type_dict["蜀"]) print("蜀的指称有",entity_mention_dict["蜀"]) 刘备的类型为 人名 蜀的类型为 势力 蜀的指称有 [ 蜀 , 蜀汉 ]
ht = HarvestText()ht.add_entities(entity_mention_dict, entity_type_dict) # 加载模型print(ht.seg("誓毕,拜玄德为兄,关羽次之,张飞为弟。",standard_name=True))[ 誓毕 , , , 拜 , 刘备 , 为兄 , , , 关羽 , 次之 , , , 张飞 , 为弟 , 。 ]
소셜 네트워크 구축
참조를 표준 엔터티 이름으로 성공적으로 통합한 후 삼국지의 소셜 네트워크 탐색을 시작할 수 있습니다. . 이를 확립하는 구체적인 방법은 이웃 동시발생 관계를 이용하는 것입니다. 한 쌍의 개체가 두 문장에 함께 나타날 때마다 가장자리를 추가합니다. 그러면 네트워크 구축의 전체 과정은 아래 그림과 같습니다.# 准备工作 doc = chapters[0].replace("操","曹操") # 由于有时使用缩写,这里做一个微调 ch1_sentences = ht.cut_sentences(doc) # 分句 doc_ch01 = [ch1_sentences[i]+ch1_sentences[i+1] for i in range(len(ch1_sentences)-1)] #获得所有的二连句 ht.set_linking_strategy("freq") # 建立网络 G = ht.build_entity_graph(doc_ch01, used_types=["人名"]) # 对所有人物建立网络,即社交网络 # 挑选主要人物画图 important_nodes = [node for node in G.nodes if G.degree[node]>=5] G_sub = G.subgraph(important_nodes).copy() draw_graph(G_sub,alpha=0.5,node_scale=30,figsize=(6,4))
stopwords = get_baidu_stopwords() #过滤停用词以提高质量for i,doc in enumerate(ht.get_summary(doc_ch01, topK=3, stopwords=stopwords)): print(i,doc)玄德见皇甫嵩、朱儁,具道卢植之意。嵩曰:“张梁、张宝势穷力乏,必投广宗去依张角。时张角贼众十五万,植兵五万,相拒于广宗,未见胜负。植谓玄德曰:“我今围贼在此,贼弟张梁、张宝在颍川,与皇甫嵩、朱儁对垒。次日,于桃园中,备下乌牛白马祭礼等项,三人焚香再拜而说誓曰:“念刘备、关羽、张飞,虽然异姓,既结为兄弟,则同心协力,
삼국전망도
G_chapters = []
전체 소셜 네트워크에는 무려 1,290명이 있고, 수만 개의 엣지가 있습니다! 그러면 우리가 그리는 것이 거의 불가능하므로 그 중에서 주요 인물을 선택하여 부분집합을 그려보겠습니다.
important_nodes = [node for node in G_global.nodes if G_global.degree[node]>=30]
from pyecharts import Graph
page_ranks = pd.Series(nx.algorithms.pagerank(G_global)).sort_values() page_ranks.tail(20).plot(kind="barh") plt.show()
结果的确和上面的排序有所不同,我们看到刘备、曹操、孙权、袁绍等主公都名列前茅。而另一个有趣的发现是,司马懿、司马昭、司马师父子三人同样榜上有名,而曹氏的其他后裔则不见其名,可见司马氏之权倾朝野。司马氏之心,似乎就这样被大数据揭示了出来! 社群发现 人物关系有亲疏远近,因此往往会形成一些集团。社交网络分析里的社区发现算法就能够让我们发现这些集团,让我使用community库[2]中的提供的算法来揭示这些关系吧。 在下面3个社区里,我们看到的主要是魏蜀吴三国重臣们。(只有一些小“问题”,有趣的是,电脑并不知道他们的所属势力,只是使用算法。) 还有一些其他社区。比如在这里,我们看到三国前期,孙坚、袁绍、董卓等主公们群雄逐鹿,好不热闹。 这个社区是三国后期的主要人物了。这个网络背后的故事,是司马氏两代三人打败姜维率领的蜀汉群雄,又扫除了曹魏内部的曹家势力,终于登上权力的顶峰。 动态网络 研究社交网络随时间的变化,是个很有意思的任务。而《三国演义》大致按照时间线叙述,且有着极长的时间跨度,顺着故事线往下走,社交网络会发生什么样的变化呢? 这里,我取10章的文本作为跨度,每5章记录一次当前跨度中的社交网络,就相当于留下一张快照,把这些快照连接起来,我们就能够看到一个社交网络变化的动画。快照还是用networkx得到,而制作动画,我们可以用moviepy。 江山代有才人出,让我们看看在故事发展的各个阶段,都是哪一群人活跃在舞台中央呢?import community # python-louvainpartition = community.best_partition(G_main) # Louvain算法划分社区comm_dict = defaultdict(list)for person in partition: comm_dict[partition[person]].append(person)
draw_community(2)
ommunity 2: 张辽 曹仁 夏侯惇 徐晃 曹洪 夏侯渊 张郃 许褚 乐进 李典 于禁 荀彧 刘晔 郭嘉 满宠 程昱 荀攸 吕虔 典韦 文聘 董昭 毛玠
draw_community(4)
community 4: 曹操 诸葛亮 刘备 关羽 赵云 张飞 马超 黄忠 许昌 孟达[魏] 孙乾
曹安民 刘璋 关平 庞德 法正 伊籍 张鲁 刘封 庞统 孟获 严颜 马良 简雍 蔡瑁
陶谦 孔融 刘琮[刘表子] 刘望之 夏侯楙 周仓 陈登
draw_community(3)
community 3: 孙权 孙策 周瑜 陆逊 吕蒙 丁奉 周泰 程普 韩当 徐盛 张昭[吴] 马相 黄盖[吴] 潘璋 甘宁 鲁肃 凌统 太史慈 诸葛瑾 韩吴郡 蒋钦 黄祖 阚泽 朱桓 陈武 吕范
draw_community(0)
community 0: 袁绍 吕布 刘表 袁术 董卓 李傕 贾诩 审配 孙坚 郭汜 陈宫 马腾
袁尚 韩遂 公孙瓒 高顺 许攸[袁绍] 臧霸 沮授 郭图 颜良 杨奉 张绣 袁谭 董承
文丑 何进 张邈[魏] 袁熙
draw_community(1)
community 1: 司马懿 魏延 姜维 张翼 马岱 廖化 吴懿 司马昭 关兴 吴班 王平
邓芝 邓艾 张苞[蜀] 马忠[吴] 费祎 谯周 马谡 曹真 曹丕 李恢 黄权 钟会 蒋琬
司马师 刘巴[蜀] 张嶷 杨洪 许靖 费诗 李严 郭淮 曹休 樊建 秦宓 夏侯霸 杨仪
高翔 张南[魏] 华歆 曹爽 郤正 许允[魏] 王朗[司徒] 董厥 杜琼 霍峻 胡济 贾充
彭羕 吴兰 诸葛诞 雷铜 孙綝 卓膺 费观 杜义 阎晏 盛勃 刘敏 刘琰 杜祺 上官雝
丁咸 爨习 樊岐 曹芳 周群
import moviepy.editor as mpy
from moviepy.video.io.bindings import mplfig_to_npimage
width, step = 10,5
range0 = range(0,len(G_chapters)-width+1,step)
numFrame, fps = len(range0), 1
duration = numFrame/fps
pos_global = nx.spring_layout(G_main)
def make_frame_mpl(t):
i = step*int(t*fps)
G_part = nx.Graph()
for G0 in G_chapters[i:i+width]:
for (u,v) in G0.edges:
if G_part.has_edge(u,v):
G_part[u][v]["weight"] += G0[u][v]["weight"]
else:
G_part.add_edge(u,v,weight=G0[u][v]["weight"])
largest_comp = max(nx.connected_components(G_part), key=len)
used_nodes = set(largest_comp) & set(G_main.nodes)
G = G_part.subgraph(used_nodes)
fig = plt.figure(figsize=(12,8),dpi=100)
nx.draw_networkx_nodes(G,pos_global,node_size=[G.degree[x]*10 for x in G.nodes])
# nx.draw_networkx_edges(G,pos_global)
nx.draw_networkx_labels(G,pos_global)
plt.xlim([-1,1])
plt.ylim([-1,1])
plt.axis("off")
plt.title(f"第{i+1}到第{i+width+1}章的社交网络")
return mplfig_to_npimage(fig)
animation = mpy.VideoClip(make_frame_mpl, duration=duration)
animation.write_gif("./images/三国社交网络变化.gif", fps=fps)
美观起见,动画中省略了网络中的边。
随着时间的变化,曾经站在历史舞台中央的人们也渐渐地会渐渐离开,让人不禁唏嘘感叹。正如《三国演义》开篇所言:
古今多少事,都付笑谈中。
今日,小辈利用python做的一番笑谈也就到此结束吧……
【推荐课程:Python视频教程】
위 내용은 재미있는 재미 - '삼국지'에서 Python을 사용하여 소셜 네트워크 분석의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

핫 AI 도구

Undresser.AI Undress
사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover
사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool
무료로 이미지를 벗다

Clothoff.io
AI 옷 제거제

Video Face Swap
완전히 무료인 AI 얼굴 교환 도구를 사용하여 모든 비디오의 얼굴을 쉽게 바꾸세요!

인기 기사

뜨거운 도구

메모장++7.3.1
사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전
중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기
강력한 PHP 통합 개발 환경

드림위버 CS6
시각적 웹 개발 도구

SublimeText3 Mac 버전
신 수준의 코드 편집 소프트웨어(SublimeText3)

PHP는 주로 절차 적 프로그래밍이지만 객체 지향 프로그래밍 (OOP)도 지원합니다. Python은 OOP, 기능 및 절차 프로그래밍을 포함한 다양한 패러다임을 지원합니다. PHP는 웹 개발에 적합하며 Python은 데이터 분석 및 기계 학습과 같은 다양한 응용 프로그램에 적합합니다.

PHP는 웹 개발 및 빠른 프로토 타이핑에 적합하며 Python은 데이터 과학 및 기계 학습에 적합합니다. 1.PHP는 간단한 구문과 함께 동적 웹 개발에 사용되며 빠른 개발에 적합합니다. 2. Python은 간결한 구문을 가지고 있으며 여러 분야에 적합하며 강력한 라이브러리 생태계가 있습니다.

PHP는 1994 년에 시작되었으며 Rasmuslerdorf에 의해 개발되었습니다. 원래 웹 사이트 방문자를 추적하는 데 사용되었으며 점차 서버 측 스크립팅 언어로 진화했으며 웹 개발에 널리 사용되었습니다. Python은 1980 년대 후반 Guidovan Rossum에 의해 개발되었으며 1991 년에 처음 출시되었습니다. 코드 가독성과 단순성을 강조하며 과학 컴퓨팅, 데이터 분석 및 기타 분야에 적합합니다.

Python은 부드러운 학습 곡선과 간결한 구문으로 초보자에게 더 적합합니다. JavaScript는 가파른 학습 곡선과 유연한 구문으로 프론트 엔드 개발에 적합합니다. 1. Python Syntax는 직관적이며 데이터 과학 및 백엔드 개발에 적합합니다. 2. JavaScript는 유연하며 프론트 엔드 및 서버 측 프로그래밍에서 널리 사용됩니다.

Sublime 텍스트로 Python 코드를 실행하려면 먼저 Python 플러그인을 설치 한 다음 .py 파일을 작성하고 코드를 작성한 다음 CTRL B를 눌러 코드를 실행하면 콘솔에 출력이 표시됩니다.

Visual Studio Code (VSCODE)에서 코드를 작성하는 것은 간단하고 사용하기 쉽습니다. vscode를 설치하고, 프로젝트를 만들고, 언어를 선택하고, 파일을 만들고, 코드를 작성하고, 저장하고 실행합니다. VSCODE의 장점에는 크로스 플랫폼, 무료 및 오픈 소스, 강력한 기능, 풍부한 확장 및 경량 및 빠른가 포함됩니다.

VS 코드는 파이썬을 작성하는 데 사용될 수 있으며 파이썬 애플리케이션을 개발하기에 이상적인 도구가되는 많은 기능을 제공합니다. 사용자는 다음을 수행 할 수 있습니다. Python 확장 기능을 설치하여 코드 완료, 구문 강조 및 디버깅과 같은 기능을 얻습니다. 디버거를 사용하여 코드를 단계별로 추적하고 오류를 찾아 수정하십시오. 버전 제어를 위해 git을 통합합니다. 코드 서식 도구를 사용하여 코드 일관성을 유지하십시오. 라인 도구를 사용하여 잠재적 인 문제를 미리 발견하십시오.

메모장에서 Python 코드를 실행하려면 Python 실행 파일 및 NPPEXEC 플러그인을 설치해야합니다. Python을 설치하고 경로를 추가 한 후 nppexec 플러그인의 명령 "Python"및 매개 변수 "{current_directory} {file_name}"을 구성하여 Notepad의 단축키 "F6"을 통해 Python 코드를 실행하십시오.
