闲来无事上知乎,看到好多妹子,于是抓取一波。
有没有兴趣??
目标网址
抓取分析
使用pandas操作文件
1 2 3 4 |
|
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
name = fp[
'name'
].tolist()
li1 = list(set(name))
li1
[
'阿蕾'
,
'杨面'
,
'陈10'
,
'杨顺顺'
,
'霧橤'
,
'真顺顺真'
,
'谢椿明'
,
'刀刀'
,
'水枪大帝'
,
'倾浅'
,
'Listening'
,
'小火龙'
,
'包子琛'
,
'杨笋笋'
,
'蜉蝣'
,
'十元'
,
'靡靡之音'
,
'Real机智张'
,
'陈梓小童鞋'
,
'花甲'
,
'窗里窗外'
,
'刘梓乔'
,
'璇璇97'
,
'Olivia菊香小姐姐'
,
'牛奶小夏目'
,
'周依宁'
,
'万阿咸'
,
'一蓑烟雨任平生'
,
'来都来了'
,
'就像周一'
,
'Mc蛋蛋'
,
'秉剑侯'
,
'李大梦Lee'
,
'Diss锐雯'
,
'雨音眞白'
,
'半仙幺幺'
,
'Natsuki是只蠢兔纸'
,
'夏冰莹'
,
'guuweihai'
,
'阿舞'
,
'肖柚妮'
,
'墨脱要开'
,
'芷珞'
,
'舒西婷'
,
'Childe0Q'
,
'被压扁的海螺'
,
'snow arc'
,
'灰灰灰灰灰plus'
,
'小兔子菲呀'
,
'士多啤梨羊咩咩'
,
'李小可可'
,
'谁来拽我的尾巴'
,
'飞鸽之舞'
,
'小美'
,
'樱雪绫sama'
,
'zshiyao'
,
'王漠里'
,
'Slivan'
,
'喵小虾'
,
'SUSAN苏'
,
'上官兰颜'
,
'这个杀手不太冷'
,
'看朱成碧纷思君'
,
'情绪'
,
'我系小忌廉'
,
'一只兔'
,
'June'
,
'我就想改名而已'
,
'温柔的大猫Leo'
,
'猫芙琳'
,
'以太'
,
'博丽魔理沙'
,
'洛丽塔'
,
'羽小团'
,
'娄良'
,
'Rosi'
,
'叶以北'
,
'吃不胖的小猫'
,
'Lina'
,
'ingrid'
,
'itttttx'
,
'胡杨'
,
'孙阿童'
,
'林美珍'
,
'赫蘿Taiga'
,
'宫曼曼'
,
'Yoonyicc'
,
'ZW711'
,
'笙箫'
,
'KIKI.Liu'
,
'另一只袜子'
,
'荒野大嫖客'
,
'少女诗'
,
'芸豆豆豆豆'
,
'璐璐噜'
,
'棹歌'
,
'梦里有只独角兽'
,
'Oo澄子oO'
,
'雷梅苔丝'
,
'CherryZhao'
,
'李萬一'
,
'琴脂'
,
'鹿斑比'
,
'Chris姬-云烟'
,
'hyoram'
,
'蔗蔗蔗'
,
'柚子Ruby'
,
'Sheena'
,
'孟德尔'
,
'kaka小师妹'
,
'桢视明'
,
'大豆苗'
,
'少女开膛手'
,
'陈诗茗'
]
登录后复制
那么,下一步就是对名字进行分词了,jieba分词,你值得拥有。fxsjy/jieba
1 2 3 4 |
|
下一步就是分词制作图云了
1
2
3
4
5
6
7
8
9
10
import jieba
seg_list = jieba.cut(li2)
word =
"/"
.join(seg_list)
(
"Full Mode: "
+
"/ "
.join(seg_list))
Building prefix dict from the
default
dictionary ...
Dumping model to file cache C:\Users\ADMINI~1\AppData\Local\Temp\jieba.cache
Loading model cost 1.148 seconds.
Prefix dict has been built succesfully.
Full Mode: 阿蕾/ 杨/ 面陈/ 10/ 杨/ 顺顺/ 霧/ 橤/ 真/ 顺顺/ 真/ 谢椿明/ 刀刀/ 水枪/ 大帝/ 倾浅/ Listening/ 小/ 火龙/ 包子/ 琛/ 杨笋/ 笋/ 蜉蝣/ 十元/ 靡靡之音/ Real/ 机智/ 张/ 陈梓/ 小/ 童鞋/ 花甲/ 窗里/ 窗外/ 刘梓乔/ 璇/ 璇/ 97Olivia/ 菊香/ 小姐姐/ 牛奶/ 小夏目/ 周依宁/ 万/ 阿/ 咸一/ 蓑/ 烟雨任/ 平生/ 来/ 都/ 来/ 了/ 就/ 像/ 周一/ Mc/ 蛋蛋/ 秉剑侯/ 李大梦/ LeeDiss/ 锐雯雨/ 音眞白/ 半仙/ 幺/ 幺/ Natsuki/ 是/ 只/ 蠢/ 兔纸/ 夏/ 冰莹/ guuweihai/ 阿舞/ 肖柚妮/ 墨脱/ 要/ 开芷/ 珞/ 舒西婷/ Childe0Q/ 被/ 压扁/ 的/ 海螺/ snow/ / arc/ 灰灰/ 灰灰/ 灰/ plus/ 小兔子/ 菲/ 呀/ 士多啤梨/ 羊/ 咩/ 咩/ 李小/ 可可/ 谁/ 来/ 拽/ 我/ 的/ 尾巴/ 飞鸽/ 之舞/ 小美/ 樱雪/ 绫/ samazshiyao/ 王漠/ 里/ Slivan/ 喵/ 小虾/ SUSAN/ 苏/ 上官/ 兰颜/ 这个/ 杀手/ 不/ 太冷/ 看朱成碧/ 纷思君/ 情绪/ 我系/ 小忌廉/ 一只/ 兔/ June/ 我/ 就/ 想/ 改名/ 而已/ 温柔/ 的/ 大猫/ Leo/ 猫/ 芙琳/ 以太/ 博丽/ 魔理沙/ 洛丽塔/ 羽小团/ 娄良/ Rosi/ 叶/ 以北/ 吃不胖/ 的/ 小猫/ Linaingriditttttx/ 胡杨/ 孙阿童/ 林美珍/ 赫蘿/ Taiga/ 宫曼曼/ YoonyiccZW711/ 笙箫/ KIKI/ ./ Liu/ 另一只/ 袜子/ 荒野/ 大/ 嫖客/ 少女/ 诗/ 芸豆/ 豆豆/ 豆璐璐噜/ 棹/ 歌梦里/ 有/ 只/ 独角兽/ Oo/ 澄子/ oO/ 雷梅/ 苔丝/ CherryZhao/ 李萬/ 一琴脂/ 鹿斑/ 比/ Chris/ 姬/ -/ 云烟/ hyoram/ 蔗蔗蔗/ 柚子/ RubySheena/ 孟德尔/ kaka/ 小/ 师妹/ 桢视/ 明大/ 豆苗/ 少女/ 开膛手/ 陈诗/ 茗
登录后复制
下一步绘制图云,用jupyter遇到了很多坑。。
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
<code># -*- coding: utf-8 -*-
import matplotlib.pyplot
as
plt
from wordcloud import WordCloud,STOPWORDS,ImageColorGenerator
# 直接从文件读取数据
text =
''
'阿蕾/杨/面陈/10/杨/顺顺/霧/橤/真/顺顺/真/谢椿明/刀刀/水枪/大帝/倾浅/Listening/小/火龙/包子/琛/杨笋/笋/蜉蝣/十元/靡靡之音/Real/机智/张/陈梓/小/童鞋/花甲/窗里/窗外/刘梓乔/璇/璇/97Olivia/菊香/小姐姐/牛奶/小夏目/周依宁/万/阿/咸一/蓑/烟雨任/平生/来/都/来/了/就/像/周一/Mc/蛋蛋/秉剑侯/李大梦/LeeDiss/锐雯雨/音眞白/半仙/幺/幺/Natsuki/是/只/蠢/兔纸/夏/冰莹/guuweihai/阿舞/肖柚妮/墨脱/要/开芷/珞/舒西婷/Childe0Q/被/压扁/的/海螺/snow/ /arc/灰灰/灰灰/灰/plus/小兔子/菲/呀/士多啤梨/羊/咩/咩/李小/可可/谁/来/拽/我/的/尾巴/飞鸽/之舞/小美/樱雪/绫/samazshiyao/王漠/里/Slivan/喵/小虾/SUSAN/苏/上官/兰颜/这个/杀手/不/太冷/看朱成碧/纷思君/情绪/我系/小忌廉/一只/兔/June/我/就/想/改名/而已/温柔/的/大猫/Leo/猫/芙琳/以太/博丽/魔理沙/洛丽塔/羽小团/娄良/Rosi/叶/以北/吃不胖/的/小猫/Linaingriditttttx/胡杨/孙阿童/林美珍/赫蘿/Taiga/宫曼曼/YoonyiccZW711/笙箫/KIKI/./Liu/另一只/袜子/荒野/大/嫖客/少女/诗/芸豆/豆豆/豆璐璐噜/棹/歌梦里/有/只/独角兽/Oo/澄子/oO/雷梅/苔丝/CherryZhao/李萬/一琴脂/鹿斑/比/Chris/姬/-/云烟/hyoram/蔗蔗蔗/柚子/RubySheena/孟德尔/kaka/小/师妹/桢视/明大/豆苗/少女/开膛手/陈诗/茗'
''
backgroud_Image = plt.imread(
'girl.jpg'
)
wc = WordCloud( background_color =
'white'
, # 设置背景颜色
mask = backgroud_Image, # 设置背景图片
max_words = 2000, # 设置最大现实的字数
stopwords = STOPWORDS, # 设置停用词
font_path =
'C:/Users/Windows/fonts/msyh.ttf'
,# 设置字体格式,如不设置显示不了中文
max_font_size = 300, # 设置字体最大值
random_state = 50, # 设置有多少种随机生成状态,即有多少种配色方案
)
wc.generate(text)
image_colors = ImageColorGenerator(backgroud_Image)
#wc.recolor(color_func = image_colors)
plt.imshow(wc)
plt.axis(
'off'
)
plt.show()</code><br><br>
登录后复制
1
2
3
4
5
6
7
8
9
10
11
0 陈诗茗
1 李大梦Lee
2 snow arc
3 夏冰莹
4 Sheena
5 喵小虾
6 李大梦Lee
7 李大梦Lee
8 以太
9 zshiyao
10 SUSAN苏
登录后复制
以上是Python爬妹子爱取的名字的详细内容。更多信息请关注PHP中文网其他相关文章!