84669 人学习
152542 人学习
20005 人学习
5487 人学习
7821 人学习
359900 人学习
3350 人学习
180660 人学习
48569 人学习
18603 人学习
40936 人学习
1549 人学习
1183 人学习
32909 人学习
爬虫从 Internet 中爬取众多的网页作为原始网页库存储于本地,然后网页分析器抽取网页中的主题内容交给分词器进行分词,得到的结果用索引器建立正排和倒排索引,这样就得到了索引数据库,用户查询时,在通过分词器切割输入的查询词组并通过检索器在索引数据库中进行查询,得到的结果返回给用户。
请问这里原始网页库是该怎么实现,是直接存到数据库里吗?还是什么形式?如果是存到数据库里,应该有哪些字段?
人生最曼妙的风景,竟是内心的淡定与从容!
雷雷
他这里的意思是抓取到的网页直接以文件的方式存放到本地磁盘
可以使用对象存储组件。
推荐大家使用下神箭手云爬虫( http://www.shenjianshou.cn ),完全在云上编写和执行爬虫,不需要配置任何开发环境,快速开发快速实现。
简单几行 javascript 就可以实现复杂的爬虫,同时提供很多功能函数:反反爬虫、 js 渲染、数据发布、图表分析、反防盗链等,这些在开发爬虫过程中经常会遇到的问题都由神箭手帮你解决。 采集到的数据:(1)可以选择发布到网站,如wecenterwordpressdiscuzdede帝国等cms系统(2)也可以发布到数据库(3)或者导出文件到本地具体设置都在“数据发布&导出”中
雷雷
他这里的意思是抓取到的网页直接以文件的方式存放到本地磁盘
可以使用对象存储组件。
推荐大家使用下神箭手云爬虫( http://www.shenjianshou.cn ),完全在云上编写和执行爬虫,不需要配置任何开发环境,快速开发快速实现。
简单几行 javascript 就可以实现复杂的爬虫,同时提供很多功能函数:反反爬虫、 js 渲染、数据发布、图表分析、反防盗链等,这些在开发爬虫过程中经常会遇到的问题都由神箭手帮你解决。
采集到的数据:
(1)可以选择发布到网站,如wecenterwordpressdiscuzdede帝国等cms系统
(2)也可以发布到数据库
(3)或者导出文件到本地
具体设置都在“数据发布&导出”中