Correction status:Uncorrected
Teacher's comments:
第一次接触爬虫后,自己对爬虫的理解;
爬虫:就是抓取网页数据,模拟浏览器发送网络请求,接收请求响应,一种按照一定的规则,自动地抓取互联网信息的程序。原则上只要是浏览器或者客户端能做的,爬虫都能做。
利用网页三大特征进行爬虫:
第一:URL进行定位(锁定爬虫的目标);
第二:网页的源码(HTML+CSS+JavaScript);
第三:网页的传输协议(HTTP或HTTPS).
确定好爬虫目标就可以开始使用PHP中file();file_get_contents();curl()等函数方法进行爬虫的设定。
其中curl_setopt()函数方法可以对爬虫的数据获取进行设置,从而获取所需的数据(设置也是数据的筛选),此函数方法还可以进行模拟浏览器对服务器发出的post请求,因此获得Header区域内容。