84669 personnes étudient
152542 personnes étudient
20005 personnes étudient
5487 personnes étudient
7821 personnes étudient
359900 personnes étudient
3350 personnes étudient
180660 personnes étudient
48569 personnes étudient
18603 personnes étudient
40936 personnes étudient
1549 personnes étudient
1183 personnes étudient
32909 personnes étudient
毕设项目需要爬取coursera的课程数据,已经把所有课程的url链接爬下来了,存在了txt中,一行是一个课程的url,现在想要获取每门课程的详细信息,如instructor,syllabus 和detail information这几项,但是都需要点进各个课程的网页链接中取爬取。码渣求大神指导一下,来段伪码就更好啦!thx
学习是最好的投资!
你好!不知道这是不是你想要的答案:
f = open("coursera.txt","r") urlList = f.readlines() for url in urlList: r = requests.get(url) ''''''
Good Luck ! ^_<
如果是爬取coursera的课程数据,建议你用scrapy爬取,这样不需要提前抓取所有课程的url,只要写好匹配url就行。
爬取coursera的课程数据
scrapy教程 http://scrapy-chs.readthedocs.org/zh_CN/0.24/intro/tutorial.html项目参考 https://github.com/Junnplus/OnlineJudgeCrawlerCore
你好!不知道这是不是你想要的答案:
Good Luck ! ^_<
如果是
爬取coursera的课程数据
,建议你用scrapy爬取,这样不需要提前抓取所有课程的url,只要写好匹配url就行。scrapy教程 http://scrapy-chs.readthedocs.org/zh_CN/0.24/intro/tutorial.html
项目参考 https://github.com/Junnplus/OnlineJudgeCrawlerCore