84669 Lernen von Personen
152542 Lernen von Personen
20005 Lernen von Personen
5487 Lernen von Personen
7821 Lernen von Personen
359900 Lernen von Personen
3350 Lernen von Personen
180660 Lernen von Personen
48569 Lernen von Personen
18603 Lernen von Personen
40936 Lernen von Personen
1549 Lernen von Personen
1183 Lernen von Personen
32909 Lernen von Personen
毕设项目需要爬取coursera的课程数据,已经把所有课程的url链接爬下来了,存在了txt中,一行是一个课程的url,现在想要获取每门课程的详细信息,如instructor,syllabus 和detail information这几项,但是都需要点进各个课程的网页链接中取爬取。码渣求大神指导一下,来段伪码就更好啦!thx
学习是最好的投资!
你好!不知道这是不是你想要的答案:
f = open("coursera.txt","r") urlList = f.readlines() for url in urlList: r = requests.get(url) ''''''
Good Luck ! ^_<
如果是爬取coursera的课程数据,建议你用scrapy爬取,这样不需要提前抓取所有课程的url,只要写好匹配url就行。
爬取coursera的课程数据
scrapy教程 http://scrapy-chs.readthedocs.org/zh_CN/0.24/intro/tutorial.html项目参考 https://github.com/Junnplus/OnlineJudgeCrawlerCore
你好!不知道这是不是你想要的答案:
Good Luck ! ^_<
如果是
爬取coursera的课程数据
,建议你用scrapy爬取,这样不需要提前抓取所有课程的url,只要写好匹配url就行。scrapy教程 http://scrapy-chs.readthedocs.org/zh_CN/0.24/intro/tutorial.html
项目参考 https://github.com/Junnplus/OnlineJudgeCrawlerCore