Gemeinschaft

Lernen

Tools-Bibliothek

KI-Tools

Freizeit

Deutsch

Heim > Backend-Entwicklung > PHP-Tutorial > javascript - Python逐行读取txt中的url文件并进行爬虫

javascript - Python逐行读取txt中的url文件并进行爬虫

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Freigeben： 2016-06-06 20:11:35

Original

1495 Leute haben es durchsucht

毕设项目需要爬取coursera的课程数据，已经把所有课程的url链接爬下来了，存在了txt中，一行是一个课程的url，现在想要获取每门课程的详细信息，如instructor，syllabus 和detail information这几项，但是都需要点进各个课程的网页链接中取爬取。码渣求大神指导一下，来段伪码就更好啦！thx

回复内容：

毕设项目需要爬取coursera的课程数据，已经把所有课程的url链接爬下来了，存在了txt中，一行是一个课程的url，现在想要获取每门课程的详细信息，如instructor，syllabus 和detail information这几项，但是都需要点进各个课程的网页链接中取爬取。码渣求大神指导一下，来段伪码就更好啦！thx

你好！不知道这是不是你想要的答案：

<code>f = open("coursera.txt","r")
urlList = f.readlines()
for url in urlList:
    r = requests.get(url)
    ''''''</code>

Nach dem Login kopieren

Good Luck ! ^_

如果是爬取coursera的课程数据，建议你用scrapy爬取，这样不需要提前抓取所有课程的url，只要写好匹配url就行。

scrapy教程 http://scrapy-chs.readthedocs.org/zh_CN/0.24/intro/tutorial.html
项目参考 https://github.com/Junnplus/OnlineJudgeCrawlerCore

Verwandte Etiketten：

html java javascript php python

Vorheriger Artikel：将数组转换成字符串存储有没有更好的方法或函数(字符串长度越小越好)？ Nächster Artikel：mail - PHP的SMTP发送邮件的标准类库

Erklärung dieser Website

Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn

Neueste Artikel des Autors

Wie LLMs funktionieren: Vorausbildung zu Nachtraining, neuronalen Netzwerken, Halluzinationen und Inferenz

2025-02-26 03:58:14
Ich kombinierte die Blockchain und die KI, um Kunst zu erzeugen. Hier ist das, was als nächstes geschah.

2025-02-26 03:38:10
Erweiterte schnelle Technik: Denkkette (COT)

2025-02-26 03:17:10
Wiederaufnahme der Augmented -Generation in SQLite

2025-02-26 02:49:09
So verwenden Sie eine mit LLM betriebene Kesselplatte zum Erstellen Ihrer eigenen Node.js-API

2025-02-26 01:08:13
LLMs für die Codierung im Jahr 2024: Preis, Leistung und der Kampf um das Beste

2025-02-26 00:46:10
Sehenssprachmodelle auffordern

2025-02-25 23:42:08
So messen Sie die Zuverlässigkeit der Reaktion eines Großsprachenmodells

2025-02-25 22:50:13
Eine Illusion des Lebens

2025-02-25 21:54:11
Wissenschaftler werden es ernst mit großen Sprachmodellen, die das menschliche Denken widerspiegeln

2025-02-25 20:45:11

Aktuelle Ausgaben

Erklären Sie, wie Sie das Caching in PHP implementieren.

2025-03-21 13:39:34
Wie verwenden Sie die DateTime -Klasse in PHP?

2025-03-21 13:38:34
Erläutern Sie den Zweck von Namespaces in PHP.

2025-03-21 13:37:19
Was ist der Unterschied zwischen Klon und __clone () in PHP?

2025-03-21 13:35:24
Wie verwenden Sie die Funktion spl_autoload_register ()?

2025-03-21 13:34:32

verwandte Themen

Mehr>

Beliebte Empfehlungen

Beliebte Tutorials

Mehr>

Verwandte Tutorials

Beliebte Empfehlungen

Aktuelle Kurse

Neueste Downloads

Mehr>

Web-Effekte

Quellcode der Website

Website-Materialien

Frontend-Vorlage