communauté

Apprendre

Bibliothèque d'outils

Outils d'IA

Loisirs

Français

Maison > développement back-end > tutoriel php > javascript - Python逐行读取txt中的url文件并进行爬虫

javascript - Python逐行读取txt中的url文件并进行爬虫

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Libérer： 2016-06-06 20:11:35

original

1489 Les gens l'ont consulté

毕设项目需要爬取coursera的课程数据，已经把所有课程的url链接爬下来了，存在了txt中，一行是一个课程的url，现在想要获取每门课程的详细信息，如instructor，syllabus 和detail information这几项，但是都需要点进各个课程的网页链接中取爬取。码渣求大神指导一下，来段伪码就更好啦！thx

回复内容：

毕设项目需要爬取coursera的课程数据，已经把所有课程的url链接爬下来了，存在了txt中，一行是一个课程的url，现在想要获取每门课程的详细信息，如instructor，syllabus 和detail information这几项，但是都需要点进各个课程的网页链接中取爬取。码渣求大神指导一下，来段伪码就更好啦！thx

你好！不知道这是不是你想要的答案：

<code>f = open("coursera.txt","r")
urlList = f.readlines()
for url in urlList:
    r = requests.get(url)
    ''''''</code>

Copier après la connexion

Good Luck ! ^_

如果是爬取coursera的课程数据，建议你用scrapy爬取，这样不需要提前抓取所有课程的url，只要写好匹配url就行。

scrapy教程 http://scrapy-chs.readthedocs.org/zh_CN/0.24/intro/tutorial.html
项目参考 https://github.com/Junnplus/OnlineJudgeCrawlerCore

Étiquettes associées：

html java javascript php python

Article précédent：将数组转换成字符串存储有没有更好的方法或函数(字符串长度越小越好)？ Article suivant：mail - PHP的SMTP发送邮件的标准类库

Déclaration de ce site Web

Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn

Derniers articles par auteur

Comment fonctionnent les LLM: pré-formation à la formation post-formation, réseaux de neurones, hallucinations et inférence

2025-02-26 03:58:14
J'ai combiné la blockchain et l'IA pour générer de l'art. Voici ce qui s'est passé ensuite.

2025-02-26 03:38:10
Ingénierie rapide avancée: chaîne de pensée (COT)

2025-02-26 03:17:10
Génération augmentée augmentée de récupération dans SQLite

2025-02-26 02:49:09
Comment utiliser un chauffeur à propulsion LLM pour construire votre propre API Node.js

2025-02-26 01:08:13
LLMS pour le codage en 2024: prix, performance et bataille pour le meilleur

2025-02-26 00:46:10
Invitant les modèles de langue de vision

2025-02-25 23:42:08
Comment mesurer la fiabilité de la réponse d'un modèle grand

2025-02-25 22:50:13
Une illusion de la vie

2025-02-25 21:54:11
Les scientifiques vont sérieux au sujet de grands modèles de langue reflétant la pensée humaine

2025-02-25 20:45:11

Derniers numéros

python3.x - Java appelle python, le code python s'arrête automatiquement et la raison est introuvable

Depuis 1970-01-01 08:00:00

0

0

0

python - Existe-t-il des forums ou des livres pertinents sur le développement Web Python?

Depuis 1970-01-01 08:00:00

0

0

0

python - Rapport d'erreurs Ubuntu16.04 LXML

Depuis 1970-01-01 08:00:00

0

0

0

"Impossible d'installer mysql-python, erreur : mysql_config introuvable"

Depuis 1970-01-01 08:00:00

0

0

0

Comment intégrer du code Python dans HTML ?

Depuis 1970-01-01 08:00:00

0

0

0

Rubriques connexes

Plus>

Recommandations populaires

Tutoriels populaires

Plus>

Tutoriels associés

Recommandations populaires

Derniers cours

Derniers téléchargements

Plus>

effets Web

Code source du site Web

Matériel du site Web

Modèle frontal