コミュニティ

学ぶ

ツールライブラリ

AIツール

レジャー

日本語

ホームページ > バックエンド開発 > PHPチュートリアル > javascript - Python逐行读取txt中的url文件并进行爬虫

javascript - Python逐行读取txt中的url文件并进行爬虫

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

リリース： 2016-06-06 20:11:35

オリジナル

1500 人が閲覧しました

毕设项目需要爬取coursera的课程数据，已经把所有课程的url链接爬下来了，存在了txt中，一行是一个课程的url，现在想要获取每门课程的详细信息，如instructor，syllabus 和detail information这几项，但是都需要点进各个课程的网页链接中取爬取。码渣求大神指导一下，来段伪码就更好啦！thx

回复内容：

毕设项目需要爬取coursera的课程数据，已经把所有课程的url链接爬下来了，存在了txt中，一行是一个课程的url，现在想要获取每门课程的详细信息，如instructor，syllabus 和detail information这几项，但是都需要点进各个课程的网页链接中取爬取。码渣求大神指导一下，来段伪码就更好啦！thx

你好！不知道这是不是你想要的答案：

<code>f = open("coursera.txt","r")
urlList = f.readlines()
for url in urlList:
    r = requests.get(url)
    ''''''</code>

ログイン後にコピー

Good Luck ! ^_

如果是爬取coursera的课程数据，建议你用scrapy爬取，这样不需要提前抓取所有课程的url，只要写好匹配url就行。

scrapy教程 http://scrapy-chs.readthedocs.org/zh_CN/0.24/intro/tutorial.html
项目参考 https://github.com/Junnplus/OnlineJudgeCrawlerCore

関連ラベル：

html java javascript php python

前の記事：将数组转换成字符串存储有没有更好的方法或函数(字符串长度越小越好)？次の記事：mail - PHP的SMTP发送邮件的标准类库

このウェブサイトの声明

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

著者別の最新記事

LLMSの仕組み：トレーニング後、ニューラルネットワーク、幻覚、推論への事前トレーニング

2025-02-26 03:58:14
ブロックチェーンとAIを組み合わせてアートを生成しました。次に何が起こったのか。

2025-02-26 03:38:10
高度なプロンプトエンジニアリング：思考チェーン（COT）

2025-02-26 03:17:10
SQLiteでの検索拡張生成

2025-02-26 02:49:09
独自のnode.js APIを構築するためにLLM駆動のボイラープレートを使用する方法

2025-02-26 01:08:13
2024年のコーディングのためのLLMS：価格、パフォーマンス、そして最高の戦い

2025-02-26 00:46:10
ビジョン言語モデルを促します

2025-02-25 23:42:08
大手言語モデルの応答の信頼性を測定する方法

2025-02-25 22:50:13
人生の幻想

2025-02-25 21:54:11
科学者は人間の思考を反映する大きな言語モデルに真剣に取り組む

2025-02-25 20:45:11

最新の問題

PHPでfilter_validate_*およびfilter_sanitize_*フィルターをどのように使用しますか？

2025-03-26 12:24:37
PHPアプリケーションを展開するためのベストプラクティスは何ですか？

2025-03-26 12:20:46
PHPでキャッシュを実装する方法を説明します。

2025-03-21 13:39:34
PHPでDateTimeクラスをどのように使用しますか？

2025-03-21 13:38:34
PHPの名前空間の目的を説明します。

2025-03-21 13:37:19

関連トピック

詳細>

人気のおすすめ

人気のチュートリアル

詳細>

関連するチュートリアル

人気のおすすめ

最新のコース

最新のダウンロード

詳細>

ウェブエフェクト

公式サイト

サイト素材

フロントエンドテンプレート