Pythonを使用したYouku動画一括ダウンロード機能の実装例
前段时间由于收集视频数据的需要,自己捣鼓了一个YouKu视频批量下载的程序。东西虽然简单,但还挺实用的,拿出来分享给大家。
版本:Python2.7+BeautifulSoup3.2.1
import urllib,urllib2,sys,os from BeautifulSoup import BeautifulSoup import itertools,re url_i =1 pic_num = 1 #自己定义的引号格式转换函数 def _en_to_cn(str): obj = itertools.cycle(['“','”']) _obj = lambda x: obj.next() return re.sub(r"['\"]",_obj,str) if name == 'main': #下载连续3个网页的视频 while url_i <= 3: webContent = urllib2.urlopen("http://news.youku.com/focus/index/_page26716_" + str(url_i) + ".html") data = webContent.read() #利用BeautifulSoup读取视频列表网页数据 soup = BeautifulSoup(data) print "-------------------------Page " + str(url_i) + "-------------------------" #获得相应页面的视频thumbnail和title的list tag_list_thumb = soup.findAll('li','v_thumb') tag_list = soup.findAll('li', "v_title") for item in tag_list: #通过每个thumbnail中的herf导向视频播放页面 web_video_play = urllib2.urlopen(item.a['href']) data_vp = web_video_play.read() #利用BeautifulSoup读取视频播放网页数据 soup_vp = BeautifulSoup(data_vp) #找到“下载”对应的链接 tag_vp_list = soup_vp.findAll('a', id = 'fn_download') for item_vp in tag_vp_list: #将下载链接保存到url_dw中 url_dw = '"' + item_vp['_href'] + '"' print item.a['title'] + ": " + url_dw #调用命令行运行iku下载视频,需将iku加入环境变量 os.system("iku " + url_dw) #保存每个视频的thumbnail for item_thumb in tag_list_thumb: urllib.urlretrieve(item_thumb.img['src'], "E:\\下载视频\\thumbnails\\" + str(pic_num) + "." + _en_to_cn(item_thumb.img['title']) + ".jpg") pic_num += 1 print "--------------------------------------------------------------" print "--------Page " + str(url_i) + "'s video thumbnails have been saved!" url_i += 1
程序思想很简单,就是通过解析网页数据找到相应的视频播放网页链接,然后根据播放页面找到下载的链接,如下图所示:
由于从网页数据中获得的下载链接是必须通过youku自己的iku才能下载的。这一点费了我一番周折,侥幸发现iku这个软件的命令行非常简单(直接iku download_link即可),所以最简单的办法就是利用Python中的命令行接口os.system来调用iku来下载视频。另外注意程序运行之前需要先启动iku,否则下载完一个视频就要再启动一次。
PS:下载视频的时候就会发现,国内这些视频网页做的真的不够精细,含有太多的重复链接和坏死链接,小小鄙视一下。
以上がPythonを使用したYouku動画一括ダウンロード機能の実装例の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

AI Hentai Generator
AIヘンタイを無料で生成します。

人気の記事

ホットツール

メモ帳++7.3.1
使いやすく無料のコードエディター

SublimeText3 中国語版
中国語版、とても使いやすい

ゼンドスタジオ 13.0.1
強力な PHP 統合開発環境

ドリームウィーバー CS6
ビジュアル Web 開発ツール

SublimeText3 Mac版
神レベルのコード編集ソフト(SublimeText3)

ホットトピック









LinuxターミナルでPythonバージョンを表示する際の許可の問題の解決策PythonターミナルでPythonバージョンを表示しようとするとき、Pythonを入力してください...

PythonのPandasライブラリを使用する場合、異なる構造を持つ2つのデータフレーム間で列全体をコピーする方法は一般的な問題です。 2つのデータがあるとします...

10時間以内にコンピューター初心者プログラミングの基本を教える方法は?コンピューター初心者にプログラミングの知識を教えるのに10時間しかない場合、何を教えることを選びますか...

fiddlereveryversings for the-middleの測定値を使用するときに検出されないようにする方法

UvicornはどのようにしてHTTPリクエストを継続的に聞きますか? Uvicornは、ASGIに基づく軽量のWebサーバーです。そのコア機能の1つは、HTTPリクエストを聞いて続行することです...

Pythonでは、文字列を介してオブジェクトを動的に作成し、そのメソッドを呼び出す方法は?これは一般的なプログラミング要件です。特に構成または実行する必要がある場合は...

この記事では、numpy、pandas、matplotlib、scikit-learn、tensorflow、django、flask、and requestsなどの人気のあるPythonライブラリについて説明し、科学的コンピューティング、データ分析、視覚化、機械学習、Web開発、Hの使用について説明します。

正規表現は、プログラミングにおけるパターンマッチングとテキスト操作のための強力なツールであり、さまざまなアプリケーションにわたるテキスト処理の効率を高めます。
