Ausführliche Erläuterung des URL-Crawlers, des Anforderungsmoduls und des Parse-Moduls von Python-Python-Tutorial-php.cn

Heim

Backend-Entwicklung

Python-Tutorial

Ausführliche Erläuterung des URL-Crawlers, des Anforderungsmoduls und des Parse-Moduls von Python

coldplay.xixi

Mar 21, 2021 pm 03:15 PM

parse python request urllib

„Artikelverzeichnis“

Ausführliche Erläuterung des URL-Crawlers, des Anforderungsmoduls und des Parse-Moduls von Python URL analysieren

Escape-URL

(kostenlose Lernempfehlung:
- Python-Video-Tutorial
- )
- Achten Sie auf Versionsunterschiede. Es gibt 3 Versionen von urllib: Python2.X enthält die Module urllib und urllib2 und Python3 code>urllib2 und urlparse werden in das Paket urllib synthetisiert, während urllib3 ein neues Toolpaket eines Drittanbieters ist. Wenn Sie auf Probleme wie „Kein Modul namens urllib2“ stoßen, liegt dies fast immer an unterschiedlichen Python-Versionen.
- urllib3 ist eine leistungsstarke, wohldefinierte Python-Bibliothek für HTTP-Clients. Es bietet viele Funktionen, die in der Python-Standardbibliothek nicht zu finden sind: Komprimierungskodierung, Verbindungspooling, Thread-Sicherheit, SSL/TLS-Authentifizierung, HTTP- und SCOCKS-Proxys usw. Es kann über pip installiert werden: pip install urllib3

git clone git://github.com/shazow/urllib3.git
python setup.py install

Nach dem Login kopieren

urllib3

request-Modul urllib.request Das Modul definiert Funktionen und Klassen zum Öffnen von URLs in Anwendungen wie Identitätsauthentifizierung, Umleitung und Cookies. Lassen Sie uns kurz das request-Paket vorstellen. Dieses Paket wird für erweiterte Nicht-Low-Level-HTTP-Client-Schnittstellen verwendet. Seine Fehlertoleranz ist leistungsfähiger als das request-Modul. request verwendet urllib3, das die Funktionen von urllib2 erbt, HTTP-Verbindungspersistenz und Verbindungspooling unterstützt, die Verwendung von Cookies zur Aufrechterhaltung von Sitzungen, Datei-Uploads, automatische Dekomprimierung, Unicode-Antworten, HTTP(S)-Proxy unterstützt, usw. . Weitere Einzelheiten finden Sie im Dokument http://requests.readthedocs.io.

Im Folgenden werden die häufig verwendeten Funktionen und Klassen des Moduls urllib.request vorgestellt.

Zugriffs-URL

urllib是Python中用来处理URL的工具包，源码位于/Lib/下。它包含了几个模块：用于打开及读写的urls的request模块、由request模块引起异常的error模块、用于解析urls的parse模块、用于响应处理的response模块、分析robots.txt文件的robotparser模块。

注意版本差异。urllib有3个版本：Python2.X包含urllib、urllib2模块，Python3.X把urllib、urllib2以及urlparse合成到urllib包中，而urllib3是新增的第三方工具包。若遇到"No module named urllib2"等问题几乎都是Python版本不同导致的。

urllib3是一个功能强大、条例清晰、用于HTTP客户端的Python库。它提供了许多Python标准库里所没有的特性：压缩编码、连接池、线程安全、SSL/TLS验证、HTTP和SCOCKS代理等。可以通过pip进行安装：pip install urllib3
Ausführliche Erläuterung des URL-Crawlers, des Anforderungsmoduls und des Parse-Moduls von Python
也可以通过GitHub下载最新代码：

urllib.request.urlopen(url,data=None,[timeout,]*,cafile=None,capath=None,cadefault=false,context=None)

Nach dem Login kopieren

urllib3参考文档：https://urllib3.readthedocs.io/en/latest/

request模块

urllib.request模块定义了身份认证、重定向、cookies等应用中打开url的函数和类。

再简单介绍下request包，该包用于高级的非底层的HTTP客户端接口，容错能力比request模块强大。request使用的是urllib3，它继承了urllib2的特性，支持HTTP连接保持和连接池，支持使用cookie保持会话、文件上传、自动解压缩、Unicode响应、HTTP(S)代理等。更多具体可参考文档http://requests.readthedocs.io。

下面将介绍urllib.request模块常用函数和类。

访问URL

一、urlopen()

from urllib import requestwith request.urlopen("http://www.baidu.com") as f:
    print(f.status)
    print(f.getheaders())#运行结果如下200[('Bdpagetype', '1'), ('Bdqid', '0x8583c98f0000787e'), ('Cache-Control', 'private'), ('Content-Type', 'text/html;charset=utf-8'), ('Date', 'Fri, 19 Mar 2021 08:26:03 GMT'), ('Expires', 'Fri, 19 Mar 2021 08:25:27 GMT'), ('P3p', 'CP=" OTI DSP COR IVA OUR IND COM "'), ('P3p', 'CP=" OTI DSP COR IVA OUR IND COM "'), ('Server', 'BWS/1.1'), ('Set-Cookie', 'BAIDUID=B050D0981EE3A706D726852655C9FA21:FG=1; expires=Thu, 31-Dec-37 23:55:55 GMT; max-age=2147483647; path=/; domain=.baidu.com'), ('Set-Cookie', 'BIDUPSID=B050D0981EE3A706D726852655C9FA21; expires=Thu, 31-Dec-37 23:55:55 GMT; max-age=2147483647; path=/; domain=.baidu.com'), ('Set-Cookie', 'PSTM=1616142363; expires=Thu, 31-Dec-37 23:55:55 GMT; max-age=2147483647; path=/; domain=.baidu.com'), ('Set-Cookie', 'BAIDUID=B050D0981EE3A706FA20DF440C89F27F:FG=1; max-age=31536000; expires=Sat, 19-Mar-22 08:26:03 GMT; domain=.baidu.com; path=/; version=1; comment=bd'), ('Set-Cookie', 'BDSVRTM=0; path=/'), ('Set-Cookie', 'BD_HOME=1; path=/'), ('Set-Cookie', 'H_PS_PSSID=33272_33710_33690_33594_33600_33624_33714_33265; path=/; domain=.baidu.com'), ('Traceid', '161614236308368819309620754845011048574'), ('Vary', 'Accept-Encoding'), ('Vary', 'Accept-Encoding'), ('X-Ua-Compatible', 'IE=Edge,chrome=1'), ('Connection', 'close'), ('Transfer-Encoding', 'chunked')]

Nach dem Login kopieren

该函数用于抓取URL数据，十分重要。带有如上所示的参数，除了URL参数外（字符串或Request对象）其余参数都有默认值。

①URL参数

from urllib import parsefrom urllib import request
data = bytes(parse.urlencode({"pro":"value"}),encoding="utf8")response = request.urlopen("http://httpbin.org/post",data=data)print(response.read())#运行结果如下b'{\n  "args": {}, \n  "data": "", \n  "files": {}, \n  "form": {\n    "pro": "value"\n  }, \n  "headers": {\n    "Accept-Encoding": "identity", \n    "Content-Length": "9", \n    "Content-Type": "application/x-www-form-urlencoded", \n    "Host": "httpbin.org", \n    "User-Agent": "Python-urllib/3.9", \n    "X-Amzn-Trace-Id": "Root=1-60545f5e-7428b29435ce744004d98afa"\n  }, \n  "json": null, \n  "origin": "112.48.80.243", \n  "url": "http://httpbin.org/post"\n}\n'

Nach dem Login kopieren

②data参数
如果向服务器发送数据，那么data参数必须是一个有数据的byes对象，否则为None。在Python3.2之后可以是一个iterable对象。若是，则headers中必须带有Content-Length参数。HTTP请求使用POST方法时，data必须有数据；使用GET方法时，data写None即可。

from urllib import request
response = request.urlopen("http://httpbin.org/get",timeout=1)print(response.read())#运行结果如下b'{\n  "args": {}, \n  "headers": {\n    "Accept-Encoding": "identity", \n    "Host": "httpbin.org", \n    "User-Agent": "Python-urllib/3.9", \n    "X-Amzn-Trace-Id": "Root=1-605469dd-76a6d963171127c213d9a9ab"\n  }, \n  "origin": "112.48.80.243", \n  "url": "http://httpbin.org/get"\n}\n'

Nach dem Login kopieren

对数据进行POST请求，需要转码bytes类型或者iterable类型。这里通过bytes()进行字节转换，考虑到第一个参数为字符串，所以需要利用parse模块（下面会讲）的urlencode()方法对上传的数据进行字符串转换，同时指定编码格式为utf8。测试网址httpbin.org可以提供HTTP测试，从返回的内容可以看出提交以表单form作为属性、以字典作为属性值。

③timeout参数
该参数是可选的，以秒为单位指定一个超时时间，若超过该时间则任何操作都会被阻止，如果没有指定，那么默认会取sock.GLOBAL_DEFAULT_TIMEOUT对应的值。该参数仅对http、https、ftp连接有效。

超时后会抛出urllib.error.URLError:异常，可以用try…except来处理异常。

from urllib import request
response = request.urlopen("http://httpbin.org/get")print(response.geturl())print("===========")print(response.info())print("===========")print(response.getcode())print("===========")print(response.status)print("===========")print(response.msg)

Nach dem Login kopieren

④返回对象的常用方法和属性
除了前三个urlopen() 1. urlopen()

urllib.request.build_opener([handler1 [handler2, ...]])

Nach dem Login kopieren

Request

①URL-Parameter
```
urllib.request.install_opener(opener)
```
Nach dem Login kopieren
Nach dem Login kopieren
Wenn Daten an den Server gesendet werden, muss der Datenparameter ein byes-Objekt mit Daten sein, andernfalls ist er None. Nach Python 3.2 kann es ein iterierbares Objekt sein. Wenn ja, muss der Content-Length-Parameter in headers enthalten sein. Wenn die HTTP-Anfrage die Methode POST verwendet, müssen Daten Daten enthalten; bei Verwendung der Methode GET können Daten als „Keine“ geschrieben werden.

class urllib.request.Request(url,data=None,headers={},origin_req_host=None,unverifiable=False,method=None)

Nach dem Login kopieren

Um eine POST-Anfrage für Daten zu stellen, müssen Sie den Typ bytes oder den Typ iterable transkodieren. Hier wird die Bytekonvertierung über bytes() durchgeführt. Da der erste Parameter eine Zeichenfolge ist, muss die Methode urlencode() des Parse-Moduls verwendet werden (siehe). unten). Die hochgeladenen Daten werden in Zeichenfolgen konvertiert und das Kodierungsformat wird als utf8 angegeben. Die Testwebsite httpbin.org kann HTTP-Tests bereitstellen. Aus dem zurückgegebenen Inhalt können wir ersehen, dass die Übermittlung ein Formular als Attribut und ein Wörterbuch als Attributwert verwendet.

③timeout-Parameter

Dieser Parameter ist optional. Geben Sie eine Zeitüberschreitung in Sekunden an. Wenn diese Zeit überschritten wird, wird jeder Vorgang blockiert. Wenn nicht angegeben, ist der Standardwert der entsprechende Wert. Dieser Parameter ist nur für http-, https- und FTP-Verbindungen gültig.

Die Ausnahme urllib.error.URLError: wird nach dem Timeout ausgelöst. Sie können try...except verwenden, um die Ausnahme zu behandeln.

from urllib import requestfrom urllib import parse
data = parse.urlencode({"name":"baidu"}).encode('utf-8')headers = {'User-Agent':'wzlodq'}req = request.Request(url="http://httpbin.org/post",data=data,headers=headers,method="POST")response = request.urlopen(req)print(response.read())#运行结果如下b'{\n  "args": {}, \n  "data": "", \n  "files": {}, \n  "form": {\n    "name": "baidu"\n  }, \n  "headers": {\n    "Accept-Encoding": "identity", \n    "Content-Length": "10", \n    "Content-Type": "application/x-www-form-urlencoded", \n    "Host": "httpbin.org", \n    "User-Agent": "wzlodq", \n    "X-Amzn-Trace-Id": "Root=1-605491a4-1fcf3df01a8b3c3e22b5edce"\n  }, \n  "json": null, \n  "origin": "112.48.80.34", \n  "url": "http://httpbin.org/post"\n}\n'

Nach dem Login kopieren

Ausführliche Erläuterung des URL-Crawlers, des Anforderungsmoduls und des Parse-Moduls von Python

④Gibt die allgemeinen Methoden und Eigenschaften des Objekts zurück
Zusätzlich zu den ersten drei allgemeinen urlopen()-Parametern gibt diese Funktion das dateiähnliche Objekt zurück, das als Kontextmanager (Kontextmanager) verwendet wird enthält die folgende Methode:

🎜🎜geturl(): Gibt die angeforderte URL zurück. 🎜🎜info(): Gibt das httplib.HTTPMessage-Objekt zurück, das die vom Remote-Server zurückgegebenen Header-Informationen angibt 🎜getcode(): Gibt den HTTP-Statuscode nach der Antwort zurück.🎜🎜Statusattribut: Gibt den HTTP-Statuscode nach der Antwort zurück.🎜🎜msg-Attribut: Ergebnis anfordern

1xx(informational)：请求已经收到，正在进行中。
2xx(successful)：请求成功接收，解析，完成。
3xx(Redirection)：需要重定向。
4xx(Client Error)：客户端问题，请求存在语法错误，网址未找到。
5xx(Server Error)：服务器问题。

二、build_opener()

urllib.request.build_opener([handler1 [handler2, ...]])

Nach dem Login kopieren

该函数不支持验证、cookie及其他HTTP高级功能。要支持这些功能必须使用build_opener()函数自定义OpenerDirector对象，称之为Opener。

build_opener()函数返回的是OpenerDirector实例，而且是按给定的顺序链接处理程序的。作为OpenerDirector实例，可以从OpenerDirector类的定义看出他具有addheaders、handlers、handle_open、add_handler()、open()、close()等属性或方法。open()方法与urlopen()函数的功能相同。
Ausführliche Erläuterung des URL-Crawlers, des Anforderungsmoduls und des Parse-Moduls von Python
上述代码通过修改http报头进行HTTP高级功能操作，然后利用返回对象open()进行请求，返回结果与urlopen()一样，只是内存位置不同而已。

实际上urllib.request.urlopen()方法只是一个Opener，如果安装启动器没有使用urlopen启动，调用的就是OpenerDirector.open(）方法。那么如何设置默认全局启动器呢？就涉及下面的install_opener函数。

三、install_opener()

urllib.request.install_opener(opener)

Nach dem Login kopieren

安装OpenerDirector实例作为默认全局启动器。
首先导入request模块，实例化一个HTTPBasicAuthHandler对象，然后通过利用add_password()添加用户名和密码来创建一个认证处理器，利用urllib.request.build_opener()方法来调用该处理器以构建Opener，并使其作为默认全局启动器，这样Opener在发生请求时具备了认证功能。通过Opener的open()方法打开链接完成认证。

Ausführliche Erläuterung des URL-Crawlers, des Anforderungsmoduls und des Parse-Moduls von Python
当然了，CSDN不需要账号密码也可以访问，读者还可以在其他网站上用自己的账号进行测试。

除了上述方法外，还有将路径转换为URL的pathname2url(path)、将URL转换为路径的url2pathname(path)，以及返回方案至代理服务器URL映射字典的getproxies()等方法。

Request类

前面介绍的urlopen()方法可以满足一般基本URL请求，如果需要添加headers信息，就要考虑更为强大的Request类了。Request类是URL请求的抽象，包含了许多参数，并定义了一系列属性和方法。

一、定义

class urllib.request.Request(url,data=None,headers={},origin_req_host=None,unverifiable=False,method=None)

Nach dem Login kopieren

参数url是有效网址的字符串，同urlopen()方法中一样，data参数也是。
headers是一个字典，可以通过add_header()以键值进行调用。通常用于爬虫爬取数据时或者Web请求时更改User-Agent标头值参数来进行请求。
origin_req_host是原始请求主机，比如请求的是针对HTML文档中的图像的，则该请求主机是包含图像页面所在的主机。
Unverifiable指示请求是否是无法验证的。
method指示使用的是HTTP请求方法。常用的有GET、POST、PUT、DELETE等，

代码示例：

from urllib import requestfrom urllib import parse
data = parse.urlencode({"name":"baidu"}).encode('utf-8')headers = {'User-Agent':'wzlodq'}req = request.Request(url="http://httpbin.org/post",data=data,headers=headers,method="POST")response = request.urlopen(req)print(response.read())#运行结果如下b'{\n  "args": {}, \n  "data": "", \n  "files": {}, \n  "form": {\n    "name": "baidu"\n  }, \n  "headers": {\n    "Accept-Encoding": "identity", \n    "Content-Length": "10", \n    "Content-Type": "application/x-www-form-urlencoded", \n    "Host": "httpbin.org", \n    "User-Agent": "wzlodq", \n    "X-Amzn-Trace-Id": "Root=1-605491a4-1fcf3df01a8b3c3e22b5edce"\n  }, \n  "json": null, \n  "origin": "112.48.80.34", \n  "url": "http://httpbin.org/post"\n}\n'

Nach dem Login kopieren

注意data参数和前面一样需是字节流类型的，不同的是调用Request类进行请求。

二、属性方法

①Request.full_url
full_url属性包含setter、getter和deleter。如果原始请求URL片段存在，那么得到的full_url将返回原始请求的URL片段，通过添加修饰器@property将原始URL传递给构造函数。
Ausführliche Erläuterung des URL-Crawlers, des Anforderungsmoduls und des Parse-Moduls von Python

②Request.type：获取请求对象的协议类型。
③Request.host：获取URL主机，可能含有端口的主机。
④Request.origin_req_host：发出请求的原始主机，没有端口。
⑤Request.get_method()：返回显示HTTP请求方法的字符串。
Ausführliche Erläuterung des URL-Crawlers, des Anforderungsmoduls und des Parse-Moduls von Python

（插播反爬信息）博主CSDN地址：https://wzlodq.blog.csdn.net/

⑥Request.add_header(key,val)：向请求中添加标头。

from urllib import requestfrom urllib import parse
data = bytes(parse.urlencode({'name':'baidu'}),encoding='utf-8')req = request.Request('http://httpbin.org/post',data,method='POST')req.add_header('User-agent','test')response = request.urlopen(req)print(response.read().decode('utf-8'))

Nach dem Login kopieren

Ausführliche Erläuterung des URL-Crawlers, des Anforderungsmoduls und des Parse-Moduls von Python
上述代码中，通过add_header()传入了User-Agent，在爬虫过程中，常常通过循环调用该方法来添加不同的User-Agent进行请求，避免服务器针对某一User-Agent的禁用。

其他类

BaseHandler为所有注册处理程序的基类，并且只处理注册的简单机制，从定义上看，BaseHandler提供了一个添加基类的add_parent()方法，后面介绍的类都是继承该类操作的。

HTTPErrorProcessor：用于HTTP错误响应过程。
HTTPDefaultErrorHandler：用于处理HTTP响应错误。
ProxyHandler：用于设置代理。
HTTPRedirectHandler：用于设置重定向。
HTTPCookieProcessor：用于处理cookie。
HEEPBasicAuthHandler：用于管理认证。

parse模块

parse模块用于分解URL字符串为各个组成部分，包括寻址方案、网络位置、路径等，也可将这些部分组成URL字符串，同时可以对“相对URL"进行转换等。

解析URL

一、urllib.parse.urlparse(urlstring,scheme=’’,allow_fragments=True)
解析URL为6个部分，即返回一个6元组（tuple子类的实例），tuple类具有下标所示的属性：

属性	说明	对应下标指数	不存在时的取值
scheme	URL方案说明符 0	scheme参数
netloc	网络位置部分	1	空字符串
path	分层路径	2	空字符串
params	最后路径元素的参数	3	空字符串
query	查询组件	4	空字符串
fragment	片段标识符	5	空字符串
username	用户名		None
password	密码		None
hostname	主机名		None
port	端口号		None

最后组成的URL结构为scheme://netloc/path;parameters?query#fragment
举个栗子：

from urllib.parse import *res = urlparse('https://wzlodq.blog.csdn.net/article/details/113597816')print(res)print(res.scheme)print(res.netloc)print(res.path)print(res.params)print(res.query)print(res.username)print(res.password)print(res.hostname)print(res.port)print(res.geturl())print(tuple(res))print(res[0])print(res[1])print(res[2])

Nach dem Login kopieren

Ausführliche Erläuterung des URL-Crawlers, des Anforderungsmoduls und des Parse-Moduls von Python
需要注意的是urlparse有时并不能很好地识别netloc，它会假定相对URL以路径分量开始，将其取值放在path中。

二、urllib.parse.urlunparse(parts)
是urlparse()的逆操作，即将urlparse()返回的原则构建一个URL。
Ausführliche Erläuterung des URL-Crawlers, des Anforderungsmoduls und des Parse-Moduls von Python

三、urllib.parse.urlsplit(urlstring,scheme=’’.allow_fragments=True)
类似urlparse()，但不会分离参数，即返回的元组对象没有params元素，是一个五元组，对应下标指数也发生了改变。

from urllib.parse import *sp = urlsplit('https://wzlodq.blog.csdn.net/article/details/113597816')print(sp)#运行结果如下SplitResult(scheme='https', netloc='wzlodq.blog.csdn.net', path='/article/details/113597816', query='', fragment='')

Nach dem Login kopieren

四、urllib.parse.urlunsplit(parts)
类似urlunparse()，是urlsplit()的逆操作，不再赘述。

五、urllib.parse.urljoin(base,url,allow_fragments=True)
该函数主要组合基本网址(base)与另一个网址(url)以构建新的完整网址。
相对路径和绝对路径的url组合是不同的，而且相对路径是以最后部分路径进行替换处理的：
Ausführliche Erläuterung des URL-Crawlers, des Anforderungsmoduls und des Parse-Moduls von Python

六、urllib.parse.urldefrag(url)
根据url进行分割，如果url包含片段标识符，就返回url对应片段标识符前的网址，fragment取片段标识符后的值。如果url没有片段标识符，那么fragment为空字符串。
Ausführliche Erläuterung des URL-Crawlers, des Anforderungsmoduls und des Parse-Moduls von Python

转义URL

URL转义可以避免某些字符引起歧义，通过引用特殊字符并适当编排非ASCII文本使其作为URL组件安全使用。同时也支持反转这些操作，以便从URL组件内容重新创建原始数据。

一、urllib.parse.quote(string,safe=’/’,encoding=None,errors=None)
使用%xx转义替换string中的特殊字符，其中字母、数字和字符’_.-‘不会进行转义。默认情况下，此函数用于转义URL的路径部分，可选的safe参数指定不应转义的其他ASCII字符——其默认值为’/’。
Ausführliche Erläuterung des URL-Crawlers, des Anforderungsmoduls und des Parse-Moduls von Python
特别注意的是若string是bytes，encoding和errors就无法指定，否则报错TypeError。

二、urllib.parse.unquote(string,encoding=‘utf-8’,errors=‘replace’)
该函数时quote()的逆操作，即将%xx转义为等效的单字符。参数encoding和errors用来指定%xx编码序列解码为Unicode字符，同bytes.decode()方法。
Ausführliche Erläuterung des URL-Crawlers, des Anforderungsmoduls und des Parse-Moduls von Python

三、urllib.parse.quote_plus(string,safe=’’,encoding=None,errors=None)
该函数时quote()的增强版，与之不同的是用+替换空格，而且如果原始URL有字符，那么+将被转义。
Ausführliche Erläuterung des URL-Crawlers, des Anforderungsmoduls und des Parse-Moduls von Python

四、urllib.parse.unquote_plus(string,encoding=‘utf-8’,errors=‘replace’)
类似unquote()，不再赘述。

五、urllib.parse.urlencode(query,doseq=False,safe=’’,encoding=None,errors=None,quote_via=quote_plus)
该函数前面提到过，通常在使用HTTP进行POST请求传递的数据进行编码时使用。
Ausführliche Erläuterung des URL-Crawlers, des Anforderungsmoduls und des Parse-Moduls von Python

robots.txt文件

robotparser模块很简单，仅定义了3个类（RobotFileParser、RuleLine、Entry）。从__all__属性来看也就RobotFileParser一个类（用于处理有关特定用户代理是否可以发布robots.txt文件的网站上提前网址内容）。

robots文件类似一个协议文件，搜索引擎访问网站时查看的第一个文件，会告诉爬虫或者蜘蛛程序在服务器上可以查看什么文件。

RobotFileParser类有一个url参数，常用以下方法：

set_url(): wird verwendet, um die URL festzulegen, die auf die robots.txt-Datei verweist.
read(): Liest die robots.txt-URL und stellt sie dem Parser zur Verfügung.
parse(): wird zum Parsen der robots.txt-Datei verwendet.
can_fetch(): Wird verwendet, um zu bestimmen, ob die URL im Voraus abgerufen werden kann.
mtime(): Gibt die Zeit zurück, zu der die robots.txt-Datei zuletzt gecrawlt wurde.
modified(): Legt den Zeitpunkt fest, zu dem die robots.txt-Datei zuletzt gecrawlt wurde, auf den aktuellen Zeitpunkt.

Ausführliche Erläuterung des URL-Crawlers, des Anforderungsmoduls und des Parse-Moduls von Python

Viele kostenlose Lernempfehlungen finden Sie im Python-Tutorial(Video)

Das obige ist der detaillierte Inhalt vonAusführliche Erläuterung des URL-Crawlers, des Anforderungsmoduls und des Parse-Moduls von Python. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Erklärung dieser Website

Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn

Heiße KI -Werkzeuge

Undresser.AI Undress

KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover

Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool

Ausziehbilder kostenlos

Clothoff.io

KI-Kleiderentferner

Video Face Swap

Tauschen Sie Gesichter in jedem Video mühelos mit unserem völlig kostenlosen KI-Gesichtstausch-Tool aus!

Heißer Artikel

Assassin's Creed Shadows: Seashell Riddle -Lösung

4 Wochen vor By DDD

Was ist neu in Windows 11 KB5054979 und wie Sie Update -Probleme beheben

3 Wochen vor By DDD

Wo kann man die Kransteuerungsschlüsselkarten in Atomfall finden

4 Wochen vor By DDD

<🎜>: Dead Rails - wie man jede Herausforderung abschließt

1 Monate vor By DDD

Atomfall Guide: Gegenstandsstandorte, Questführer und Tipps

1 Monate vor By DDD

Heiße Werkzeuge

Notepad++7.3.1

Einfach zu bedienender und kostenloser Code-Editor

SublimeText3 chinesische Version

Chinesische Version, sehr einfach zu bedienen

Senden Sie Studio 13.0.1

Leistungsstarke integrierte PHP-Entwicklungsumgebung

Dreamweaver CS6

Visuelle Webentwicklungstools

SublimeText3 Mac-Version

Codebearbeitungssoftware auf Gottesniveau (SublimeText3)

Heiße Themen

Wo ist der Login-Zugang für Gmail-E-Mail?

7706

Java-Tutorial

1640

CakePHP-Tutorial

1394

Laravel-Tutorial

1288

PHP-Tutorial

1231

Related knowledge

PHP und Python: Verschiedene Paradigmen erklärt Apr 18, 2025 am 12:26 AM

PHP ist hauptsächlich prozedurale Programmierung, unterstützt aber auch die objektorientierte Programmierung (OOP). Python unterstützt eine Vielzahl von Paradigmen, einschließlich OOP, funktionaler und prozeduraler Programmierung. PHP ist für die Webentwicklung geeignet, und Python eignet sich für eine Vielzahl von Anwendungen wie Datenanalyse und maschinelles Lernen.

Wählen Sie zwischen PHP und Python: Ein Leitfaden Apr 18, 2025 am 12:24 AM

PHP eignet sich für Webentwicklung und schnelles Prototyping, und Python eignet sich für Datenwissenschaft und maschinelles Lernen. 1.PHP wird für die dynamische Webentwicklung verwendet, mit einfacher Syntax und für schnelle Entwicklung geeignet. 2. Python hat eine kurze Syntax, ist für mehrere Felder geeignet und ein starkes Bibliotheksökosystem.

Python vs. JavaScript: Die Lernkurve und Benutzerfreundlichkeit Apr 16, 2025 am 12:12 AM

Python eignet sich besser für Anfänger mit einer reibungslosen Lernkurve und einer kurzen Syntax. JavaScript ist für die Front-End-Entwicklung mit einer steilen Lernkurve und einer flexiblen Syntax geeignet. 1. Python-Syntax ist intuitiv und für die Entwicklung von Datenwissenschaften und Back-End-Entwicklung geeignet. 2. JavaScript ist flexibel und in Front-End- und serverseitiger Programmierung weit verbreitet.

Kann gegen Code in Windows 8 ausgeführt werden Apr 15, 2025 pm 07:24 PM

VS -Code kann unter Windows 8 ausgeführt werden, aber die Erfahrung ist möglicherweise nicht großartig. Stellen Sie zunächst sicher, dass das System auf den neuesten Patch aktualisiert wurde, und laden Sie dann das VS -Code -Installationspaket herunter, das der Systemarchitektur entspricht und sie wie aufgefordert installiert. Beachten Sie nach der Installation, dass einige Erweiterungen möglicherweise mit Windows 8 nicht kompatibel sind und nach alternativen Erweiterungen suchen oder neuere Windows -Systeme in einer virtuellen Maschine verwenden müssen. Installieren Sie die erforderlichen Erweiterungen, um zu überprüfen, ob sie ordnungsgemäß funktionieren. Obwohl VS -Code unter Windows 8 möglich ist, wird empfohlen, auf ein neueres Windows -System zu upgraden, um eine bessere Entwicklungserfahrung und Sicherheit zu erzielen.

Kann Visual Studio -Code in Python verwendet werden Apr 15, 2025 pm 08:18 PM

VS -Code kann zum Schreiben von Python verwendet werden und bietet viele Funktionen, die es zu einem idealen Werkzeug für die Entwicklung von Python -Anwendungen machen. Sie ermöglichen es Benutzern: Installation von Python -Erweiterungen, um Funktionen wie Code -Abschluss, Syntax -Hervorhebung und Debugging zu erhalten. Verwenden Sie den Debugger, um Code Schritt für Schritt zu verfolgen, Fehler zu finden und zu beheben. Integrieren Sie Git für die Versionskontrolle. Verwenden Sie Tools für die Codeformatierung, um die Codekonsistenz aufrechtzuerhalten. Verwenden Sie das Lining -Tool, um potenzielle Probleme im Voraus zu erkennen.

PHP und Python: Ein tiefes Eintauchen in ihre Geschichte Apr 18, 2025 am 12:25 AM

PHP entstand 1994 und wurde von Rasmuslerdorf entwickelt. Es wurde ursprünglich verwendet, um Website-Besucher zu verfolgen und sich nach und nach zu einer serverseitigen Skriptsprache entwickelt und in der Webentwicklung häufig verwendet. Python wurde Ende der 1980er Jahre von Guidovan Rossum entwickelt und erstmals 1991 veröffentlicht. Es betont die Lesbarkeit und Einfachheit der Code und ist für wissenschaftliche Computer, Datenanalysen und andere Bereiche geeignet.

So führen Sie Programme in der terminalen VSCODE aus Apr 15, 2025 pm 06:42 PM

Im VS -Code können Sie das Programm im Terminal in den folgenden Schritten ausführen: Erstellen Sie den Code und öffnen Sie das integrierte Terminal, um sicherzustellen, dass das Codeverzeichnis mit dem Terminal Working -Verzeichnis übereinstimmt. Wählen Sie den Befehl aus, den Befehl ausführen, gemäß der Programmiersprache (z. B. Pythons Python your_file_name.py), um zu überprüfen, ob er erfolgreich ausgeführt wird, und Fehler auflösen. Verwenden Sie den Debugger, um die Debugging -Effizienz zu verbessern.

Ist die VSCODE -Erweiterung bösartig? Apr 15, 2025 pm 07:57 PM

VS -Code -Erweiterungen stellen böswillige Risiken dar, wie das Verstecken von böswilligem Code, das Ausbeutetieren von Schwachstellen und das Masturbieren als legitime Erweiterungen. Zu den Methoden zur Identifizierung böswilliger Erweiterungen gehören: Überprüfung von Verlegern, Lesen von Kommentaren, Überprüfung von Code und Installation mit Vorsicht. Zu den Sicherheitsmaßnahmen gehören auch: Sicherheitsbewusstsein, gute Gewohnheiten, regelmäßige Updates und Antivirensoftware.

See all articles