Beispiel-Tutorial zur Implementierung eines Crawlers mit Anfragen und lxml-Python-Tutorial-php.cn

Heim

Backend-Entwicklung

Python-Tutorial

Beispiel-Tutorial zur Implementierung eines Crawlers mit Anfragen und lxml

PHP中文网

Jun 20, 2017 pm 02:46 PM

lxml requests 实现爬虫

# fordert das Modul an, um Seiten anzufordern
# Selektor für den HTML-Build-Selektor des lxml-Moduls (formatierte Antwortantwort)
# aus lxml-Import-HTML
# Importanfragen

# Antwort = Anfragen.get(url).content

# Selektor = html.formatstring (Antwort)

# hrefs = selector.xpath('/html/body//div[@class='feed-item _j_feed_item']/a/@href' )

# Nehmen Sie url = 'https://www.mafengwo.cn/gonglve/ziyouxing/2033.html' als Beispiel

# python 2.7import requestsfrom lxml import htmlimport os

Nach dem Login kopieren

1 # 获取首页中子页的url链接2 def get_page_urls(url):3     response = requests.get(url).content4     # 通过lxml的html来构建选择器5     selector = html.fromstring(response)6     urls = []7     for i in selector.xpath("/html/body//div[@class='feed-item _j_feed_item']/a/@href"):8         urls.append(i)9     return urls

Nach dem Login kopieren

1 # get title from a child's html(div[@class='title'])2 def get_page_a_title(url):3     '''url is ziyouxing's a@href'''4     response = requests.get(url).content5     selector = html.fromstring(response)6     # get xpath by chrome's tool  -->  /html/body//div[@class='title']/text()7     a_title = selector.xpath("/html/body//div[@class='title']/text()")8     return a_title

Nach dem Login kopieren

 1 # 获取页面选择器(通过lxml的html构建) 2 def get_selector(url): 3     response = requests.get(url).content 4     selector = html.fromstring(response) 5     return selector

Nach dem Login kopieren

# 通过chrome的开发者工具分析html页面结构后发现，我们需要获取的文本内容主要显示在div[@class='l-topic']和div[@class='p-section']中

Nach dem Login kopieren

1  # 获取所需的文本内容2  def get_page_content(selector):3      # /html/body/div[2]/div[2]/div[1]/div[@class='l-topic']/p/text()4      page_title = selector.xpath("//div[@class='l-topic']/p/text()")5      # /html/body/div[2]/div[2]/div[1]/div[2]/div[15]/div[@class='p-section']/text()6      page_content = selector.xpath("//div[@class='p-section']/text()")7      return page_title,page_content

Nach dem Login kopieren

1 # 获取页面中的图片url地址2 def get_image_urls(selector):3     imagesrcs = selector.xpath("//img[@class='_j_lazyload']/@src")4     return imagesrcs

Nach dem Login kopieren

  # 获取图片的标题

Nach dem Login kopieren

1 def get_image_title(selector, num)2     # num 是从2开始的3     url = "/html/body/div[2]/div[2]/div[1]/div[2]/div["+num+"]/span[@class='img-an']/text()"4     if selector.xpath(url) is not None:5         image_title = selector.xpath(url)6     else:7         image_title = "map"+str(num) # 没有就起一个8     return image_title

Nach dem Login kopieren

  # 下载图片

Nach dem Login kopieren

 1 def downloadimages(selector,number): 2     '''number是用来计数的''' 3     urls = get_image_urls() 4     num = 2 5     amount = len(urls) 6     for url in urls: 7         image_title = get_image_title(selector, num) 8         filename = "/home/WorkSpace/tour/words/result"+number+"/+"image_title+".jpg" 9         if not os.path.exists(filename):10             os.makedirs(filename)11         print('downloading %s image %s' %(number, image_title))12         with open(filename, 'wb') as f:13             f.write(requests.get(url).content)14         num += 115     print "已经下载了%s张图" %num

Nach dem Login kopieren

# 入口，启动并把获取的数据存入文件中if __name__ =='__main__':
    url = ''urls = get_page_urls(url)# turn to get response from htmlnumber = 1for i in urls:
        selector = get_selector(i)# download images      downloadimages(selector,number)# get text and write into a filepage_title, page_content = get_page_content(selector)
        result = page_title+'\n'+page_content+'\n\n'path = "/home/WorkSpace/tour/words/result"+num+"/"if not os.path.exists(filename):
            os.makedirs(filename)
        filename = path + "num"+".txt"with open(filename,'wb') as f:
            f.write(result)print result

Nach dem Login kopieren

Damit muss der Crawler sorgfältig analysiert werden, bevor die Seite gecrawlt wird Die Seite ist relativ einfach und erfordert keine js-Verarbeitung. In zukünftigen Aufsätzen wird es einen relevanten Austausch geben

Das obige ist der detaillierte Inhalt vonBeispiel-Tutorial zur Implementierung eines Crawlers mit Anfragen und lxml. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Erklärung dieser Website

Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn

Heiße KI -Werkzeuge

Undresser.AI Undress

KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover

Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool

Ausziehbilder kostenlos

Clothoff.io

KI-Kleiderentferner

AI Hentai Generator

Erstellen Sie kostenlos Ai Hentai.

Heißer Artikel

R.E.P.O. Energiekristalle erklärten und was sie tun (gelber Kristall)

3 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌

R.E.P.O. Beste grafische Einstellungen

3 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌

Assassin's Creed Shadows: Seashell Riddle -Lösung

2 Wochen vor By DDD

R.E.P.O. So reparieren Sie Audio, wenn Sie niemanden hören können

3 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌

WWE 2K25: Wie man alles in Myrise freischaltet

3 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌

Heiße Werkzeuge

Notepad++7.3.1

Einfach zu bedienender und kostenloser Code-Editor

SublimeText3 chinesische Version

Chinesische Version, sehr einfach zu bedienen

Senden Sie Studio 13.0.1

Leistungsstarke integrierte PHP-Entwicklungsumgebung

Dreamweaver CS6

Visuelle Webentwicklungstools

SublimeText3 Mac-Version

Codebearbeitungssoftware auf Gottesniveau (SublimeText3)

Heiße Themen

Wo ist der Login-Zugang für Gmail-E-Mail?

7467

CakePHP-Tutorial

1376

Wie lautet das Format des Kontonamens von Steam?

Win11 -Aktivierungsschlüssel dauerhaft

NYT -Verbindungen Hinweise und Antworten

Related knowledge

Wie implementiert man die doppelte WeChat-Anmeldung auf Huawei-Mobiltelefonen? Mar 24, 2024 am 11:27 AM

Wie implementiert man die doppelte WeChat-Anmeldung auf Huawei-Mobiltelefonen? Mit dem Aufkommen der sozialen Medien ist WeChat zu einem unverzichtbaren Kommunikationsmittel im täglichen Leben der Menschen geworden. Viele Menschen können jedoch auf ein Problem stoßen: Sie können sich gleichzeitig auf demselben Mobiltelefon bei mehreren WeChat-Konten anmelden. Für Huawei-Mobiltelefonbenutzer ist es nicht schwierig, eine doppelte WeChat-Anmeldung zu erreichen. In diesem Artikel wird erläutert, wie eine doppelte WeChat-Anmeldung auf Huawei-Mobiltelefonen erreicht wird. Erstens bietet das EMUI-System, das mit Huawei-Mobiltelefonen geliefert wird, eine sehr praktische Funktion – das doppelte Öffnen von Anwendungen. Durch die doppelte Öffnungsfunktion der Anwendung können Benutzer gleichzeitig

PHP-Programmierhandbuch: Methoden zur Implementierung der Fibonacci-Folge Mar 20, 2024 pm 04:54 PM

Die Programmiersprache PHP ist ein leistungsstarkes Werkzeug für die Webentwicklung, das eine Vielzahl unterschiedlicher Programmierlogiken und Algorithmen unterstützen kann. Unter diesen ist die Implementierung der Fibonacci-Folge ein häufiges und klassisches Programmierproblem. In diesem Artikel stellen wir vor, wie Sie die Fibonacci-Folge mit der Programmiersprache PHP implementieren, und fügen spezifische Codebeispiele bei. Die Fibonacci-Folge ist eine mathematische Folge, die wie folgt definiert ist: Das erste und das zweite Element der Folge sind 1, und ab dem dritten Element ist der Wert jedes Elements gleich der Summe der beiden vorherigen Elemente. Die ersten paar Elemente der Sequenz

So implementieren Sie die WeChat-Klonfunktion auf Huawei-Mobiltelefonen Mar 24, 2024 pm 06:03 PM

So implementieren Sie die WeChat-Klonfunktion auf Huawei-Mobiltelefonen Mit der Popularität sozialer Software und der zunehmenden Bedeutung von Datenschutz und Sicherheit rückt die WeChat-Klonfunktion allmählich in den Mittelpunkt der Aufmerksamkeit der Menschen. Die WeChat-Klonfunktion kann Benutzern helfen, sich gleichzeitig bei mehreren WeChat-Konten auf demselben Mobiltelefon anzumelden, was die Verwaltung und Nutzung erleichtert. Es ist nicht schwierig, die WeChat-Klonfunktion auf Huawei-Mobiltelefonen zu implementieren. Sie müssen lediglich die folgenden Schritte ausführen. Schritt 1: Stellen Sie sicher, dass die Version Ihres Mobiltelefonsystems und die WeChat-Version den Anforderungen entsprechen. Stellen Sie zunächst sicher, dass die Version Ihres Huawei-Mobiltelefonsystems sowie die WeChat-App auf die neueste Version aktualisiert wurden.

Meistern Sie, wie Golang Möglichkeiten für die Spieleentwicklung eröffnet Mar 16, 2024 pm 12:57 PM

Im heutigen Bereich der Softwareentwicklung wird Golang (Go-Sprache) als effiziente, prägnante und hochgradig parallele Programmiersprache von Entwicklern zunehmend bevorzugt. Seine umfangreiche Standardbibliothek und die effizienten Parallelitätsfunktionen machen es zu einer hochkarätigen Wahl im Bereich der Spieleentwicklung. In diesem Artikel wird untersucht, wie man Golang für die Spieleentwicklung verwendet, und seine leistungsstarken Möglichkeiten anhand spezifischer Codebeispiele demonstriert. 1. Golangs Vorteile bei der Spieleentwicklung: Als statisch typisierte Sprache wird Golang beim Aufbau großer Spielsysteme verwendet.

Implementierungshandbuch für PHP-Spielanforderungen Mar 11, 2024 am 08:45 AM

Implementierungsleitfaden für PHP-Spielanforderungen Mit der Popularität und Entwicklung des Internets erfreut sich der Markt für Webspiele immer größerer Beliebtheit. Viele Entwickler hoffen, die PHP-Sprache zur Entwicklung ihrer eigenen Webspiele nutzen zu können, und die Umsetzung der Spielanforderungen ist ein wichtiger Schritt. In diesem Artikel wird erläutert, wie Sie mithilfe der PHP-Sprache allgemeine Spielanforderungen implementieren und spezifische Codebeispiele bereitstellen. 1. Spielfiguren erstellen In Webspielen sind Spielfiguren ein sehr wichtiges Element. Wir müssen die Attribute des Spielcharakters wie Name, Level, Erfahrungswert usw. definieren und Methoden für deren Bedienung bereitstellen

So implementieren Sie eine exakte Divisionsoperation in Golang Feb 20, 2024 pm 10:51 PM

Die Implementierung exakter Divisionsoperationen in Golang ist ein häufiger Bedarf, insbesondere in Szenarien mit Finanzberechnungen oder anderen Szenarien, die hochpräzise Berechnungen erfordern. Der in Golang integrierte Divisionsoperator „/“ wird für Gleitkommazahlen berechnet, und manchmal besteht das Problem eines Präzisionsverlusts. Um dieses Problem zu lösen, können wir Bibliotheken von Drittanbietern oder benutzerdefinierte Funktionen verwenden, um exakte Divisionsoperationen zu implementieren. Ein gängiger Ansatz ist die Verwendung des Rat-Typs aus dem Paket math/big, der eine Darstellung von Brüchen bereitstellt und zur Implementierung exakter Divisionsoperationen verwendet werden kann.

Detaillierte Erläuterung der Verwendung von Golang zur Implementierung der Datenexportfunktion Feb 28, 2024 pm 01:42 PM

Titel: Detaillierte Erläuterung der Datenexportfunktion mit Golang. Mit der Verbesserung der Informatisierung müssen viele Unternehmen und Organisationen in Datenbanken gespeicherte Daten zur Datenanalyse, Berichtserstellung und anderen Zwecken exportieren. In diesem Artikel wird erläutert, wie die Programmiersprache Golang zum Implementieren der Datenexportfunktion verwendet wird, einschließlich detaillierter Schritte zum Herstellen einer Verbindung zur Datenbank, zum Abfragen von Daten und zum Exportieren von Daten in Dateien sowie zur Bereitstellung spezifischer Codebeispiele. Um zunächst eine Verbindung zur Datenbank herzustellen, müssen wir den in Golang bereitgestellten Datenbanktreiber verwenden, z. B. da

Verwendung von PHP zur Implementierung von SaaS: eine umfassende Analyse Mar 07, 2024 pm 10:18 PM

Es tut mir wirklich leid, dass ich keine Echtzeit-Programmieranleitung geben kann, aber ich kann Ihnen ein Codebeispiel zur Verfügung stellen, um Ihnen ein besseres Verständnis dafür zu vermitteln, wie Sie PHP zur Implementierung von SaaS verwenden. Es folgt ein Artikel mit 1.500 Wörtern und dem Titel „Verwendung von PHP zur Implementierung von SaaS: Eine umfassende Analyse“. Im heutigen Informationszeitalter ist SaaS (Software as a Service) zur gängigen Art der Softwarenutzung für Unternehmen und Privatpersonen geworden. Es bietet eine flexiblere und bequemere Möglichkeit, auf Software zuzugreifen. Mit SaaS müssen Benutzer nicht vor Ort sein

See all articles