Heim Backend-Entwicklung Python-Tutorial Python lernt, Blogpark-Neuigkeiten zu erfassen

Python lernt, Blogpark-Neuigkeiten zu erfassen

Jun 20, 2017 pm 03:23 PM
python 博客 学习 抓取 爬虫

前言

  说到python,对它有点耳闻的人,第一反应可能都是爬虫~

  这两天看了点python的皮毛知识,忍不住想写一个简单的爬虫练练手,JUST DO IT

准备工作

  要制作数据抓取的爬虫,对请求的源页面结构需要有特定分析,只有分析正确了,才能更好更快的爬到我们想要的内容。

  浏览器访问570973/,右键“查看源代码”,初步只想取一些简单的数据(文章标题、作者、发布时间等),在HTML源码中找到相关数据的部分:

  1)标题(url):

 2) Autor: Poster itwriter

 3) Veröffentlichungszeit: Veröffentlicht am 2017-06-06 14:53

  4) Aktuelle Nachrichten-ID:

  Wenn Sie dem Beispiel folgen möchten, ist die Struktur der Links „Vorheriger Artikel“ und „Nächster Artikel“ sehr wichtig. Die beiden Tags Inhalt wird über js gerendert, was soll ich tun? Versuchen Sie, Informationen zu finden (Python führt js und dergleichen aus), aber für Python-Neulinge ist es möglicherweise etwas voraus und ich habe vor, eine andere Lösung zu finden.

Obwohl diese beiden Links über js gerendert werden, sollte der Grund, warum js den Inhalt rendern kann, darin bestehen, eine Anfrage zu initiieren und die Antwort zu erhalten. Ist es dann möglich, die Webseite zu überwachen? Ladevorgang, um zu sehen, welche nützlichen Informationen vorhanden sind? Ich möchte ein Lob dafür aussprechen, dass Browser wie Chrome/Firefox Developer Tools/Network den Anforderungs- und Antwortstatus aller Ressourcen klar sehen können.

 

Ihre Anfrageadressen sind:

1) Vorherige Nachrichten-ID:

2) Nächste Nachrichten-ID:

Der Inhalt der Antwort ist JSON

Hier ist ContentID das, was wir brauchen, um den vorherigen oder nächsten Artikel der aktuellen Nachrichten-URL zu erkennen Die Seitenadresse von Pressemitteilungen hat ein festes Format: {{ContentID}}/ (Der rote Inhalt ist die austauschbare ID)

Tools

 1) Python 3.6 (gleichzeitig Pip installieren und Umgebungsvariablen hinzufügen)

 2) PyCharm 2017.1.3

 3) Python-Bibliothek eines Drittanbieters (Installation: cmd -> pip-Installationsname)

a) Pyperclip: wird zum Lesen und Schreiben der Zwischenablage verwendet

b) Anfragen: eine HTTP-Bibliothek, die auf urllib basiert und das Apache2-lizenzierte Open-Source-Protokoll verwendet. Es ist praktischer als urllib und kann uns viel Arbeit ersparen

c) beautifulsoup4: Beautiful Soup bietet einige einfache Funktionen im Python-Stil für die Navigation, Suche, Änderung von Analysebäumen, usw. Funktion. Es handelt sich um eine Toolbox, die Benutzern die Daten bereitstellt, die sie zum Crawlen benötigen, indem sie Dokumente

Quellcode

Ich persönlich finde die Codes sehr einfach und leicht zu verstehen (Neulinge können schließlich keinen fortgeschrittenen Code schreiben. Wenn Sie Fragen oder Anregungen haben, lassen Sie es mich bitte wissen

Führen Sie

aus. Speichern Sie den obigen Quellcode unter D:/get_cnblogs_news.py unter den Fenstern Plattform Öffnen Sie das Befehlszeilentool cmd:

Geben Sie den Befehl ein: py.exe D:/get_cnblogs_news.py Geben Sie

ein. Analyse: py.exe muss nicht erklärt werden, der zweite Parameter ist Python Skriptdatei, der dritte Parameter ist die Quellseite, die gecrawlt werden muss (im Code gibt es noch eine weitere Überlegung. Wenn Sie diese URL in die Systemzwischenablage kopieren, können Sie sie direkt ausführen: py.exe D:/get_cnblogs_news.py

 Befehlszeilen-Ausgabeschnittstelle (Drucken)

 

 Inhalt in CSV-Datei gespeichert

 

Empfohlene Python-Lernbuchbox oder Materialien für Anfänger:

1) Liao Xuefengs Python-Tutorial, sehr einfach und leicht zu verstehen:

2 ) Beginnen Sie schnell mit der Python-Programmierung, um mühsame Arbeit zu automatisieren.pdf

 

Der Artikel ist nur ein Tagebuch für mich selbst, um Python zu lernen. Bitte kritisieren und korrigieren Sie es, wenn es irreführend ist (nein, bitte nicht sprühen). Es wäre mir eine Ehre, wenn es Ihnen helfen würde.

 

Das obige ist der detaillierte Inhalt vonPython lernt, Blogpark-Neuigkeiten zu erfassen. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Erklärung dieser Website
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn

Heiße KI -Werkzeuge

Undresser.AI Undress

Undresser.AI Undress

KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover

AI Clothes Remover

Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool

Undress AI Tool

Ausziehbilder kostenlos

Clothoff.io

Clothoff.io

KI-Kleiderentferner

AI Hentai Generator

AI Hentai Generator

Erstellen Sie kostenlos Ai Hentai.

Heißer Artikel

R.E.P.O. Energiekristalle erklärten und was sie tun (gelber Kristall)
4 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Beste grafische Einstellungen
4 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. So reparieren Sie Audio, wenn Sie niemanden hören können
1 Monate vor By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Chat -Befehle und wie man sie benutzt
1 Monate vor By 尊渡假赌尊渡假赌尊渡假赌

Heiße Werkzeuge

Notepad++7.3.1

Notepad++7.3.1

Einfach zu bedienender und kostenloser Code-Editor

SublimeText3 chinesische Version

SublimeText3 chinesische Version

Chinesische Version, sehr einfach zu bedienen

Senden Sie Studio 13.0.1

Senden Sie Studio 13.0.1

Leistungsstarke integrierte PHP-Entwicklungsumgebung

Dreamweaver CS6

Dreamweaver CS6

Visuelle Webentwicklungstools

SublimeText3 Mac-Version

SublimeText3 Mac-Version

Codebearbeitungssoftware auf Gottesniveau (SublimeText3)

PHP und Python: Vergleich von zwei beliebten Programmiersprachen PHP und Python: Vergleich von zwei beliebten Programmiersprachen Apr 14, 2025 am 12:13 AM

PHP und Python haben jeweils ihre eigenen Vorteile und wählen nach den Projektanforderungen. 1.PHP ist für die Webentwicklung geeignet, insbesondere für die schnelle Entwicklung und Wartung von Websites. 2. Python eignet sich für Datenwissenschaft, maschinelles Lernen und künstliche Intelligenz mit prägnanter Syntax und für Anfänger.

Wie Debian Readdir sich in andere Tools integriert Wie Debian Readdir sich in andere Tools integriert Apr 13, 2025 am 09:42 AM

Die Readdir -Funktion im Debian -System ist ein Systemaufruf, der zum Lesen des Verzeichnisgehalts verwendet wird und häufig in der C -Programmierung verwendet wird. In diesem Artikel wird erläutert, wie Readdir in andere Tools integriert wird, um seine Funktionalität zu verbessern. Methode 1: Kombinieren Sie C -Sprachprogramm und Pipeline zuerst ein C -Programm, um die Funktion der Readdir aufzurufen und das Ergebnis auszugeben:#include#include#includeIntmain (intargc, char*argv []) {Dir*Dir; structDirent*Eintrag; if (argc! = 2) {{

Python und Zeit: Machen Sie das Beste aus Ihrer Studienzeit Python und Zeit: Machen Sie das Beste aus Ihrer Studienzeit Apr 14, 2025 am 12:02 AM

Um die Effizienz des Lernens von Python in einer begrenzten Zeit zu maximieren, können Sie Pythons DateTime-, Zeit- und Zeitplanmodule verwenden. 1. Das DateTime -Modul wird verwendet, um die Lernzeit aufzuzeichnen und zu planen. 2. Das Zeitmodul hilft, die Studie zu setzen und Zeit zu ruhen. 3. Das Zeitplanmodul arrangiert automatisch wöchentliche Lernaufgaben.

So konfigurieren Sie den HTTPS -Server in Debian OpenSSL So konfigurieren Sie den HTTPS -Server in Debian OpenSSL Apr 13, 2025 am 11:03 AM

Das Konfigurieren eines HTTPS -Servers auf einem Debian -System umfasst mehrere Schritte, einschließlich der Installation der erforderlichen Software, der Generierung eines SSL -Zertifikats und der Konfiguration eines Webservers (z. B. Apache oder NGINX) für die Verwendung eines SSL -Zertifikats. Hier ist eine grundlegende Anleitung unter der Annahme, dass Sie einen Apacheweb -Server verwenden. 1. Installieren Sie zuerst die erforderliche Software, stellen Sie sicher, dass Ihr System auf dem neuesten Stand ist, und installieren Sie Apache und OpenSSL: sudoaptupdatesudoaptupgradesudoaptinsta

Nginx SSL -Zertifikat -Aktualisierung Debian Tutorial Nginx SSL -Zertifikat -Aktualisierung Debian Tutorial Apr 13, 2025 am 07:21 AM

In diesem Artikel werden Sie begleitet, wie Sie Ihr NginXSSL -Zertifikat auf Ihrem Debian -System aktualisieren. Schritt 1: Installieren Sie zuerst CertBot und stellen Sie sicher, dass Ihr System Certbot- und Python3-CertBot-Nginx-Pakete installiert hat. If not installed, please execute the following command: sudoapt-getupdatesudoapt-getinstallcertbotpython3-certbot-nginx Step 2: Obtain and configure the certificate Use the certbot command to obtain the Let'sEncrypt certificate and configure Nginx: sudocertbot--nginx Follow the prompts to select

Gitlabs Plug-in-Entwicklungshandbuch zu Debian Gitlabs Plug-in-Entwicklungshandbuch zu Debian Apr 13, 2025 am 08:24 AM

Die Entwicklung eines Gitlab -Plugins für Debian erfordert einige spezifische Schritte und Kenntnisse. Hier ist ein grundlegender Leitfaden, mit dem Sie mit diesem Prozess beginnen können. Wenn Sie zuerst GitLab installieren, müssen Sie GitLab in Ihrem Debian -System installieren. Sie können sich auf das offizielle Installationshandbuch von GitLab beziehen. Holen Sie sich API Access Token, bevor Sie die API -Integration durchführen. Öffnen Sie das GitLab -Dashboard, finden Sie die Option "AccessTokens" in den Benutzereinstellungen und generieren Sie ein neues Zugriffs -Token. Wird generiert

Welcher Dienst ist Apache Welcher Dienst ist Apache Apr 13, 2025 pm 12:06 PM

Apache ist der Held hinter dem Internet. Es ist nicht nur ein Webserver, sondern auch eine leistungsstarke Plattform, die enormen Datenverkehr unterstützt und dynamische Inhalte bietet. Es bietet eine extrem hohe Flexibilität durch ein modulares Design und ermöglicht die Ausdehnung verschiedener Funktionen nach Bedarf. Modularität stellt jedoch auch Konfigurations- und Leistungsherausforderungen vor, die ein sorgfältiges Management erfordern. Apache eignet sich für Serverszenarien, die hoch anpassbare und entsprechende komplexe Anforderungen erfordern.

In welcher Sprache wird Apache geschrieben? In welcher Sprache wird Apache geschrieben? Apr 13, 2025 pm 12:42 PM

Apache ist in C geschrieben. Die Sprache bietet Geschwindigkeit, Stabilität, Portabilität und direkten Zugriff auf Hardware, wodurch es für die Entwicklung von Webserver ideal ist.

See all articles