Python lernt, Blogpark-Neuigkeiten zu erfassen
前言
说到python,对它有点耳闻的人,第一反应可能都是爬虫~
这两天看了点python的皮毛知识,忍不住想写一个简单的爬虫练练手,JUST DO IT
准备工作
要制作数据抓取的爬虫,对请求的源页面结构需要有特定分析,只有分析正确了,才能更好更快的爬到我们想要的内容。
浏览器访问570973/,右键“查看源代码”,初步只想取一些简单的数据(文章标题、作者、发布时间等),在HTML源码中找到相关数据的部分:
1)标题(url):
2) Autor: Poster itwriter
3) Veröffentlichungszeit: Veröffentlicht am 2017-06-06 14:53
4) Aktuelle Nachrichten-ID:
Wenn Sie dem Beispiel folgen möchten, ist die Struktur der Links „Vorheriger Artikel“ und „Nächster Artikel“ sehr wichtig. Die beiden Tags Inhalt wird über js gerendert, was soll ich tun? Versuchen Sie, Informationen zu finden (Python führt js und dergleichen aus), aber für Python-Neulinge ist es möglicherweise etwas voraus und ich habe vor, eine andere Lösung zu finden.
Obwohl diese beiden Links über js gerendert werden, sollte der Grund, warum js den Inhalt rendern kann, darin bestehen, eine Anfrage zu initiieren und die Antwort zu erhalten. Ist es dann möglich, die Webseite zu überwachen? Ladevorgang, um zu sehen, welche nützlichen Informationen vorhanden sind? Ich möchte ein Lob dafür aussprechen, dass Browser wie Chrome/Firefox Developer Tools/Network den Anforderungs- und Antwortstatus aller Ressourcen klar sehen können.
Ihre Anfrageadressen sind:
1) Vorherige Nachrichten-ID:
2) Nächste Nachrichten-ID:
Der Inhalt der Antwort ist JSON
Hier ist ContentID das, was wir brauchen, um den vorherigen oder nächsten Artikel der aktuellen Nachrichten-URL zu erkennen Die Seitenadresse von Pressemitteilungen hat ein festes Format: {{ContentID}}/ (Der rote Inhalt ist die austauschbare ID)
Tools
1) Python 3.6 (gleichzeitig Pip installieren und Umgebungsvariablen hinzufügen)
2) PyCharm 2017.1.3
3) Python-Bibliothek eines Drittanbieters (Installation: cmd -> pip-Installationsname)
a) Pyperclip: wird zum Lesen und Schreiben der Zwischenablage verwendet
b) Anfragen: eine HTTP-Bibliothek, die auf urllib basiert und das Apache2-lizenzierte Open-Source-Protokoll verwendet. Es ist praktischer als urllib und kann uns viel Arbeit ersparen
c) beautifulsoup4: Beautiful Soup bietet einige einfache Funktionen im Python-Stil für die Navigation, Suche, Änderung von Analysebäumen, usw. Funktion. Es handelt sich um eine Toolbox, die Benutzern die Daten bereitstellt, die sie zum Crawlen benötigen, indem sie Dokumente
Quellcode
Ich persönlich finde die Codes sehr einfach und leicht zu verstehen (Neulinge können schließlich keinen fortgeschrittenen Code schreiben. Wenn Sie Fragen oder Anregungen haben, lassen Sie es mich bitte wissen
Führen Sie
aus. Speichern Sie den obigen Quellcode unter D:/get_cnblogs_news.py unter den Fenstern Plattform Öffnen Sie das Befehlszeilentool cmd:
Geben Sie den Befehl ein: py.exe D:/get_cnblogs_news.py Geben Sie
ein. Analyse: py.exe muss nicht erklärt werden, der zweite Parameter ist Python Skriptdatei, der dritte Parameter ist die Quellseite, die gecrawlt werden muss (im Code gibt es noch eine weitere Überlegung. Wenn Sie diese URL in die Systemzwischenablage kopieren, können Sie sie direkt ausführen: py.exe D:/get_cnblogs_news.py
Befehlszeilen-Ausgabeschnittstelle (Drucken)
Inhalt in CSV-Datei gespeichert
Empfohlene Python-Lernbuchbox oder Materialien für Anfänger:
1) Liao Xuefengs Python-Tutorial, sehr einfach und leicht zu verstehen:
2 ) Beginnen Sie schnell mit der Python-Programmierung, um mühsame Arbeit zu automatisieren.pdf
Der Artikel ist nur ein Tagebuch für mich selbst, um Python zu lernen. Bitte kritisieren und korrigieren Sie es, wenn es irreführend ist (nein, bitte nicht sprühen). Es wäre mir eine Ehre, wenn es Ihnen helfen würde.
Das obige ist der detaillierte Inhalt vonPython lernt, Blogpark-Neuigkeiten zu erfassen. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Heiße KI -Werkzeuge

Undresser.AI Undress
KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover
Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool
Ausziehbilder kostenlos

Clothoff.io
KI-Kleiderentferner

AI Hentai Generator
Erstellen Sie kostenlos Ai Hentai.

Heißer Artikel

Heiße Werkzeuge

Notepad++7.3.1
Einfach zu bedienender und kostenloser Code-Editor

SublimeText3 chinesische Version
Chinesische Version, sehr einfach zu bedienen

Senden Sie Studio 13.0.1
Leistungsstarke integrierte PHP-Entwicklungsumgebung

Dreamweaver CS6
Visuelle Webentwicklungstools

SublimeText3 Mac-Version
Codebearbeitungssoftware auf Gottesniveau (SublimeText3)

Heiße Themen



PHP und Python haben jeweils ihre eigenen Vorteile und wählen nach den Projektanforderungen. 1.PHP ist für die Webentwicklung geeignet, insbesondere für die schnelle Entwicklung und Wartung von Websites. 2. Python eignet sich für Datenwissenschaft, maschinelles Lernen und künstliche Intelligenz mit prägnanter Syntax und für Anfänger.

Die Readdir -Funktion im Debian -System ist ein Systemaufruf, der zum Lesen des Verzeichnisgehalts verwendet wird und häufig in der C -Programmierung verwendet wird. In diesem Artikel wird erläutert, wie Readdir in andere Tools integriert wird, um seine Funktionalität zu verbessern. Methode 1: Kombinieren Sie C -Sprachprogramm und Pipeline zuerst ein C -Programm, um die Funktion der Readdir aufzurufen und das Ergebnis auszugeben:#include#include#includeIntmain (intargc, char*argv []) {Dir*Dir; structDirent*Eintrag; if (argc! = 2) {{

Um die Effizienz des Lernens von Python in einer begrenzten Zeit zu maximieren, können Sie Pythons DateTime-, Zeit- und Zeitplanmodule verwenden. 1. Das DateTime -Modul wird verwendet, um die Lernzeit aufzuzeichnen und zu planen. 2. Das Zeitmodul hilft, die Studie zu setzen und Zeit zu ruhen. 3. Das Zeitplanmodul arrangiert automatisch wöchentliche Lernaufgaben.

Das Konfigurieren eines HTTPS -Servers auf einem Debian -System umfasst mehrere Schritte, einschließlich der Installation der erforderlichen Software, der Generierung eines SSL -Zertifikats und der Konfiguration eines Webservers (z. B. Apache oder NGINX) für die Verwendung eines SSL -Zertifikats. Hier ist eine grundlegende Anleitung unter der Annahme, dass Sie einen Apacheweb -Server verwenden. 1. Installieren Sie zuerst die erforderliche Software, stellen Sie sicher, dass Ihr System auf dem neuesten Stand ist, und installieren Sie Apache und OpenSSL: sudoaptupdatesudoaptupgradesudoaptinsta

In diesem Artikel werden Sie begleitet, wie Sie Ihr NginXSSL -Zertifikat auf Ihrem Debian -System aktualisieren. Schritt 1: Installieren Sie zuerst CertBot und stellen Sie sicher, dass Ihr System Certbot- und Python3-CertBot-Nginx-Pakete installiert hat. If not installed, please execute the following command: sudoapt-getupdatesudoapt-getinstallcertbotpython3-certbot-nginx Step 2: Obtain and configure the certificate Use the certbot command to obtain the Let'sEncrypt certificate and configure Nginx: sudocertbot--nginx Follow the prompts to select

Die Entwicklung eines Gitlab -Plugins für Debian erfordert einige spezifische Schritte und Kenntnisse. Hier ist ein grundlegender Leitfaden, mit dem Sie mit diesem Prozess beginnen können. Wenn Sie zuerst GitLab installieren, müssen Sie GitLab in Ihrem Debian -System installieren. Sie können sich auf das offizielle Installationshandbuch von GitLab beziehen. Holen Sie sich API Access Token, bevor Sie die API -Integration durchführen. Öffnen Sie das GitLab -Dashboard, finden Sie die Option "AccessTokens" in den Benutzereinstellungen und generieren Sie ein neues Zugriffs -Token. Wird generiert

Apache ist der Held hinter dem Internet. Es ist nicht nur ein Webserver, sondern auch eine leistungsstarke Plattform, die enormen Datenverkehr unterstützt und dynamische Inhalte bietet. Es bietet eine extrem hohe Flexibilität durch ein modulares Design und ermöglicht die Ausdehnung verschiedener Funktionen nach Bedarf. Modularität stellt jedoch auch Konfigurations- und Leistungsherausforderungen vor, die ein sorgfältiges Management erfordern. Apache eignet sich für Serverszenarien, die hoch anpassbare und entsprechende komplexe Anforderungen erfordern.

Apache ist in C geschrieben. Die Sprache bietet Geschwindigkeit, Stabilität, Portabilität und direkten Zugriff auf Hardware, wodurch es für die Entwicklung von Webserver ideal ist.
