Extrahieren Sie Titel aus Webseiten mit Python
In Python können wir mithilfe von Web Scraping Titel aus Webseiten extrahieren. Beim Web Scraping werden Daten von einer Website oder Webseite extrahiert. In diesem Artikel entfernen wir den Titel einer Webseite mithilfe der Requests- und BeautifulSoup-Bibliotheken in Python.
Titel aus Webseiten extrahieren
Methode 1: Verwenden Sie die Bibliotheken „Request“ und „Beautiful Soup“
Wir können die Anfrage- und Beautiful Soup-Bibliotheken von Python verwenden, um Titel aus Webseiten zu extrahieren. Die Anforderungsbibliothek wird verwendet, um HTTP-Anfragen an Websites zu senden und deren Antworten zu erhalten. Anschließend verwenden wir das Antwortobjekt, um den HTML-Inhalt der Webseite zu extrahieren.
Beispiel
Im folgenden Beispiel extrahieren wir den Titel der Wikipedia-Homepage. Wir verwenden die Anforderungsbibliothek, um eine GET-Anfrage an die URL der Wikipedia-Seite zu senden und das Antwortobjekt in der Antwortvariablen zu speichern.
Wir können dann das Beautiful Soup-Objekt verwenden, um den im Antwortobjekt empfangenen HTML-Inhalt zu analysieren und das Titel-Tag der Webseite mithilfe der Eigenschaft soup.title zu extrahieren. Anschließend können wir das String-Attribut extrahieren und in der Titelvariablen speichern.
import requests from bs4 import BeautifulSoup url = 'https://www.wikipedia.org/' response = requests.get(url) soup = BeautifulSoup(response.content, 'html.parser') title = soup.title.string print(title)
Ausgabe
Wikipedia
Methode 2: Verwenden Sie urllib und BeautifulSoup, um Titel zu extrahieren
Die Methodenurllib und BeautifulSoup werden verwendet, um den Titel einer Webseite zu extrahieren, indem die URL geöffnet und der HTML-Inhalt der Webseite mithilfe der URLlib-Bibliothek abgerufen wird. Erstellen Sie ein BeautifulSoup-Objekt mit dem HTML-Inhalt und verwenden Sie die Eigenschaft „soup.title“, um den Titel-Tag der Seite zu extrahieren.
Beispiel
Im folgenden Beispiel verwenden wir die URL-Bibliothek, um eine URL zu öffnen und den HTML-Inhalt der Webseite abzurufen. Anschließend verwenden wir den Parser 'html.parser', um mithilfe des HTML-Inhalts der Webseite ein BeautifulSoup-Objekt zu erstellen.
Wir können dann den Titel-Tag der Webseite mithilfe des Attributs 'soup.title' extrahieren. Schließlich verwenden wir das Attribut „string“, um den String-Inhalt des Titel-Tags zu extrahieren und ihn in der Variablen „title“ zu speichern. Dann geben wir den Titel der Webseite auf der Konsole aus.
from urllib.request import urlopen from bs4 import BeautifulSoup url = 'https://www.wikipedia.org/' html_page = urlopen(url) soup = BeautifulSoup(html_page, 'html.parser') title = soup.title.string print(title)
Ausgabe
Wikipedia
Methode 3: Titel mit Selenium und BeautifulSoup extrahieren
Selenium- und BeautifulSoup-Methoden werden zum Extrahieren von Titeln aus Webseiten verwendet, indem die URL mithilfe der Selenium-Bibliothek geöffnet und der HTML-Inhalt der Webseite abgerufen wird. Erstellen Sie einen Chrome-Webtreiber und verwenden Sie ihn zum Navigieren zu Webseiten. Rufen Sie den HTML-Inhalt der Webseite mithilfe des Attributs „page_source“ des Webtreibers ab. Erstellen Sie ein BeautifulSoup-Objekt mit dem HTML-Inhalt und verwenden Sie die Eigenschaft „soup.title“, um den Titel-Tag der Seite zu extrahieren.
Beispiel
Im folgenden Beispiel verwenden wir die Selenium-Bibliothek, um eine URL zu öffnen und den HTML-Inhalt der Webseite abzurufen. Wir erstellen einen Chrome-Webtreiber und verwenden ihn zum Navigieren zu Webseiten. Anschließend rufen wir den HTML-Inhalt der Webseite mithilfe des Attributs „page_source“ des Webtreibers ab.
Wir verwenden den Parser „html.parser“, um mithilfe des HTML-Inhalts der Webseite ein BeautifulSoup-Objekt zu erstellen. Anschließend können wir den Titel-Tag der Webseite mithilfe der Eigenschaft „soup.title“ extrahieren. Schließlich verwenden wir das Attribut „string“, um den String-Inhalt des Titel-Tags zu extrahieren und ihn in der Variablen „title“ zu speichern. Dann geben wir den Titel der Webseite auf der Konsole aus.
from selenium import webdriver from bs4 import BeautifulSoup url = 'https://www.wikipedia.org/' driver = webdriver.Chrome() driver.get(url) html_page = driver.page_source soup = BeautifulSoup(html_page, 'html.parser') title = soup.title.string print(title) driver.quit()
Ausgabe
Wikipedia
Methode 4: Verwenden Sie reguläre Ausdrücke, um Titel zu extrahieren
Die Methode des regulären Ausdrucks wird verwendet, um Header aus Webseiten zu extrahieren, indem die Anforderungsbibliothek verwendet wird, um eine GET-Anfrage an die URL zu senden und das Antwortobjekt zu speichern. Der HTML-Inhalt der Webseite wird dann dekodiert und in Variablen gespeichert. Definieren Sie ein reguläres Ausdrucksmuster, das dem Titel-Tag einer Webseite entspricht. Die Suchmethode eines regulären Ausdrucksmusters findet das erste Vorkommen des Musters im HTML-Inhalt der Webseite. Mit der Methode group(1) kann der String-Inhalt der ersten übereinstimmenden Gruppe extrahiert werden, um den Titel der Webseite zu erhalten.
Beispiel
Im folgenden Beispiel verwenden wir reguläre Ausdrücke, um den Titel einer Webseite zu extrahieren. Wir verwenden die Requests-Bibliothek, um eine GET-Anfrage an eine URL zu senden und das Antwortobjekt in der Variablen „response“ zu speichern.
Dann dekodieren wir den HTML-Inhalt der Webseite mit der „utf-8“-Kodierung und speichern ihn in der Variablen „html_content“. Wir definieren ein reguläres Ausdrucksmuster, das dem Titel-Tag einer Webseite entspricht.
Wir verwenden die „Such“-Methode eines regulären Ausdrucksmusters, um das erste Vorkommen des Musters im HTML-Inhalt der Webseite zu finden. Wir verwenden die Methode „group(1)“, um den String-Inhalt der ersten passenden Gruppe zu extrahieren und ihn in der Variablen „title“ zu speichern. Dann geben wir den Titel der Webseite auf der Konsole aus.
import requests url = 'https://www.wikipedia.org/' response = requests.get(url) html_content = response.content.decode('utf-8') title_pattern = re.compile('(.+?)') match = title_pattern.search(html_content) title = match.group(1) print(title)
Ausgabe
Wikipedia
Fazit
In diesem Artikel haben wir den Prozess des Extrahierens von Titeln aus Webseiten mithilfe von Anfragen und der Beautiful Soup-Bibliothek in Python besprochen. Die Anforderungsbibliothek wird verwendet, um HTTP-Anfragen an Website-URLs zu senden und als Antwort HTML-Inhalte zu erhalten. Anschließend wird die Beautiful Soup-Bibliothek verwendet, um den HTML-Inhalt zu analysieren und die erforderlichen Header aus dem HTML-Inhalt zu extrahieren.
Das obige ist der detaillierte Inhalt vonExtrahieren Sie Titel aus Webseiten mit Python. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Heiße KI -Werkzeuge

Undresser.AI Undress
KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover
Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool
Ausziehbilder kostenlos

Clothoff.io
KI-Kleiderentferner

AI Hentai Generator
Erstellen Sie kostenlos Ai Hentai.

Heißer Artikel

Heiße Werkzeuge

Notepad++7.3.1
Einfach zu bedienender und kostenloser Code-Editor

SublimeText3 chinesische Version
Chinesische Version, sehr einfach zu bedienen

Senden Sie Studio 13.0.1
Leistungsstarke integrierte PHP-Entwicklungsumgebung

Dreamweaver CS6
Visuelle Webentwicklungstools

SublimeText3 Mac-Version
Codebearbeitungssoftware auf Gottesniveau (SublimeText3)

Heiße Themen



PHP und Python haben ihre eigenen Vor- und Nachteile, und die Wahl hängt von den Projektbedürfnissen und persönlichen Vorlieben ab. 1.PHP eignet sich für eine schnelle Entwicklung und Wartung großer Webanwendungen. 2. Python dominiert das Gebiet der Datenwissenschaft und des maschinellen Lernens.

Python und JavaScript haben ihre eigenen Vor- und Nachteile in Bezug auf Gemeinschaft, Bibliotheken und Ressourcen. 1) Die Python-Community ist freundlich und für Anfänger geeignet, aber die Front-End-Entwicklungsressourcen sind nicht so reich wie JavaScript. 2) Python ist leistungsstark in Bibliotheken für Datenwissenschaft und maschinelles Lernen, während JavaScript in Bibliotheken und Front-End-Entwicklungsbibliotheken und Frameworks besser ist. 3) Beide haben reichhaltige Lernressourcen, aber Python eignet sich zum Beginn der offiziellen Dokumente, während JavaScript mit Mdnwebdocs besser ist. Die Wahl sollte auf Projektbedürfnissen und persönlichen Interessen beruhen.

Docker verwendet Linux -Kernel -Funktionen, um eine effiziente und isolierte Anwendungsumgebung zu bieten. Sein Arbeitsprinzip lautet wie folgt: 1. Der Spiegel wird als schreibgeschützte Vorlage verwendet, die alles enthält, was Sie für die Ausführung der Anwendung benötigen. 2. Das Union File System (UnionFS) stapelt mehrere Dateisysteme, speichert nur die Unterschiede, speichert Platz und beschleunigt. 3. Der Daemon verwaltet die Spiegel und Container, und der Kunde verwendet sie für die Interaktion. 4. Namespaces und CGroups implementieren Container -Isolation und Ressourcenbeschränkungen; 5. Mehrere Netzwerkmodi unterstützen die Containerverbindung. Nur wenn Sie diese Kernkonzepte verstehen, können Sie Docker besser nutzen.

Im VS -Code können Sie das Programm im Terminal in den folgenden Schritten ausführen: Erstellen Sie den Code und öffnen Sie das integrierte Terminal, um sicherzustellen, dass das Codeverzeichnis mit dem Terminal Working -Verzeichnis übereinstimmt. Wählen Sie den Befehl aus, den Befehl ausführen, gemäß der Programmiersprache (z. B. Pythons Python your_file_name.py), um zu überprüfen, ob er erfolgreich ausgeführt wird, und Fehler auflösen. Verwenden Sie den Debugger, um die Debugging -Effizienz zu verbessern.

Python zeichnet sich in Automatisierung, Skript und Aufgabenverwaltung aus. 1) Automatisierung: Die Sicherungssicherung wird durch Standardbibliotheken wie OS und Shutil realisiert. 2) Skriptschreiben: Verwenden Sie die PSUTIL -Bibliothek, um die Systemressourcen zu überwachen. 3) Aufgabenverwaltung: Verwenden Sie die Zeitplanbibliothek, um Aufgaben zu planen. Die Benutzerfreundlichkeit von Python und die Unterstützung der reichhaltigen Bibliothek machen es zum bevorzugten Werkzeug in diesen Bereichen.

VS -Code -Erweiterungen stellen böswillige Risiken dar, wie das Verstecken von böswilligem Code, das Ausbeutetieren von Schwachstellen und das Masturbieren als legitime Erweiterungen. Zu den Methoden zur Identifizierung böswilliger Erweiterungen gehören: Überprüfung von Verlegern, Lesen von Kommentaren, Überprüfung von Code und Installation mit Vorsicht. Zu den Sicherheitsmaßnahmen gehören auch: Sicherheitsbewusstsein, gute Gewohnheiten, regelmäßige Updates und Antivirensoftware.

Die Installation von CentOS-Installationen erfordert die folgenden Schritte: Installieren von Abhängigkeiten wie Entwicklungstools, PCRE-Devel und OpenSSL-Devel. Laden Sie das Nginx -Quellcode -Paket herunter, entpacken Sie es, kompilieren Sie es und installieren Sie es und geben Sie den Installationspfad als/usr/local/nginx an. Erstellen Sie NGINX -Benutzer und Benutzergruppen und setzen Sie Berechtigungen. Ändern Sie die Konfigurationsdatei nginx.conf und konfigurieren Sie den Hörport und den Domänennamen/die IP -Adresse. Starten Sie den Nginx -Dienst. Häufige Fehler müssen beachtet werden, z. B. Abhängigkeitsprobleme, Portkonflikte und Konfigurationsdateifehler. Die Leistungsoptimierung muss entsprechend der spezifischen Situation angepasst werden, z. B. das Einschalten des Cache und die Anpassung der Anzahl der Arbeitsprozesse.

VS Code ist der vollständige Name Visual Studio Code, der eine kostenlose und open-Source-plattformübergreifende Code-Editor und Entwicklungsumgebung von Microsoft ist. Es unterstützt eine breite Palette von Programmiersprachen und bietet Syntax -Hervorhebung, automatische Codebettel, Code -Snippets und intelligente Eingabeaufforderungen zur Verbesserung der Entwicklungseffizienz. Durch ein reiches Erweiterungs -Ökosystem können Benutzer bestimmte Bedürfnisse und Sprachen wie Debugger, Code -Formatierungs -Tools und Git -Integrationen erweitern. VS -Code enthält auch einen intuitiven Debugger, mit dem Fehler in Ihrem Code schnell gefunden und behoben werden können.
