Extrahieren Sie Titel aus Webseiten mit Python-Python-Tutorial-php.cn

Inhaltsverzeichnis

Titel aus Webseiten extrahieren

Methode 1: Verwenden Sie die Bibliotheken „Request“ und „Beautiful Soup“

Beispiel

Ausgabe

Methode 2: Verwenden Sie urllib und BeautifulSoup, um Titel zu extrahieren

Methode 3: Titel mit Selenium und BeautifulSoup extrahieren

Methode 4: Verwenden Sie reguläre Ausdrücke, um Titel zu extrahieren

Fazit

Heim

Backend-Entwicklung

Python-Tutorial

Extrahieren Sie Titel aus Webseiten mit Python

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Aug 31, 2023 pm 12:45 PM

python 网页提取

Extrahieren Sie Titel aus Webseiten mit Python

In Python können wir mithilfe von Web Scraping Titel aus Webseiten extrahieren. Beim Web Scraping werden Daten von einer Website oder Webseite extrahiert. In diesem Artikel entfernen wir den Titel einer Webseite mithilfe der Requests- und BeautifulSoup-Bibliotheken in Python.

Titel aus Webseiten extrahieren

Methode 1: Verwenden Sie die Bibliotheken „Request“ und „Beautiful Soup“

Wir können die Anfrage- und Beautiful Soup-Bibliotheken von Python verwenden, um Titel aus Webseiten zu extrahieren. Die Anforderungsbibliothek wird verwendet, um HTTP-Anfragen an Websites zu senden und deren Antworten zu erhalten. Anschließend verwenden wir das Antwortobjekt, um den HTML-Inhalt der Webseite zu extrahieren.

Beispiel

Im folgenden Beispiel extrahieren wir den Titel der Wikipedia-Homepage. Wir verwenden die Anforderungsbibliothek, um eine GET-Anfrage an die URL der Wikipedia-Seite zu senden und das Antwortobjekt in der Antwortvariablen zu speichern.

Wir können dann das Beautiful Soup-Objekt verwenden, um den im Antwortobjekt empfangenen HTML-Inhalt zu analysieren und das Titel-Tag der Webseite mithilfe der Eigenschaft soup.title zu extrahieren. Anschließend können wir das String-Attribut extrahieren und in der Titelvariablen speichern.

import requests
from bs4 import BeautifulSoup

url = 'https://www.wikipedia.org/'
response = requests.get(url)

soup = BeautifulSoup(response.content, 'html.parser')
title = soup.title.string

print(title)

Nach dem Login kopieren

Ausgabe

Wikipedia

Nach dem Login kopieren

Methode 2: Verwenden Sie urllib und BeautifulSoup, um Titel zu extrahieren

Die Methoden

urllib und BeautifulSoup werden verwendet, um den Titel einer Webseite zu extrahieren, indem die URL geöffnet und der HTML-Inhalt der Webseite mithilfe der URLlib-Bibliothek abgerufen wird. Erstellen Sie ein BeautifulSoup-Objekt mit dem HTML-Inhalt und verwenden Sie die Eigenschaft „soup.title“, um den Titel-Tag der Seite zu extrahieren.

Beispiel

Im folgenden Beispiel verwenden wir die URL-Bibliothek, um eine URL zu öffnen und den HTML-Inhalt der Webseite abzurufen. Anschließend verwenden wir den Parser 'html.parser', um mithilfe des HTML-Inhalts der Webseite ein BeautifulSoup-Objekt zu erstellen.

Wir können dann den Titel-Tag der Webseite mithilfe des Attributs 'soup.title' extrahieren. Schließlich verwenden wir das Attribut „string“, um den String-Inhalt des Titel-Tags zu extrahieren und ihn in der Variablen „title“ zu speichern. Dann geben wir den Titel der Webseite auf der Konsole aus.

from urllib.request import urlopen
from bs4 import BeautifulSoup

url = 'https://www.wikipedia.org/'
html_page = urlopen(url)
soup = BeautifulSoup(html_page, 'html.parser')
title = soup.title.string

print(title)

Nach dem Login kopieren

Ausgabe

Wikipedia

Nach dem Login kopieren

Methode 3: Titel mit Selenium und BeautifulSoup extrahieren

Selenium- und BeautifulSoup-Methoden werden zum Extrahieren von Titeln aus Webseiten verwendet, indem die URL mithilfe der Selenium-Bibliothek geöffnet und der HTML-Inhalt der Webseite abgerufen wird. Erstellen Sie einen Chrome-Webtreiber und verwenden Sie ihn zum Navigieren zu Webseiten. Rufen Sie den HTML-Inhalt der Webseite mithilfe des Attributs „page_source“ des Webtreibers ab. Erstellen Sie ein BeautifulSoup-Objekt mit dem HTML-Inhalt und verwenden Sie die Eigenschaft „soup.title“, um den Titel-Tag der Seite zu extrahieren.

Beispiel

Im folgenden Beispiel verwenden wir die Selenium-Bibliothek, um eine URL zu öffnen und den HTML-Inhalt der Webseite abzurufen. Wir erstellen einen Chrome-Webtreiber und verwenden ihn zum Navigieren zu Webseiten. Anschließend rufen wir den HTML-Inhalt der Webseite mithilfe des Attributs „page_source“ des Webtreibers ab.

Wir verwenden den Parser „html.parser“, um mithilfe des HTML-Inhalts der Webseite ein BeautifulSoup-Objekt zu erstellen. Anschließend können wir den Titel-Tag der Webseite mithilfe der Eigenschaft „soup.title“ extrahieren. Schließlich verwenden wir das Attribut „string“, um den String-Inhalt des Titel-Tags zu extrahieren und ihn in der Variablen „title“ zu speichern. Dann geben wir den Titel der Webseite auf der Konsole aus.

from selenium import webdriver
from bs4 import BeautifulSoup

url = 'https://www.wikipedia.org/'
driver = webdriver.Chrome()
driver.get(url)

html_page = driver.page_source
soup = BeautifulSoup(html_page, 'html.parser')
title = soup.title.string

print(title)

driver.quit()

Nach dem Login kopieren

Ausgabe

Wikipedia

Nach dem Login kopieren

Methode 4: Verwenden Sie reguläre Ausdrücke, um Titel zu extrahieren

Die Methode des regulären Ausdrucks wird verwendet, um Header aus Webseiten zu extrahieren, indem die Anforderungsbibliothek verwendet wird, um eine GET-Anfrage an die URL zu senden und das Antwortobjekt zu speichern. Der HTML-Inhalt der Webseite wird dann dekodiert und in Variablen gespeichert. Definieren Sie ein reguläres Ausdrucksmuster, das dem Titel-Tag einer Webseite entspricht. Die Suchmethode eines regulären Ausdrucksmusters findet das erste Vorkommen des Musters im HTML-Inhalt der Webseite. Mit der Methode group(1) kann der String-Inhalt der ersten übereinstimmenden Gruppe extrahiert werden, um den Titel der Webseite zu erhalten.

Beispiel

Im folgenden Beispiel verwenden wir reguläre Ausdrücke, um den Titel einer Webseite zu extrahieren. Wir verwenden die Requests-Bibliothek, um eine GET-Anfrage an eine URL zu senden und das Antwortobjekt in der Variablen „response“ zu speichern.

Dann dekodieren wir den HTML-Inhalt der Webseite mit der „utf-8“-Kodierung und speichern ihn in der Variablen „html_content“. Wir definieren ein reguläres Ausdrucksmuster, das dem Titel-Tag einer Webseite entspricht.

Wir verwenden die „Such“-Methode eines regulären Ausdrucksmusters, um das erste Vorkommen des Musters im HTML-Inhalt der Webseite zu finden. Wir verwenden die Methode „group(1)“, um den String-Inhalt der ersten passenden Gruppe zu extrahieren und ihn in der Variablen „title“ zu speichern. Dann geben wir den Titel der Webseite auf der Konsole aus.

import requests

url = 'https://www.wikipedia.org/'
response = requests.get(url)
html_content = response.content.decode('utf-8')

title_pattern = re.compile('(.+?)')
match = title_pattern.search(html_content)
title = match.group(1)

print(title)

Nach dem Login kopieren

Ausgabe

Wikipedia

Nach dem Login kopieren

Fazit

In diesem Artikel haben wir den Prozess des Extrahierens von Titeln aus Webseiten mithilfe von Anfragen und der Beautiful Soup-Bibliothek in Python besprochen. Die Anforderungsbibliothek wird verwendet, um HTTP-Anfragen an Website-URLs zu senden und als Antwort HTML-Inhalte zu erhalten. Anschließend wird die Beautiful Soup-Bibliothek verwendet, um den HTML-Inhalt zu analysieren und die erforderlichen Header aus dem HTML-Inhalt zu extrahieren.

Das obige ist der detaillierte Inhalt vonExtrahieren Sie Titel aus Webseiten mit Python. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Erklärung dieser Website

Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn

Heiße KI -Werkzeuge

Undresser.AI Undress

KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover

Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool

Ausziehbilder kostenlos

Clothoff.io

KI-Kleiderentferner

AI Hentai Generator

Erstellen Sie kostenlos Ai Hentai.

Heißer Artikel

Assassin's Creed Shadows: Seashell Riddle -Lösung

3 Wochen vor By DDD

Was ist neu in Windows 11 KB5054979 und wie Sie Update -Probleme beheben

2 Wochen vor By DDD

Wo kann man die Kransteuerungsschlüsselkarten in Atomfall finden

3 Wochen vor By DDD

Ersparnis in R.E.P.O. Erklärt (und speichern Dateien)

1 Monate vor By 尊渡假赌尊渡假赌尊渡假赌

Assassins Creed Shadows - So finden Sie den Schmied und entsperren Sie die Waffen- und Rüstungsanpassung

4 Wochen vor By DDD

Heiße Werkzeuge

Notepad++7.3.1

Einfach zu bedienender und kostenloser Code-Editor

SublimeText3 chinesische Version

Chinesische Version, sehr einfach zu bedienen

Senden Sie Studio 13.0.1

Leistungsstarke integrierte PHP-Entwicklungsumgebung

Dreamweaver CS6

Visuelle Webentwicklungstools

SublimeText3 Mac-Version

Codebearbeitungssoftware auf Gottesniveau (SublimeText3)

Heiße Themen

Wo ist der Login-Zugang für Gmail-E-Mail?

7563

CakePHP-Tutorial

1385

Wie lautet das Format des Kontonamens von Steam?

Win11 -Aktivierungsschlüssel dauerhaft

NYT -Verbindungen Hinweise und Antworten

Related knowledge

PHP und Python: Code Beispiele und Vergleich Apr 15, 2025 am 12:07 AM

PHP und Python haben ihre eigenen Vor- und Nachteile, und die Wahl hängt von den Projektbedürfnissen und persönlichen Vorlieben ab. 1.PHP eignet sich für eine schnelle Entwicklung und Wartung großer Webanwendungen. 2. Python dominiert das Gebiet der Datenwissenschaft und des maschinellen Lernens.

Python gegen JavaScript: Community, Bibliotheken und Ressourcen Apr 15, 2025 am 12:16 AM

Python und JavaScript haben ihre eigenen Vor- und Nachteile in Bezug auf Gemeinschaft, Bibliotheken und Ressourcen. 1) Die Python-Community ist freundlich und für Anfänger geeignet, aber die Front-End-Entwicklungsressourcen sind nicht so reich wie JavaScript. 2) Python ist leistungsstark in Bibliotheken für Datenwissenschaft und maschinelles Lernen, während JavaScript in Bibliotheken und Front-End-Entwicklungsbibliotheken und Frameworks besser ist. 3) Beide haben reichhaltige Lernressourcen, aber Python eignet sich zum Beginn der offiziellen Dokumente, während JavaScript mit Mdnwebdocs besser ist. Die Wahl sollte auf Projektbedürfnissen und persönlichen Interessen beruhen.

Detaillierte Erklärung des Docker -Prinzips Apr 14, 2025 pm 11:57 PM

Docker verwendet Linux -Kernel -Funktionen, um eine effiziente und isolierte Anwendungsumgebung zu bieten. Sein Arbeitsprinzip lautet wie folgt: 1. Der Spiegel wird als schreibgeschützte Vorlage verwendet, die alles enthält, was Sie für die Ausführung der Anwendung benötigen. 2. Das Union File System (UnionFS) stapelt mehrere Dateisysteme, speichert nur die Unterschiede, speichert Platz und beschleunigt. 3. Der Daemon verwaltet die Spiegel und Container, und der Kunde verwendet sie für die Interaktion. 4. Namespaces und CGroups implementieren Container -Isolation und Ressourcenbeschränkungen; 5. Mehrere Netzwerkmodi unterstützen die Containerverbindung. Nur wenn Sie diese Kernkonzepte verstehen, können Sie Docker besser nutzen.

So führen Sie Programme in der terminalen VSCODE aus Apr 15, 2025 pm 06:42 PM

Im VS -Code können Sie das Programm im Terminal in den folgenden Schritten ausführen: Erstellen Sie den Code und öffnen Sie das integrierte Terminal, um sicherzustellen, dass das Codeverzeichnis mit dem Terminal Working -Verzeichnis übereinstimmt. Wählen Sie den Befehl aus, den Befehl ausführen, gemäß der Programmiersprache (z. B. Pythons Python your_file_name.py), um zu überprüfen, ob er erfolgreich ausgeführt wird, und Fehler auflösen. Verwenden Sie den Debugger, um die Debugging -Effizienz zu verbessern.

Python: Automatisierung, Skript- und Aufgabenverwaltung Apr 16, 2025 am 12:14 AM

Python zeichnet sich in Automatisierung, Skript und Aufgabenverwaltung aus. 1) Automatisierung: Die Sicherungssicherung wird durch Standardbibliotheken wie OS und Shutil realisiert. 2) Skriptschreiben: Verwenden Sie die PSUTIL -Bibliothek, um die Systemressourcen zu überwachen. 3) Aufgabenverwaltung: Verwenden Sie die Zeitplanbibliothek, um Aufgaben zu planen. Die Benutzerfreundlichkeit von Python und die Unterstützung der reichhaltigen Bibliothek machen es zum bevorzugten Werkzeug in diesen Bereichen.

Ist die VSCODE -Erweiterung bösartig? Apr 15, 2025 pm 07:57 PM

VS -Code -Erweiterungen stellen böswillige Risiken dar, wie das Verstecken von böswilligem Code, das Ausbeutetieren von Schwachstellen und das Masturbieren als legitime Erweiterungen. Zu den Methoden zur Identifizierung böswilliger Erweiterungen gehören: Überprüfung von Verlegern, Lesen von Kommentaren, Überprüfung von Code und Installation mit Vorsicht. Zu den Sicherheitsmaßnahmen gehören auch: Sicherheitsbewusstsein, gute Gewohnheiten, regelmäßige Updates und Antivirensoftware.

So installieren Sie Nginx in CentOS Apr 14, 2025 pm 08:06 PM

Die Installation von CentOS-Installationen erfordert die folgenden Schritte: Installieren von Abhängigkeiten wie Entwicklungstools, PCRE-Devel und OpenSSL-Devel. Laden Sie das Nginx -Quellcode -Paket herunter, entpacken Sie es, kompilieren Sie es und installieren Sie es und geben Sie den Installationspfad als/usr/local/nginx an. Erstellen Sie NGINX -Benutzer und Benutzergruppen und setzen Sie Berechtigungen. Ändern Sie die Konfigurationsdatei nginx.conf und konfigurieren Sie den Hörport und den Domänennamen/die IP -Adresse. Starten Sie den Nginx -Dienst. Häufige Fehler müssen beachtet werden, z. B. Abhängigkeitsprobleme, Portkonflikte und Konfigurationsdateifehler. Die Leistungsoptimierung muss entsprechend der spezifischen Situation angepasst werden, z. B. das Einschalten des Cache und die Anpassung der Anzahl der Arbeitsprozesse.

Wofür ist VSCODE Wofür ist VSCODE? Apr 15, 2025 pm 06:45 PM

VS Code ist der vollständige Name Visual Studio Code, der eine kostenlose und open-Source-plattformübergreifende Code-Editor und Entwicklungsumgebung von Microsoft ist. Es unterstützt eine breite Palette von Programmiersprachen und bietet Syntax -Hervorhebung, automatische Codebettel, Code -Snippets und intelligente Eingabeaufforderungen zur Verbesserung der Entwicklungseffizienz. Durch ein reiches Erweiterungs -Ökosystem können Benutzer bestimmte Bedürfnisse und Sprachen wie Debugger, Code -Formatierungs -Tools und Git -Integrationen erweitern. VS -Code enthält auch einen intuitiven Debugger, mit dem Fehler in Ihrem Code schnell gefunden und behoben werden können.

See all articles