Webseiten-Links mit Python und BeautifulSoup abrufen
Das Extrahieren von Links aus Webseiten ist eine häufige Aufgabe beim Web Scraping. Dies kann leicht mit der BeautifulSoup-Bibliothek von Python erreicht werden.
SoupStrainer verwenden
Für eine optimale Leistung verwenden Sie den SoupStrainer von BeautifulSoup. Diese Klasse ermöglicht ein gezieltes Parsen durch Angabe des gewünschten Tag-Typs. Verwenden Sie zum Abrufen von Links:
parse_only=SoupStrainer('a')
Link-URLs abrufen
Um die URLs der Links zu erhalten, untersuchen Sie das „href“-Attribut des „a“-Tags :
for link in BeautifulSoup(response, 'html.parser', parse_only=SoupStrainer('a')): if link.has_attr('href'): print(link['href'])
Schöne Suppe Dokumentation
Weitere Anleitungen finden Sie in der umfangreichen BeautifulSoup-Dokumentation:
Zusätzlich Notizen
SoupStrainer verbessert die Leistung, indem es den Speicherverbrauch und die Verarbeitungszeit reduziert. Dies ist besonders nützlich, wenn der zu analysierende Inhalt im Voraus bekannt ist.
Das obige ist der detaillierte Inhalt vonWie kann ich Webseiten-Links mit Python und BeautifulSoup effizient extrahieren?. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!