Der PHP-Editor Banana stellt Ihnen ein leistungsstarkes Webcrawler-Framework vor – Go Colly. Go Colly ist ein leichtes Webcrawler-Framework, das auf der Grundlage der Go-Sprache entwickelt wurde. Es zeichnet sich durch hohe Leistung, hohe Parallelität und einfache Erweiterung aus. Wenn wir Go Colly zum Webcrawlen verwenden, müssen wir häufig die angeforderten Elemente entsprechend unseren Anforderungen finden. Wie findet Go Colly das gewünschte Element? Als nächstes werden wir sie einzeln beantworten.
Ich versuche, Colly zu verwenden, um den Inhalt einer bestimmten Tabelle durchlaufen zu lassen, aber die Tabelle wird nicht erkannt. Das ist es, was ich bisher habe.
package main import ( "fmt" "github.com/gocolly/colly" ) func main() { c := colly.NewCollector( colly.AllowedDomains("wikipedia.org", "en.wikipedia.org"), ) links := make([]string, 0) c.OnHTML("div.mw-parser-output", func(e *colly.HTMLElement) { e.ForEach("table.wikitable.sortable.jquery-tablesorter > tbody > tr", func(_ int, elem *colly.HTMLElement) { fmt.Println(elem.ChildAttr("a[href]", "href")) links = append(links, elem.ChildAttr("a[href]", "href")) }) }) c.OnRequest(func(r *colly.Request) { fmt.Println("Visiting", r.URL.String()) }) c.Visit("https://en.wikipedia.org/wiki/List_of_countries_and_dependencies_by_population") fmt.Println("Found urls for", len(links), "countries.") }
Ich muss alle tr-Elemente in der Tabelle durchlaufen.
Es stellt sich heraus, dass der Name der Klasse tatsächlich wikitable.sortable
,即使在 chrome 控制台中显示为 wikitable sortable jquery-tablesorter
ist. Ich weiß nicht, warum die Namen so unterschiedlich sind, aber es hat mein Problem gelöst.
Das obige ist der detaillierte Inhalt vonWie findet Go Colly das gesuchte Element?. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!