Rumah > pembangunan bahagian belakang > Golang > Prinsip pelaksanaan crawler Golang

Prinsip pelaksanaan crawler Golang

PHPz
Lepaskan: 2023-05-13 10:29:07
asal
473 orang telah melayarinya

Dalam beberapa tahun kebelakangan ini, aplikasi teknologi crawler semakin meluas, melibatkan pelbagai bidang seperti kecerdasan buatan dan data besar Sebagai bahasa pengaturcaraan berkonkurensi tinggi dan berprestasi tinggi, Golang juga digunakan oleh lebih banyak lagi pengaturcara crawler. Artikel ini akan memperkenalkan anda kepada prinsip pelaksanaan perangkak golang.

1. Permintaan HTTP

Apabila menggunakan golang untuk pembangunan perangkak, tugas yang paling penting ialah untuk memulakan permintaan HTTP dan mendapatkan hasil tindak balas. Pustaka standard Golang telah menyediakan pelbagai fungsi dan jenis berkaitan klien HTTP, membolehkan kami menyelesaikan penghantaran dan pemprosesan permintaan HTTP dengan mudah.

Sebagai contoh, kita boleh menggunakan fungsi http.Get() untuk menghantar permintaan GET secara langsung Fungsi ini akan menghantar permintaan HTTP GET ke URL yang ditentukan dan mengembalikan objek *http.Response type resp, yang mengandungi. jawapan. Kod status, maklumat pengepala dan data respons:

response, err := http.Get("https://www.baidu.com")
if err != nil {
     log.Fatalln(err)
}
defer response.Body.Close()
Salin selepas log masuk

Jika anda perlu menghantar permintaan POST, anda boleh menggunakan fungsi http.Post() untuk menghantarnya. Penggunaannya adalah serupa, kecuali anda perlu menambah parameter badan permintaan:

form := url.Values{
    "key":   {"value"},
}
response, err := http.PostForm("https://www.example.com/login", form)
if err != nil {
    log.Fatalln(err)
}
defer response.Body.Close()
Salin selepas log masuk

Selain itu, pustaka standard Golang juga menyediakan jenis klien HTTP lain, seperti http.Client, http.Transport, dsb. Sangat bagus untuk memenuhi pelbagai keperluan. Apabila beberapa parameter khas perlu disesuaikan, parameter klien HTTP boleh disesuaikan.

2. Parse HTML

Selepas mendapatkan kandungan halaman web, langkah seterusnya ialah mengekstrak maklumat yang diperlukan. Secara amnya, kandungan halaman web dikembalikan dalam bentuk HTML, jadi kita perlu menggunakan penghurai HTML untuk menghuraikan halaman web dan mengekstrak maklumat. Pustaka standard Golang menyediakan pakej html yang boleh melaksanakan penghuraian HTML dengan mudah. Kita boleh menggunakan fungsi html.Parse() untuk menghuraikan teks HTML ke dalam objek AST (Pokok Sintaks Abstrak).

Sebagai contoh, kita boleh menghuraikan semua pautan daripada teks HTML:

resp, err := http.Get("https://www.example.com")
if err != nil {
    log.Fatalln(err)
}
defer resp.Body.Close()

doc, err := html.Parse(resp.Body)
if err != nil {
    log.Fatalln(err)
}

var links []string
findLinks(doc, &links)

func findLinks(n *html.Node, links *[]string) {
    if n.Type == html.ElementNode && n.Data == "a" {
        for _, a := range n.Attr {
            if a.Key == "href" {
                *links = append(*links, a.Val)
                break
            }
        }
    }
    for c := n.FirstChild; c != nil; c = c.NextSibling {
        findLinks(c, links)
    }
}
Salin selepas log masuk

Dalam fungsi di atas findLinks(), kita melintasi keseluruhan AST secara rekursif dan mencari semua nod HTML, jika nod ialah teg, cari href atribut nod, dan kemudian tambahkannya pada kepingan pautan.

Begitu juga, kami boleh mengekstrak kandungan artikel, pautan imej, dll. dengan cara yang sama.

3. Parse JSON

Sesetengah tapak web juga akan mengembalikan data dalam format JSON (RESTful API), dan Golang juga menyediakan penghurai JSON, yang sangat mudah.

Sebagai contoh, kita boleh menghuraikan satu set objek daripada hasil jawapan format JSON, kodnya adalah seperti berikut:

type User struct {
    ID       int    `json:"id"`
    Name     string `json:"name"`
    Username string `json:"username"`
    Email    string `json:"email"`
    Phone    string `json:"phone"`
    Website  string `json:"website"`
}

func main() {
    response, err := http.Get("https://jsonplaceholder.typicode.com/users")
    if err != nil {
        log.Fatalln(err)
    }
    defer response.Body.Close()

    var users []User
    if err := json.NewDecoder(response.Body).Decode(&users); err != nil {
        log.Fatalln(err)
    }

    fmt.Printf("%+v", users)
}
Salin selepas log masuk

Dalam kod di atas, kami menggunakan fungsi json.NewDecoder() untuk menukar respons Kandungan badan dinyahkodkan kepada sekeping jenis []Pengguna, dan kemudian semua maklumat pengguna dicetak keluar.

4. Anti-crawler

Dalam bidang web crawler, anti-crawler adalah perkara biasa. Tapak web akan menggunakan pelbagai kaedah untuk anti-merangkak, seperti larangan IP, kod pengesahan, pengesanan Ejen Pengguna, had kekerapan permintaan, dsb.

Kami juga boleh menggunakan pelbagai kaedah untuk memintas langkah anti perangkak ini, seperti:

  1. Gunakan kolam proksi: berjalan antara pelbagai proksi untuk merangkak.
  2. Gunakan kumpulan Ejen Pengguna: Gunakan pengepala permintaan Ejen Pengguna secara rawak.
  3. Had Kekerapan: Hadkan kekerapan permintaan atau gunakan penyerahan yang tertangguh.
  4. Sambung ke penapis anti-perakak penyemak imbas

Di atas hanyalah beberapa langkah balas jurutera Crawlers juga perlu menyesuaikan pelaksanaan mengikut keperluan semasa pembangunan sebenar.

5. Ringkasan

Artikel ini meringkaskan perkara penting dalam melaksanakan perangkak web di Golang berdasarkan empat aspek: klien HTTP, HTML, penghuraian JSON dan anti perangkak. Golang menggunakan concurrency dan coroutine ringan, yang sangat sesuai untuk merangkak serentak data. Sudah tentu, perangkak web ialah aplikasi dengan keperluan khas Mereka perlu direka bentuk berdasarkan senario perniagaan, menggunakan cara teknikal secara munasabah, dan mengelakkan dibuka dan digunakan sesuka hati.

Atas ialah kandungan terperinci Prinsip pelaksanaan crawler Golang. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

sumber:php.cn
Kenyataan Laman Web ini
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn
Tutorial Popular
Lagi>
Muat turun terkini
Lagi>
kesan web
Kod sumber laman web
Bahan laman web
Templat hujung hadapan