Rumah pembangunan bahagian belakang Golang Bagaimana untuk melaksanakan perangkak web berbilang benang menggunakan Go dan http.Transport?

Bagaimana untuk melaksanakan perangkak web berbilang benang menggunakan Go dan http.Transport?

Jul 22, 2023 am 08:28 AM
pergi bahasa perangkak web httptransport

Bagaimana untuk melaksanakan perangkak web berbilang benang menggunakan Go dan http.Transport?

Perangkak web ialah program automatik yang digunakan untuk merangkak kandungan web tertentu daripada Internet. Dengan perkembangan Internet, sejumlah besar maklumat perlu diperoleh dan diproses dengan cepat dan cekap, jadi perangkak web berbilang benang telah menjadi penyelesaian yang popular. Artikel ini akan memperkenalkan cara menggunakan bahasa http.Transport of Go untuk melaksanakan perangkak web berbilang benang yang mudah.

Bahasa Go ialah bahasa pengaturcaraan tersusun sumber terbuka, yang mempunyai ciri-ciri konkurensi tinggi, prestasi tinggi, kesederhanaan dan kemudahan penggunaan. http.Transport ialah kelas yang digunakan untuk permintaan klien HTTP dalam pustaka standard bahasa Go. Dengan menggunakan kedua-dua alat ini dengan betul, kami boleh melaksanakan perangkak web berbilang benang dengan mudah.

Pertama, kita perlu mengimport pakej yang diperlukan:

package main

import (
    "fmt"
    "net/http"
    "sync"
)
Salin selepas log masuk

Seterusnya, kita mentakrifkan struktur Spider, yang mengandungi beberapa sifat dan kaedah yang perlu kita gunakan: Spider结构体,它包含了我们需要使用的一些属性和方法:

type Spider struct {
    mutex    sync.Mutex
    urls     []string
    wg       sync.WaitGroup
    maxDepth int
}
Salin selepas log masuk

在结构体中,mutex用于并发控制,urls用于存储待爬取的URL列表,wg用于等待所有协程完成,maxDepth用于限制爬取的深度。

接下来,我们定义一个Crawl方法,用于实现具体的爬取逻辑:

func (s *Spider) Crawl(url string, depth int) {
    defer s.wg.Done()

    // 限制爬取深度
    if depth > s.maxDepth {
        return
    }

    s.mutex.Lock()
    fmt.Println("Crawling", url)
    s.urls = append(s.urls, url)
    s.mutex.Unlock()

    resp, err := http.Get(url)
    if err != nil {
        fmt.Println("Error getting", url, err)
        return
    }
    defer resp.Body.Close()

    // 爬取链接
    links := extractLinks(resp.Body)

    // 并发爬取链接
    for _, link := range links {
        s.wg.Add(1)
        go s.Crawl(link, depth+1)
    }
}
Salin selepas log masuk

Crawl方法中,我们首先使用defer关键字来确保在方法执行完毕后释放锁和完成等待。然后,我们进行爬取深度的限制,超过最大深度时返回。接着,使用互斥锁保护共享的urls切片,将当前爬取的URL添加进去,然后释放锁。接下来,使用http.Get方法发送HTTP请求,并获取响应。在处理完响应后,我们调用extractLinks函数提取响应中的链接,并使用go关键字开启新的协程进行并发爬取。

最后,我们定义一个辅助函数extractLinks,用于从HTTP响应中提取链接:

func extractLinks(body io.Reader) []string {
    // TODO: 实现提取链接的逻辑
    return nil
}
Salin selepas log masuk

接下来,我们可以编写一个main函数,并实例化一个Spider对象来进行爬取:

func main() {
    s := Spider{
        maxDepth: 2, // 设置最大深度为2
    }

    s.wg.Add(1)
    go s.Crawl("http://example.com", 0)

    s.wg.Wait()

    fmt.Println("Crawled URLs:")
    for _, url := range s.urls {
        fmt.Println(url)
    }
}
Salin selepas log masuk

main函数中,我们首先实例化一个Spider对象,并设置最大深度为2。然后,使用go关键字开启一个新的协程进行爬取。最后,使用Waitrrreee

Dalam struktur , mutex digunakan untuk kawalan serentak, url digunakan untuk menyimpan senarai URL yang hendak dirangkak, wg digunakan untuk menunggu semua coroutine selesai, maxDepth digunakan untuk mengehadkan kedalaman merangkak.

Seterusnya, kami mentakrifkan kaedah Merangkak untuk melaksanakan logik rangkak tertentu: 🎜rrreee🎜Dalam kaedah Merangkak, kami mula-mula menggunakan kata kunci menunggu untuk pastikan kunci dilepaskan dan penantian selesai selepas kaedah dilaksanakan. Kemudian, kami mengehadkan kedalaman merangkak dan kembali apabila kedalaman maksimum melebihi. Seterusnya, gunakan mutex untuk melindungi kepingan url yang dikongsi, tambahkan URL yang sedang dirangkak padanya dan kemudian lepaskan kunci. Seterusnya, gunakan kaedah http.Get untuk menghantar permintaan HTTP dan mendapatkan respons. Selepas memproses respons, kami memanggil fungsi extractLinks untuk mengekstrak pautan dalam respons dan menggunakan kata kunci go untuk memulakan coroutine baharu untuk merangkak serentak. 🎜🎜Akhir sekali, kami mentakrifkan fungsi tambahan extractLinks untuk mengekstrak pautan daripada respons HTTP: 🎜rrreee🎜Seterusnya, kami boleh menulis fungsi utama dan menjadikannya sebagai Spider objek untuk merangkak: 🎜rrreee🎜Dalam fungsi utama, kami mula-mula membuat instantiate objek Spider dan menetapkan kedalaman maksimum kepada 2. Kemudian, gunakan kata kunci go untuk memulakan coroutine baharu untuk merangkak. Akhir sekali, gunakan kaedah Tunggu untuk menunggu semua coroutine selesai dan mencetak senarai URL yang dirangkak. 🎜🎜Di atas ialah langkah asas dan kod contoh untuk melaksanakan perangkak web berbilang benang menggunakan Go dan http.Transport. Dengan menggunakan mekanisme konkurensi dan penguncian secara rasional, kami boleh mencapai rangkak web yang cekap dan stabil. Saya harap artikel ini dapat membantu anda memahami cara menggunakan bahasa Go untuk melaksanakan perangkak web berbilang benang. 🎜

Atas ialah kandungan terperinci Bagaimana untuk melaksanakan perangkak web berbilang benang menggunakan Go dan http.Transport?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan Laman Web ini
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn

Alat AI Hot

Undresser.AI Undress

Undresser.AI Undress

Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover

AI Clothes Remover

Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool

Undress AI Tool

Gambar buka pakaian secara percuma

Clothoff.io

Clothoff.io

Penyingkiran pakaian AI

AI Hentai Generator

AI Hentai Generator

Menjana ai hentai secara percuma.

Artikel Panas

R.E.P.O. Kristal tenaga dijelaskan dan apa yang mereka lakukan (kristal kuning)
3 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Tetapan grafik terbaik
3 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Cara Memperbaiki Audio Jika anda tidak dapat mendengar sesiapa
3 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌
WWE 2K25: Cara Membuka Segala -galanya Di Myrise
4 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌

Alat panas

Notepad++7.3.1

Notepad++7.3.1

Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina

SublimeText3 versi Cina

Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1

Hantar Studio 13.0.1

Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6

Dreamweaver CS6

Alat pembangunan web visual

SublimeText3 versi Mac

SublimeText3 versi Mac

Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Perpustakaan apa yang digunakan untuk operasi nombor terapung di GO? Perpustakaan apa yang digunakan untuk operasi nombor terapung di GO? Apr 02, 2025 pm 02:06 PM

Perpustakaan yang digunakan untuk operasi nombor terapung dalam bahasa Go memperkenalkan cara memastikan ketepatannya ...

Apakah masalah dengan thread giliran di crawler colly go? Apakah masalah dengan thread giliran di crawler colly go? Apr 02, 2025 pm 02:09 PM

Masalah Threading Giliran di GO Crawler Colly meneroka masalah menggunakan Perpustakaan Colly Crawler dalam bahasa Go, pemaju sering menghadapi masalah dengan benang dan permintaan beratur. � ...

Apakah perbezaan antara struktur definisi kata kunci `var` dan` type` dalam bahasa Go? Apakah perbezaan antara struktur definisi kata kunci `var` dan` type` dalam bahasa Go? Apr 02, 2025 pm 12:57 PM

Dua cara untuk menentukan struktur dalam bahasa Go: perbezaan antara VAR dan jenis kata kunci. Apabila menentukan struktur, pergi bahasa sering melihat dua cara menulis yang berbeza: pertama ...

Di Go, mengapa rentetan percetakan dengan fungsi println dan rentetan () mempunyai kesan yang berbeza? Di Go, mengapa rentetan percetakan dengan fungsi println dan rentetan () mempunyai kesan yang berbeza? Apr 02, 2025 pm 02:03 PM

Perbezaan antara percetakan rentetan dalam bahasa Go: perbezaan kesan menggunakan fungsi println dan rentetan () sedang ...

Perpustakaan mana yang dibangunkan oleh syarikat besar atau disediakan oleh projek sumber terbuka yang terkenal? Perpustakaan mana yang dibangunkan oleh syarikat besar atau disediakan oleh projek sumber terbuka yang terkenal? Apr 02, 2025 pm 04:12 PM

Perpustakaan mana yang dibangunkan oleh syarikat besar atau projek sumber terbuka yang terkenal? Semasa pengaturcaraan di GO, pemaju sering menghadapi beberapa keperluan biasa, ...

Apa yang perlu saya lakukan jika label struktur tersuai di Goland tidak dipaparkan? Apa yang perlu saya lakukan jika label struktur tersuai di Goland tidak dipaparkan? Apr 02, 2025 pm 05:09 PM

Apa yang perlu saya lakukan jika label struktur tersuai di Goland tidak dipaparkan? Apabila menggunakan Goland untuk Pembangunan Bahasa GO, banyak pemaju akan menghadapi tag struktur tersuai ...

Bagaimana menyelesaikan masalah penukaran jenis user_id semasa menggunakan aliran redis untuk melaksanakan beratur mesej dalam bahasa Go? Bagaimana menyelesaikan masalah penukaran jenis user_id semasa menggunakan aliran redis untuk melaksanakan beratur mesej dalam bahasa Go? Apr 02, 2025 pm 04:54 PM

Masalah menggunakan redisstream untuk melaksanakan beratur mesej dalam bahasa Go menggunakan bahasa Go dan redis ...

Kenapa perlu lulus petunjuk apabila menggunakan perpustakaan Go dan Viper? Kenapa perlu lulus petunjuk apabila menggunakan perpustakaan Go dan Viper? Apr 02, 2025 pm 04:00 PM

GO Pointer Syntax dan menangani masalah dalam penggunaan perpustakaan Viper semasa pengaturcaraan dalam bahasa Go, adalah penting untuk memahami sintaks dan penggunaan petunjuk, terutama dalam ...

See all articles