Rumah > pembangunan bahagian belakang > Golang > Bagaimana untuk melaksanakan crawler dalam golang

Bagaimana untuk melaksanakan crawler dalam golang

PHPz
Lepaskan: 2023-04-05 10:44:22
asal
1265 orang telah melayarinya

Apabila teknologi Internet menjadi semakin matang, pemerolehan maklumat menjadi lebih mudah. Pelbagai laman web dan aplikasi muncul tanpa henti. Laman web dan aplikasi ini bukan sahaja membawa kemudahan kepada kami, tetapi juga membawa sejumlah besar data. Cara mendapatkan dan menggunakan data ini dengan cekap telah menjadi masalah yang perlu diselesaikan oleh ramai orang. Teknologi reptilia wujud.

Teknologi crawler merujuk kepada teknologi yang memperoleh data awam di Internet melalui program, dan menyimpan, menganalisis, memproses dan menggunakannya semula. Dalam aplikasi praktikal, perangkak dibahagikan kepada perangkak umum dan perangkak arah. Tujuan perangkak am adalah untuk menangkap sepenuhnya semua maklumat tapak web sasaran dengan merangkak struktur dan kandungan keseluruhan tapak web Kaedah ini digunakan secara meluas. Perangkak yang disasarkan ialah perangkak yang menyasarkan tapak web atau sumber data tertentu dan hanya merangkak kandungan data tertentu dengan ketepatan yang lebih tinggi.

Dengan kemunculan web2.0 dan perkhidmatan web, aplikasi rangkaian berkembang ke arah aplikasi berasaskan perkhidmatan. Dalam konteks ini, banyak syarikat dan pembangun perlu menulis program perangkak untuk mendapatkan data yang mereka perlukan. Artikel ini akan memperkenalkan cara menggunakan golang untuk melaksanakan perangkak.

Bahasa Go ialah bahasa pengaturcaraan baharu yang dilancarkan oleh Google. Ia mempunyai sintaks yang ringkas dan prestasi serentak yang kuat. Sememangnya, ia juga sangat sesuai untuk menulis program perangkak. Di bawah, saya akan memperkenalkan kaedah penggunaan golang untuk melaksanakan crawler melalui contoh program yang mudah.

Pertama, kita perlu memasang persekitaran pembangunan golang Anda boleh memuat turun dan memasang golang dari laman web rasmi (https://golang.org/). Selepas pemasangan selesai, buat direktori projek seperti berikut:

├── main.go
└── README.md
Salin selepas log masuk

di mana main.go akan menjadi fail kod utama kami.

Mari kita lihat dahulu perpustakaan yang perlu kita gunakan, terutamanya termasuk "net/http", "io/ioutil", "regexp", "fmt" dan perpustakaan lain.

Pustaka "net/http" ialah perpustakaan standard bahasa Go, menyokong klien dan pelayan HTTP, dan sangat sesuai untuk melaksanakan aplikasi rangkaian pustaka "io/ioutil" ialah pakej yang merangkum io. Pustaka alat I/O fail Reader dan io .Writer menyediakan beberapa fungsi yang mudah untuk mengendalikan fail pustaka "regexp" ialah pustaka ungkapan biasa dan bahasa Go menggunakan ungkapan biasa gaya bahasa Perl.

Berikut ialah contoh kod program lengkap:

package main

import (
    "fmt"
    "io/ioutil"
    "net/http"
    "regexp"
)

func main() {
    // 定义要获取的网址
    url := "https://www.baidu.com"

    // 获取网页内容
    content, err := fetch(url)
    if err != nil {
        fmt.Println(err)
        return
    }

    // 提取所有a链接
    links := extractLinks(content)

    // 输出链接
    fmt.Println(links)
}

// 获取网页内容
func fetch(url string) (string, error) {
    // 发送http请求
    resp, err := http.Get(url)
    if err != nil {
        return "", err
    }

    // 关闭请求
    defer resp.Body.Close()

    // 读取内容
    body, err := ioutil.ReadAll(resp.Body)
    if err != nil {
        return "", err
    }

    // 转换为字符串并返回
    return string(body), nil
}

// 提取链接函数
func extractLinks(content string) []string {
    // 提取a标签中的href链接
    re := regexp.MustCompile(`<a.*?href="(.*?)".*?>`)
    allSubmatch := re.FindAllStringSubmatch(content, -1)

    // 存储链接
    var links []string
    // 循环提取链接
    for _, submatch := range allSubmatch {
        links = append(links, submatch[1])
    }

    return links
}
Salin selepas log masuk

Fungsi ambil dalam kod digunakan untuk mendapatkan kandungan halaman web mula-mula menghantar permintaan http ke URL sasaran, kemudian membaca kandungan halaman web dan menukarnya Kembali selepas ditukar menjadi rentetan. Fungsi extractLinks digunakan untuk mengekstrak pautan href dalam semua teg dalam halaman web Ia menggunakan ungkapan biasa untuk memadankan pautan dalam teg, dan menyimpan pautan yang diperoleh dalam kepingan dan mengembalikannya.

Seterusnya, kami boleh memanggil fungsi fetch dan extractLinks dalam fungsi utama untuk mendapatkan dan mengekstrak semua pautan dalam URL sasaran, dengan itu mencapai tujuan kami menulis program perangkak.

Jalankan atur cara dan output adalah seperti berikut:

[https://www.baidu.com/s?ie=UTF-8&wd=github, http://www.baidu.com/gaoji/preferences.html, "//www.baidu.com/duty/", "//www.baidu.com/about", "//www.baidu.com/s?tn=80035161_2_dg", "http://jianyi.baidu.com/"]
Salin selepas log masuk

Dengan cara ini, kami telah melengkapkan contoh mudah untuk melaksanakan crawler dalam golang. Sudah tentu, program perangkak sebenar adalah jauh lebih rumit daripada ini, seperti memproses pelbagai jenis halaman web, mengenal pasti set aksara halaman, dll., tetapi contoh di atas boleh membantu anda memahami cara menggunakan bahasa golang untuk melaksanakan yang mudah. crawler.

Ringkasnya, golang, sebagai bahasa pengaturcaraan baharu, mempunyai kelebihan sintaks yang mudah, kecekapan pembangunan yang tinggi, dan keupayaan konkurensi yang kuat Ia sangat sesuai untuk melaksanakan aplikasi rangkaian dan program perangkak. Jika anda belum bersentuhan dengan golang, saya cadangkan anda cuba mempelajarinya. Saya percaya anda akan mendapat banyak.

Atas ialah kandungan terperinci Bagaimana untuk melaksanakan crawler dalam golang. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

sumber:php.cn
Kenyataan Laman Web ini
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn
Tutorial Popular
Lagi>
Muat turun terkini
Lagi>
kesan web
Kod sumber laman web
Bahan laman web
Templat hujung hadapan