Rumah pembangunan bahagian belakang Golang Bagaimana untuk menyelesaikan kod golang crawler bercelaru

Bagaimana untuk menyelesaikan kod golang crawler bercelaru

Apr 23, 2023 am 10:21 AM

Dengan perkembangan teknologi Internet yang berterusan, crawler telah menjadi teknologi yang sangat penting. Dalam teknologi perangkak, perpustakaan perangkak bahasa Go menjadi semakin popular di kalangan pembangun.

Walau bagaimanapun, apabila menggunakan golang untuk merangkak, kita mungkin menghadapi watak bercelaru. Jadi bagaimana untuk menyelesaikannya?

Pertama sekali, perlu jelas bahawa kejadian aksara bercelaru adalah disebabkan oleh masalah pengekodan. Oleh itu, sebelum menangani masalah kod bercelaru, kita perlu memahami pengetahuan pengekodan yang berkaitan.

Di golang, kami biasanya menggunakan pengekodan utf-8 untuk penghantaran dan penyimpanan data. Semasa proses perangkak, data yang kami peroleh mungkin mengandungi data dalam format pengekodan lain, seperti gbk, gb2312, dsb.

Jadi, jika kami tidak melakukan penukaran pengekodan dengan betul semasa memproses data, aksara bercelaru akan muncul.

Jadi, bagaimana untuk melakukan penukaran pengekodan yang betul?

Bahasa Go menyediakan pakej rentetan dan pakej strconv, yang digunakan untuk memproses penukaran rentetan dan data jenis berangka masing-masing. Dalam perangkak, kita boleh menggunakan kedua-dua pakej ini untuk penukaran pengekodan.

Secara khusus, selepas kami memperoleh data, kami perlu terlebih dahulu menentukan format pengekodannya. Anda boleh menggunakan pakej go-iconv untuk membantu kami menentukan format pengekodan teks.

Dengan mengandaikan bahawa format pengekodan data yang diperoleh ialah gbk, kita boleh mengikuti langkah berikut untuk melakukan penukaran pengekodan:

  1. Tukar data yang diperolehi kepada jenis []bait.

    data := []byte(获取到的数据)
    Salin selepas log masuk
  2. Gunakan perpustakaan luaran go-iconv untuk mengenal pasti format pengekodan.

    import "github.com/djimenez/iconv-go"
    
    utf8Data, err := iconv.ConvertString(string(data), "gbk", "utf-8")
    if err == nil {
    
     // 处理 utf8Data 数据
    
    }
    Salin selepas log masuk

Dalam kod di atas, kami mengimport pakej go-iconv melalui import, dan kemudian menggunakan kaedah ConvertString untuk menukar pengekodan gbk kepada pengekodan utf-8.

Akhir sekali, kami perlu ambil perhatian bahawa semasa merangkak halaman web, format pengekodan sesetengah tapak web mungkin berubah secara dinamik dan kami perlu menentukan format pengekodan secara dinamik. Anda boleh menggunakan ungkapan biasa untuk memadankan kandungan halaman dan menentukan format pengekodan secara dinamik. Berikut ialah sekeping kod untuk pengekodan pertimbangan dinamik.

import (
    "golang.org/x/net/html/charset"
    "golang.org/x/text/encoding"
    "golang.org/x/text/transform"
)

// 获取网页编码
func getCharset(reader io.Reader) (e encoding.Encoding, name string, certain bool, err error) {
    result, err := bufio.NewReader(reader).Peek(1024)
    if err != nil {
        return
    }
    e, name, certain = charset.DetermineEncoding(result, "")
    return
}

// 编码转换
func convertEncoding(encodedReader io.Reader, e encoding.Encoding) io.Reader {
    if e != nil && e != encoding.Nop {
        encodedReader = transform.NewReader(encodedReader, e.NewDecoder())
    }
    return encodedReader
}

// 获取网页内容并进行编码转换
func getHtmlContent(url string) (string, error) {
    resp, err := http.Get(url)
    if err != nil {
        return "", err
    }
    defer resp.Body.Close()

    reader := bufio.NewReader(resp.Body)

    e, _, _, err := getCharset(reader)
    if err != nil {
        return "", err
    }

    utf8Reader := convertEncoding(reader, e)
    htmlContent, err := ioutil.ReadAll(utf8Reader)
    if err != nil {
        return "", err
    }

    return string(htmlContent), nil
}
Salin selepas log masuk

Dalam kod di atas, kami mula-mula menentukan format pengekodan halaman web melalui kaedah DetermineEncoding, kemudian menukar kandungan halaman web ke pengekodan utf-8 melalui kaedah NewDecoder, dan mengembalikan kandungan yang ditukar .

Menggunakan kaedah di atas, kita boleh menyelesaikan masalah watak bercelaru dalam perangkak.

Ringkasnya, golang menghadapi masalah kod bercelaru semasa menulis perangkak Secara umumnya, ia disebabkan oleh masalah pengekodan. Penyelesaian termasuk menggunakan pakej iconv untuk penukaran pengekodan atau menggunakan perpustakaan seperti go-x/net/html/charset dan golang.org/x/text/encoding untuk menentukan format pengekodan dan menukar pengekodan secara dinamik. Selagi kita mahir dalam kaedah ini, kita boleh merangkak dengan gembira di golang.

Atas ialah kandungan terperinci Bagaimana untuk menyelesaikan kod golang crawler bercelaru. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan Laman Web ini
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn

Alat AI Hot

Undresser.AI Undress

Undresser.AI Undress

Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover

AI Clothes Remover

Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool

Undress AI Tool

Gambar buka pakaian secara percuma

Clothoff.io

Clothoff.io

Penyingkiran pakaian AI

AI Hentai Generator

AI Hentai Generator

Menjana ai hentai secara percuma.

Artikel Panas

R.E.P.O. Kristal tenaga dijelaskan dan apa yang mereka lakukan (kristal kuning)
1 bulan yang lalu By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Tetapan grafik terbaik
4 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Cara Memperbaiki Audio Jika anda tidak dapat mendengar sesiapa
1 bulan yang lalu By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Arahan sembang dan cara menggunakannya
1 bulan yang lalu By 尊渡假赌尊渡假赌尊渡假赌

Alat panas

Notepad++7.3.1

Notepad++7.3.1

Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina

SublimeText3 versi Cina

Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1

Hantar Studio 13.0.1

Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6

Dreamweaver CS6

Alat pembangunan web visual

SublimeText3 versi Mac

SublimeText3 versi Mac

Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Apakah kelemahan debian openssl Apakah kelemahan debian openssl Apr 02, 2025 am 07:30 AM

OpenSSL, sebagai perpustakaan sumber terbuka yang digunakan secara meluas dalam komunikasi yang selamat, menyediakan algoritma penyulitan, kunci dan fungsi pengurusan sijil. Walau bagaimanapun, terdapat beberapa kelemahan keselamatan yang diketahui dalam versi sejarahnya, yang sebahagiannya sangat berbahaya. Artikel ini akan memberi tumpuan kepada kelemahan umum dan langkah -langkah tindak balas untuk OpenSSL dalam sistem Debian. Debianopenssl yang dikenal pasti: OpenSSL telah mengalami beberapa kelemahan yang serius, seperti: Kerentanan Pendarahan Jantung (CVE-2014-0160): Kelemahan ini mempengaruhi OpenSSL 1.0.1 hingga 1.0.1f dan 1.0.2 hingga 1.0.2 versi beta. Penyerang boleh menggunakan kelemahan ini untuk maklumat sensitif baca yang tidak dibenarkan di pelayan, termasuk kunci penyulitan, dll.

Bagaimana anda menggunakan alat PPROF untuk menganalisis prestasi GO? Bagaimana anda menggunakan alat PPROF untuk menganalisis prestasi GO? Mar 21, 2025 pm 06:37 PM

Artikel ini menerangkan cara menggunakan alat PPROF untuk menganalisis prestasi GO, termasuk membolehkan profil, mengumpul data, dan mengenal pasti kesesakan biasa seperti CPU dan isu memori.

Bagaimana anda menulis ujian unit di GO? Bagaimana anda menulis ujian unit di GO? Mar 21, 2025 pm 06:34 PM

Artikel ini membincangkan ujian unit menulis di GO, meliputi amalan terbaik, teknik mengejek, dan alat untuk pengurusan ujian yang cekap.

Apakah masalah dengan thread giliran di crawler colly go? Apakah masalah dengan thread giliran di crawler colly go? Apr 02, 2025 pm 02:09 PM

Masalah Threading Giliran di GO Crawler Colly meneroka masalah menggunakan Perpustakaan Colly Crawler dalam bahasa Go, pemaju sering menghadapi masalah dengan benang dan permintaan beratur. � ...

Perpustakaan apa yang digunakan untuk operasi nombor terapung di GO? Perpustakaan apa yang digunakan untuk operasi nombor terapung di GO? Apr 02, 2025 pm 02:06 PM

Perpustakaan yang digunakan untuk operasi nombor terapung dalam bahasa Go memperkenalkan cara memastikan ketepatannya ...

Berubah dari front-end ke pembangunan back-end, adakah lebih menjanjikan untuk belajar Java atau Golang? Berubah dari front-end ke pembangunan back-end, adakah lebih menjanjikan untuk belajar Java atau Golang? Apr 02, 2025 am 09:12 AM

Laluan Pembelajaran Backend: Perjalanan Eksplorasi dari Front-End ke Back-End sebagai pemula back-end yang berubah dari pembangunan front-end, anda sudah mempunyai asas Nodejs, ...

Apakah arahan Go FMT dan mengapa ia penting? Apakah arahan Go FMT dan mengapa ia penting? Mar 20, 2025 pm 04:21 PM

Artikel ini membincangkan perintah Go FMT dalam pengaturcaraan GO, yang format kod untuk mematuhi garis panduan gaya rasmi. Ia menyoroti kepentingan GO FMT untuk mengekalkan konsistensi kod, kebolehbacaan, dan mengurangkan perdebatan gaya. Amalan terbaik untuk

Bagaimana cara menentukan pangkalan data yang berkaitan dengan model dalam beego orm? Bagaimana cara menentukan pangkalan data yang berkaitan dengan model dalam beego orm? Apr 02, 2025 pm 03:54 PM

Di bawah rangka kerja beegoorm, bagaimana untuk menentukan pangkalan data yang berkaitan dengan model? Banyak projek beego memerlukan pelbagai pangkalan data untuk dikendalikan secara serentak. Semasa menggunakan beego ...

See all articles