Web Scraping a Go

Sep 10, 2024 pm 02:30 PM

Langkah pertama

Pertama sekali kita mesti memasang Go, Arahan untuk memuat turun dan memasang Go.

Kami mencipta folder baharu untuk projek itu, pindah ke direktori dan laksanakan arahan berikut:

go mod init scraper
Salin selepas log masuk

? Perintah go mod init digunakan untuk memulakan modul Go baharu dalam direktori tempat ia dijalankan dan mencipta fail go.mod untuk menjejaki kebergantungan kod. Pengurusan pergantungan

Sekarang mari pasang Colibri:

go get github.com/gonzxlez/colibri
Salin selepas log masuk

? Colibri ialah pakej Go yang membolehkan kami merangkak dan mengekstrak data berstruktur di web menggunakan set peraturan yang ditakrifkan dalam JSON. Repositori


Peraturan pengekstrakan

Kami mentakrifkan peraturan yang akan digunakan oleh colibri untuk mengekstrak data yang kami perlukan. Dokumentasi

Kami akan membuat permintaan HTTP ke URL https://pkg.go.dev/search?q=xpath yang mengandungi hasil pertanyaan untuk pakej Go yang berkaitan dengan xpath dalam Pakej Go.

Menggunakan alat pembangunan yang disertakan dalam penyemak imbas web kami, kami boleh memeriksa struktur HTML halaman. Apakah alat pembangunan penyemak imbas?

Web Scraping en Go

<div class="SearchSnippet">
   <div class="SearchSnippet-headerContainer">
      <h2>
         <a href="/github.com/antchfx/xpath" data-gtmc="search result" data-gtmv="0" data-test-id="snippet-title">
         xpath
         <span class="SearchSnippet-header-path">(github.com/antchfx/xpath)</span>
         </a>
      </h2>
   </div>
   <div class="SearchSnippet-infoLabel">
      <a href="/github.com/antchfx/xpath?tab=importedby" aria-label="Go to Imported By">
      <span class="go-textSubtle">Imported by </span><strong>143</strong>
      </a>
      <span class="go-textSubtle">|</span>
      <span class="go-textSubtle">
      <strong>v1.2.5</strong> published on <span data-test-id="snippet-published"><strong>Oct 26, 2023</strong></span>
      </span>
      <span class="go-textSubtle">|</span>
      <span data-test-id="snippet-license">
      <a href="/github.com/antchfx/xpath?tab=licenses" aria-label="Go to Licenses">
      MIT
      </a>
      </span>
   </div>
</div>
Salin selepas log masuk

Serpihan struktur HTML yang mewakili hasil pertanyaan.

Kemudian kami memerlukan pemilih “pakej” yang akan menemui semua elemen div dalam HTML dengan kelas SearchSnippet, daripada elemen tersebut pemilih “ nama" akan mengambil teks elemen a di dalam elemen h2 dan pemilih "path” akan mengambil nilai atribut href bagi elemen a dalam h2 elemen . Dalam erti kata lain, “nama” akan mengambil nama pakej Go dan “path” laluan pakej :)

{
    "method": "GET",
    "url":    "https://pkg.go.dev/search?q=xpath",
    "timeout": 10000,
    "selectors": {
        "packages": {
            "expr": "div.SearchSnippet",
            "all": true,
            "type": "css",
            "selectors": {
                "name": "//h2/a/text()",
                "path": "//h2/a/@href"
            }
        }
    }
}
Salin selepas log masuk
  • kaedah: menentukan kaedah HTTP (GET, POST, PUT, ...).
  • url: URL permintaan.
  • tamat masa: tamat masa dalam milisaat untuk permintaan HTTP.
  • pemilih: pemilih.
    • “pakej”: ialah nama pemilih.
      • expr: ungkapan pemilih.
      • semua: menyatakan bahawa semua elemen yang sepadan dengan ungkapan harus ditemui.
      • jenis: jenis ungkapan, dalam kes ini pemilih CSS.
      • pemilih: pemilih bersarang.
        • “nama” dan “laluan” ialah nama pemilih dan nilainya ialah ungkapan, dalam kes ini ungkapan XPath.

Kod dalam Go

Kami bersedia untuk mencipta fail scraper.go, mengimport pakej yang diperlukan dan menentukan fungsi utama:

package main

import (
    "encoding/json"
    "fmt"

    "github.com/gonzxlez/colibri"
    "github.com/gonzxlez/colibri/webextractor"
)

var rawRules = `{
    "method": "GET",
    "url":    "https://pkg.go.dev/search?q=xpath",
    "timeout": 10000,
    "selectors": {
        "packages": {
            "expr": "div.SearchSnippet",
            "all": true,
            "type": "css",
            "selectors": {
                "name": "//h2/a/text()",
                "path": "//h2/a/@href"
            }
        }
    }
}`

func main() {
    we, err := webextractor.New()
    if err != nil {
        panic(err)
    }

    var rules colibri.Rules
    err = json.Unmarshal([]byte(rawRules), &rules)
    if err != nil {
        panic(err)
    }

    output, err := we.Extract(&rules)
    if err != nil {
        panic(err)
    }

    fmt.Println("URL:", output.Response.URL())
    fmt.Println("Status code:", output.Response.StatusCode())
    fmt.Println("Content-Type", output.Response.Header().Get("Content-Type"))
    fmt.Println("Data:", output.Data)
}
Salin selepas log masuk

? WebExtractor ialah antara muka lalai untuk Colibri sedia untuk mula merangkak atau mengekstrak data di web.

Menggunakan fungsi Baharu webextractor, kami menjana struktur Colibri dengan apa yang diperlukan untuk mula mengekstrak data.

Kemudian kami menukar peraturan kami dalam JSON kepada struktur Peraturan dan memanggil kaedah Ekstrak menghantar peraturan sebagai argumen.

Kami memperoleh output dan URL respons HTTP, kod status HTTP, jenis kandungan respons dan data yang diekstrak dengan pemilih dicetak pada skrin. Lihat dokumentasi struktur Output.

Kami melaksanakan arahan berikut:

go mod tidy
Salin selepas log masuk

? Perintah go mod tidy memastikan bahawa kebergantungan dalam go.mod sepadan dengan kod sumber modul.

Akhirnya kami menyusun dan menjalankan kod kami dalam Go dengan arahan:

go run scraper.go
Salin selepas log masuk

Kesimpulan

Dalam siaran ini, kami telah mempelajari cara melakukan Pengikisan Web dalam Go menggunakan pakej Colibri, mentakrifkan peraturan pengekstrakan dengan pemilih CSS dan XPath. Colibri muncul sebagai alat untuk mereka yang ingin mengautomasikan pengumpulan data web dalam Go. Pendekatan berasaskan peraturan dan kemudahan penggunaan menjadikannya pilihan yang menarik untuk pembangun semua peringkat pengalaman.

Ringkasnya, Web Scraping in Go ialah teknik yang berkuasa dan serba boleh yang boleh digunakan untuk mengekstrak maklumat daripada pelbagai tapak web. Adalah penting untuk menyerlahkan bahawa Pengikisan Web mesti dijalankan secara beretika, menghormati terma dan syarat tapak web dan mengelakkan membebankan pelayan mereka.

Atas ialah kandungan terperinci Web Scraping a Go. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan Laman Web ini
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn

Alat AI Hot

Undresser.AI Undress

Undresser.AI Undress

Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover

AI Clothes Remover

Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool

Undress AI Tool

Gambar buka pakaian secara percuma

Clothoff.io

Clothoff.io

Penyingkiran pakaian AI

Video Face Swap

Video Face Swap

Tukar muka dalam mana-mana video dengan mudah menggunakan alat tukar muka AI percuma kami!

Alat panas

Notepad++7.3.1

Notepad++7.3.1

Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina

SublimeText3 versi Cina

Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1

Hantar Studio 13.0.1

Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6

Dreamweaver CS6

Alat pembangunan web visual

SublimeText3 versi Mac

SublimeText3 versi Mac

Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Apakah kelemahan debian openssl Apakah kelemahan debian openssl Apr 02, 2025 am 07:30 AM

OpenSSL, sebagai perpustakaan sumber terbuka yang digunakan secara meluas dalam komunikasi yang selamat, menyediakan algoritma penyulitan, kunci dan fungsi pengurusan sijil. Walau bagaimanapun, terdapat beberapa kelemahan keselamatan yang diketahui dalam versi sejarahnya, yang sebahagiannya sangat berbahaya. Artikel ini akan memberi tumpuan kepada kelemahan umum dan langkah -langkah tindak balas untuk OpenSSL dalam sistem Debian. Debianopenssl yang dikenal pasti: OpenSSL telah mengalami beberapa kelemahan yang serius, seperti: Kerentanan Pendarahan Jantung (CVE-2014-0160): Kelemahan ini mempengaruhi OpenSSL 1.0.1 hingga 1.0.1f dan 1.0.2 hingga 1.0.2 versi beta. Penyerang boleh menggunakan kelemahan ini untuk maklumat sensitif baca yang tidak dibenarkan di pelayan, termasuk kunci penyulitan, dll.

Berubah dari front-end ke pembangunan back-end, adakah lebih menjanjikan untuk belajar Java atau Golang? Berubah dari front-end ke pembangunan back-end, adakah lebih menjanjikan untuk belajar Java atau Golang? Apr 02, 2025 am 09:12 AM

Laluan Pembelajaran Backend: Perjalanan Eksplorasi dari Front-End ke Back-End sebagai pemula back-end yang berubah dari pembangunan front-end, anda sudah mempunyai asas Nodejs, ...

Bagaimana cara menentukan pangkalan data yang berkaitan dengan model dalam beego orm? Bagaimana cara menentukan pangkalan data yang berkaitan dengan model dalam beego orm? Apr 02, 2025 pm 03:54 PM

Di bawah rangka kerja beegoorm, bagaimana untuk menentukan pangkalan data yang berkaitan dengan model? Banyak projek beego memerlukan pelbagai pangkalan data untuk dikendalikan secara serentak. Semasa menggunakan beego ...

Apa yang perlu saya lakukan jika label struktur tersuai di Goland tidak dipaparkan? Apa yang perlu saya lakukan jika label struktur tersuai di Goland tidak dipaparkan? Apr 02, 2025 pm 05:09 PM

Apa yang perlu saya lakukan jika label struktur tersuai di Goland tidak dipaparkan? Apabila menggunakan Goland untuk Pembangunan Bahasa GO, banyak pemaju akan menghadapi tag struktur tersuai ...

Perpustakaan apa yang digunakan untuk operasi nombor terapung di GO? Perpustakaan apa yang digunakan untuk operasi nombor terapung di GO? Apr 02, 2025 pm 02:06 PM

Perpustakaan yang digunakan untuk operasi nombor terapung dalam bahasa Go memperkenalkan cara memastikan ketepatannya ...

Apakah masalah dengan thread giliran di crawler colly go? Apakah masalah dengan thread giliran di crawler colly go? Apr 02, 2025 pm 02:09 PM

Masalah Threading Giliran di GO Crawler Colly meneroka masalah menggunakan Perpustakaan Colly Crawler dalam bahasa Go, pemaju sering menghadapi masalah dengan benang dan permintaan beratur. � ...

Bagaimana menyelesaikan masalah penukaran jenis user_id semasa menggunakan aliran redis untuk melaksanakan beratur mesej dalam bahasa Go? Bagaimana menyelesaikan masalah penukaran jenis user_id semasa menggunakan aliran redis untuk melaksanakan beratur mesej dalam bahasa Go? Apr 02, 2025 pm 04:54 PM

Masalah menggunakan redisstream untuk melaksanakan beratur mesej dalam bahasa Go menggunakan bahasa Go dan redis ...

Cara mengkonfigurasi pengembangan automatik MongoDB pada Debian Cara mengkonfigurasi pengembangan automatik MongoDB pada Debian Apr 02, 2025 am 07:36 AM

Artikel ini memperkenalkan cara mengkonfigurasi MongoDB pada sistem Debian untuk mencapai pengembangan automatik. Langkah -langkah utama termasuk menubuhkan set replika MongoDB dan pemantauan ruang cakera. 1. Pemasangan MongoDB Pertama, pastikan MongoDB dipasang pada sistem Debian. Pasang menggunakan arahan berikut: SudoaptDateSudoaptInstall-ImongoDB-Org 2. Mengkonfigurasi set replika replika MongoDB MongoDB Set memastikan ketersediaan dan kelebihan data yang tinggi, yang merupakan asas untuk mencapai pengembangan kapasiti automatik. Mula MongoDB Service: sudosystemctlstartmongodsudosys

See all articles