Golang 크롤러를 사용하여 콘텐츠의 공백을 제거하는 방법-Golang-php.cn

Golang 크롤러를 사용하여 콘텐츠의 공백을 제거하는 방법

PHPz

풀어 주다： 2023-03-30 09:54:54

원래의

975명이 탐색했습니다.

Golang은 웹 크롤러를 포함한 다양한 애플리케이션 개발에 널리 사용되는 효율적인 프로그래밍 언어입니다. 이 기사에서는 Golang을 사용하여 크롤러를 작성하고 크롤링된 콘텐츠에서 공백을 제거하는 방법에 중점을 둘 것입니다.

HTML 페이지 크롤링

웹사이트 페이지를 얻으려면 크롤러가 HTTP 요청을 시작해야 합니다. 다음 코드 조각을 사용하면 이 기능을 달성할 수 있습니다.

import (
    "fmt"
    "net/http"
)

func main() {
    response, err := http.Get("https://www.example.com")
    if err != nil {
        fmt.Println("HTTP请求错误：", err)
    }
    defer response.Body.Close()
    // 处理HTTP响应内容
}

로그인 후 복사

HTTP 응답 콘텐츠 처리

HTTP 응답 콘텐츠를 처리하려면 다음을 사용해야 합니다. goquery 라이브러리를 사용하여 HTML 페이지를 구문 분석한 다음 strings 라이브러리의 함수를 사용하여 공백을 제거할 수 있습니다. 구체적인 코드는 다음과 같습니다. goquery库来解析HTML页面，然后可以使用strings库中的函数去除空格。具体代码如下：

import (
    "fmt"
    "github.com/PuerkitoBio/goquery"
    "net/http"
    "strings"
)

func main() {
    response, err := http.Get("https://www.example.com")
    if err != nil {
        fmt.Println("HTTP请求错误：", err)
    }
    defer response.Body.Close()
    // 解析HTML页面
    document, err := goquery.NewDocumentFromReader(response.Body)
    if err != nil {
        fmt.Println("解析HTML页面错误：", err)
    }
    // 获取HTML页面中的所有文本内容并去除空格
    text := strings.TrimSpace(document.Text())
    fmt.Println(text)
}

로그인 후 복사

goquery库是一个非常好用的HTML解析库，可以轻松地获取页面中的任何元素，并且不用担心Go语言中指针和内存管理的问题。

将处理后的文本写入文件

处理完文本内容后通常会需要将其写入文件，可以通过以下代码实现：

import (
    "fmt"
    "github.com/PuerkitoBio/goquery"
    "io/ioutil"
    "net/http"
    "strings"
)

func main() {
    response, err := http.Get("https://www.example.com")
    if err != nil {
        fmt.Println("HTTP请求错误：", err)
    }
    defer response.Body.Close()
    // 解析HTML页面
    document, err := goquery.NewDocumentFromReader(response.Body)
    if err != nil {
        fmt.Println("解析HTML页面错误：", err)
    }
    // 获取HTML页面中的所有文本内容并去除空格
    text := strings.TrimSpace(document.Text())
    // 将文本内容写入文件
    err = ioutil.WriteFile("output.txt", []byte(text), 0644)
    if err != nil {
        fmt.Println("写入文件错误：", err)
    }
}

로그인 후 복사