Golang 크롤러 작성 방법-Golang-php.cn

집

백엔드 개발

Golang

Golang 크롤러 작성 방법

王林

May 10, 2023 am 11:12 AM

Golang은 효율적이고 동시적인 웹 크롤러를 작성하는 데 적합한 최신 프로그래밍 언어입니다. Golang의 높은 동시성 기능은 크롤링 속도를 크게 높일 수 있으며 구문이 간결하고 배우고 이해하기 쉽습니다. 이 기사에서는 Golang을 사용하여 간단한 웹 크롤러를 작성하는 방법을 자세히 소개합니다.

Golang 설치

먼저 Golang을 설치해야 합니다. 공식 홈페이지(https://golang.org/dl/)에서 해당 운영체제의 바이너리 파일을 다운로드하여 설치하실 수 있습니다. 설치 후에는 환경변수를 설정해야 합니다. Linux 및 Mac에서는 ~/.bashrc 파일을 편집하고 파일 끝에 다음을 추가할 수 있습니다.

export GOPATH=$HOME/go
export PATH=$PATH:$GOPATH/bin

Windows의 경우, 환경 변수를 편집하고 환경 변수에 GOPATH를 추가하고 PATH에 %GOPATH%를 추가할 수 있습니다.

Go 모듈을 사용하여 종속성 관리

Golang 1.13 이상에서는 Go 모듈이 공식 종속성 관리 도구로 공식 인정됩니다. 이를 사용하여 프로젝트 종속성을 관리할 수 있습니다. 프로젝트 루트 디렉터리로 이동하여 다음 명령을 실행합니다.

go mod init spider

는 스파이더 프로젝트에 대한 정보가 포함된 go.mod 파일을 생성합니다.

HTTP 클라이언트 구축

HTTP 클라이언트를 작성하려면 Golang과 함께 제공되는 net/http 패키지를 사용해야 합니다. 이 패키지는 HTTP 요청 및 응답 구문 분석을 포함하여 HTTP 프로토콜의 모든 세부 사항을 구현합니다.

먼저 새 HTTP 클라이언트를 만듭니다:

func newHTTPClient(timeout time.Duration) *http.Client {

return &http.Client{
    Timeout: timeout,
}

로그인 후 복사

}

이 클라이언트를 사용하여 HTTP GET 요청을 보낼 수 있습니다:

func fetch( url string ) (문자열, 오류) {

client := newHTTPClient(time.Second * 5)
resp, err := client.Get(url)
if err != nil {
    return "", err
}
defer resp.Body.Close()
if resp.StatusCode != http.StatusOK {
    return "", fmt.Errorf("status code error: %d %s", resp.StatusCode, resp.Status)
}
bodyBytes, _ := ioutil.ReadAll(resp.Body)
return string(bodyBytes), nil

로그인 후 복사

}

가져오기 함수는 요청한 웹페이지의 콘텐츠와 오류를 반환합니다. 함수가 반환될 때 응답 본문이 닫히도록 defer 키워드를 사용합니다.

HTML 구문 분석

웹 페이지의 소스 코드를 성공적으로 얻은 후에는 HTML을 구문 분석하여 필요한 정보를 얻어야 합니다. Go 언어의 html/template(HTML 템플릿) 및 html/parse(HTML 파서)의 표준 패키지를 사용할 수 있습니다.

func parse(htmlContent string) {

doc, err := html.Parse(strings.NewReader(htmlContent))
if err != nil {
    log.Fatal(err)
}
// Do something with doc...

로그인 후 복사

}

html.Parse 함수를 사용하여 HTML 소스 코드를 구문 분석하고 트리 구조로 반환할 수 있습니다. 이 트리 구조를 재귀적으로 탐색하여 필요한 정보를 얻을 수 있습니다.

정규 표현식 사용

때로는 HTML 소스 코드에서 URL 링크나 텍스트와 같은 특정 정보를 추출해야 할 때가 있습니다. 이 경우 정규식을 사용할 수 있습니다. Golang은 정규식을 매우 잘 지원하며 regexp 패키지를 사용하여 정규식을 구현할 수 있습니다.

예를 들어 HTML 소스 코드에서 태그의 모든 링크를 추출해야 하는 경우 다음 코드를 사용할 수 있습니다.

func extractLinks(htmlContent string) []string {

linkRegex := regexp.MustCompile(`href="(.*?)"`)
matches := linkRegex.FindAllStringSubmatch(htmlContent, -1)
var links []string
for _, match := range matches {
    links = append(links, match[1])
}
return links

로그인 후 복사

}

정규 표현식href="(.*?)"모두 일치 문자열 배열을 연결하고 반환합니다.

완전한 코드

다음은 웹사이트 페이지의 모든 태그 링크를 가져오는 완전한 크롤러 코드입니다.

package main

import (

"fmt"
"log"
"net/http"
"regexp"
"strings"
"time"

"golang.org/x/net/html"

로그인 후 복사

)

const (

url = "https://example.com"

로그인 후 복사

)

func main() {

htmlContent, err := fetch(url)
if err != nil {
    log.Fatal(err)
}
links := extractLinks(htmlContent)
for _, link := range links {
    fmt.Println(link)
}

로그인 후 복사

}

func newHTTPClient(timeout time.Duration) *http.Client {

return &http.Client{
    Timeout: timeout,
}

로그인 후 복사

}

func fetch(url string) (문자열, 오류) {

client := newHTTPClient(time.Second * 5)
resp, err := client.Get(url)
if err != nil {
    return "", err
}
defer resp.Body.Close()
if resp.StatusCode != http.StatusOK {
    return "", fmt.Errorf("status code error: %d %s", resp.StatusCode, resp.Status)
}
bodyBytes, _ := ioutil.ReadAll(resp.Body)
return string(bodyBytes), nil

로그인 후 복사

}

func extractLinks( htmlContent string) []string {

linkRegex := regexp.MustCompile(`href="(.*?)"`)
matches := linkRegex.FindAllStringSubmatch(htmlContent, -1)
var links []string
for _, match := range matches {
    links = append(links, match[1])
}
return links

로그인 후 복사

}

func parse(htmlContent string) {

doc, err := html.Parse(strings.NewReader(htmlContent))
if err != nil {
    log.Fatal(err)
}
// Do something with doc...

로그인 후 복사

}

Summary

Golang을 사용하여 웹 크롤러를 작성하면 크롤링 속도를 크게 향상시킬 수 있으며 Golang과 같은 강력한 언어를 사용하면 To 크롤러 코드를 작성하면 더 높은 유지 관리성과 확장성을 얻을 수 있습니다. 이 문서에서는 Golang을 사용하여 간단한 크롤러를 작성하는 방법을 설명합니다. 이 글이 웹 크롤러를 배우려는 독자와 Golang을 사용하는 개발자에게 도움이 되기를 바랍니다.

위 내용은 Golang 크롤러 작성 방법의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

본 웹사이트의 성명

본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.

핫 AI 도구

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

AI 옷 제거제

AI Hentai Generator

AI Hentai를 무료로 생성하십시오.

뜨거운 도구

메모장++7.3.1

사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전

중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기

강력한 PHP 통합 개발 환경

드림위버 CS6

시각적 웹 개발 도구

SublimeText3 Mac 버전

신 수준의 코드 편집 소프트웨어(SublimeText3)

뜨거운 주제

Gmail 이메일의 로그인 입구는 어디에 있나요?

7513

Cakephp 튜토리얼

1378

Steam의 계정 이름 형식은 무엇입니까?

Win11 활성화 키 영구

NYT 연결 힌트와 답변

Related knowledge

Debian Openssl의 취약점은 무엇입니까? Apr 02, 2025 am 07:30 AM

보안 통신에 널리 사용되는 오픈 소스 라이브러리로서 OpenSSL은 암호화 알고리즘, 키 및 인증서 관리 기능을 제공합니다. 그러나 역사적 버전에는 알려진 보안 취약점이 있으며 그 중 일부는 매우 유해합니다. 이 기사는 데비안 시스템의 OpenSSL에 대한 일반적인 취약점 및 응답 측정에 중점을 둘 것입니다. DebianopensSL 알려진 취약점 : OpenSSL은 다음과 같은 몇 가지 심각한 취약점을 경험했습니다. 심장 출혈 취약성 (CVE-2014-0160) :이 취약점은 OpenSSL 1.0.1 ~ 1.0.1F 및 1.0.2 ~ 1.0.2 베타 버전에 영향을 미칩니다. 공격자는이 취약점을 사용하여 암호화 키 등을 포함하여 서버에서 무단 읽기 민감한 정보를 사용할 수 있습니다.