백엔드 개발 Golang Golang 크롤러 작성 방법

Golang 크롤러 작성 방법

May 10, 2023 am 11:12 AM

Golang은 효율적이고 동시적인 웹 크롤러를 작성하는 데 적합한 최신 프로그래밍 언어입니다. Golang의 높은 동시성 기능은 크롤링 속도를 크게 높일 수 있으며 구문이 간결하고 배우고 이해하기 쉽습니다. 이 기사에서는 Golang을 사용하여 간단한 웹 크롤러를 작성하는 방법을 자세히 소개합니다.

  1. Golang 설치

먼저 Golang을 설치해야 합니다. 공식 홈페이지(https://golang.org/dl/)에서 해당 운영체제의 바이너리 파일을 다운로드하여 설치하실 수 있습니다. 설치 후에는 환경변수를 설정해야 합니다. Linux 및 Mac에서는 ~/.bashrc 파일을 편집하고 파일 끝에 다음을 추가할 수 있습니다.

export GOPATH=$HOME/go
export PATH=$PATH:$GOPATH/bin

Windows의 경우, 환경 변수를 편집하고 환경 변수에 GOPATH를 추가하고 PATH에 %GOPATH%를 추가할 수 있습니다.

  1. Go 모듈을 사용하여 종속성 관리

Golang 1.13 이상에서는 Go 모듈이 공식 종속성 관리 도구로 공식 인정됩니다. 이를 사용하여 프로젝트 종속성을 관리할 수 있습니다. 프로젝트 루트 디렉터리로 이동하여 다음 명령을 실행합니다.

go mod init spider

는 스파이더 프로젝트에 대한 정보가 포함된 go.mod 파일을 생성합니다.

  1. HTTP 클라이언트 구축

HTTP 클라이언트를 작성하려면 Golang과 함께 제공되는 net/http 패키지를 사용해야 합니다. 이 패키지는 HTTP 요청 및 응답 구문 분석을 포함하여 HTTP 프로토콜의 모든 세부 사항을 구현합니다.

먼저 새 HTTP 클라이언트를 만듭니다:

func newHTTPClient(timeout time.Duration) *http.Client {

return &http.Client{
    Timeout: timeout,
}
로그인 후 복사
로그인 후 복사

}

이 클라이언트를 사용하여 HTTP GET 요청을 보낼 수 있습니다:

func fetch( url string ) (문자열, 오류) {

client := newHTTPClient(time.Second * 5)
resp, err := client.Get(url)
if err != nil {
    return "", err
}
defer resp.Body.Close()
if resp.StatusCode != http.StatusOK {
    return "", fmt.Errorf("status code error: %d %s", resp.StatusCode, resp.Status)
}
bodyBytes, _ := ioutil.ReadAll(resp.Body)
return string(bodyBytes), nil
로그인 후 복사
로그인 후 복사

}

가져오기 함수는 요청한 웹페이지의 콘텐츠와 오류를 반환합니다. 함수가 반환될 때 응답 본문이 닫히도록 defer 키워드를 사용합니다.

  1. HTML 구문 분석

웹 페이지의 소스 코드를 성공적으로 얻은 후에는 HTML을 구문 분석하여 필요한 정보를 얻어야 합니다. Go 언어의 html/template(HTML 템플릿) 및 html/parse(HTML 파서)의 표준 패키지를 사용할 수 있습니다.

func parse(htmlContent string) {

doc, err := html.Parse(strings.NewReader(htmlContent))
if err != nil {
    log.Fatal(err)
}
// Do something with doc...
로그인 후 복사
로그인 후 복사

}

html.Parse 함수를 사용하여 HTML 소스 코드를 구문 분석하고 트리 구조로 반환할 수 있습니다. 이 트리 구조를 재귀적으로 탐색하여 필요한 정보를 얻을 수 있습니다.

  1. 정규 표현식 사용

때로는 HTML 소스 코드에서 URL 링크나 텍스트와 같은 특정 정보를 추출해야 할 때가 있습니다. 이 경우 정규식을 사용할 수 있습니다. Golang은 정규식을 매우 잘 지원하며 regexp 패키지를 사용하여 정규식을 구현할 수 있습니다.

예를 들어 HTML 소스 코드에서 태그의 모든 링크를 추출해야 하는 경우 다음 코드를 사용할 수 있습니다.

func extractLinks(htmlContent string) []string {

linkRegex := regexp.MustCompile(`href="(.*?)"`)
matches := linkRegex.FindAllStringSubmatch(htmlContent, -1)
var links []string
for _, match := range matches {
    links = append(links, match[1])
}
return links
로그인 후 복사
로그인 후 복사

}

정규 표현식href="(.*?)"모두 일치 문자열 배열을 연결하고 반환합니다.

  1. 완전한 코드

다음은 웹사이트 페이지의 모든 태그 링크를 가져오는 완전한 크롤러 코드입니다.

package main

import (

"fmt"
"log"
"net/http"
"regexp"
"strings"
"time"

"golang.org/x/net/html"
로그인 후 복사

)

const (

url = "https://example.com"
로그인 후 복사

)

func main() {

htmlContent, err := fetch(url)
if err != nil {
    log.Fatal(err)
}
links := extractLinks(htmlContent)
for _, link := range links {
    fmt.Println(link)
}
로그인 후 복사

}

func newHTTPClient(timeout time.Duration) *http.Client {

return &http.Client{
    Timeout: timeout,
}
로그인 후 복사
로그인 후 복사

}

func fetch(url string) (문자열, 오류) {

client := newHTTPClient(time.Second * 5)
resp, err := client.Get(url)
if err != nil {
    return "", err
}
defer resp.Body.Close()
if resp.StatusCode != http.StatusOK {
    return "", fmt.Errorf("status code error: %d %s", resp.StatusCode, resp.Status)
}
bodyBytes, _ := ioutil.ReadAll(resp.Body)
return string(bodyBytes), nil
로그인 후 복사
로그인 후 복사

}

func extractLinks( htmlContent string) []string {

linkRegex := regexp.MustCompile(`href="(.*?)"`)
matches := linkRegex.FindAllStringSubmatch(htmlContent, -1)
var links []string
for _, match := range matches {
    links = append(links, match[1])
}
return links
로그인 후 복사
로그인 후 복사

}

func parse(htmlContent string) {

doc, err := html.Parse(strings.NewReader(htmlContent))
if err != nil {
    log.Fatal(err)
}
// Do something with doc...
로그인 후 복사
로그인 후 복사

}

Summary

Golang을 사용하여 웹 크롤러를 작성하면 크롤링 속도를 크게 향상시킬 수 있으며 Golang과 같은 강력한 언어를 사용하면 To 크롤러 코드를 작성하면 더 높은 유지 관리성과 확장성을 얻을 수 있습니다. 이 문서에서는 Golang을 사용하여 간단한 크롤러를 작성하는 방법을 설명합니다. 이 글이 웹 크롤러를 배우려는 독자와 Golang을 사용하는 개발자에게 도움이 되기를 바랍니다.

위 내용은 Golang 크롤러 작성 방법의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

본 웹사이트의 성명
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.

핫 AI 도구

Undresser.AI Undress

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

Clothoff.io

AI 옷 제거제

AI Hentai Generator

AI Hentai Generator

AI Hentai를 무료로 생성하십시오.

인기 기사

R.E.P.O. 에너지 결정과 그들이하는 일 (노란색 크리스탈)
4 몇 주 전 By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. 최고의 그래픽 설정
4 몇 주 전 By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. 아무도들을 수없는 경우 오디오를 수정하는 방법
4 몇 주 전 By 尊渡假赌尊渡假赌尊渡假赌
WWE 2K25 : Myrise에서 모든 것을 잠금 해제하는 방법
1 몇 달 전 By 尊渡假赌尊渡假赌尊渡假赌

뜨거운 도구

메모장++7.3.1

메모장++7.3.1

사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전

SublimeText3 중국어 버전

중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기

스튜디오 13.0.1 보내기

강력한 PHP 통합 개발 환경

드림위버 CS6

드림위버 CS6

시각적 웹 개발 도구

SublimeText3 Mac 버전

SublimeText3 Mac 버전

신 수준의 코드 편집 소프트웨어(SublimeText3)

Debian Openssl의 취약점은 무엇입니까? Debian Openssl의 취약점은 무엇입니까? Apr 02, 2025 am 07:30 AM

보안 통신에 널리 사용되는 오픈 소스 라이브러리로서 OpenSSL은 암호화 알고리즘, 키 및 인증서 관리 기능을 제공합니다. 그러나 역사적 버전에는 알려진 보안 취약점이 있으며 그 중 일부는 매우 유해합니다. 이 기사는 데비안 시스템의 OpenSSL에 대한 일반적인 취약점 및 응답 측정에 중점을 둘 것입니다. DebianopensSL 알려진 취약점 : OpenSSL은 다음과 같은 몇 가지 심각한 취약점을 경험했습니다. 심장 출혈 ​​취약성 (CVE-2014-0160) :이 취약점은 OpenSSL 1.0.1 ~ 1.0.1F 및 1.0.2 ~ 1.0.2 베타 버전에 영향을 미칩니다. 공격자는이 취약점을 사용하여 암호화 키 등을 포함하여 서버에서 무단 읽기 민감한 정보를 사용할 수 있습니다.

PPROF 도구를 사용하여 GO 성능을 분석하는 방법은 무엇입니까? PPROF 도구를 사용하여 GO 성능을 분석하는 방법은 무엇입니까? Mar 21, 2025 pm 06:37 PM

이 기사는 프로파일 링 활성화, 데이터 수집 및 CPU 및 메모리 문제와 같은 일반적인 병목 현상을 식별하는 등 GO 성능 분석을 위해 PPROF 도구를 사용하는 방법을 설명합니다.

GO에서 단위 테스트를 어떻게 작성합니까? GO에서 단위 테스트를 어떻게 작성합니까? Mar 21, 2025 pm 06:34 PM

이 기사는 GO에서 단위 테스트 작성, 모범 사례, 조롱 기술 및 효율적인 테스트 관리를위한 도구를 다루는 것에 대해 논의합니다.

Go 's Crawler Colly의 큐 스레드의 문제는 무엇입니까? Go 's Crawler Colly의 큐 스레드의 문제는 무엇입니까? Apr 02, 2025 pm 02:09 PM

Go Crawler Colly의 대기열 스레딩 문제는 Colly Crawler 라이브러리를 GO 언어로 사용하는 문제를 탐구합니다. � ...

GO에서 플로팅 포인트 번호 작업에 어떤 라이브러리가 사용됩니까? GO에서 플로팅 포인트 번호 작업에 어떤 라이브러리가 사용됩니까? Apr 02, 2025 pm 02:06 PM

Go Language의 부동 소수점 번호 작동에 사용되는 라이브러리는 정확도를 보장하는 방법을 소개합니다.

프론트 엔드에서 백엔드 개발로 전환하면 Java 또는 Golang을 배우는 것이 더 유망합니까? 프론트 엔드에서 백엔드 개발로 전환하면 Java 또는 Golang을 배우는 것이 더 유망합니까? Apr 02, 2025 am 09:12 AM

백엔드 학습 경로 : 프론트 엔드에서 백엔드 초보자로서 프론트 엔드에서 백엔드까지의 탐사 여행은 프론트 엔드 개발에서 변화하는 백엔드 초보자로서 이미 Nodejs의 기초를 가지고 있습니다.

GO.MOD 파일에 종속성을 어떻게 지정합니까? GO.MOD 파일에 종속성을 어떻게 지정합니까? Mar 27, 2025 pm 07:14 PM

이 기사에서는 GO.MOD를 통해 GO 모듈 종속성 관리, 사양, 업데이트 및 충돌 해상도를 포함합니다. 시맨틱 버전 작성 및 정기 업데이트와 같은 모범 사례를 강조합니다.

Beego ORM의 모델과 관련된 데이터베이스를 지정하는 방법은 무엇입니까? Beego ORM의 모델과 관련된 데이터베이스를 지정하는 방법은 무엇입니까? Apr 02, 2025 pm 03:54 PM

Beegoorm 프레임 워크에서 모델과 관련된 데이터베이스를 지정하는 방법은 무엇입니까? 많은 Beego 프로젝트에서는 여러 데이터베이스를 동시에 작동해야합니다. Beego를 사용할 때 ...

See all articles