Golang은 효율적이고 동시적인 웹 크롤러를 작성하는 데 적합한 최신 프로그래밍 언어입니다. Golang의 높은 동시성 기능은 크롤링 속도를 크게 높일 수 있으며 구문이 간결하고 배우고 이해하기 쉽습니다. 이 기사에서는 Golang을 사용하여 간단한 웹 크롤러를 작성하는 방법을 자세히 소개합니다.
먼저 Golang을 설치해야 합니다. 공식 홈페이지(https://golang.org/dl/)에서 해당 운영체제의 바이너리 파일을 다운로드하여 설치하실 수 있습니다. 설치 후에는 환경변수를 설정해야 합니다. Linux 및 Mac에서는 ~/.bashrc 파일을 편집하고 파일 끝에 다음을 추가할 수 있습니다.
export GOPATH=$HOME/go
export PATH=$PATH:$GOPATH/bin
Windows의 경우, 환경 변수를 편집하고 환경 변수에 GOPATH를 추가하고 PATH에 %GOPATH%를 추가할 수 있습니다.
Golang 1.13 이상에서는 Go 모듈이 공식 종속성 관리 도구로 공식 인정됩니다. 이를 사용하여 프로젝트 종속성을 관리할 수 있습니다. 프로젝트 루트 디렉터리로 이동하여 다음 명령을 실행합니다.
go mod init spider
는 스파이더 프로젝트에 대한 정보가 포함된 go.mod 파일을 생성합니다.
HTTP 클라이언트를 작성하려면 Golang과 함께 제공되는 net/http 패키지를 사용해야 합니다. 이 패키지는 HTTP 요청 및 응답 구문 분석을 포함하여 HTTP 프로토콜의 모든 세부 사항을 구현합니다.
먼저 새 HTTP 클라이언트를 만듭니다:
func newHTTPClient(timeout time.Duration) *http.Client {
return &http.Client{ Timeout: timeout, }
}
이 클라이언트를 사용하여 HTTP GET 요청을 보낼 수 있습니다:
func fetch( url string ) (문자열, 오류) {
client := newHTTPClient(time.Second * 5) resp, err := client.Get(url) if err != nil { return "", err } defer resp.Body.Close() if resp.StatusCode != http.StatusOK { return "", fmt.Errorf("status code error: %d %s", resp.StatusCode, resp.Status) } bodyBytes, _ := ioutil.ReadAll(resp.Body) return string(bodyBytes), nil
}
가져오기 함수는 요청한 웹페이지의 콘텐츠와 오류를 반환합니다. 함수가 반환될 때 응답 본문이 닫히도록 defer 키워드를 사용합니다.
웹 페이지의 소스 코드를 성공적으로 얻은 후에는 HTML을 구문 분석하여 필요한 정보를 얻어야 합니다. Go 언어의 html/template(HTML 템플릿) 및 html/parse(HTML 파서)의 표준 패키지를 사용할 수 있습니다.
func parse(htmlContent string) {
doc, err := html.Parse(strings.NewReader(htmlContent)) if err != nil { log.Fatal(err) } // Do something with doc...
}
html.Parse 함수를 사용하여 HTML 소스 코드를 구문 분석하고 트리 구조로 반환할 수 있습니다. 이 트리 구조를 재귀적으로 탐색하여 필요한 정보를 얻을 수 있습니다.
때로는 HTML 소스 코드에서 URL 링크나 텍스트와 같은 특정 정보를 추출해야 할 때가 있습니다. 이 경우 정규식을 사용할 수 있습니다. Golang은 정규식을 매우 잘 지원하며 regexp 패키지를 사용하여 정규식을 구현할 수 있습니다.
예를 들어 HTML 소스 코드에서 태그의 모든 링크를 추출해야 하는 경우 다음 코드를 사용할 수 있습니다.
func extractLinks(htmlContent string) []string {
linkRegex := regexp.MustCompile(`href="(.*?)"`) matches := linkRegex.FindAllStringSubmatch(htmlContent, -1) var links []string for _, match := range matches { links = append(links, match[1]) } return links
}
정규 표현식href="(.*?)"
모두 일치 문자열 배열을 연결하고 반환합니다.
다음은 웹사이트 페이지의 모든 태그 링크를 가져오는 완전한 크롤러 코드입니다.
package main
import (
"fmt" "log" "net/http" "regexp" "strings" "time" "golang.org/x/net/html"
)
const (
url = "https://example.com"
)
func main() {
htmlContent, err := fetch(url) if err != nil { log.Fatal(err) } links := extractLinks(htmlContent) for _, link := range links { fmt.Println(link) }
}
func newHTTPClient(timeout time.Duration) *http.Client {
return &http.Client{ Timeout: timeout, }
}
func fetch(url string) (문자열, 오류) {
client := newHTTPClient(time.Second * 5) resp, err := client.Get(url) if err != nil { return "", err } defer resp.Body.Close() if resp.StatusCode != http.StatusOK { return "", fmt.Errorf("status code error: %d %s", resp.StatusCode, resp.Status) } bodyBytes, _ := ioutil.ReadAll(resp.Body) return string(bodyBytes), nil
}
func extractLinks( htmlContent string) []string {
linkRegex := regexp.MustCompile(`href="(.*?)"`) matches := linkRegex.FindAllStringSubmatch(htmlContent, -1) var links []string for _, match := range matches { links = append(links, match[1]) } return links
}
func parse(htmlContent string) {
doc, err := html.Parse(strings.NewReader(htmlContent)) if err != nil { log.Fatal(err) } // Do something with doc...
}
Summary
Golang을 사용하여 웹 크롤러를 작성하면 크롤링 속도를 크게 향상시킬 수 있으며 Golang과 같은 강력한 언어를 사용하면 To 크롤러 코드를 작성하면 더 높은 유지 관리성과 확장성을 얻을 수 있습니다. 이 문서에서는 Golang을 사용하여 간단한 크롤러를 작성하는 방법을 설명합니다. 이 글이 웹 크롤러를 배우려는 독자와 Golang을 사용하는 개발자에게 도움이 되기를 바랍니다.
위 내용은 Golang 크롤러 작성 방법의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!