Go 및 Goroutines를 사용하여 고성능 동시 크롤러 구축-Golang-php.cn

집

백엔드 개발

Golang

Go 및 Goroutines를 사용하여 고성능 동시 크롤러 구축

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Jul 21, 2023 pm 08:03 PM

go (프로그래밍 언어) 고루틴(동시 프로그래밍) 크롤러(웹 크롤링 데이터)

Go와 Goroutine을 사용하여 고성능 동시 크롤러 구축

오늘날의 인터넷 시대에는 정보가 폭발적으로 증가하고 우리가 탐색할 수 있는 웹 콘텐츠가 엄청나게 많습니다. 개발자에게는 이 정보를 얻고 추가 분석을 수행하는 것이 중요한 작업입니다. 그리고 크롤러는 이러한 목표를 달성하는 데 사용되는 도구입니다. 이 글에서는 Go 언어와 고루틴을 사용하여 고성능 동시 크롤러를 구축하는 방법을 소개합니다.

Go 언어는 Google에서 개발한 오픈 소스 프로그래밍 언어입니다. 최소한의 구문과 강력한 성능으로 유명합니다. 고루틴은 동시 작업을 구현하는 데 사용할 수 있는 Go 언어의 경량 스레드입니다.

크롤러 작성을 시작하기 전에 net/http 및 golang.org/x/net/html이라는 두 가지 필수 라이브러리를 준비해야 합니다. 전자는 HTTP 요청을 보내고 HTTP 응답을 받는 데 사용되고 후자는 HTML 문서를 구문 분석하는 데 사용됩니다. net/http和golang.org/x/net/html。前者用于发送HTTP请求和接收HTTP响应，后者用于解析HTML文档。

下面是一个简单的示例，演示了如何使用Go和Goroutines来编写一个并发爬虫：

package main

import (
    "fmt"
    "net/http"
    "golang.org/x/net/html"
)

func main() {
    urls := []string{
        "https://www.example.com/page1",
        "https://www.example.com/page2",
        "https://www.example.com/page3",
    }

    results := make(chan string)

    for _, url := range urls {
        go func(url string) {
            body, err := fetch(url)
            if err != nil {
                fmt.Println(err)
                return
            }

            links := extractLinks(body)
            for _, link := range links {
                results <- link
            }
        }(url)
    }

    for i := 0; i < len(urls); i++ {
        fmt.Println(<-results)
    }
}

func fetch(url string) (string, error) {
    resp, err := http.Get(url)
    if err != nil {
        return "", err
    }
    defer resp.Body.Close()

    body, err := ioutil.ReadAll(resp.Body)
    if err != nil {
        return "", err
    }

    return string(body), nil
}

func extractLinks(body string) []string {
    links := []string{}
    doc, err := html.Parse(strings.NewReader(body))
    if err != nil {
        return links
    }

    var extract func(*html.Node)
    extract = func(n *html.Node) {
        if n.Type == html.ElementNode && n.Data == "a" {
            for _, attr := range n.Attr {
                if attr.Key == "href" {
                    links = append(links, attr.Val)
                    break
                }
            }
        }

        for c := n.FirstChild; c != nil; c = c.NextSibling {
            extract(c)
        }
    }

    extract(doc)
    return links
}

로그인 후 복사

在上面的代码中，我们首先定义了一个urls数组，其中包含了我们要爬取的网页URL。然后，我们创建了一个results通道，用于存放爬取结果。

接下来，我们使用for循环迭代urls数组中的每个URL。在每次循环中，我们都使用go关键字来创建一个Goroutine，去并发地爬取指定的URL。在Goroutine中，我们首先调用fetch函数来发送HTTP请求并获取响应的HTML内容。之后，我们根据HTML内容调用extractLinks函数，提取其中的链接，并将它们发送到results通道中。

最后，我们使用一个for循环来从results

다음은 Go 및 Goroutine을 사용하여 동시 크롤러를 작성하는 방법을 보여주는 간단한 예입니다.

rrreee

위 코드에서 먼저 웹의 URL을 포함하는 urls 배열을 정의합니다. 크롤링할 페이지입니다. 그런 다음 크롤링 결과를 저장하기 위해 결과 채널을 만들었습니다.

다음으로 for 루프를 사용하여 urls 배열의 각 URL을 반복합니다. 각 루프에서 go 키워드를 사용하여 지정된 URL을 동시에 크롤링하는 Goroutine을 만듭니다. 고루틴에서는 먼저 fetch 함수를 호출하여 HTTP 요청을 보내고 응답 HTML 콘텐츠를 얻습니다. 그런 다음 HTML 콘텐츠를 기반으로 extractLinks 함수를 호출하고 링크를 추출하여 results 채널로 보냅니다. 🎜🎜마지막으로 for 루프를 사용하여 results 채널에서 크롤링 결과를 수신하고 인쇄합니다. 🎜🎜고루틴을 사용하면 여러 HTTP 요청을 동시에 보낼 수 있어 크롤러 성능이 향상됩니다. 또한 HTTP 요청 및 HTML 구문 분석과 같은 IO 집약적인 작업은 고루틴을 사용하여 효율적으로 처리할 수 있습니다. 🎜🎜요약하자면, 이 글에서는 Go 언어와 고루틴을 사용하여 고성능 동시 크롤러를 구축하는 방법을 소개합니다. 동시성 메커니즘을 적절하게 활용함으로써 우리는 인터넷상의 정보를 보다 효율적으로 얻고 분석할 수 있습니다. 독자들이 이 기사의 내용을 통해 Go 언어를 사용하여 고성능 동시 크롤러를 작성하는 방법을 이해하고 숙달할 수 있기를 바랍니다. 🎜

위 내용은 Go 및 Goroutines를 사용하여 고성능 동시 크롤러 구축의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

본 웹사이트의 성명

본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.

핫 AI 도구

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

AI 옷 제거제

AI Hentai Generator

AI Hentai를 무료로 생성하십시오.

뜨거운 도구

메모장++7.3.1

사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전

중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기

강력한 PHP 통합 개발 환경

드림위버 CS6

시각적 웹 개발 도구

SublimeText3 Mac 버전

신 수준의 코드 편집 소프트웨어(SublimeText3)

뜨거운 주제

Gmail 이메일의 로그인 입구는 어디에 있나요?

7316

자바 튜토리얼

1625

Cakephp 튜토리얼

1349

라라벨 튜토리얼

1261

PHP 튜토리얼

1208

Related knowledge

Go Language Pack 가져 오기 : 밑줄과 밑줄이없는 밑줄의 차이점은 무엇입니까? Mar 03, 2025 pm 05:17 PM

이 기사에서는 GO의 패키지 가져 오기 메커니즘을 설명합니다. 명명 된 수입 (예 : 가져 오기 & quot; fmt & quot;) 및 빈 가져 오기 (예 : import _ & quot; fmt & quot;). 명명 된 가져 오기는 패키지 내용을 액세스 할 수있게하고 빈 수입은 t 만 실행합니다.

MySQL 쿼리 결과 목록을 GO 언어로 사용자 정의 구조 슬라이스로 변환하는 방법은 무엇입니까? Mar 03, 2025 pm 05:18 PM

이 기사에서는 MySQL 쿼리 결과를 GO 구조 슬라이스로 효율적으로 변환합니다. 수동 구문 분석을 피하고 최적의 성능을 위해 데이터베이스/SQL의 스캔 방법을 사용하는 것을 강조합니다. DB 태그 및 Robus를 사용한 구조물 필드 매핑에 대한 모범 사례

Beego 프레임 워크에서 페이지간에 단기 정보 전송을 구현하는 방법은 무엇입니까? Mar 03, 2025 pm 05:22 PM

이 기사에서는 웹 애플리케이션에서 페이지 간 데이터 전송에 대한 Beego의 NewFlash () 기능을 설명합니다. NewFlash ()를 사용하여 컨트롤러간에 임시 메시지 (성공, 오류, 경고)를 표시하여 세션 메커니즘을 활용하는 데 중점을 둡니다. 한계

GO에서 제네릭에 대한 사용자 정의 유형 제약 조건을 어떻게 정의 할 수 있습니까? Mar 10, 2025 pm 03:20 PM

이 기사에서는 GO의 제네릭에 대한 사용자 정의 유형 제약 조건을 살펴 봅니다. 인터페이스가 일반 함수에 대한 최소 유형 요구 사항을 정의하여 유형 안전 및 코드 재사성을 향상시키는 방법에 대해 자세히 설명합니다. 이 기사는 또한 한계와 모범 사례에 대해 설명합니다

이동 중에 테스트를 위해 모의 개체와 스터브를 작성하려면 어떻게합니까? Mar 10, 2025 pm 05:38 PM

이 기사는 단위 테스트를 위해 이동 중에 모의와 스터브를 만드는 것을 보여줍니다. 인터페이스 사용을 강조하고 모의 구현의 예를 제공하며 모의 집중 유지 및 어설 션 라이브러리 사용과 같은 모범 사례에 대해 설명합니다. 기사

편리하게 GO 언어로 파일을 작성하는 방법? Mar 03, 2025 pm 05:15 PM

이 기사는 OS.WriteFile (작은 파일에 적합)과 OS.OpenFile 및 Buffered Writes (큰 파일에 최적)를 비교하여 효율적인 파일 쓰기를 자세히 설명합니다. 강력한 오류 처리, 연기 사용 및 특정 오류 확인을 강조합니다.

GO에서 단위 테스트를 어떻게 작성합니까? Mar 21, 2025 pm 06:34 PM

이 기사는 GO에서 단위 테스트 작성, 모범 사례, 조롱 기술 및 효율적인 테스트 관리를위한 도구를 다루는 것에 대해 논의합니다.

추적 도구를 사용하여 GO 응용 프로그램의 실행 흐름을 이해하려면 어떻게해야합니까? Mar 10, 2025 pm 05:36 PM

이 기사는 추적 도구를 사용하여 GO 응용 프로그램 실행 흐름을 분석합니다. 수동 및 자동 계측 기술, Jaeger, Zipkin 및 OpenTelemetry와 같은 도구 비교 및 효과적인 데이터 시각화를 강조합니다.

See all articles