백엔드 개발 Golang Colly가 포함된 Golang: 스크래핑 시 임의의 가짜 사용자 에이전트 사용

Colly가 포함된 Golang: 스크래핑 시 임의의 가짜 사용자 에이전트 사용

Jan 11, 2025 am 07:57 AM

Golang with Colly: Use Random Fake User-Agents When Scraping

웹사이트 스크래핑은 표준 또는 부적절한 사용자 에이전트 사용으로 인해 차단되는 경우가 많습니다. 이 기사에서는 Go Colly 스크레이퍼 내에서 무작위 가짜 사용자 에이전트를 사용하여 이를 완화하는 간단한 방법을 보여줍니다.

가짜 사용자 에이전트 이해

사용자 에이전트는 웹 요청을 하는 클라이언트를 식별하는 문자열입니다. 이는 애플리케이션, 운영 체제(Windows, macOS, Linux) 및 브라우저(Chrome, Firefox, Safari)에 대한 정보를 전달합니다. 웹사이트에서는 보안 및 분석을 비롯한 다양한 목적으로 이 정보를 사용합니다.

일반적인 사용자 에이전트 문자열은 다음과 같습니다(Android의 Chrome).

<code>'User-Agent': 'Mozilla/5.0 (Linux; Android 10; K) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/131.0.0.0 Mobile Safari/537.36'</code>
로그인 후 복사

Go Colly의 기본 사용자 에이전트:

<code>"User-Agent": "colly - https://www.php.cn/link/953bd83cb0b9c9f9dc4b3ba0bfc1b236",</code>
로그인 후 복사

스크레이퍼를 쉽게 식별하여 차단 위험을 높입니다. 따라서 맞춤형 무작위 사용자 에이전트를 사용하는 것이 중요합니다.

Go Colly를 사용하여 가짜 사용자 에이전트 구현

맞춤 사용자 에이전트를 포함하도록 요청 헤더를 수정하는 작업은 OnRequest() 콜백을 사용하여 수행됩니다. 이렇게 하면 각 요청이 서로 다른 사용자 에이전트 문자열을 사용하게 됩니다.

package main

import (
    "bytes"
    "log"
    "github.com/gocolly/colly"
)

func main() {
    c := colly.NewCollector(colly.AllowURLRevisit())

    c.OnRequest(func(r *colly.Request) {
        r.Headers.Set("User-Agent", "Mozilla/5.0 (iPad; CPU OS 12_2 like Mac OS X) AppleWebKit/605.1.15 (KHTML, like Gecko) Mobile/15E148")
    })

    c.OnResponse(func(r *colly.Response) {
        log.Printf("%s\n", bytes.Replace(r.Body, []byte("\n"), nil, -1))
    })

    for i := 0; i < 5; i++ {
        c.Visit("httpbin.org/headers")
    }
}
로그인 후 복사

모든 요청에 ​​대해 단일 사용자 에이전트를 설정합니다. 더욱 강력한 스크래핑을 위해서는 무작위 접근 방식을 사용하세요.

임의의 사용자 에이전트를 통한 순환

github.com/lib4u/fake-useragent 패키지는 임의의 사용자 에이전트 선택을 단순화합니다.

package main

import (
    "bytes"
    "fmt"
    "log"
    "github.com/gocolly/colly"
    uaFake "github.com/lib4u/fake-useragent"
)

func main() {
    ua, err := uaFake.New()
    if err != nil {
        fmt.Println(err)
    }
    c := colly.NewCollector(colly.AllowURLRevisit())

    c.OnRequest(func(r *colly.Request) {
        r.Headers.Set("User-Agent", ua.Filter().GetRandom())
    })

    c.OnResponse(func(r *colly.Response) {
        log.Printf("%s\n", bytes.Replace(r.Body, []byte("\n"), nil, -1))
    })

    for i := 0; i < 5; i++ {
        c.Visit("httpbin.org/headers")
    }
}
로그인 후 복사

이 코드 조각은 각 요청에 대해 임의의 사용자 에이전트를 검색합니다.

특정 가짜 사용자 에이전트 사용

github.com/lib4u/fake-useragent에서는 필터링 옵션을 제공합니다. 예를 들어 임의의 데스크톱 Chrome 사용자 에이전트를 사용하려면:

r.Headers.Set("User-Agent", ua.Filter().Chrome().Platform(uaFake.Desktop).Get())
로그인 후 복사

스크래핑할 때는 항상 웹사이트의 robots.txt 및 서비스 약관을 존중해야 합니다. 임의의 사용자 에이전트를 사용하는 것은 책임감 있는 웹 스크래핑을 위한 많은 기술 중 하나입니다. 프록시 및 기타 헤더 관리 전략 사용도 고려해 보세요.

참고자료:

위 내용은 Colly가 포함된 Golang: 스크래핑 시 임의의 가짜 사용자 에이전트 사용의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

본 웹사이트의 성명
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.

핫 AI 도구

Undresser.AI Undress

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

Clothoff.io

AI 옷 제거제

AI Hentai Generator

AI Hentai Generator

AI Hentai를 무료로 생성하십시오.

인기 기사

R.E.P.O. 에너지 결정과 그들이하는 일 (노란색 크리스탈)
1 몇 달 전 By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. 최고의 그래픽 설정
1 몇 달 전 By 尊渡假赌尊渡假赌尊渡假赌
Will R.E.P.O. 크로스 플레이가 있습니까?
1 몇 달 전 By 尊渡假赌尊渡假赌尊渡假赌

뜨거운 도구

메모장++7.3.1

메모장++7.3.1

사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전

SublimeText3 중국어 버전

중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기

스튜디오 13.0.1 보내기

강력한 PHP 통합 개발 환경

드림위버 CS6

드림위버 CS6

시각적 웹 개발 도구

SublimeText3 Mac 버전

SublimeText3 Mac 버전

신 수준의 코드 편집 소프트웨어(SublimeText3)

Debian Openssl의 취약점은 무엇입니까? Debian Openssl의 취약점은 무엇입니까? Apr 02, 2025 am 07:30 AM

보안 통신에 널리 사용되는 오픈 소스 라이브러리로서 OpenSSL은 암호화 알고리즘, 키 및 인증서 관리 기능을 제공합니다. 그러나 역사적 버전에는 알려진 보안 취약점이 있으며 그 중 일부는 매우 유해합니다. 이 기사는 데비안 시스템의 OpenSSL에 대한 일반적인 취약점 및 응답 측정에 중점을 둘 것입니다. DebianopensSL 알려진 취약점 : OpenSSL은 다음과 같은 몇 가지 심각한 취약점을 경험했습니다. 심장 출혈 ​​취약성 (CVE-2014-0160) :이 취약점은 OpenSSL 1.0.1 ~ 1.0.1F 및 1.0.2 ~ 1.0.2 베타 버전에 영향을 미칩니다. 공격자는이 취약점을 사용하여 암호화 키 등을 포함하여 서버에서 무단 읽기 민감한 정보를 사용할 수 있습니다.

PPROF 도구를 사용하여 GO 성능을 분석하는 방법은 무엇입니까? PPROF 도구를 사용하여 GO 성능을 분석하는 방법은 무엇입니까? Mar 21, 2025 pm 06:37 PM

이 기사는 프로파일 링 활성화, 데이터 수집 및 CPU 및 메모리 문제와 같은 일반적인 병목 현상을 식별하는 등 GO 성능 분석을 위해 PPROF 도구를 사용하는 방법을 설명합니다.

GO에서 단위 테스트를 어떻게 작성합니까? GO에서 단위 테스트를 어떻게 작성합니까? Mar 21, 2025 pm 06:34 PM

이 기사는 GO에서 단위 테스트 작성, 모범 사례, 조롱 기술 및 효율적인 테스트 관리를위한 도구를 다루는 것에 대해 논의합니다.

GO에서 플로팅 포인트 번호 작업에 어떤 라이브러리가 사용됩니까? GO에서 플로팅 포인트 번호 작업에 어떤 라이브러리가 사용됩니까? Apr 02, 2025 pm 02:06 PM

Go Language의 부동 소수점 번호 작동에 사용되는 라이브러리는 정확도를 보장하는 방법을 소개합니다.

Go 's Crawler Colly의 큐 스레드의 문제는 무엇입니까? Go 's Crawler Colly의 큐 스레드의 문제는 무엇입니까? Apr 02, 2025 pm 02:09 PM

Go Crawler Colly의 대기열 스레딩 문제는 Colly Crawler 라이브러리를 GO 언어로 사용하는 문제를 탐구합니다. � ...

GO FMT 명령은 무엇이며 왜 중요한가요? GO FMT 명령은 무엇이며 왜 중요한가요? Mar 20, 2025 pm 04:21 PM

이 기사는 Go Programming의 Go FMT 명령에 대해 논의합니다. GO 프로그래밍은 공식 스타일 지침을 준수하도록 코드를 형식화합니다. 코드 일관성, 가독성 및 스타일 토론을 줄이기위한 GO FMT의 중요성을 강조합니다. 모범 사례 fo

프론트 엔드에서 백엔드 개발로 전환하면 Java 또는 Golang을 배우는 것이 더 유망합니까? 프론트 엔드에서 백엔드 개발로 전환하면 Java 또는 Golang을 배우는 것이 더 유망합니까? Apr 02, 2025 am 09:12 AM

백엔드 학습 경로 : 프론트 엔드에서 백엔드 초보자로서 프론트 엔드에서 백엔드까지의 탐사 여행은 프론트 엔드 개발에서 변화하는 백엔드 초보자로서 이미 Nodejs의 기초를 가지고 있습니다.

Debian의 PostgreSQL 모니터링 방법 Debian의 PostgreSQL 모니터링 방법 Apr 02, 2025 am 07:27 AM

이 기사는 데비안 시스템에서 PostgresQL 데이터베이스를 모니터링하는 다양한 방법과 도구를 소개하여 데이터베이스 성능 모니터링을 완전히 파악할 수 있도록 도와줍니다. 1. PostgreSQL을 사용하여 빌드 인 모니터링보기 PostgreSQL 자체는 데이터베이스 활동 모니터링 활동을위한 여러보기를 제공합니다. PG_STAT_REPLICATION : 특히 스트림 복제 클러스터에 적합한 복제 상태를 모니터링합니다. PG_STAT_DATABASE : 데이터베이스 크기, 트랜잭션 커밋/롤백 시간 및 기타 주요 지표와 같은 데이터베이스 통계를 제공합니다. 2. 로그 분석 도구 PGBADG를 사용하십시오

See all articles