웹 프론트엔드 JS 튜토리얼 Baidu 인덱스 크롤러 기능 구현 방법

Baidu 인덱스 크롤러 기능 구현 방법

Apr 12, 2018 pm 04:45 PM
색인 비열한 바이두

이번에는 바이두 인덱스 크롤러 기능을 구현하는 방법과 바이두 인덱스 크롤러 기능을 구현하기 위한 노트가 무엇인지 보여드리겠습니다. 다음은 실제 사례입니다.

이전에 다양한 주요 제조업체의 프런트엔드 크롤링 방지 기술을 소개한 상상력이 풍부한 기사를 읽은 적이 있지만 이 기사에서 말했듯이 100% 크롤링 방지 방법은 없습니다. 이 기사에서는 이러한 모든 프런트엔드를 우회하는 간단한 방법을 소개합니다. -크롤러 방지 조치를 종료합니다.

다음 코드는 Baidu Index를 예로 사용합니다. 코드는 Baidu Index 크롤러 노드 라이브러리에 패키징되었습니다. https://github.com/Coffcer/baidu-index-spider

참고: 크롤러를 남용하여 다른 사람에게 문제를 일으키지 마세요

Baidu Index의 크롤러 방지 전략

Baidu Index의 인터페이스를 관찰하세요. 지수 데이터는 특정 날짜에 마우스를 올리면 두 개의 요청이 실행되고 결과가 부동 상자에 표시됩니다

Baidu Index는 실제로 프런트 엔드에서 특정 크롤러 방지 전략을 구현한 것으로 나타났습니다. 차트 위로 마우스를 이동하면 두 개의 요청이 트리거되고, 한 요청은 html 조각을 반환하고, 한 요청은 생성된 이미지를 반환합니다. HTML에는 실제 값이 포함되어 있지 않지만 너비 및 margin-left를 설정하여 이미지에 해당 문자를 표시합니다. 게다가 요청 매개변수에는 res, res1 등 시뮬레이션 방법을 알 수 없는 매개변수가 포함되어 있어 기존의 시뮬레이션 요청이나 HTML 크롤링 방법을 사용하여 Baidu Index 데이터를 크롤링하기가 어렵습니다.

크롤러 아이디어

Baidu의 안티 크롤러 방법을 돌파하는 방법은 실제로 매우 간단합니다. 단지 안티 크롤러 방법에 대해서는 신경 쓰지 마세요. 사용자 작업을 시뮬레이션하고, 필요한 값을 스크린샷하고, 이미지 인식만 하면 됩니다. 단계는 대략 다음과 같습니다.

  1. 시뮬레이션 로그인

  2. 색인 페이지 열기

  3. 지정한 날짜로 마우스를 이동하세요

  4. 요청이 끝날 때까지 기다렸다가 사진의 숫자 부분을 캡처하세요

  5. 이미지 인식은 가치를 얻습니다

  6. 3~5단계를 반복하여 각 날짜에 해당하는 값을 가져옵니다

이 방법은 이론적으로 모든 웹사이트의 콘텐츠를 크롤링할 수 있습니다. 다음으로 크롤러를 단계별로 구현하겠습니다.

  1. puppeteer 브라우저 작동 시뮬레이션

  2. node-tesseract 이미지 인식에 사용되는 tesseract 패키지

  3. jimp 이미지 자르기

Puppeteer 설치 및 사용자 작업 시뮬레이션

Puppeteer는 Chrome 실행 명령을 제어하는 ​​데 사용되는 Google Chrome 팀에서 제작한 Chrome 자동화 도구입니다. 사용자 작업을 시뮬레이션하고 자동화된 테스트, 크롤러 등을 수행할 수 있습니다. 사용법은 매우 간단합니다. 이 글을 읽고 나면 사용법을 알 수 있을 것입니다.

API 문서: https://github.com/GoogleChrome/puppeteer/blob/master/docs/api.md

설치:

npm install --save puppeteer
로그인 후 복사

Puppeteer는 설치 중에 Chromium을 자동으로 다운로드하여 제대로 실행되는지 확인합니다. 하지만 국내 네트워크에서는 Chromium을 성공적으로 다운로드하지 못할 수 있습니다. 다운로드에 실패하면 cnpm을 사용하여 설치하거나 다운로드 주소를 Taobao 미러로 변경한 후 설치할 수 있습니다.

npm config set PUPPETEER_DOWNLOAD_HOST=https://npm.taobao.org/mirrors
npm install --save puppeteer
로그인 후 복사

설치 중에 Chromium 다운로드를 건너뛰고 코드를 통해 기본 Chrome 경로를 지정하여 실행할 수도 있습니다:

// npm
npm install --save puppeteer --ignore-scripts
// node
puppeteer.launch({ executablePath: '/path/to/Chrome' });
로그인 후 복사

달성됨

레이아웃을 깔끔하게 유지하기 위해 아래에는 주요 부분만 나열되어 있습니다. 선택기와 관련된 코드 부분은 다음과 같이 대체됩니다. 전체 코드는 기사 상단의 github 저장소를 참조하세요.

Baidu Index 페이지를 열고 로그인 시뮬레이션

여기에서 수행되는 작업은 사용자 작업, 클릭 및 입력을 단계별로 시뮬레이션하는 것입니다. 로그인 인증 코드를 처리할 필요가 없습니다. 인증 코드 처리는 로컬에서 Baidu에 로그인한 경우 일반적으로 인증 코드가 필요하지 않습니다.

rreee

마우스 이동을 시뮬레이션하고 필요한 데이터를 얻습니다

需要将页面滚动到趋势图的区域,然后移动鼠标到某个日期上,等待请求结束,tooltip显示数值,再截图保存图片。

// 获取chart第一天的坐标
const position = await page.evaluate(() => {
 const $image = document.querySelector('...');
 const $area = document.querySelector('...');
 const areaRect = $area.getBoundingClientRect();
 const imageRect = $image.getBoundingClientRect();
 // 滚动到图表可视化区域
 window.scrollBy(0, areaRect.top);
 return { x: imageRect.x, y: 200 };
});
// 移动鼠标,触发tooltip
await page.mouse.move(position.x, position.y);
await page.waitForSelector('...');
// 获取tooltip信息
const tooltipInfo = await page.evaluate(() => {
 const $tooltip = document.querySelector('...');
 const $title = $tooltip.querySelector('...');
 const $value = $tooltip.querySelector('...');
 const valueRect = $value.getBoundingClientRect();
 const padding = 5;
 return {
 title: $title.textContent.split(' ')[0],
 x: valueRect.x - padding,
 y: valueRect.y,
 width: valueRect.width + padding * 2,
 height: valueRect.height
 }
});
로그인 후 복사

截图

计算数值的坐标,截图并用jimp对裁剪图片。

await page.screenshot({ path: imgPath });
// 对图片进行裁剪,只保留数字部分
const img = await jimp.read(imgPath);
await img.crop(tooltipInfo.x, tooltipInfo.y, tooltipInfo.width, tooltipInfo.height);
// 将图片放大一些,识别准确率会有提升
await img.scale(5);
await img.write(imgPath);
로그인 후 복사

图像识别

这里我们用Tesseract来做图像识别,Tesseracts是Google开源的一款OCR工具,用来识别图片中的文字,并且可以通过训练提高准确率。github上已经有一个简单的node封装: node-tesseract ,需要你先安装Tesseract并设置到环境变量。

Tesseract.process(imgPath, (err, val) => {
if (err || val == null) {
 console.error(':x: 识别失败:' + imgPath);
 return;
}
console.log(val);
로그인 후 복사

实际上未经训练的Tesseracts识别起来会有少数几个错误,比如把9开头的数字识别成`3,这里需要通过训练去提升Tesseracts的准确率,如果识别过程出现的问题都是一样的,也可以简单通过正则去修复这些问题。

封装

实现了以上几点后,只需组合起来就可以封装成一个百度指数爬虫node库。当然还有许多优化的方法,比如批量爬取,指定天数爬取等,只要在这个基础上实现都不难了。

const recognition = require('./src/recognition');
const Spider = require('./src/spider');
module.exports = {
 async run (word, options, puppeteerOptions = { headless: true }) {
 const spider = new Spider({ 
 imgDir, 
 ...options 
 }, puppeteerOptions);
 // 抓取数据
 await spider.run(word);
 // 读取抓取到的截图,做图像识别
 const wordDir = path.resolve(imgDir, word);
 const imgNames = fs.readdirSync(wordDir);
 const result = [];
 imgNames = imgNames.filter(item => path.extname(item) === '.png');
 for (let i = 0; i < imgNames.length; i++) {
 const imgPath = path.resolve(wordDir, imgNames[i]);
 const val = await recognition.run(imgPath);
 result.push(val);
 }
 return result;
 }
}
로그인 후 복사

反爬虫

最后,如何抵挡这种爬虫呢,个人认为通过判断鼠标移动轨迹可能是一种方法。当然前端没有100%的反爬虫手段,我们能做的只是给爬虫增加一点难度。

相信看了本文案例你已经掌握了方法,更多精彩请关注php中文网其它相关文章!

推荐阅读:

easyui日期时间框在IE中的兼容性如何处理

vue判断input输入内容有否有空格

위 내용은 Baidu 인덱스 크롤러 기능 구현 방법의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

본 웹사이트의 성명
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.

핫 AI 도구

Undresser.AI Undress

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

Clothoff.io

AI 옷 제거제

AI Hentai Generator

AI Hentai Generator

AI Hentai를 무료로 생성하십시오.

인기 기사

R.E.P.O. 에너지 결정과 그들이하는 일 (노란색 크리스탈)
3 몇 주 전 By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. 최고의 그래픽 설정
3 몇 주 전 By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. 아무도들을 수없는 경우 오디오를 수정하는 방법
3 몇 주 전 By 尊渡假赌尊渡假赌尊渡假赌
WWE 2K25 : Myrise에서 모든 것을 잠금 해제하는 방법
4 몇 주 전 By 尊渡假赌尊渡假赌尊渡假赌

뜨거운 도구

메모장++7.3.1

메모장++7.3.1

사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전

SublimeText3 중국어 버전

중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기

스튜디오 13.0.1 보내기

강력한 PHP 통합 개발 환경

드림위버 CS6

드림위버 CS6

시각적 웹 개발 도구

SublimeText3 Mac 버전

SublimeText3 Mac 버전

신 수준의 코드 편집 소프트웨어(SublimeText3)

2개월 만에 휴머노이드 로봇 '워커S' 옷 개기 가능 2개월 만에 휴머노이드 로봇 '워커S' 옷 개기 가능 Apr 03, 2024 am 08:01 AM

기계력 보고서 편집자: 우신(Wu Xin) 국내판 휴머노이드 로봇+대형 모델팀이 옷 접기 등 복잡하고 유연한 재료의 작업 작업을 처음으로 완료했습니다. OpenAI 멀티모달 대형 모델을 접목한 Figure01이 공개되면서 국내 동종업체들의 관련 진전이 주목받고 있다. 바로 어제, 중국의 "1위 휴머노이드 로봇 주식"인 UBTECH는 Baidu Wenxin의 대형 모델과 긴밀하게 통합되어 몇 가지 흥미로운 새로운 기능을 보여주는 휴머노이드 로봇 WalkerS의 첫 번째 데모를 출시했습니다. 이제 Baidu Wenxin의 대형 모델 역량을 활용한 WalkerS의 모습은 이렇습니다. Figure01과 마찬가지로 WalkerS는 움직이지 않고 책상 뒤에 서서 일련의 작업을 완료합니다. 인간의 명령을 따르고 옷을 접을 수 있습니다.

DeepSeek 웹 버전 입구 DeepSeek 공식 웹 사이트 입구 DeepSeek 웹 버전 입구 DeepSeek 공식 웹 사이트 입구 Feb 19, 2025 pm 04:54 PM

DeepSeek은 웹 버전과 공식 웹 사이트의 두 가지 액세스 방법을 제공하는 강력한 지능형 검색 및 분석 도구입니다. 웹 버전은 편리하고 효율적이며 설치없이 사용할 수 있습니다. 개인이든 회사 사용자이든, DeepSeek를 통해 대규모 데이터를 쉽게 얻고 분석하여 업무 효율성을 향상시키고 의사 결정을 지원하며 혁신을 촉진 할 수 있습니다.

Baidu 시크릿 모드를 비활성화하는 방법 Baidu 시크릿 모드를 비활성화하는 방법 Feb 29, 2024 pm 03:40 PM

바이두 시크릿 모드는 사용자가 개인 정보나 검색 기록을 남기지 않고 바이두 검색이나 기타 서비스를 사용할 수 있는 개인 정보 보호 기능입니다. 일부 사용자의 경우 검색 기록이나 인터넷 사용 기록을 유지하기 위해 시크릿 모드를 끄고 싶을 수도 있습니다. 그렇다면 Baidu 시크릿 모드를 해제하는 방법은 무엇입니까? 아직 불분명한 친구들은 걱정하지 마세요. 다음으로 편집자가 시크릿 브라우징 모드를 제거하는 방법을 알려드릴 것입니다. 아래 단계를 따르세요. 바이두 시크릿 모드 해제 방법 1. 바탕 화면의 [바이두] 아이콘을 클릭해 바이두 앱을 엽니다. 2. 무언가를 검색하고 검색 결과 페이지로 들어갑니다. 3. 페이지 하단의 [pho]를 클릭하세요. 4. 팝업창에서 "멀티윈도우"를 찾아 클릭하여 들어가주세요. 5. "시크릿 모드" 켜기/끄기

Baidu Xiyang Shells 획득 방법 소개 Baidu Xiyang Shells 획득 방법 소개 Mar 28, 2024 am 09:11 AM

시랑에는 포탄이 어디에 있는지, 어떻게 얻는지 모르는 사용자가 많습니다. 일부 플레이어는 몇 시간 동안 검색했지만 여전히 찾을 수 없습니다. 아래에서 편집자가 바이두 시랑 포탄을 얻는 방법을 알려드리겠습니다. . 와서 보세요. Baidu Xirang Shell을 얻는 방법 1. 먼저 커뮤니티에 접속한 후 아래 사진의 위치로 와야 합니다. 2. 이곳에서 목적지를 선택하고 188층 입장을 선택하세요. 3. 188층에 입장하신 후 돌아다니시면 이런 안내가 나옵니다. I Got It을 클릭하시면 됩니다. 4. 껍데기의 위치는 찾기가 조금 어려울 수 있습니다. 188 엘리베이터 바로 뒤에는 껍데기라는 작은 빛나는 점이 있습니다. 5. 껍질을 집으려면 VR 컨트롤러를 사용해야 합니다. 껍질을 클릭하기만 하면 됩니다. 상환 방법 1. 먼저 페이지 오른쪽 상단에 있는 "설정" 아이콘을 클릭하고 "

바이두 아폴로, L4 자율주행을 지원하는 세계 최초 대형 모델 '아폴로 ADFM' 출시 바이두 아폴로, L4 자율주행을 지원하는 세계 최초 대형 모델 '아폴로 ADFM' 출시 Jun 04, 2024 pm 08:01 PM

5월 15일, Baidu Apollo는 우한 Baidu Carrot Auto Robot Zhixing Valley에서 Apollo Day 2024를 개최하여 지난 10년 동안 Baidu의 자율 주행 분야의 주요 발전을 종합적으로 시연하고 대형 모델을 기반으로 한 기술 도약과 승객 안전에 대한 새로운 정의를 가져왔습니다. 세계 최대 자율주행차 운영 네트워크 바이두는 사람이 운전하는 것보다 자율주행을 더 안전하게 만들었습니다. 덕분에 더 안전하고, 더 편안하고, 친환경적이고, 저탄소 여행 방식이 이상에서 현실로 바뀌고 있습니다. 바이두 그룹 부사장이자 지능형 운전 비즈니스 그룹 사장인 왕윤펑(Wang Yunpeng)은 현장에서 "자율주행차를 만드는 우리의 원래 의도는 더 나은 여행에 대한 사람들의 점점 커지는 갈망을 충족시키는 것입니다. 사람들의 만족은 우리의 원동력입니다. 왜냐하면 안전, 너무 아름다워요, 만나서 반가워요

Baidu Robin Li는 팀을 이끌고 PetroChina를 방문하여 석유 및 가스 산업의 정보를 논의했습니다. Baidu Robin Li는 팀을 이끌고 PetroChina를 방문하여 석유 및 가스 산업의 정보를 논의했습니다. May 07, 2024 pm 06:13 PM

7일 해당 사이트 소식에 따르면 지난 5월 6일 바이두 창업자이자 회장 겸 CEO인 로빈 리가 팀을 이끌고 베이징에 있는 중국국영석유공사(이하 '페트로차이나')를 방문해 중국 국영기업 이사들을 만났다. 중국국영석유공사(China National Petroleum Corporation) 회장 겸 당 서기 Dai Houliang이 회담을 가졌습니다. 양측은 협력을 강화하고 에너지 산업과 디지털 인텔리전스의 심층적 통합을 촉진하기 위해 심도 있는 교류를 가졌습니다. PetroChina는 디지털 China Petroleum Corporation의 건설을 가속화하고 Baidu Group과의 협력을 강화하며 에너지 산업과 디지털 인텔리전스의 심층적 통합을 촉진하고 국가 에너지 안보 보장에 더 큰 기여를 할 것입니다. 로빈 리(Robin Li)는 대형 모델이 보여주는 '지능적 출현'과 이해, 생성, 논리, 기억의 핵심 역량이 첨단 기술과 석유 및 가스 사업의 결합을 위한 더 넓은 상상력의 공간을 열었다고 말했습니다. 언제나

삼성전자 갤럭시S24 시리즈 휴대폰 '서치인서클(Search in Circle)' 중국판이 구글 검색을 지원할 것으로 알려졌다. 삼성전자 갤럭시S24 시리즈 휴대폰 '서치인서클(Search in Circle)' 중국판이 구글 검색을 지원할 것으로 알려졌다. Jun 01, 2024 am 09:54 AM

31일 뉴스에 따르면 블로거 @ibinguniverse는 오늘 삼성 갤럭시 S24 시리즈 휴대폰 중국 버전 '서치 인 서클(Search in Circle)'이 구글 검색을 지원한다는 소식을 전했습니다. 블로거는 구체적인 출시 시간을 공개하지 않았습니다. 삼성의 이전 소개에 따르면 삼성 갤럭시 S24 시리즈는 입력, 번역, 녹음, 메모, 카메라 등 AI 기반의 실용적인 기능과 높은 수준의 AI 기능을 탑재해 사용자에게 보다 편리하고 효율적인 종합 서비스를 제공한다. 경험. 해외 버전과 달리 삼성 갤럭시 S24 시리즈의 AI 기능은 대부분 바이두 등 국내 제조사에서 제공하고 있다. 이전에 보고된 Galaxy AI는 Baidu Wenxin 대형 모델의 여러 기능을 심층적으로 통합하여 최종 지원 통화 및 번역 기능은 물론 생성 AI가 제공하는 지능형 요약을 제공할 수 있습니다.

AI 도구 추천 AI 도구 추천 Nov 29, 2024 am 11:08 AM

이 기사에서는 Douyin Doubao, Wenxin Yige, Tencent Zhiying, Baidu Feipiao EasyDL, Baidu AI Studio 및 iFlytek Spark Cognitive Large Model을 포함한 6가지 인기 AI 도구를 소개합니다. 이러한 도구는 텍스트 생성, 이미지 생성, 비디오 편집 및 AI 모델 개발과 같은 다양한 기능을 다룹니다. 올바른 AI 도구를 선택하려면 기능 요구 사항, 기술 수준, 비용 예산과 같은 요소를 고려해야 합니다. 이러한 도구는 AI 지원이 필요한 개인과 기업에 편리하고 효율적인 솔루션을 제공합니다.

See all articles