首页 web前端 js教程 如何使用 Puppeteer 进行网页抓取:初学者友好指南

如何使用 Puppeteer 进行网页抓取:初学者友好指南

Jan 08, 2025 am 12:46 AM

How to Web Scrape with Puppeteer: A Beginner-Friendly Guide

网络抓取是从网站收集数据的极其强大的工具。借助 Puppeteer(Google 的 Node.js 无头浏览器库),您可以自动执行页面导航、单击按钮和提取信息的过程,同时模仿人类浏览行为。本指南将以简单、清晰且可操作的方式引导您了解使用 Puppeteer 进行网页抓取的基本知识。

什么是傀儡师?

Puppeteer 是一个 Node.js 库,可让您控制 Google Chrome(或 Chromium)的无头版本。无头浏览器在没有图形用户界面 (GUI) 的情况下运行,使其速度更快,非常适合抓取等自动化任务。但是,如果您需要直观地查看正在发生的情况,Puppeteer 也可以在完整浏览器模式下运行。

为什么选择 Puppeteer 进行网页抓取?

灵活性:Puppeteer 可以轻松处理动态网站和单页应用程序 (SPA)。
JavaScript 支持:它在页面上执行 JavaScript,这对于抓取现代网络应用程序至关重要。
自动化能力:您可以执行填写表格、单击按钮甚至截屏等任务。

将代理与 Puppeteer 一起使用

抓取网站时,代理对于避免 IP 禁令和访问地理限制内容至关重要。代理充当您的抓取工具和目标网站之间的中介,掩盖您的真实 IP 地址。对于 Puppeteer,您可以通过将代理作为启动参数传递来轻松集成代理:

javascript
复制代码
const browser = wait puppeteer.launch({
args: ['--proxy-server=your-proxy-server:port']
});
代理对于扩展抓取工作特别有用。轮换代理可确保每个请求都来自不同的 IP,从而减少检测到的机会。住宅代理以其真实性而闻名,非常适合绕过机器人防御,而数据中心代理速度更快、价格更便宜。选择符合您的抓取需求的类型,并始终测试性能以确保可靠性。

设置 Puppeteer

开始抓取之前,您需要设置 Puppeteer。让我们深入了解分步过程:
第 1 步:安装 Node.js 和 Puppeteer
安装Node.js:从官网下载并安装Node.js。
设置 Puppeteer:打开终端并运行以下命令:
重击
复制代码
npm install puppeteer

这将安装 Puppeteer 和 Chromium,它控制的浏览器。
第 2 步:编写你的第一个 Puppeteer 脚本
创建一个新的 JavaScript 文件 scraper.js。这将容纳您的抓取逻辑。让我们编写一个简单的脚本来打开网页并提取其标题:
javascript
复制代码
const puppeteer = require('puppeteer');

(async () => {
const browser = wait puppeteer.launch();
const page = wait browser.newPage();

// 导航到网站
等待 page.goto('https://example.com');

// 提取标题
const title = wait page.title();
console.log(页面标题: ${title});

等待 browser.close();
})();

使用以下命令运行脚本:
重击
复制代码
节点 scraper.js

您刚刚编写了第一个 Puppeteer scraper!

用于抓取的核心 Puppeteer 功能

现在您已经掌握了基础知识,让我们来探索一些用于抓取的关键 Puppeteer 功能。

  1. 导航至页面
    page.goto(url) 方法允许您打开任何 URL。如果需要,添加超时设置等选项:
    javascript
    复制代码
    wait page.goto('https://example.com', { timeout: 60000 });

  2. 选择元素
    使用 CSS 选择器来精确定位页面上的元素。 Puppeteer 提供了如下方法:
    第一个匹配的 page.$(selector)
    page.$$(选择器) 适用于所有匹配
    示例:
    javascript
    复制代码
    const 元素=await page.$('h1');
    const text = wait page.evaluate(el => el.textContent, element);
    console.log(标题: ${text});

  3. 与元素互动
    模拟用户交互,例如点击和键入:
    javascript
    复制代码
    等待 page.click('#submit-button');
    wait page.type('#search-box', 'Puppeteer scraping');

  4. 等待元素
    网页以不同的速度加载。 Puppeteer 允许您在继续操作之前等待元素:
    javascript
    复制代码
    等待 page.waitForSelector('#dynamic-content');

  5. 截图
    可视化调试或将数据保存为图像很容易:
    javascript
    复制代码
    wait page.screenshot({ path: 'screenshot.png', fullPage: true });

处理动态内容

当今许多网站使用 JavaScript 动态加载内容。 Puppeteer 在这里大放异彩,因为它执行 JavaScript,允许您抓取页面源代码中可能不可见的内容。
示例:提取动态数据
javascript
复制代码
等待 page.goto('https://news.ycombinator.com');
等待 page.waitForSelector('.storylink');

const headers = wait page.$$eval('.storylink', links => links.map(link => link.textContent));
console.log('头条新闻:', 头条新闻);

处理验证码和机器人检测

一些网站采取了阻止机器人的措施。 Puppeteer 可以帮助绕过简单的检查:
使用隐身模式:安装 puppeteer-extra 插件:
重击
复制代码
npm install puppeteer-extra puppeteer-extra-plugin-stealth
将其添加到您的脚本中:
javascript
复制代码
const puppeteer = require('puppeteer-extra');
const StealthPlugin = require('puppeteer-extra-plugin-stealth');
puppeteer.use(StealthPlugin());

模仿人类行为:随机化鼠标移动和打字速度等动作,以显得更加人性化。
轮换用户代理:根据每个请求更改浏览器的用户代理:
javascript
复制代码
wait page.setUserAgent('Mozilla/5.0 (Windows NT 10.0; Win64; x64)');

保存抓取的数据

提取数据后,您可能想要保存它。以下是一些常见的格式:
JSON:
javascript
复制代码
const fs = require('fs');
const data = { name: 'Puppeteer', type: 'library' };
fs.writeFileSync('data.json', JSON.stringify(data, null, 2));

CSV:使用像 csv-writer 这样的库:
重击
复制代码
npm 安装 csv-writer
javascript
复制代码
const createCsvWriter = require('csv-writer').createObjectCsvWriter;

const csvWriter = createCsvWriter({
路径: 'data.csv',
标题:[
{ id: '姓名', title: '姓名' },
{ id: '类型', title: '类型' }
]
});

const 记录 = [{ name: 'Puppeteer', type: 'library' }];
csvWriter.writeRecords(records).then(() => console.log('CSV 文件已写入。'));
道德网络抓取实践
在抓取网站之前,请记住这些道德准则:
检查服务条款:始终确保网站允许抓取。
尊重速率限制:避免在短时间内发送太多请求。使用 setTimeout 或 Puppeteer 的 page.waitForTimeout() 来间隔请求:
javascript
复制代码
等待页面.waitForTimeout(2000); // 等待2秒

避免敏感数据:切勿抓取个人或私人信息。

常见问题故障排除

页面无法正确加载:尝试添加更长的超时或启用完整浏览器模式:
javascript
复制代码
const browser = wait puppeteer.launch({ headless: false });

选择器不起作用:使用浏览器开发人员工具(Ctrl Shift C)检查网站以确认选择器。
被验证码阻止:使用隐身插件并模仿人类行为。

常见问题 (FAQ)

  1. Puppeteer 免费吗? 是的,Puppeteer 是开源的并且可以免费使用。
  2. Puppeteer 可以抓取大量 JavaScript 的网站吗? 绝对地! Puppeteer 执行 JavaScript,非常适合抓取动态网站。
  3. 网页抓取合法吗? 这取决于。在抓取之前请务必检查网站的服务条款。
  4. Puppeteer 可以绕过验证码吗? Puppeteer 可以处理基本的验证码挑战,但高级挑战可能需要第三方工具。

以上是如何使用 Puppeteer 进行网页抓取:初学者友好指南的详细内容。更多信息请关注PHP中文网其他相关文章!

本站声明
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn

热AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

Undress AI Tool

免费脱衣服图片

Clothoff.io

Clothoff.io

AI脱衣机

Video Face Swap

Video Face Swap

使用我们完全免费的人工智能换脸工具轻松在任何视频中换脸!

热门文章

<🎜>:泡泡胶模拟器无穷大 - 如何获取和使用皇家钥匙
4 周前 By 尊渡假赌尊渡假赌尊渡假赌
北端:融合系统,解释
4 周前 By 尊渡假赌尊渡假赌尊渡假赌
Mandragora:巫婆树的耳语 - 如何解锁抓钩
3 周前 By 尊渡假赌尊渡假赌尊渡假赌

热工具

记事本++7.3.1

记事本++7.3.1

好用且免费的代码编辑器

SublimeText3汉化版

SublimeText3汉化版

中文版,非常好用

禅工作室 13.0.1

禅工作室 13.0.1

功能强大的PHP集成开发环境

Dreamweaver CS6

Dreamweaver CS6

视觉化网页开发工具

SublimeText3 Mac版

SublimeText3 Mac版

神级代码编辑软件(SublimeText3)

热门话题

Java教程
1673
14
CakePHP 教程
1429
52
Laravel 教程
1333
25
PHP教程
1278
29
C# 教程
1257
24
Python vs. JavaScript:学习曲线和易用性 Python vs. JavaScript:学习曲线和易用性 Apr 16, 2025 am 12:12 AM

Python更适合初学者,学习曲线平缓,语法简洁;JavaScript适合前端开发,学习曲线较陡,语法灵活。1.Python语法直观,适用于数据科学和后端开发。2.JavaScript灵活,广泛用于前端和服务器端编程。

JavaScript和Web:核心功能和用例 JavaScript和Web:核心功能和用例 Apr 18, 2025 am 12:19 AM

JavaScript在Web开发中的主要用途包括客户端交互、表单验证和异步通信。1)通过DOM操作实现动态内容更新和用户交互;2)在用户提交数据前进行客户端验证,提高用户体验;3)通过AJAX技术实现与服务器的无刷新通信。

JavaScript在行动中:现实世界中的示例和项目 JavaScript在行动中:现实世界中的示例和项目 Apr 19, 2025 am 12:13 AM

JavaScript在现实世界中的应用包括前端和后端开发。1)通过构建TODO列表应用展示前端应用,涉及DOM操作和事件处理。2)通过Node.js和Express构建RESTfulAPI展示后端应用。

了解JavaScript引擎:实施详细信息 了解JavaScript引擎:实施详细信息 Apr 17, 2025 am 12:05 AM

理解JavaScript引擎内部工作原理对开发者重要,因为它能帮助编写更高效的代码并理解性能瓶颈和优化策略。1)引擎的工作流程包括解析、编译和执行三个阶段;2)执行过程中,引擎会进行动态优化,如内联缓存和隐藏类;3)最佳实践包括避免全局变量、优化循环、使用const和let,以及避免过度使用闭包。

Python vs. JavaScript:社区,图书馆和资源 Python vs. JavaScript:社区,图书馆和资源 Apr 15, 2025 am 12:16 AM

Python和JavaScript在社区、库和资源方面的对比各有优劣。1)Python社区友好,适合初学者,但前端开发资源不如JavaScript丰富。2)Python在数据科学和机器学习库方面强大,JavaScript则在前端开发库和框架上更胜一筹。3)两者的学习资源都丰富,但Python适合从官方文档开始,JavaScript则以MDNWebDocs为佳。选择应基于项目需求和个人兴趣。

Python vs. JavaScript:开发环境和工具 Python vs. JavaScript:开发环境和工具 Apr 26, 2025 am 12:09 AM

Python和JavaScript在开发环境上的选择都很重要。1)Python的开发环境包括PyCharm、JupyterNotebook和Anaconda,适合数据科学和快速原型开发。2)JavaScript的开发环境包括Node.js、VSCode和Webpack,适用于前端和后端开发。根据项目需求选择合适的工具可以提高开发效率和项目成功率。

C/C在JavaScript口译员和编译器中的作用 C/C在JavaScript口译员和编译器中的作用 Apr 20, 2025 am 12:01 AM

C和C 在JavaScript引擎中扮演了至关重要的角色,主要用于实现解释器和JIT编译器。 1)C 用于解析JavaScript源码并生成抽象语法树。 2)C 负责生成和执行字节码。 3)C 实现JIT编译器,在运行时优化和编译热点代码,显着提高JavaScript的执行效率。

Python vs. JavaScript:比较用例和应用程序 Python vs. JavaScript:比较用例和应用程序 Apr 21, 2025 am 12:01 AM

Python更适合数据科学和自动化,JavaScript更适合前端和全栈开发。1.Python在数据科学和机器学习中表现出色,使用NumPy、Pandas等库进行数据处理和建模。2.Python在自动化和脚本编写方面简洁高效。3.JavaScript在前端开发中不可或缺,用于构建动态网页和单页面应用。4.JavaScript通过Node.js在后端开发中发挥作用,支持全栈开发。

See all articles