Scrapestack:用于刮擦网站的API
并非每个站点都有一个API访问数据。实际上,大多数不是。如果您需要提取这些数据,一种方法是“刮擦”它。也就是说,将页面加载到Web浏览器中(您是自动化的),在DOM中找到您要寻找的内容,然后采用它。
如果您想处理成本,维护和技术债务,则可以自己执行此操作。例如,这是“无头”浏览器的大型用例之一,例如木偶器如何旋转和控制无头铬。
或者,您可以使用诸如Scrapestack之类的工具,该工具不仅可以为您抓取,而且可以做得更好,更快,并且选择更多的选择要比尝试自己做得更好。
假设我的目标是从Meetup.com页面上取出最新的完成聚会。 Metup.com有一个API,但它很昂贵,需要Oauth和其他东西。我们只需要在这里的过去聚会的名称和链接,所以让我们将其从页面上拉开。
我们可以看到我们在DOM中的需求:
要玩游戏,让我们用jquery用scrapestack api客户端来刮擦它:
$ .get('https://api.scrapestack.com/scrape', { access_key:'my_api_key', URL:'https://www.meetup.com/bendjs/' },, 函数(WebsIteContent){ //我们在这里有整个网站! } );
在该回调中,我现在还可以使用jQuery穿越DOM,抓住我想要的部分,并在我们的网站上构造我需要的东西:
//得到我们想要的 让Event = $(WebsIteContent) 。 。第一的(); 让EventTitle = event .find(“。eventCard-link”)[0] .innertext; 令EventLink = `https:// www.meetup.com/` event.find(“。eventCard-link”)。attr(“ href”); //在页面上使用它 $(“#event”)。附录(` $ {eventTitle} `);
在实际用法中,如果我们这样做这样的客户端,我们将利用一些基本的存储空间,因此我们不必在每个页面负载上达到API,例如将结果粘贴在LocalStorage中,并在几天之后添加无效。
有用!
实际上,我们更有可能进行刮擦服务器端。一方面,这就是保护您的API键的方法,这是您的责任,如果您直接使用API,则在面向公共场所的责任是不可能的。
我自己,我可能会做一个云功能来执行此操作,这样我就可以留在JavaScript(Node.js)中,并有机会将数据塞入存储中。
我会说去查看文档,看看下次您需要进行一些刮擦时,这是否不是正确的答案。无论如何,您都会收到10,000条免费计划的请求,并且可以在任何具有更多功能的付费计划上跳起来。
直接链接→
以上是Scrapestack:用于刮擦网站的API的详细内容。更多信息请关注PHP中文网其他相关文章!

热AI工具

Undresser.AI Undress
人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover
用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool
免费脱衣服图片

Clothoff.io
AI脱衣机

Video Face Swap
使用我们完全免费的人工智能换脸工具轻松在任何视频中换脸!

热门文章

热工具

记事本++7.3.1
好用且免费的代码编辑器

SublimeText3汉化版
中文版,非常好用

禅工作室 13.0.1
功能强大的PHP集成开发环境

Dreamweaver CS6
视觉化网页开发工具

SublimeText3 Mac版
神级代码编辑软件(SublimeText3)

您是否曾经在项目上需要一个倒计时计时器?对于这样的东西,可以自然访问插件,但实际上更多

关于Flex布局中紫色斜线区域的疑问在使用Flex布局时,你可能会遇到一些令人困惑的现象,比如在开发者工具(d...

在元素个数不固定的情况下如何通过CSS选择第一个指定类名的子元素在处理HTML结构时,常常会遇到元素个数不�...
