目录
简介
开始使用
注册 API 密钥
探索纽约时报 API
使用文章搜索
结束中
相关链接
首页 后端开发 php教程 利用纽约时报API进行元数据爬取

利用纽约时报API进行元数据爬取

Sep 02, 2023 pm 10:13 PM
元数据 爬取 纽约时报api

利用纽约时报API进行元数据爬取

简介

上周,我写了一篇关于抓取网页以收集元数据的介绍,并提到不可能抓取《纽约时报》网站。 《纽约时报》付费墙会阻止您收集基本元数据的尝试。但有一种方法可以使用纽约时报 API 来解决这个问题。

最近我开始在 Yii 平台上构建一个社区网站,我将在以后的教程中发布该网站。我希望能够轻松添加与网站内容相关的链接。虽然人们可以轻松地将 URL 粘贴到表单中,但提供标题和来源信息却非常耗时。

因此,在今天的教程中,我将扩展我最近编写的抓取代码,以在添加《纽约时报》链接时利用《纽约时报》API 来收集头条新闻。

请记住,我参与了下面的评论主题,所以请告诉我您的想法!您还可以通过 Twitter @lookahead_io 与我联系。

开始使用

注册 API 密钥

利用纽约时报API进行元数据爬取

首先,让我们注册并请求 API 密钥:

利用纽约时报API进行元数据爬取

提交表单后,您将通过电子邮件收到密钥:

利用纽约时报API进行元数据爬取

探索纽约时报 API

利用纽约时报API进行元数据爬取

The Times 提供以下类别的 API:

  • 存档
  • 文章搜索
  • 书籍
  • 社区
  • 地理
  • 最受欢迎
  • 电影评论
  • 语义
  • 泰晤士报
  • 时代标签
  • 头条新闻

很多。并且,在“图库”页面中,您可以单击任何主题来查看各个 API 类别文档:

利用纽约时报API进行元数据爬取

《纽约时报》使用 LucyBot 为其 API 文档提供支持,并且有一个有用的常见问题解答:

利用纽约时报API进行元数据爬取

他们甚至向您展示如何快速获取 API 使用限制(您需要插入密钥):

 curl --head 
   https://api.nytimes.com/svc/books/v3/lists/overview.json?api-key=<your-api-key>
    2>/dev/null | grep -i "X-RateLimit"
    X-RateLimit-Limit-day: 1000
    X-RateLimit-Limit-second: 5
    X-RateLimit-Remaining-day: 180
    X-RateLimit-Remaining-second: 5
登录后复制

我最初很难理解该文档 - 它是基于参数的规范,而不是编程指南。不过,我在纽约时报 API GitHub 页面上发布了一些问题,这些问题很快就得到了有用的解答。

使用文章搜索

在今天的节目中,我将重点介绍如何使用《纽约时报》文章搜索。基本上,我们将扩展上一个教程中的创建链接表单:

利用纽约时报API进行元数据爬取

当用户点击查找时,我们将向 链接::grab($url)。这是 jQuery:

$(document).on("click", '[id=lookup]', function(event) {
  $.ajax({
     url: $('#url_prefix').val()+'/link/grab',
     data: {url:   $('#url').val()},
     success: function(data) {
       $('#title').val(data);
       return true;
     }
  });
});
登录后复制

这是控制器和模型方法:

// Controller call via AJAX Lookup request
public static function actionGrab($url) {
  Yii::$app->response->format = Response::FORMAT_JSON;
  return Link::grab($url);
}
...
// Link::grab() method
public static function grab($url) {
  //clean up url for hostname
  $source_url = parse_url($url);
  $source_url = $source_url['host'];  
  $source_url=str_ireplace('www.','',$source_url);
  $source_url = trim($source_url,' \\');
  // use the NYT API when hostname == nytimes.com 
  if ($source_url=='nytimes.com') {
   ...
登录后复制

接下来,让我们使用 API 密钥发出文章搜索请求:

    $nytKey=Yii::$app->params['nytapi'];    
    $curl_dest = 'http://api.nytimes.com
        /svc/search/v2/articlesearch.json?fl=headline&fq=web_url:%22'.
        $url.'%22&api-key='.$nytKey;
    $curl = curl_init();
    curl_setopt($curl, CURLOPT_RETURNTRANSFER, true);
    curl_setopt($curl, CURLOPT_URL,$curl_dest);
    $result = json_decode(curl_exec($curl));
    $title = $result->response->docs[0]->headline->main;
  } else {
    // not NYT, use the standard metatag scraper from last episode
         ...
    }
  }
  return $title;
}
登录后复制

它的工作原理非常简单 - 这是生成的标题(顺便说一句,气候变化正在杀死北极熊,我们应该关心):

利用纽约时报API进行元数据爬取

如果您想了解 API 请求的更多详细信息,只需向 ?fl 添加其他参数即可=headline 请求例如 关键字 lead_paragraph:

Yii::$app->response->format = Response::FORMAT_JSON;
$nytKey=Yii::$app->params['nytapi'];
$curl_dest = 'http://api.nytimes.com/svc/search/v2/articlesearch.json?'.
  'fl=headline,keywords,lead_paragraph&fq=web_url:%22'.$url.'%22&api-key='.$nytKey;
$curl = curl_init();
curl_setopt($curl, CURLOPT_RETURNTRANSFER, true);
curl_setopt($curl, CURLOPT_URL,$curl_dest);
$result = json_decode(curl_exec($curl));
var_dump($result);
登录后复制

结果如下:

利用纽约时报API进行元数据爬取

也许我会在接下来的剧集中编写一个 PHP 库来更好地解析 NYT API,但此代码打破了关键字和引导段落:

Yii::$app->response->format = Response::FORMAT_JSON;
$nytKey=Yii::$app->params['nytapi'];
$curl_dest = 'http://api.nytimes.com/svc/search/v2/articlesearch.json?'.
  'fl=headline,keywords,lead_paragraph&fq=web_url:%22'.$url.'%22&api-key='.$nytKey;
$curl = curl_init();
curl_setopt($curl, CURLOPT_RETURNTRANSFER, true);
curl_setopt($curl, CURLOPT_URL,$curl_dest);
$result = json_decode(curl_exec($curl));
echo $result->response->docs[0]->headline->main.'<br />'.'<br />';
echo $result->response->docs[0]->lead_paragraph.'<br />'.'<br />';
foreach ($result->response->docs[0]->keywords as $k) {
  echo $k->value.'<br/>';
}
登录后复制

以下是本文显示的内容:

Polar Bears’ Path to Decline Runs Through Alaskan Village

The bears that come here are climate refugees, on land because
the sea ice they rely on for hunting seals is receding.

Polar Bears
Greenhouse Gas Emissions
Alaska
Global Warming
Endangered and Extinct Species
International Union for Conservation of Nature
National Snow and Ice Data Center
Polar Bears International
United States Geological Survey
登录后复制

希望这能开始扩展您对如何使用这些 API 的想象力。现在可能实现的事情非常令人兴奋。

结束中

纽约时报 API 非常有用,我很高兴看到他们向开发者社区提供它。通过 GitHub 获得如此快速的 API 支持也令人耳目一新——我只是没想到会这样。请记住,它适用于非商业项目。如果您有一些赚钱的想法,请给他们留言,看看他们是否愿意与您合作。出版商渴望新的收入来源。

我希望您发现这些网络抓取片段很有帮助,并将其运用到您的项目中。如果您想观看今天的节目,可以在我的网站 Active Together 上尝试一些网络抓取。

请在评论中分享任何想法和反馈。您也可以随时通过 Twitter @lookahead_io 直接联系我。请务必查看我的讲师页面和其他系列:使用 PHP 构建您的初创公司和使用 Yii2 进行编程。

相关链接

  • 纽约时报 API 库
  • GitHub 上的《纽约时报》公共 API 规范
  • 如何抓取网页中的元数据 (Envato Tuts+)
  • 如何使用 Node.js 和 jQuery 抓取网页 (Envato Tuts+)
  • 用 Ruby 构建您的第一个 Web Scraper (Envato Tuts+)

以上是利用纽约时报API进行元数据爬取的详细内容。更多信息请关注PHP中文网其他相关文章!

本站声明
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn

热AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

Undress AI Tool

免费脱衣服图片

Clothoff.io

Clothoff.io

AI脱衣机

AI Hentai Generator

AI Hentai Generator

免费生成ai无尽的。

热门文章

R.E.P.O.能量晶体解释及其做什么(黄色晶体)
3 周前 By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.最佳图形设置
3 周前 By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.如果您听不到任何人,如何修复音频
3 周前 By 尊渡假赌尊渡假赌尊渡假赌

热工具

记事本++7.3.1

记事本++7.3.1

好用且免费的代码编辑器

SublimeText3汉化版

SublimeText3汉化版

中文版,非常好用

禅工作室 13.0.1

禅工作室 13.0.1

功能强大的PHP集成开发环境

Dreamweaver CS6

Dreamweaver CS6

视觉化网页开发工具

SublimeText3 Mac版

SublimeText3 Mac版

神级代码编辑软件(SublimeText3)

利用纽约时报API进行元数据爬取 利用纽约时报API进行元数据爬取 Sep 02, 2023 pm 10:13 PM

简介上周,我写了一篇关于抓取网页以收集元数据的介绍,并提到不可能抓取《纽约时报》网站。《纽约时报》付费墙会阻止您收集基本元数据的尝试。但有一种方法可以使用纽约时报API来解决这个问题。最近我开始在Yii平台上构建一个社区网站,我将在以后的教程中发布该网站。我希望能够轻松添加与网站内容相关的链接。虽然人们可以轻松地将URL粘贴到表单中,但提供标题和来源信息却非常耗时。因此,在今天的教程中,我将扩展我最近编写的抓取代码,以在添加《纽约时报》链接时利用《纽约时报》API来收集头条新闻。请记住,我参与了

使用Python访问各种音频和视频文件的元数据 使用Python访问各种音频和视频文件的元数据 Sep 05, 2023 am 11:41 AM

我们可以使用Mutagen和Python中的eyeD3模块访问音频文件的元数据。对于视频元数据,我们可以使用电影和Python中的OpenCV库。元数据是提供有关其他数据(例如音频和视频数据)的信息的数据。音频和视频文件的元数据包括文件格式、文件分辨率、文件大小、持续时间、比特率等。通过访问这些元数据,我们可以更有效地管理媒体并分析元数据以获得一些有用的信息。在本文中,我们将了解Python提供的一些用于访问音频和视频文件元数据的库或模块。访问音频元数据一些用于访问音频文件元数据的库是-使用诱变

如何在PHP项目中通过调用API接口来实现数据的爬取和处理? 如何在PHP项目中通过调用API接口来实现数据的爬取和处理? Sep 05, 2023 am 08:41 AM

如何在PHP项目中通过调用API接口来实现数据的爬取和处理?一、介绍在PHP项目中,我们经常需要爬取其他网站的数据,并对这些数据进行处理。而许多网站提供了API接口,我们可以通过调用这些接口来获取数据。本文将介绍如何使用PHP来调用API接口,实现数据的爬取和处理。二、获取API接口的URL和参数在开始之前,我们需要先获取目标API接口的URL以及所需的

微软为 Power BI 推出新的表格模型定义语言 微软为 Power BI 推出新的表格模型定义语言 Apr 13, 2023 pm 04:13 PM

Microsoft宣布了Windows 8.1 上 Power BI Desktop 的终止支持日期。最近,这家科技巨头的首屈一指的数据分析平台也引入了 TypeScript 支持和其他新功能。今天,为 Power BI推出了一种新的表格模型定义语言 (TMDL),现已提供公共预览版。由于从使用 Power BI 创建的巨大语义数据模型中提取了高度复杂的 BIM 文件,因此需要 TMDL。传统上包含表格模型脚本语言 (TMSL) 中的模型元数据,此文件被认为很难进一步处理。此外,以多个开发人员在

Vue开发经验总结:优化SEO和搜索引擎爬取的技巧 Vue开发经验总结:优化SEO和搜索引擎爬取的技巧 Nov 22, 2023 am 10:56 AM

Vue开发经验总结:优化SEO和搜索引擎爬取的技巧随着互联网的快速发展,网站的SEO(SearchEngineOptimization,搜索引擎优化)变得越来越重要。对于使用Vue进行开发的网站来说,优化SEO和搜索引擎爬取是至关重要的。本文将总结一些Vue开发经验,分享一些优化SEO和搜索引擎爬取的技巧。使用预渲染(Prerendering)技术Vue

如何使用Python中的Pandas为DataFrame或Series添加元数据? 如何使用Python中的Pandas为DataFrame或Series添加元数据? Aug 19, 2023 pm 08:33 PM

Pandas的一个关键特性是能够处理元数据,这些元数据可以提供关于DataFrame或Series中存在的数据的附加信息。Pandas是Python中一个强大且广泛使用的库,用于数据操作和分析。在本文中,我们将探讨如何使用Pandas在Python中为DataFrame或Series添加元数据。Pandas中的元数据是什么?元数据是有关DataFrame或Series中数据的信息。它可以包括有关列的数据类型、测量单位或任何其他重要且相关的信息,以提供有关所提供数据的上下文。可以使用Pandas向

如何使用PHP Goutte类库进行网页爬取与数据提取? 如何使用PHP Goutte类库进行网页爬取与数据提取? Aug 09, 2023 pm 02:16 PM

如何使用PHPGoutte类库进行网页爬取与数据提取?概述:在日常的开发过程中,我们经常需要从互联网上获取各种数据,例如电影排名、天气预报等等。而网页爬取则是获取这些数据的常用方法之一。在PHP开发中,我们可以利用Goutte类库来实现网页爬取与数据提取的功能。本文将介绍如何使用PHPGoutte类库进行网页爬取与数据提取,并附上代码示例。什么是Gout

如何使用Scrapy爬取豆瓣图书及其评分和评论? 如何使用Scrapy爬取豆瓣图书及其评分和评论? Jun 22, 2023 am 10:21 AM

随着互联网的发展,人们越来越依赖于网络来获取信息。而对于图书爱好者而言,豆瓣图书已经成为了一个不可或缺的平台。并且,豆瓣图书也提供了丰富的图书评分和评论,使读者能够更加全面地了解一本图书。但是,手动获取这些信息无异于大海捞针,这时候,我们可以借助Scrapy工具进行数据爬取。Scrapy是一个基于Python的开源网络爬虫框架,它可以帮助我们高效地

See all articles