利用紐約時報API進行元資料爬取
简介
上周,我写了一篇关于抓取网页以收集元数据的介绍,并提到不可能抓取《纽约时报》网站。 《纽约时报》付费墙会阻止您收集基本元数据的尝试。但有一种方法可以使用纽约时报 API 来解决这个问题。
最近我开始在 Yii 平台上构建一个社区网站,我将在以后的教程中发布该网站。我希望能够轻松添加与网站内容相关的链接。虽然人们可以轻松地将 URL 粘贴到表单中,但提供标题和来源信息却非常耗时。
因此,在今天的教程中,我将扩展我最近编写的抓取代码,以在添加《纽约时报》链接时利用《纽约时报》API 来收集头条新闻。
请记住,我参与了下面的评论主题,所以请告诉我您的想法!您还可以通过 Twitter @lookahead_io 与我联系。
开始使用
注册 API 密钥
首先,让我们注册并请求 API 密钥:
提交表单后,您将通过电子邮件收到密钥:
探索纽约时报 API
The Times 提供以下类别的 API:
- 存档
- 文章搜索
- 书籍
- 社区
- 地理
- 最受欢迎
- 电影评论
- 语义
- 泰晤士报
- 时代标签
- 头条新闻
很多。并且,在“图库”页面中,您可以单击任何主题来查看各个 API 类别文档:
《纽约时报》使用 LucyBot 为其 API 文档提供支持,并且有一个有用的常见问题解答:
他们甚至向您展示如何快速获取 API 使用限制(您需要插入密钥):
curl --head https://api.nytimes.com/svc/books/v3/lists/overview.json?api-key=<your-api-key> 2>/dev/null | grep -i "X-RateLimit" X-RateLimit-Limit-day: 1000 X-RateLimit-Limit-second: 5 X-RateLimit-Remaining-day: 180 X-RateLimit-Remaining-second: 5
我最初很难理解该文档 - 它是基于参数的规范,而不是编程指南。不过,我在纽约时报 API GitHub 页面上发布了一些问题,这些问题很快就得到了有用的解答。
使用文章搜索
在今天的节目中,我将重点介绍如何使用《纽约时报》文章搜索。基本上,我们将扩展上一个教程中的创建链接表单:
当用户点击查找时,我们将向 链接::grab($url)
。这是 jQuery:
$(document).on("click", '[id=lookup]', function(event) { $.ajax({ url: $('#url_prefix').val()+'/link/grab', data: {url: $('#url').val()}, success: function(data) { $('#title').val(data); return true; } }); });
这是控制器和模型方法:
// Controller call via AJAX Lookup request public static function actionGrab($url) { Yii::$app->response->format = Response::FORMAT_JSON; return Link::grab($url); } ... // Link::grab() method public static function grab($url) { //clean up url for hostname $source_url = parse_url($url); $source_url = $source_url['host']; $source_url=str_ireplace('www.','',$source_url); $source_url = trim($source_url,' \\'); // use the NYT API when hostname == nytimes.com if ($source_url=='nytimes.com') { ...
接下来,让我们使用 API 密钥发出文章搜索请求:
$nytKey=Yii::$app->params['nytapi']; $curl_dest = 'http://api.nytimes.com /svc/search/v2/articlesearch.json?fl=headline&fq=web_url:%22'. $url.'%22&api-key='.$nytKey; $curl = curl_init(); curl_setopt($curl, CURLOPT_RETURNTRANSFER, true); curl_setopt($curl, CURLOPT_URL,$curl_dest); $result = json_decode(curl_exec($curl)); $title = $result->response->docs[0]->headline->main; } else { // not NYT, use the standard metatag scraper from last episode ... } } return $title; }
它的工作原理非常简单 - 这是生成的标题(顺便说一句,气候变化正在杀死北极熊,我们应该关心):
如果您想了解 API 请求的更多详细信息,只需向 ?fl 添加其他参数即可=headline
请求例如 关键字
和 lead_paragraph
:
Yii::$app->response->format = Response::FORMAT_JSON; $nytKey=Yii::$app->params['nytapi']; $curl_dest = 'http://api.nytimes.com/svc/search/v2/articlesearch.json?'. 'fl=headline,keywords,lead_paragraph&fq=web_url:%22'.$url.'%22&api-key='.$nytKey; $curl = curl_init(); curl_setopt($curl, CURLOPT_RETURNTRANSFER, true); curl_setopt($curl, CURLOPT_URL,$curl_dest); $result = json_decode(curl_exec($curl)); var_dump($result);
结果如下:
也许我会在接下来的剧集中编写一个 PHP 库来更好地解析 NYT API,但此代码打破了关键字和引导段落:
Yii::$app->response->format = Response::FORMAT_JSON; $nytKey=Yii::$app->params['nytapi']; $curl_dest = 'http://api.nytimes.com/svc/search/v2/articlesearch.json?'. 'fl=headline,keywords,lead_paragraph&fq=web_url:%22'.$url.'%22&api-key='.$nytKey; $curl = curl_init(); curl_setopt($curl, CURLOPT_RETURNTRANSFER, true); curl_setopt($curl, CURLOPT_URL,$curl_dest); $result = json_decode(curl_exec($curl)); echo $result->response->docs[0]->headline->main.'<br />'.'<br />'; echo $result->response->docs[0]->lead_paragraph.'<br />'.'<br />'; foreach ($result->response->docs[0]->keywords as $k) { echo $k->value.'<br/>'; }
以下是本文显示的内容:
Polar Bears’ Path to Decline Runs Through Alaskan Village The bears that come here are climate refugees, on land because the sea ice they rely on for hunting seals is receding. Polar Bears Greenhouse Gas Emissions Alaska Global Warming Endangered and Extinct Species International Union for Conservation of Nature National Snow and Ice Data Center Polar Bears International United States Geological Survey
希望这能开始扩展您对如何使用这些 API 的想象力。现在可能实现的事情非常令人兴奋。
结束中
纽约时报 API 非常有用,我很高兴看到他们向开发者社区提供它。通过 GitHub 获得如此快速的 API 支持也令人耳目一新——我只是没想到会这样。请记住,它适用于非商业项目。如果您有一些赚钱的想法,请给他们留言,看看他们是否愿意与您合作。出版商渴望新的收入来源。
我希望您發現這些網頁抓取片段很有幫助,並將其運用到您的專案中。如果您想觀看今天的節目,可以在我的網站 Active Together 上嘗試一些網頁抓取。
請在評論中分享任何想法和回饋。您也可以隨時透過 Twitter @lookahead_io 直接聯繫我。請務必查看我的講師頁面和其他系列:使用 PHP 建立您的新創公司並使用 Yii2 進行程式設計。
相關連結
- 紐約時報 API 庫
- GitHub 上的《紐約時報》公共 API 規格
- 如何抓取網頁中的元資料 (Envato Tuts )
- 如何使用 Node.js 和 jQuery 抓取網頁 (Envato Tuts )
- 用 Ruby 建立您的第一個 Web Scraper (Envato Tuts )
以上是利用紐約時報API進行元資料爬取的詳細內容。更多資訊請關注PHP中文網其他相關文章!

熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

Video Face Swap
使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

熱工具

記事本++7.3.1
好用且免費的程式碼編輯器

SublimeText3漢化版
中文版,非常好用

禪工作室 13.0.1
強大的PHP整合開發環境

Dreamweaver CS6
視覺化網頁開發工具

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)

簡介上週,我寫了一篇關於抓取網頁以收集元資料的介紹,並提到不可能抓取《紐約時報》網站。 《紐約時報》付費牆會阻止您收集基本元資料的嘗試。但有一種方法可以使用紐約時報API來解決這個問題。最近我開始在Yii平台上建立一個社群網站,我將在以後的教程中發布該網站。我希望能夠輕鬆添加與網站內容相關的連結。雖然人們可以輕鬆地將URL貼到表單中,但提供標題和來源資訊卻非常耗時。因此,在今天的教程中,我將擴展我最近編寫的抓取程式碼,以在添加《紐約時報》連結時利用《紐約時報》API來收集頭條新聞。請記住,我參與了

我們可以使用Mutagen和Python中的eyeD3模組存取音訊檔案的元資料。對於視訊元數據,我們可以使用影片和Python中的OpenCV庫。元資料是提供有關其他資料(例如音訊和視訊資料)的資訊的資料。音訊和視訊檔案的元資料包括檔案格式、檔案解析度、檔案大小、持續時間、位元率等。透過存取這些元數據,我們可以更有效地管理媒體並分析元數據以獲得一些有用的信息。在本文中,我們將了解Python提供的一些用於存取音訊和視訊檔案元資料的庫或模組。存取音頻元資料一些用於存取音訊檔案元資料的庫是-使用誘變

如何在PHP專案中透過呼叫API介面來實現資料的爬取與處理?一、介紹在PHP專案中,我們經常需要爬取其他網站的數據,並對這些數據進行處理。而許多網站提供了API接口,我們可以透過呼叫這些接口來取得資料。本文將介紹如何使用PHP來呼叫API接口,實現資料的爬取與處理。二、取得API介面的URL和參數在開始之前,我們需要先取得目標API介面的URL以及所需的

Microsoft宣布了Windows 8.1 上 Power BI Desktop 的終止支援日期。最近,這家科技巨頭的首屈一指的數據分析平台也引入了 TypeScript 支援和其他新功能。今天,為 Power BI推出了新的表格模型定義語言 (TMDL),現已提供公開預覽版。由於從使用 Power BI 創建的巨大語義資料模型中提取了高度複雜的 BIM 文件,因此需要 TMDL。傳統上包含表格模型腳本語言 (TMSL) 中的模型元數據,此文件被認為很難進一步處理。此外,以多個開發人員在

Vue開發經驗總結:優化SEO和搜尋引擎爬取的技巧隨著網路的快速發展,網站的SEO(SearchEngineOptimization,搜尋引擎優化)變得越來越重要。對於使用Vue進行開發的網站來說,優化SEO和搜尋引擎爬取是至關重要的。本文將總結一些Vue開發經驗,分享一些優化SEO和搜尋引擎爬取的技巧。使用預渲染(Prerendering)技術Vue

Pandas的一個關鍵特性是能夠處理元數據,這些元數據可以提供關於DataFrame或Series中存在的數據的附加資訊。 Pandas是Python中一個強大且廣泛使用的函式庫,用於資料操作和分析。在本文中,我們將探討如何使用Pandas在Python中為DataFrame或Series新增元資料。 Pandas中的元資料是什麼?元資料是有關DataFrame或Series中資料的資訊。它可以包括有關列的資料類型、測量單位或任何其他重要且相關的信息,以提供有關所提供資料的上下文。可以使用Pandas向

Scrapy實戰:爬取百度新聞資料隨著網路的發展,人們獲取資訊的主要途徑已從傳統媒體轉移到網路,人們越來越依賴網路獲取新聞資訊。而對於研究者或分析師來說,需要大量的數據來進行分析和研究。因此,本文將介紹如何用Scrapy爬取百度新聞數據。 Scrapy是一個開源的Python爬蟲框架,它可以快速且有效率地爬取網站資料。 Scrapy提供了強大的網頁解析與抓取功

隨著網路的發展,人們越來越依賴網路來獲取資訊。而對於圖書愛好者而言,豆瓣圖書已經成為了一個不可或缺的平台。並且,豆瓣圖書也提供了豐富的圖書評分和評論,使讀者能夠更全面地了解一本圖書。但是,手動取得這些資訊無異於大海撈針,這時候,我們可以藉助Scrapy工具進行資料爬取。 Scrapy是一個基於Python的開源網路爬蟲框架,它可以幫助我們有效率地
