New York Times API를 사용한 메타데이터 스크래핑
简介
上周,我写了一篇关于抓取网页以收集元数据的介绍,并提到不可能抓取《纽约时报》网站。 《纽约时报》付费墙会阻止您收集基本元数据的尝试。但有一种方法可以使用纽约时报 API 来解决这个问题。
最近我开始在 Yii 平台上构建一个社区网站,我将在以后的教程中发布该网站。我希望能够轻松添加与网站内容相关的链接。虽然人们可以轻松地将 URL 粘贴到表单中,但提供标题和来源信息却非常耗时。
因此,在今天的教程中,我将扩展我最近编写的抓取代码,以在添加《纽约时报》链接时利用《纽约时报》API 来收集头条新闻。
请记住,我参与了下面的评论主题,所以请告诉我您的想法!您还可以通过 Twitter @lookahead_io 与我联系。
开始使用
注册 API 密钥
首先,让我们注册并请求 API 密钥:
提交表单后,您将通过电子邮件收到密钥:
探索纽约时报 API
The Times 提供以下类别的 API:
- 存档
- 文章搜索
- 书籍
- 社区
- 地理
- 最受欢迎
- 电影评论
- 语义
- 泰晤士报
- 时代标签
- 头条新闻
很多。并且,在“图库”页面中,您可以单击任何主题来查看各个 API 类别文档:
《纽约时报》使用 LucyBot 为其 API 文档提供支持,并且有一个有用的常见问题解答:
他们甚至向您展示如何快速获取 API 使用限制(您需要插入密钥):
curl --head https://api.nytimes.com/svc/books/v3/lists/overview.json?api-key=<your-api-key> 2>/dev/null | grep -i "X-RateLimit" X-RateLimit-Limit-day: 1000 X-RateLimit-Limit-second: 5 X-RateLimit-Remaining-day: 180 X-RateLimit-Remaining-second: 5
我最初很难理解该文档 - 它是基于参数的规范,而不是编程指南。不过,我在纽约时报 API GitHub 页面上发布了一些问题,这些问题很快就得到了有用的解答。
使用文章搜索
在今天的节目中,我将重点介绍如何使用《纽约时报》文章搜索。基本上,我们将扩展上一个教程中的创建链接表单:
当用户点击查找时,我们将向 链接::grab($url)
。这是 jQuery:
$(document).on("click", '[id=lookup]', function(event) { $.ajax({ url: $('#url_prefix').val()+'/link/grab', data: {url: $('#url').val()}, success: function(data) { $('#title').val(data); return true; } }); });
这是控制器和模型方法:
// Controller call via AJAX Lookup request public static function actionGrab($url) { Yii::$app->response->format = Response::FORMAT_JSON; return Link::grab($url); } ... // Link::grab() method public static function grab($url) { //clean up url for hostname $source_url = parse_url($url); $source_url = $source_url['host']; $source_url=str_ireplace('www.','',$source_url); $source_url = trim($source_url,' \\'); // use the NYT API when hostname == nytimes.com if ($source_url=='nytimes.com') { ...
接下来,让我们使用 API 密钥发出文章搜索请求:
$nytKey=Yii::$app->params['nytapi']; $curl_dest = 'http://api.nytimes.com /svc/search/v2/articlesearch.json?fl=headline&fq=web_url:%22'. $url.'%22&api-key='.$nytKey; $curl = curl_init(); curl_setopt($curl, CURLOPT_RETURNTRANSFER, true); curl_setopt($curl, CURLOPT_URL,$curl_dest); $result = json_decode(curl_exec($curl)); $title = $result->response->docs[0]->headline->main; } else { // not NYT, use the standard metatag scraper from last episode ... } } return $title; }
它的工作原理非常简单 - 这是生成的标题(顺便说一句,气候变化正在杀死北极熊,我们应该关心):
如果您想了解 API 请求的更多详细信息,只需向 ?fl 添加其他参数即可=headline
请求例如 关键字
和 lead_paragraph
:
Yii::$app->response->format = Response::FORMAT_JSON; $nytKey=Yii::$app->params['nytapi']; $curl_dest = 'http://api.nytimes.com/svc/search/v2/articlesearch.json?'. 'fl=headline,keywords,lead_paragraph&fq=web_url:%22'.$url.'%22&api-key='.$nytKey; $curl = curl_init(); curl_setopt($curl, CURLOPT_RETURNTRANSFER, true); curl_setopt($curl, CURLOPT_URL,$curl_dest); $result = json_decode(curl_exec($curl)); var_dump($result);
结果如下:
也许我会在接下来的剧集中编写一个 PHP 库来更好地解析 NYT API,但此代码打破了关键字和引导段落:
Yii::$app->response->format = Response::FORMAT_JSON; $nytKey=Yii::$app->params['nytapi']; $curl_dest = 'http://api.nytimes.com/svc/search/v2/articlesearch.json?'. 'fl=headline,keywords,lead_paragraph&fq=web_url:%22'.$url.'%22&api-key='.$nytKey; $curl = curl_init(); curl_setopt($curl, CURLOPT_RETURNTRANSFER, true); curl_setopt($curl, CURLOPT_URL,$curl_dest); $result = json_decode(curl_exec($curl)); echo $result->response->docs[0]->headline->main.'<br />'.'<br />'; echo $result->response->docs[0]->lead_paragraph.'<br />'.'<br />'; foreach ($result->response->docs[0]->keywords as $k) { echo $k->value.'<br/>'; }
以下是本文显示的内容:
Polar Bears’ Path to Decline Runs Through Alaskan Village The bears that come here are climate refugees, on land because the sea ice they rely on for hunting seals is receding. Polar Bears Greenhouse Gas Emissions Alaska Global Warming Endangered and Extinct Species International Union for Conservation of Nature National Snow and Ice Data Center Polar Bears International United States Geological Survey
希望这能开始扩展您对如何使用这些 API 的想象力。现在可能实现的事情非常令人兴奋。
结束中
纽约时报 API 非常有用,我很高兴看到他们向开发者社区提供它。通过 GitHub 获得如此快速的 API 支持也令人耳目一新——我只是没想到会这样。请记住,它适用于非商业项目。如果您有一些赚钱的想法,请给他们留言,看看他们是否愿意与您合作。出版商渴望新的收入来源。
이 웹 스크래핑 조각이 도움이 되기를 바라며 프로젝트에 구현해 보시기 바랍니다. 오늘의 쇼를 보고 싶다면 내 웹사이트 Active Together에서 웹 스크래핑을 시도해 볼 수 있습니다.
댓글로 의견이나 피드백을 공유해주세요. 언제든지 Twitter @lookahead_io를 통해 저에게 직접 연락하실 수도 있습니다. 제 강사 페이지와 기타 시리즈인 PHP로 스타트업 구축 및 Yii2로 프로그래밍을 확인해 보세요.
관련 링크
- New York Times API 라이브러리
- GitHub의 New York Times 공개 API 사양
- 웹페이지에서 메타데이터를 가져오는 방법(Envato Tuts+)
- Node.js 및 jQuery를 사용하여 웹페이지를 스크랩하는 방법(Envato Tuts+)
- Ruby에서 첫 번째 웹 스크레이퍼를 구축하세요(Envato Tuts+)
위 내용은 New York Times API를 사용한 메타데이터 스크래핑의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

핫 AI 도구

Undresser.AI Undress
사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover
사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool
무료로 이미지를 벗다

Clothoff.io
AI 옷 제거제

AI Hentai Generator
AI Hentai를 무료로 생성하십시오.

인기 기사

뜨거운 도구

메모장++7.3.1
사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전
중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기
강력한 PHP 통합 개발 환경

드림위버 CS6
시각적 웹 개발 도구

SublimeText3 Mac 버전
신 수준의 코드 편집 소프트웨어(SublimeText3)

뜨거운 주제











소개 지난주에 메타데이터 수집을 위해 웹페이지를 스크래핑하는 방법에 대한 소개를 썼고, 뉴욕타임즈 웹사이트는 스크래핑이 불가능하다고 언급했습니다. New York Times 페이월은 기본 메타데이터 수집 시도를 차단합니다. 하지만 New York Times API를 사용하면 이 문제를 해결할 수 있는 방법이 있습니다. 최근 저는 Yii 플랫폼에 커뮤니티 웹사이트를 구축하기 시작했습니다. 이는 향후 튜토리얼에서 게시할 예정입니다. 사이트 콘텐츠와 관련된 링크를 쉽게 추가하고 싶습니다. 사람들은 양식에 URL을 쉽게 붙여넣을 수 있지만 제목과 출처 정보를 제공하는 데는 시간이 많이 걸립니다. 그래서 오늘의 튜토리얼에서는 New York Times API를 활용하여 New York Times에 링크를 추가할 때 헤드라인을 수집하도록 최근에 작성한 스크래핑 코드를 확장하겠습니다. 기억해, 나도 관련돼 있어

Python의 Mutagen 및 eyeD3 모듈을 사용하여 오디오 파일의 메타데이터에 액세스할 수 있습니다. 비디오 메타데이터의 경우 Python에서 영화와 OpenCV 라이브러리를 사용할 수 있습니다. 메타데이터는 오디오, 비디오 데이터 등 다른 데이터에 대한 정보를 제공하는 데이터입니다. 오디오 및 비디오 파일의 메타데이터에는 파일 형식, 파일 해상도, 파일 크기, 지속 시간, 비트 전송률 등이 포함됩니다. 이 메타데이터에 액세스함으로써 미디어를 보다 효율적으로 관리하고 메타데이터를 분석하여 유용한 정보를 얻을 수 있습니다. 이 기사에서는 오디오 및 비디오 파일의 메타데이터에 액세스하기 위해 Python에서 제공하는 일부 라이브러리 또는 모듈을 살펴보겠습니다. 오디오 메타데이터에 액세스 오디오 파일 메타데이터에 액세스하기 위한 일부 라이브러리는 다음과 같습니다.

PHP 프로젝트에서 API 인터페이스를 호출하여 데이터를 크롤링하고 처리하는 방법은 무엇입니까? 1. 소개 PHP 프로젝트에서는 종종 다른 웹사이트에서 데이터를 크롤링하고 이러한 데이터를 처리해야 합니다. 많은 웹사이트에서는 API 인터페이스를 제공하며, 우리는 이러한 인터페이스를 호출하여 데이터를 얻을 수 있습니다. 이 기사에서는 PHP를 사용하여 API 인터페이스를 호출하여 데이터를 크롤링하고 처리하는 방법을 소개합니다. 2. API 인터페이스의 URL과 매개변수를 얻으십시오. 시작하기 전에 대상 API 인터페이스의 URL과 필수 매개변수를 얻어야 합니다.

Microsoft는 Windows 8.1의 Power BI Desktop 지원 종료 날짜를 발표했습니다. 최근에는 거대 기술 기업의 최고의 데이터 분석 플랫폼에도 TypeScript 지원 및 기타 새로운 기능이 도입되었습니다. 오늘 Power BI용 새로운 TMDL(Tabular Model Definition Language)이 출시되었으며 현재 공개 미리 보기로 제공됩니다. Power BI를 사용하여 생성된 거대한 의미 체계 데이터 모델에서 추출된 매우 복잡한 BIM 파일로 인해 TMDL이 필요합니다. 전통적으로 TMSL(Tabular Model Scripting Language)의 모델 메타데이터를 포함하는 이 파일은 추가 처리가 어려운 것으로 간주됩니다. 또한 여러 개발자가 작업하고 있는

Vue 개발 경험 요약: SEO 최적화 및 검색 엔진 크롤링을 위한 팁 인터넷의 급속한 발전으로 인해 웹사이트 SEO(SearchEngineOptimization, 검색 엔진 최적화)가 점점 더 중요해지고 있습니다. Vue를 사용하여 개발된 웹사이트의 경우 SEO 및 검색 엔진 크롤링을 최적화하는 것이 중요합니다. 이 기사에서는 일부 Vue 개발 경험을 요약하고 SEO 및 검색 엔진 크롤링 최적화를 위한 몇 가지 팁을 공유합니다. 사전 렌더링 기술 Vue 사용

Pandas의 주요 기능은 DataFrame 또는 Series에 있는 데이터에 대한 추가 정보를 제공할 수 있는 메타데이터를 처리하는 기능입니다. Pandas는 데이터 조작 및 분석을 위해 Python에서 강력하고 널리 사용되는 라이브러리입니다. 이 기사에서는 Pandas를 사용하여 Python의 DataFrame 또는 시리즈에 메타데이터를 추가하는 방법을 살펴보겠습니다. Pandas의 메타데이터란 무엇입니까? 메타데이터는 DataFrame 또는 시리즈의 데이터에 대한 정보입니다. 여기에는 제공된 데이터에 대한 컨텍스트를 제공하기 위해 열에 대한 데이터 유형, 측정 단위 또는 기타 중요하고 관련 있는 정보가 포함될 수 있습니다. Pandas를 사용하여 다음을 수행할 수 있습니다.

인터넷의 발달로 사람들은 정보를 얻기 위해 인터넷에 점점 더 의존하고 있습니다. 책을 좋아하는 사람들에게 Douban Books는 없어서는 안 될 플랫폼이 되었습니다. 또한, Douban Books는 풍부한 도서 평점과 리뷰를 제공하여 독자들이 책을 보다 포괄적으로 이해할 수 있도록 해줍니다. 그러나 이 정보를 수동으로 얻는 것은 건초 더미에서 바늘을 찾는 것과 같습니다. 이때 Scrapy 도구를 사용하여 데이터를 크롤링할 수 있습니다. Scrapy는 Python 기반의 오픈 소스 웹 크롤러 프레임워크로 효율적으로 도움을 줄 수 있습니다.

Scrapy 실행: Baidu 뉴스 데이터 크롤링 인터넷이 발전하면서 사람들이 정보를 얻는 주요 방법이 전통적인 미디어에서 인터넷으로 바뀌었고 사람들은 뉴스 정보를 얻기 위해 점점 더 인터넷에 의존하고 있습니다. 연구원이나 분석가의 경우 분석 및 연구를 위해 많은 양의 데이터가 필요합니다. 따라서 이 글에서는 Scrapy를 사용하여 Baidu 뉴스 데이터를 크롤링하는 방법을 소개합니다. Scrapy는 웹사이트 데이터를 빠르고 효율적으로 크롤링할 수 있는 오픈 소스 Python 크롤러 프레임워크입니다. Scrapy는 강력한 웹페이지 구문 분석 및 크롤링 기능을 제공합니다.
