Inhaltsverzeichnis
简介
开始使用
注册 API 密钥
探索纽约时报 API
使用文章搜索
结束中
Verwandte Links
Heim Backend-Entwicklung PHP-Tutorial Metadaten-Scraping mit der New York Times API

Metadaten-Scraping mit der New York Times API

Sep 02, 2023 pm 10:13 PM
元数据 爬取 New York Times API

Metadaten-Scraping mit der New York Times API

简介

上周,我写了一篇关于抓取网页以收集元数据的介绍,并提到不可能抓取《纽约时报》网站。 《纽约时报》付费墙会阻止您收集基本元数据的尝试。但有一种方法可以使用纽约时报 API 来解决这个问题。

最近我开始在 Yii 平台上构建一个社区网站,我将在以后的教程中发布该网站。我希望能够轻松添加与网站内容相关的链接。虽然人们可以轻松地将 URL 粘贴到表单中,但提供标题和来源信息却非常耗时。

因此,在今天的教程中,我将扩展我最近编写的抓取代码,以在添加《纽约时报》链接时利用《纽约时报》API 来收集头条新闻。

请记住,我参与了下面的评论主题,所以请告诉我您的想法!您还可以通过 Twitter @lookahead_io 与我联系。

开始使用

注册 API 密钥

Metadaten-Scraping mit der New York Times API

首先,让我们注册并请求 API 密钥:

Metadaten-Scraping mit der New York Times API

提交表单后,您将通过电子邮件收到密钥:

Metadaten-Scraping mit der New York Times API

探索纽约时报 API

Metadaten-Scraping mit der New York Times API

The Times 提供以下类别的 API:

  • 存档
  • 文章搜索
  • 书籍
  • 社区
  • 地理
  • 最受欢迎
  • 电影评论
  • 语义
  • 泰晤士报
  • 时代标签
  • 头条新闻

很多。并且,在“图库”页面中,您可以单击任何主题来查看各个 API 类别文档:

Metadaten-Scraping mit der New York Times API

《纽约时报》使用 LucyBot 为其 API 文档提供支持,并且有一个有用的常见问题解答:

Metadaten-Scraping mit der New York Times API

他们甚至向您展示如何快速获取 API 使用限制(您需要插入密钥):

 curl --head 
   https://api.nytimes.com/svc/books/v3/lists/overview.json?api-key=<your-api-key>
    2>/dev/null | grep -i "X-RateLimit"
    X-RateLimit-Limit-day: 1000
    X-RateLimit-Limit-second: 5
    X-RateLimit-Remaining-day: 180
    X-RateLimit-Remaining-second: 5
Nach dem Login kopieren

我最初很难理解该文档 - 它是基于参数的规范,而不是编程指南。不过,我在纽约时报 API GitHub 页面上发布了一些问题,这些问题很快就得到了有用的解答。

使用文章搜索

在今天的节目中,我将重点介绍如何使用《纽约时报》文章搜索。基本上,我们将扩展上一个教程中的创建链接表单:

Metadaten-Scraping mit der New York Times API

当用户点击查找时,我们将向 链接::grab($url)。这是 jQuery:

$(document).on("click", '[id=lookup]', function(event) {
  $.ajax({
     url: $('#url_prefix').val()+'/link/grab',
     data: {url:   $('#url').val()},
     success: function(data) {
       $('#title').val(data);
       return true;
     }
  });
});
Nach dem Login kopieren

这是控制器和模型方法:

// Controller call via AJAX Lookup request
public static function actionGrab($url) {
  Yii::$app->response->format = Response::FORMAT_JSON;
  return Link::grab($url);
}
...
// Link::grab() method
public static function grab($url) {
  //clean up url for hostname
  $source_url = parse_url($url);
  $source_url = $source_url['host'];  
  $source_url=str_ireplace('www.','',$source_url);
  $source_url = trim($source_url,' \\');
  // use the NYT API when hostname == nytimes.com 
  if ($source_url=='nytimes.com') {
   ...
Nach dem Login kopieren

接下来,让我们使用 API 密钥发出文章搜索请求:

    $nytKey=Yii::$app->params['nytapi'];    
    $curl_dest = 'http://api.nytimes.com
        /svc/search/v2/articlesearch.json?fl=headline&fq=web_url:%22'.
        $url.'%22&api-key='.$nytKey;
    $curl = curl_init();
    curl_setopt($curl, CURLOPT_RETURNTRANSFER, true);
    curl_setopt($curl, CURLOPT_URL,$curl_dest);
    $result = json_decode(curl_exec($curl));
    $title = $result->response->docs[0]->headline->main;
  } else {
    // not NYT, use the standard metatag scraper from last episode
         ...
    }
  }
  return $title;
}
Nach dem Login kopieren

它的工作原理非常简单 - 这是生成的标题(顺便说一句,气候变化正在杀死北极熊,我们应该关心):

Metadaten-Scraping mit der New York Times API

如果您想了解 API 请求的更多详细信息,只需向 ?fl 添加其他参数即可=headline 请求例如 关键字 lead_paragraph:

Yii::$app->response->format = Response::FORMAT_JSON;
$nytKey=Yii::$app->params['nytapi'];
$curl_dest = 'http://api.nytimes.com/svc/search/v2/articlesearch.json?'.
  'fl=headline,keywords,lead_paragraph&fq=web_url:%22'.$url.'%22&api-key='.$nytKey;
$curl = curl_init();
curl_setopt($curl, CURLOPT_RETURNTRANSFER, true);
curl_setopt($curl, CURLOPT_URL,$curl_dest);
$result = json_decode(curl_exec($curl));
var_dump($result);
Nach dem Login kopieren

结果如下:

Metadaten-Scraping mit der New York Times API

也许我会在接下来的剧集中编写一个 PHP 库来更好地解析 NYT API,但此代码打破了关键字和引导段落:

Yii::$app->response->format = Response::FORMAT_JSON;
$nytKey=Yii::$app->params['nytapi'];
$curl_dest = 'http://api.nytimes.com/svc/search/v2/articlesearch.json?'.
  'fl=headline,keywords,lead_paragraph&fq=web_url:%22'.$url.'%22&api-key='.$nytKey;
$curl = curl_init();
curl_setopt($curl, CURLOPT_RETURNTRANSFER, true);
curl_setopt($curl, CURLOPT_URL,$curl_dest);
$result = json_decode(curl_exec($curl));
echo $result->response->docs[0]->headline->main.'<br />'.'<br />';
echo $result->response->docs[0]->lead_paragraph.'<br />'.'<br />';
foreach ($result->response->docs[0]->keywords as $k) {
  echo $k->value.'<br/>';
}
Nach dem Login kopieren

以下是本文显示的内容:

Polar Bears’ Path to Decline Runs Through Alaskan Village

The bears that come here are climate refugees, on land because
the sea ice they rely on for hunting seals is receding.

Polar Bears
Greenhouse Gas Emissions
Alaska
Global Warming
Endangered and Extinct Species
International Union for Conservation of Nature
National Snow and Ice Data Center
Polar Bears International
United States Geological Survey
Nach dem Login kopieren

希望这能开始扩展您对如何使用这些 API 的想象力。现在可能实现的事情非常令人兴奋。

结束中

纽约时报 API 非常有用,我很高兴看到他们向开发者社区提供它。通过 GitHub 获得如此快速的 API 支持也令人耳目一新——我只是没想到会这样。请记住,它适用于非商业项目。如果您有一些赚钱的想法,请给他们留言,看看他们是否愿意与您合作。出版商渴望新的收入来源。

Ich hoffe, dass Sie diese Web-Scraping-Snippets hilfreich finden und sie in Ihre Projekte implementieren. Wenn Sie sich die heutige Sendung ansehen möchten, können Sie Web Scraping auf meiner Website Active Together ausprobieren.

Bitte teilen Sie Ihre Gedanken und Ihr Feedback in den Kommentaren. Sie können mich auch jederzeit direkt auf Twitter @lookahead_io kontaktieren. Schauen Sie sich unbedingt meine Lehrerseite und andere Serien an: Aufbau Ihres Startups mit PHP und Programmierung mit Yii2.

  • New York Times API-Bibliothek
  • Die öffentliche API-Spezifikation der New York Times auf GitHub
  • So greifen Sie auf Metadaten von Webseiten zu (Envato Tuts+)
  • So scrapen Sie Webseiten mit Node.js und jQuery (Envato Tuts+)
  • Erstellen Sie Ihren ersten Web Scraper in Ruby (Envato Tuts+)

Das obige ist der detaillierte Inhalt vonMetadaten-Scraping mit der New York Times API. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Erklärung dieser Website
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn

Heiße KI -Werkzeuge

Undresser.AI Undress

Undresser.AI Undress

KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover

AI Clothes Remover

Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool

Undress AI Tool

Ausziehbilder kostenlos

Clothoff.io

Clothoff.io

KI-Kleiderentferner

AI Hentai Generator

AI Hentai Generator

Erstellen Sie kostenlos Ai Hentai.

Heißer Artikel

R.E.P.O. Energiekristalle erklärten und was sie tun (gelber Kristall)
3 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Beste grafische Einstellungen
3 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. So reparieren Sie Audio, wenn Sie niemanden hören können
3 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌

Heiße Werkzeuge

Notepad++7.3.1

Notepad++7.3.1

Einfach zu bedienender und kostenloser Code-Editor

SublimeText3 chinesische Version

SublimeText3 chinesische Version

Chinesische Version, sehr einfach zu bedienen

Senden Sie Studio 13.0.1

Senden Sie Studio 13.0.1

Leistungsstarke integrierte PHP-Entwicklungsumgebung

Dreamweaver CS6

Dreamweaver CS6

Visuelle Webentwicklungstools

SublimeText3 Mac-Version

SublimeText3 Mac-Version

Codebearbeitungssoftware auf Gottesniveau (SublimeText3)

Metadaten-Scraping mit der New York Times API Metadaten-Scraping mit der New York Times API Sep 02, 2023 pm 10:13 PM

Einleitung Letzte Woche habe ich eine Einleitung über das Scrapen von Webseiten zum Sammeln von Metadaten geschrieben und erwähnt, dass es unmöglich sei, die Website der New York Times zu scrapen. Die Paywall der New York Times blockiert Ihre Versuche, grundlegende Metadaten zu sammeln. Aber es gibt eine Möglichkeit, dieses Problem mithilfe der New York Times API zu lösen. Vor kurzem habe ich mit dem Aufbau einer Community-Website auf der Yii-Plattform begonnen, die ich in einem zukünftigen Tutorial veröffentlichen werde. Ich möchte in der Lage sein, problemlos Links hinzuzufügen, die für den Inhalt der Website relevant sind. Während Benutzer URLs problemlos in Formulare einfügen können, ist die Bereitstellung von Titel- und Quelleninformationen zeitaufwändig. Deshalb werde ich im heutigen Tutorial den Scraping-Code, den ich kürzlich geschrieben habe, erweitern, um die New York Times-API zum Sammeln von Schlagzeilen zu nutzen, wenn ich einen Link zur New York Times hinzufüge. Denken Sie daran, ich bin involviert

Greifen Sie mit Python auf Metadaten verschiedener Audio- und Videodateien zu Greifen Sie mit Python auf Metadaten verschiedener Audio- und Videodateien zu Sep 05, 2023 am 11:41 AM

Mit Mutagen und dem eyeD3-Modul in Python können wir auf die Metadaten von Audiodateien zugreifen. Für Videometadaten können wir Filme und die OpenCV-Bibliothek in Python verwenden. Metadaten sind Daten, die Informationen über andere Daten bereitstellen, beispielsweise Audio- und Videodaten. Zu den Metadaten für Audio- und Videodateien gehören Dateiformat, Dateiauflösung, Dateigröße, Dauer, Bitrate usw. Durch den Zugriff auf diese Metadaten können wir Medien effizienter verwalten und die Metadaten analysieren, um nützliche Informationen zu erhalten. In diesem Artikel werfen wir einen Blick auf einige der von Python bereitgestellten Bibliotheken oder Module für den Zugriff auf Metadaten von Audio- und Videodateien. Auf Audio-Metadaten zugreifen Einige Bibliotheken für den Zugriff auf Audiodatei-Metadaten nutzen Mutagenese

Wie kann ich Daten durch Aufrufen der API-Schnittstelle in einem PHP-Projekt crawlen und verarbeiten? Wie kann ich Daten durch Aufrufen der API-Schnittstelle in einem PHP-Projekt crawlen und verarbeiten? Sep 05, 2023 am 08:41 AM

Wie kann ich Daten durch Aufrufen der API-Schnittstelle in einem PHP-Projekt crawlen und verarbeiten? 1. Einführung In PHP-Projekten müssen wir häufig Daten von anderen Websites crawlen und diese Daten verarbeiten. Viele Websites bieten API-Schnittstellen, und wir können Daten durch Aufrufen dieser Schnittstellen abrufen. In diesem Artikel wird erläutert, wie Sie mit PHP die API-Schnittstelle zum Crawlen und Verarbeiten von Daten aufrufen. 2. Ermitteln Sie die URL und die Parameter der API-Schnittstelle. Bevor Sie beginnen, müssen Sie die URL der Ziel-API-Schnittstelle und die erforderlichen Parameter ermitteln.

Microsoft führt eine neue Definitionssprache für tabellarische Modelle für Power BI ein Microsoft führt eine neue Definitionssprache für tabellarische Modelle für Power BI ein Apr 13, 2023 pm 04:13 PM

Microsoft hat das Ende des Supports für Power BI Desktop unter Windows 8.1 bekannt gegeben. Vor kurzem hat die führende Datenanalyseplattform des Technologieriesen auch TypeScript-Unterstützung und andere neue Funktionen eingeführt. Heute wurde eine neue Tabular Model Definition Language (TMDL) für Power BI eingeführt und ist jetzt als öffentliche Vorschau verfügbar. TMDL ist aufgrund der hochkomplexen BIM-Dateien erforderlich, die aus dem riesigen semantischen Datenmodell extrahiert werden, das mit Power BI erstellt wurde. Da diese Datei traditionell Modellmetadaten in der Tabular Model Scripting Language (TMSL) enthält, gilt sie als schwierig weiterzuverarbeiten. Darüber hinaus arbeiten mehrere Entwickler daran

Zusammenfassung der Vue-Entwicklungserfahrungen: Tipps zur Optimierung von SEO und Suchmaschinen-Crawling Zusammenfassung der Vue-Entwicklungserfahrungen: Tipps zur Optimierung von SEO und Suchmaschinen-Crawling Nov 22, 2023 am 10:56 AM

Zusammenfassung der Vue-Entwicklungserfahrungen: Tipps zur Optimierung von SEO und Suchmaschinen-Crawling Mit der rasanten Entwicklung des Internets ist Website-SEO (SearchEngineOptimization, Suchmaschinenoptimierung) immer wichtiger geworden. Für mit Vue entwickelte Websites ist die Optimierung für SEO und Suchmaschinen-Crawling von entscheidender Bedeutung. In diesem Artikel werden einige Erfahrungen in der Vue-Entwicklung zusammengefasst und einige Tipps zur Optimierung von SEO und Suchmaschinen-Crawling gegeben. Verwendung der Prerendering-Technologie Vue

Wie füge ich mit Pandas in Python Metadaten zu einem DataFrame oder einer Serie hinzu? Wie füge ich mit Pandas in Python Metadaten zu einem DataFrame oder einer Serie hinzu? Aug 19, 2023 pm 08:33 PM

Eine Schlüsselfunktion von Pandas ist die Fähigkeit, Metadaten zu verarbeiten, die zusätzliche Informationen über die in einem DataFrame oder einer Serie vorhandenen Daten liefern können. Pandas ist eine leistungsstarke und weit verbreitete Bibliothek in Python zur Datenbearbeitung und -analyse. In diesem Artikel erfahren Sie, wie Sie mithilfe von Pandas Metadaten zu einem DataFrame oder einer Serie in Python hinzufügen. Was sind Metadaten in Pandas? Metadaten sind Informationen über die Daten in einem DataFrame oder einer Serie. Es kann den Datentyp der Spalte, die Maßeinheit oder andere wichtige und relevante Informationen enthalten, um Kontext zu den bereitgestellten Daten bereitzustellen. Sie können Pandas dazu verwenden

Wie verwende ich die PHP-Goutte-Klassenbibliothek für Web-Crawling und Datenextraktion? Wie verwende ich die PHP-Goutte-Klassenbibliothek für Web-Crawling und Datenextraktion? Aug 09, 2023 pm 02:16 PM

Wie verwende ich die PHPGoutte-Klassenbibliothek für Web-Crawling und Datenextraktion? Überblick: Im täglichen Entwicklungsprozess müssen wir häufig verschiedene Daten aus dem Internet abrufen, z. B. Filmrankings, Wettervorhersagen usw. Web-Crawling ist eine der gebräuchlichsten Methoden, um diese Daten zu erhalten. In der PHP-Entwicklung können wir die Goutte-Klassenbibliothek verwenden, um Web-Crawling- und Datenextraktionsfunktionen zu implementieren. In diesem Artikel wird erläutert, wie Sie mit der PHPGoutte-Klassenbibliothek Webseiten crawlen, Daten extrahieren und Codebeispiele anhängen. Was ist Gicht?

Wie kann man mit Scrapy Douban-Bücher und deren Bewertungen und Kommentare crawlen? Wie kann man mit Scrapy Douban-Bücher und deren Bewertungen und Kommentare crawlen? Jun 22, 2023 am 10:21 AM

Mit der Entwicklung des Internets verlassen sich die Menschen zunehmend auf das Internet, um Informationen zu erhalten. Für Buchliebhaber ist Douban Books zu einer unverzichtbaren Plattform geworden. Darüber hinaus bietet Douban Books eine Fülle von Buchbewertungen und Rezensionen, die es den Lesern ermöglichen, ein Buch umfassender zu verstehen. Das manuelle Abrufen dieser Informationen ist jedoch gleichbedeutend mit der Suche nach der Nadel im Heuhaufen. Zu diesem Zeitpunkt können wir das Scrapy-Tool zum Crawlen von Daten verwenden. Scrapy ist ein auf Python basierendes Open-Source-Webcrawler-Framework, das uns effizient helfen kann

See all articles