Puppeteer のシミュレートされたログインとキャプチャページの実装コード-jsチュートリアル-php.cn

ホームページ

ウェブフロントエンド

jsチュートリアル

Puppeteer のシミュレートされたログインとキャプチャページの実装コード

php中世界最好的语言

May 11, 2018 pm 03:07 PM

クロール

今回は、puppeteer のシミュレートされたログインとクローリングページの実装コードをお届けします。puppeteer がログインとクローリングページをシミュレートするための注意点とは何ですか。以下は実際のケースです。

ヒートマップについて

Webサイト分析業界では、WebサイトのヒートマップはWebサイトでのユーザーの操作行動をよく反映し、特にユーザーの好みを分析し、Webサイトのターゲットを絞った最適化を実行できます。 ptengine より)

上の図では、ユーザーがどこに注目しているかがはっきりとわかります。この記事では、製品のヒートマップの機能には注目していません。地図と概要。

ヒートマップの主流の実装方法

一般的に、ヒートマップ表示を実装するには、次の段階が必要です: 1. Webサイトのページを取得する2. 加工されたユーザーデータを取得する
3.マップ
この記事では、主にステージ 1 に焦点を当てて、ヒートマップで Web サイトのページを取得する主流の実装方法を詳しく紹介します
4. iframe を使用してユーザーの Web サイトを直接埋め込みます
5. ユーザーのページを取得してローカルに保存し、ローカルに埋め込みますiframe を介したリソース (いわゆるローカルここでのリソースは分析ツール側と見なされます)

どちらの方法にも独自の長所と短所があります

まず第一に、最初の方法はユーザーの Web サイトに直接埋め込まれます。たとえば、ユーザーの Web サイトが iframe ハイジャックを防ぐために iframe を許可していない場合、ネスティング (メタ設定) は非常に便利です。検出と分析が必要なすべての Web サイトユーザーが Web サイトを管理できるわけではないからです。

if(window.top !== window.self){ window.top.location = window.location;} 2 番目の方法は、Web サイトのページをローカルサーバーに直接キャプチャし、ローカルサーバー上でキャプチャされたページを参照することです。この場合、ページはすでに取得されているため、必要な操作を行うことができます。 bypass X -FRAME-OPTIONS は、sameorgin の問題です。キャプチャされたページについては、特別な対応 (対応する js コントロールを削除するか、独自の js を追加するなど) によって処理するだけです。 ; ただし、この方法には多くの欠点もあります: 1. スパページをクロールできない、

ユーザーログイン

認証が必要なページをクロールできない、ユーザーが背景を白に設定しているページをクロールできないなど。どちらのメソッドにも https リソースと http リソースがあります。同一オリジンポリシーによって引き起こされるもう 1 つの問題は、https ステーションが http リソースをロードできないことです。そのため、互換性を最適化するには、ヒートマップ分析ツールを http プロトコルで適用する必要があります。もちろん、特定のサブサイトの最適化は、訪問した顧客の Web サイトに基づいて行うことができます。

Web サイトのページのクロールを最適化する方法ここでは、Web サイトのページのクロールで発生する問題を解決するために、puppeteer に基づいていくつかの最適化を行い、クロールが成功する確率を向上させます。主に次の 2 つのページを最適化します。 1. 現在のページではスパページ

スパページが主流であると考えられていますが、検索

インデックスエンジンには不向きであることが一般に知られています。通常のページクローラーは実際には単純なクローラーであり、そのプロセスは通常ユーザー Web サイト (ユーザー Web サイトサーバーである必要があります) への http get リクエストを開始します。このクローリング方法自体に問題があります。まず、ユーザーサーバーにはブラウザ以外のエージェントに対する多くの制限があり、その要求をバイパスする必要があります。ブラウザーで js を介してレンダリングされた部分は取得できません (もちろん、iframe が埋め込まれた後でも、js の実行によってこの問題はある程度補われます)。この時点ではテンプレートのみが取得されますが、ヒートマップでは表示効果が非常に不親切です。

この状況を考慮して、puppeteer に基づいて実行される場合、プロセスは

puppeteer がブラウザを起動してユーザーの Web サイトを開きます --> ページのレンダリング --> レンダリングされた結果を返すだけの疑似コードになります。次のように実装します:

const puppeteer = require('puppeteer');
async getHtml = (url) =>{
  const browser = await puppeteer.launch();
  const page = await browser.newPage();
  await page.goto(url);
  return await page.content();
}

ログイン後にコピー

このようにして、ページのレンダリング方法(クライアント側レンダリングまたはサーバー側)に関係なく、取得するコンテンツはレンダリングされたコンテンツです

ログインが必要なページ

があります実際、ログインが必要なページには多くの状況があります:

需要登录才可以查看页面，如果没有登录，则跳转到login页面（各种管理系统）

对于这种类型的页面我们需要做的就是模拟登录，所谓模拟登录就是让浏览器去登录，这里需要用户提供对应网站的用户名和密码，然后我们走如下的流程：

访问用户网站-->用户网站检测到未登录跳转到login-->puppeteer控制浏览器自动登录后跳转到真正需要抓取的页面，可用如下伪代码来说明：

const puppeteer = require("puppeteer");
async autoLogin =(url)=>{
   const browser = await puppeteer.launch();
   const page =await browser.newPage();
   await page.goto(url);
   await page.waitForNavigation();
   //登录
   await page.type('#username',"用户提供的用户名");
   await page.type('#password','用户提供的密码');
   await page.click('#btn_login');
  //页面登录成功后，需要保证redirect 跳转到请求的页面
   await page.waitForNavigation();
   return await page.content();
}

ログイン後にコピー

登录与否都可以查看页面，只是登录后看到内容会所有不同（各种电商或者portal页面）

这种情况处理会比较简单一些，可以简单的认为是如下步骤：

通过puppeteer启动浏览器打开请求页面-->点击登录按钮-->输入用户名和密码登录 -->重新加载页面

基本代码如下图：

const puppeteer = require("puppeteer");
async autoLoginV2 =(url)=>{
   const browser = await puppeteer.launch();
   const page =await browser.newPage();
   await page.goto(url);
   await page.click('#btn_show_login');
   //登录
   await page.type('#username',"用户提供的用户名");
   await page.type('#password','用户提供的密码');
   await page.click('#btn_login');
  //页面登录成功后，是否需要reload 根据实际情况来确定
   await page.reload();
   return await page.content();
}

ログイン後にコピー

总结

明天总结吧，今天下班了。

补充（还昨天的债）：基于puppeteer虽然可以很友好的抓取页面内容，但是也存在这很多的局限

1.抓取的内容为渲染后的原始html，即资源路径（css、image、javascript）等都是相对路径，保存到本地后无法正常显示，需要特殊处理（js不需要特殊处理，甚至可以移除，因为渲染的结构已经完成）

2.通过puppeteer抓取页面性能会比直接http get 性能会差一些，因为多了渲染的过程

3.同样无法保证页面的完整性，只是很大的提高了完整的概率，虽然通过page对象提供的各种wait 方法能够解决这个问题，但是网站不同，处理方式就会不同，无法复用。

相信看了本文案例你已经掌握了方法，更多精彩请关注php中文网其它相关文章！

ホットAIツール

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

脱衣画像を無料で

Clothoff.io

AI衣類リムーバー

Video Face Swap

完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

ホットツール

メモ帳++7.3.1

使いやすく無料のコードエディター

SublimeText3 中国語版

中国語版、とても使いやすい

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

ドリームウィーバー CS6

ビジュアル Web 開発ツール

SublimeText3 Mac版

神レベルのコード編集ソフト（SublimeText3）

ホットトピック

Gmailメールのログイン入り口はどこですか？

7722

Java チュートリアル

1642

CakePHP チュートリアル

1396

Laravel チュートリアル

1289

PHP チュートリアル

1233

Related knowledge

悪質なケース分析: LinkedIn で企業情報をクロールする方法 Jun 23, 2023 am 10:04 AM

Scrapy は、インターネット上の関連情報を迅速かつ簡単に取得できる Python ベースのクローラーフレームワークです。この記事では、Scrapy のケースを使用して、LinkedIn で企業情報をクロールする方法を詳細に分析します。ターゲット URL を決定するまず、ターゲットが LinkedIn 上の企業情報であることを明確にする必要があります。したがって、LinkedIn の企業情報ページの URL を見つける必要があります。 LinkedIn Web サイトを開き、検索ボックスに会社名を入力し、

PHPを使用したInstagram情報のスクレイピング例 Jun 13, 2023 pm 06:26 PM

Instagram は、今日最も人気のあるソーシャルメディアの 1 つであり、数億人のアクティブユーザーがいます。ユーザーは何十億もの写真やビデオをアップロードしており、このデータは多くの企業や個人にとって非常に貴重です。したがって、多くの場合、Instagramのデータを自動的にスクレイピングするプログラムを使用する必要があります。この記事では、PHPを使ってInstagramのデータを取り込む方法と実装例を紹介します。 PHP の cURL 拡張機能をインストールする cURL は、さまざまな用途で使用されるツールです。

PHP を使用して、Zhihu の質問と回答を取得するプログラムを実装します。 Jun 13, 2023 pm 11:21 PM

Zhihu は非常に人気のある知識共有コミュニティとして、多くのユーザーから質の高い質問と回答が数多く投稿されており、勉強している人や仕事をしている人にとって、このコンテンツは問題解決や視野を広げるのに非常に役立ちます。このコンテンツを整理して活用したい場合は、スクレイパーを使用して関連データを取得する必要があります。この記事では、PHP を使用して Zhihu の質問と回答をクロールするプログラムを作成する方法を紹介します。はじめに Zhihu は、質問、回答、コラム、トピック、ユーザーなどを含むがこれらに限定されない、非常に豊富なコンテンツを備えたプラットフォームです。私たちは通過できます

Java クローラーの使用: Web ページデータを効率的に抽出するための実践的な方法とテクニック Jan 05, 2024 am 08:15 AM

Java クローラーの実践: Web ページデータを迅速にクロールする方法とテクニックはじめに: インターネットの発展に伴い、膨大な情報が Web ページに保存され、そこから有用なデータを取得することがますます困難になってきています。クローラーテクノロジーを使用すると、Web ページデータを迅速かつ自動的にクロールし、必要な有用な情報を抽出できます。この記事では、Java を使用したクローラー開発の方法とテクニックを紹介し、具体的なコード例を示します。 1. 適切なクローラーフレームワークを選択する Java 分野では、Jso などの優れたクローラーフレームワークが多数あります。

URL 転送とクロールを実装するための Nginx リダイレクト設定の解析 Jul 04, 2023 pm 06:37 PM

URL 転送とクロールを実装するための Nginx リダイレクト設定の解析はじめに: Web アプリケーション開発では、URL をリダイレクトする必要がある状況によく遭遇します。 Nginx は、高性能 Web サーバーおよびリバースプロキシサーバーとして、強力なリダイレクト機能を提供します。この記事では、Nginx のリダイレクト構成を分析し、コード例を通じて URL 転送およびクロール機能を実装する方法を示します。 1. 基本概念リダイレクトとは、URL リクエストを別の URL に転送するプロセスを指します。 Nginxで

Scrapy を使用して Web サイトのデータを解析およびスクレイピングする方法 Jun 23, 2023 pm 12:33 PM

Scrapy は、Web サイトデータをスクレイピングおよび解析するための Python フレームワークです。これにより、開発者は Web サイトのデータを簡単にクロールして分析できるようになり、データマイニングや情報収集などのタスクが可能になります。この記事では、Scrapy を使用して簡単なクローラープログラムを作成および実行する方法を紹介します。ステップ 1: Scrapy をインストールして構成する Scrapy を使用する前に、まず Scrapy 環境をインストールして構成する必要があります。 Scrapy は、pipinstallscra を実行してインストールできます。

PHP と phpSpider を使用して特定の Web サイトのコンテンツを正確にクロールするにはどうすればよいですか? Jul 22, 2023 pm 08:29 PM

PHP と phpSpider を使用して特定の Web サイトのコンテンツを正確にクロールするにはどうすればよいですか?はじめに：インターネットの発展に伴い、Webサイト上のデータ量は増大しており、手作業で必要な情報を取得するのは非効率です。したがって、特定の Web サイトのコンテンツを取得するには自動クローリングツールを使用する必要がよくありますが、PHP 言語と phpSpider ライブラリは非常に実用的なツールの 1 つです。この記事では、PHP と phpSpider を使用して特定の Web サイトのコンテンツを正確にクロールする方法とコード例を紹介します。 1. インストール

URL 転送とクロールを実装するための Nginx リダイレクト構成チュートリアル Jul 05, 2023 am 11:42 AM

URL 転送とクロールを実装するための Nginx リダイレクト構成チュートリアル Nginx は、リバースプロキシ、ロードバランシング、URL リダイレクトなどの機能の実装にも使用できる高性能のオープンソース Web サーバーです。この記事では、Nginx 構成を通じて URL リダイレクトとクロールを実装する方法を紹介し、関連するコード例を示します。 1. URL 転送 URL 転送とは、URL リクエストを別の URL アドレスに転送することを指します。 Nginx では、設定を通じて URL を実装できます。

See all articles

Puppeteer のシミュレートされたログインとキャプチャ ページの実装コード

ホットAIツール

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

Video Face Swap

人気の記事

ホットツール

メモ帳++7.3.1

SublimeText3 中国語版

ゼンドスタジオ 13.0.1

ドリームウィーバー CS6

SublimeText3 Mac版

ホットトピック

Puppeteer のシミュレートされたログインとキャプチャページの実装コード