ホームページ > バックエンド開発 > PHPチュートリアル > PHPを使用してWeChatパブリックアカウントの記事ページを収集する方法

PHPを使用してWeChatパブリックアカウントの記事ページを収集する方法

韦小宝
リリース: 2023-03-17 22:48:01
オリジナル
3741 人が閲覧しました

PHP を使用して WeChat 公開アカウントの記事を収集する方法と PHP コードを作成する方法を分析させてください詳しく説明します。PHP に興味のある友人はそれを学ぶことができます。

Sogou 検索を通じて公開アカウントの履歴メッセージを収集するには、いくつかの問題があります。

1. 確認コードがあります。 2. 履歴メッセージ リストには、最後の 10 件のグループ メッセージしか含まれていません。記事アドレスには有効期限があります

4. バッチ収集には IP を変更する必要があると言われています

収集システムは従来のルールほど単純ではありませんが、這うコレクター。ただし、一度設定した後のバッチ収集の効率はまだ許容範囲内です。さらに、収集された記事アドレスは永続的に有効であり、公開アカウントのすべての履歴メッセージを収集できます。

公開アカウント記事のリンク アドレスから始めましょう:

1. WeChat の右上隅にあるメニューからコピーしたリンク アドレス:


http://mp.weixin.qq.com/s/ fF34bERZ0je_8RWEJjoZ5A

2. 履歴メッセージ リストから取得したアドレス:


http://mp.weixin.qq.com/s?biz=MjM5NDAwMTA2MA==&mid=2695729619&idx=1&sn=8be0b6bd0210 cee0d492ebdf20f7371f&chksm=83d7 4818b4a0c10ef286b33bb7deb73226125f866ddb5b2781166066a69afef3705eabdb3b85&scene=4 #wechat_redirect

实3、完全な実際のアドレス:


https://

Mp.weixin.qq.com/s? Biz = mjm5ndawmta2ma == & Mid = 2695729619 & IDX = 1 & Sn & chksm = 83D74818B4A0C10 EF286B33bb7Deb73226125F8666666DDB5B2781166069AFEF3705EABDB3B85 &シーン = 37 & キー = C81d7727118A0E6ce322 BE2D9DCAA2A7436AEBA2C1D47A20D02194D1C944A8286A8Eded93495eeadd0 5DA412BBFAA6379750AEAA4D785710d9736b80E3C72770 A 57A515C23FF2400 & アシーン = 3 & Uin = Mzuyotiynq %3D%3D&devicetype=iOS10.1.1&version=16050120&nettype=WIFI&fontScale=100&pass_ticket=FGRyGfXLPEa4AeOsISu7KFJo6CiXOZex83Y5YBRglW4%3D&w x_header=1

上記3つのアドレスは、同じ記事を異なる場所で取得すると、3 つのまったく異なる結果が得られました。

履歴メッセージページと同様に、WeChatにもパラメータを自動的に補足する仕組みがあります。最初のアドレスはリンクをコピーすることで取得され、偽装されたエンコーディングであるようです。実際のところ、それは無駄なので検討しません。 2 番目のアドレスは、前の記事で紹介した方法で履歴メッセージの json 記事リストから取得したリンク アドレスです。このアドレスをデータベースに保存できます。その後、このアドレスを介してサーバーから記事のコンテンツを取得できます。 3 番目のリンクにパラメーターを追加した後、目的は、記事ページ内の読書 js が読書いいねの json 結果を取得できるようにすることです。前回の記事の方法では、クライアントで記事ページを開いて表示することで、記事ページ内のjsが自動的に閲覧量を取得するため、プロキシサービスを通じてこの記事の閲覧量を取得することができます。 。 この記事の内容は、このコラムの前回の記事で紹介した方法に基づいて、記事のコンテンツやその他の有用な情報を取得する方法を詳細に検討することです。

(データベースに保存されている記事のリスト、一部のフィールド)

1. 記事のソース コードを取得します:

PHP 関数 file_get_content() を使用して、記事のソース コードを変数に読み取ることができます。 WeChat記事のソースコードはブラウザから開けるので、ページスペースの無駄を避けるためにここには貼り付けません。

<?
//$content_url 变量的值为文章地址
$html = file_get_contents($content_url);
?>
ログイン後にコピー

2. ソースコード内の有用な情報:

1) 元のコンテンツ:

元のコンテンツは

<?
preg_match_all("/id=\"js_content\">(.*)<script/iUs",$html,$content,PREG_PATTERN_ORDER);
$content = "<p id=&#39;js_content&#39;>".$content[1][0];
?>
ログイン後にコピー

先頭の通常の識別

、末尾の識別

最新の問題
PHP 拡張子 intl
から 1970-01-01 08:00:00
0
0
0
phpのデータ取得?
から 1970-01-01 08:00:00
0
0
0
PHP GET エラー レポート
から 1970-01-01 08:00:00
0
0
0
phpを上手に学ぶ方法
から 1970-01-01 08:00:00
0
0
0
人気のチュートリアル
詳細>
最新のダウンロード
詳細>
ウェブエフェクト
公式サイト
サイト素材
フロントエンドテンプレート