PHP を使用して WeChat 公開アカウントの記事を収集する方法と PHP コードを作成する方法を分析させてください詳しく説明します。PHP に興味のある友人はそれを学ぶことができます。
Sogou 検索を通じて公開アカウントの履歴メッセージを収集するには、いくつかの問題があります。
1. 確認コードがあります。 2. 履歴メッセージ リストには、最後の 10 件のグループ メッセージしか含まれていません。記事アドレスには有効期限があります
4. バッチ収集には IP を変更する必要があると言われています 収集システムは従来のルールほど単純ではありませんが、這うコレクター。ただし、一度設定した後のバッチ収集の効率はまだ許容範囲内です。さらに、収集された記事アドレスは永続的に有効であり、公開アカウントのすべての履歴メッセージを収集できます。公開アカウント記事のリンク アドレスから始めましょう:
1. WeChat の右上隅にあるメニューからコピーしたリンク アドレス:2. 履歴メッセージ リストから取得したアドレス:
实3、完全な実際のアドレス:
https://
上記3つのアドレスは、同じ記事を異なる場所で取得すると、3 つのまったく異なる結果が得られました。
履歴メッセージページと同様に、WeChatにもパラメータを自動的に補足する仕組みがあります。最初のアドレスはリンクをコピーすることで取得され、偽装されたエンコーディングであるようです。実際のところ、それは無駄なので検討しません。 2 番目のアドレスは、前の記事で紹介した方法で履歴メッセージの json 記事リストから取得したリンク アドレスです。このアドレスをデータベースに保存できます。その後、このアドレスを介してサーバーから記事のコンテンツを取得できます。 3 番目のリンクにパラメーターを追加した後、目的は、記事ページ内の読書 js が読書いいねの json 結果を取得できるようにすることです。前回の記事の方法では、クライアントで記事ページを開いて表示することで、記事ページ内のjsが自動的に閲覧量を取得するため、プロキシサービスを通じてこの記事の閲覧量を取得することができます。 。 この記事の内容は、このコラムの前回の記事で紹介した方法に基づいて、記事のコンテンツやその他の有用な情報を取得する方法を詳細に検討することです。
(データベースに保存されている記事のリスト、一部のフィールド)
1. 記事のソース コードを取得します:<?
//$content_url 变量的值为文章地址
$html = file_get_contents($content_url);
?>
2. ソースコード内の有用な情報:
1) 元のコンテンツ:
<? preg_match_all("/id=\"js_content\">(.*)<script/iUs",$html,$content,PREG_PATTERN_ORDER); $content = "<p id='js_content'>".$content[1][0]; ?>
、末尾の識別