PHP를 사용하여 WeChat 공개 계정의 기사 페이지를 수집하는 방법에 대한 설명-PHP 튜토리얼-php.cn

PHP를 사용하여 WeChat 공개 계정 기사를 수집하는 방법을 작성하고 코드를 자세히 설명하는 방법을 분석해 보겠습니다. 필요한 친구들이 배울 수 있습니다.

Sogou 검색을 통해 공개 계정의 과거 메시지를 수집하는 데 몇 가지 문제가 있습니다.

1. 인증 코드가 있습니다. 과거 메시지 목록에는 최신 10개의 대량 콘텐츠만 있습니다.

3. 기사 주소에는 유효 기간이 있습니다.

4. ;

나를 통해 이전 기사의 방법에는 이러한 문제가 없지만 수집 시스템의 구성은 기존 수집가가 크롤링하는 규칙을 작성하는 것만 큼 간단하지 않습니다. 그러나 한 번 설정한 후 일괄 수집의 효율성은 여전히 허용됩니다. 또한, 수집된 기사 주소는 영구적으로 유효하며, 공개 계정의 모든 과거 메시지를 수집할 수 있습니다.

공개 계정 글의 링크 주소부터 시작해 보겠습니다:

1. WeChat 오른쪽 상단 메뉴에서 링크 주소를 복사하세요:

#. 🎜🎜# http://mp.weixin.qq.com/s/fF34bERZ0je_8RWEJjoZ5A

2에서 얻은 주소: # 🎜🎜#

http://mp.weixin.qq.com/s?__biz=MjM5NDAwMTA2MA==&mid=2695729619&idx=1&sn=8be0b6bd0210cee0d492ebdf20f7371f&chksm=83d748 18b4a0c10 ef286b33bb7deb73226125f866ddb5b2781166066a69afef3705eabdb3b85&scene=4#wechat_redirect#🎜 🎜##🎜 🎜#3. 전체 실제 주소:

https://mp.weixin.qq.com/s?__biz=MjM5NDAwMTA2MA==&mid=2695729619&idx =1&sn= 8be0b6bd0210cee0d492ebdf20f7371f&chksm=83d74818b4a0c10ef286b33bb7deb73226125f866ddb5b2781166066a69afef3705eabdb3b85&scene=37&key=c81d77 271 180a0e6ce32be2d9dcaa2a7436aeba2c1d47a20d02194d1c944a8286a8eded93495ee add05da412bbfaa638a379750aeaa4cf5c00e4d7851c5710d9b9736b80e3c7277 0a57 a515c23ff2400&ascene=3&uin=MzUyOTIyNQ%3D%3D&devicetype=iOS10.1.1&version=16050120&nettype=WIFI&fontScale=100&pass_ticket=FGRyGfXLPEa4AeOsIZu7KFJo6CiXOZex83Y5YBRglW4%3D&w x_header=1

#🎜🎜 #위 3개의 주소는 같은 기사의 주소를 다른 위치에서 알아낸 결과 전혀 다른 3개의 결과가 나왔습니다. 기록 메시지 페이지와 마찬가지로 WeChat에는 매개변수를 자동으로 보완하는 메커니즘이 있습니다. 첫 번째 주소는 링크를 복사하여 얻은 것으로 위장된 인코딩인 것으로 보입니다. 사실 그것은 쓸모가 없으며 우리는 그것을 고려하지 않을 것입니다. 두 번째 주소는 이전 기사에서 소개한 방법을 통해 json 기사 기록 메시지 목록에서 얻은 링크 주소입니다. 그러면 이 주소를 통해 서버에서 기사 내용을 가져올 수 있습니다. 세 번째 링크에 매개변수를 추가한 후 기사 페이지의 읽기 볼륨 js가 읽기 볼륨 및 좋아요 볼륨의 json 결과를 얻을 수 있도록 하는 것이 목적입니다. 이전 기사의 방법에서는 클라이언트가 기사 페이지를 열고 표시하므로 기사 페이지의 js가 자동으로 읽기 볼륨을 가져오므로 프록시 서비스를 통해 이 기사의 읽기 볼륨을 얻을 수 있습니다. .

이 글의 내용은 이 칼럼의 이전 글에서 소개한 방법을 바탕으로 글의 내용과 기타 유용한 정보를 얻는 방법을 자세히 연구하는 것입니다.

(내 데이터베이스에 저장된 기사 목록, 필드의 일부)

1을 가져옵니다. 기사 소스 코드:

PHP 함수 file_get_content()를 통해 기사 소스 코드를 변수로 읽을 수 있습니다. WeChat 기사의 소스 코드는 브라우저에서 열 수 있으므로 페이지 공간 낭비를 피하기 위해 여기에 붙여넣지 않겠습니다.

<?
//$content_url 变量的值为文章地址
$html = file_get_contents($content_url);
?>

로그인 후 복사

2 소스 코드의 유용한 정보:

1) 원본 콘텐츠:

원본 콘텐츠는

태그에 포함되어 있으며 다음 PHP 코드를 통해 가져옵니다.

#🎜 🎜 #

<?
preg_match_all("/id=\"js_content\">(.*)<script/iUs",$html,$content,PREG_PATTERN_ORDER);
$content = "<p id=&#39;js_content&#39;>".$content[1][0];
?>

로그인 후 복사

정규 패턴의 시작 부분은

를 식별하고, 끝 부분은

저자별 최신 기사