지역 사회

배우다

도구 라이브러리

AI 도구

여가

한국어

집 > 백엔드 개발 > PHP 튜토리얼 > 连续的分页采集问题

连续的分页采集问题

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

풀어 주다： 2016-06-06 20:38:28

원래의

1484명이 탐색했습니다.

目标站点：http://news.xinhuanet.com/photo/2015-01/29/c_127433852.htm
获取内容：正文图片和文字说明；
本人实现方法：
因为分页地址是连续的，我是在目标地址上做循环

http://news.xinhuanet.com/photo/2015-01/29/c_127433852_2.htm

用get_headers访问后获取返回是否为200，是的话进行内容抓取
1、curl获取当前地址html后，截取所需内容
2、_2这个就是变量，自增后继续判断下一页是否可以访问，可以访问就继续采集

以上是可以实现采集抓取的，但是好像速度很慢，而且每次都是curl去抓取对服务器貌似也有压力

问题：如何改进，大家是如何用php做的抓取，求思路和方向

回复内容：

目标站点：http://news.xinhuanet.com/photo/2015-01/29/c_127433852.htm
获取内容：正文图片和文字说明；
本人实现方法：
因为分页地址是连续的，我是在目标地址上做循环

http://news.xinhuanet.com/photo/2015-01/29/c_127433852_2.htm

用get_headers访问后获取返回是否为200，是的话进行内容抓取
1、curl获取当前地址html后，截取所需内容
2、_2这个就是变量，自增后继续判断下一页是否可以访问，可以访问就继续采集

以上是可以实现采集抓取的，但是好像速度很慢，而且每次都是curl去抓取对服务器貌似也有压力

问题：如何改进，大家是如何用php做的抓取，求思路和方向

下面不是有分页么，直接获取<div id="div_currpage"></div>里面的链接存到数组抓吧

直接抓取，抓取返回结果的时候就先判断状态码是否为200
Curl并发

관련 라벨：

php

이전 기사：微信小程序出现“invalid code”怎么办 다음 기사：百度编辑器Ueditor如何初始化内容

본 웹사이트의 성명

본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.

저자별 최신 기사

휴대 전화에서 Photoshop을 사용하는 방법

2025-02-24 12:36:12
스트리밍 서비스에 많은 돈을 쓰지 마십시오

2025-02-24 12:11:09
휴대 전화와 대화를 중지하십시오 : Siri에 유형을 사용하는 방법

2025-02-24 12:06:10
아마존 사물함을 사용하여 시간을 절약하고 현관 해적을 치는 방법

2025-02-24 12:04:13
Windows의 이미지에서 텍스트를 읽는 방법

2025-02-24 12:03:10
Spotify에 연결하는 유용한 앱 9 개

2025-02-24 12:02:09
Chatgpt 내부에서 작업 및 알림을 사용하는 방법

2025-02-24 12:01:10
Apple Intelligence를 사용하여 이메일을 정렬하는 방법

2025-02-24 12:00:16
안드로이드에서 새로운 도난 감지 기능을 설정하는 방법

2025-02-24 11:59:10
Gemini가 모든 것을 기억하거나 잊어 버리는 방법 ’ ve

2025-02-24 11:58:14

최신 이슈

nginx + php 환경에서 내 php 프로젝트는 nginx 작업 디렉터리와 php 작업 디렉터리에 있어야 합니다. 이 두 복사본이 아닌가요?

에서 1970-01-01 08:00:00

0

0

0

PHP 데이터 수집?

에서 1970-01-01 08:00:00

0

0

0

PHP 확장 국제

에서 1970-01-01 08:00:00

0

0

0

PHP 도구 상자를 사용하여 PHP 파일을 여는 방법

에서 1970-01-01 08:00:00

0

0

0

nginx - php-fpm.sock과 php-cgi.sock 중 어느 것을 사용해야 합니까?

에서 1970-01-01 08:00:00

0

0

0

관련 주제

더>

인기 추천

인기 튜토리얼

더>

관련 튜토리얼

인기 추천

최신 강좌

최신 다운로드

더>

웹 효과

웹사이트 소스 코드

웹사이트 자료

프론트엔드 템플릿