스누피(강력한 PHP 컬렉션 클래스) 상세 소개
풀어 주다: 2016-08-08 09:32:16
스누피는 브라우저의 기능을 시뮬레이션하는 데 사용되는 PHP 클래스입니다. 웹 콘텐츠를 가져오고 양식을 보낼 수 있으며 일부 수집 프로그램 및 도둑 프로그램을 개발하는 데 사용할 수 있습니다. 이 기사에서는 스누피의 사용 튜토리얼을 소개합니다. 세부 사항. 스누피의 일부 기능: 웹페이지의 콘텐츠 가져오기
웹의 텍스트 콘텐츠 가져오기 페이지(HTML 태그 제거) fetchtext
웹페이지 링크 캡처, fetchlink 양식 fetchform
프록시 호스트 지원
기본 사용자 이름/비밀번호 확인 지원
user_agent, 리퍼러(소스), 쿠키 및 헤더 콘텐츠(헤더 파일) 설정 지원
브라우저 리디렉션 지원 및 리디렉션 깊이 제어 가능
웹 페이지의 링크를 고품질 URL로 확장 가능(기본값)
데이터를 제출하고 가져오기 반환 값
추적 HTML 프레임워크 지원
리디렉션 시 쿠키 전달 지원
PHP 필요 4 이상에서는 PHP 클래스이므로 지원을 확장할 필요가 없습니다. 서버가 컬을 지원하지 않는 경우 가장 좋은 선택은
스누피 클래스입니다. 방법 및 예:
fetch($URI)이것은 웹페이지의 콘텐츠를 크롤링하는 데 사용되는 방법입니다. $URI 매개변수는 크롤링된 웹페이지의 URL 주소입니다. 가져온 결과는 $this->results에 저장됩니다. 프레임을 스크래핑하는 경우 Snoopy는 각 프레임을 추적하여 배열에 저장한 다음 $this->result에 저장합니다.
fetchtext($URI)이 방법은 fetch()와 유사하지만 유일한 차이점은 이 방법이 HTML 태그 및 기타 관련 없는 데이터를 제거한다는 것입니다. . 웹페이지의 텍스트 콘텐츠만 반환됩니다.
fetchform($URI)이 방법은 fetch()와 유사하지만 유일한 차이점은 이 방법이 HTML 태그 및 기타 관련 없는 데이터를 제거한다는 것입니다. . 웹페이지에 있는 양식 내용(form)만 반환됩니다.
fetchlinks($URI)이 방법은 fetch()와 유사하지만 유일한 차이점은 이 방법이 HTML 태그 및 기타 관련 없는 데이터를 제거한다는 것입니다. . 웹페이지의 링크만 반환됩니다. 기본적으로 상대 링크는 자동으로 완성되어 전체 URL로 변환됩니다.
submit($URI,$formvars)$URL에 지정된 링크 주소로 확인 양식을 보내는 메소드입니다. $formvars는 양식 매개변수를 저장하는 배열입니다.
submittext($URI,$formvars)이 방법은 submit()과 유사하지만 유일한 차이점은 이 방법이 HTML 태그를 제거하고 기타 관련 데이터는 없으며, 로그인 후 웹페이지의 텍스트 내용만 반환됩니다.
submitlinks($URI)이 메소드는 submit()과 유사하지만 유일한 차이점은 이 메소드가 HTML 태그 및 기타 관련 없는 데이터를 제거하고 웹페이지의 링크만 반환한다는 것입니다. 기본적으로 상대 링크는 자동으로 완성되어 전체 URL로 변환됩니다. 스누피 컬렉션 클래스 속성: (기본값은 괄호 안에 있음)
$host 연결된 호스트 $port 연결할 포트$proxy_host가 사용하는 프록시 호스트(있는 경우)$proxy_port $proxy_port가 사용하는 프록시 호스트 포트(있는 경우)$agent 사용자 에이전트 변장(Snoopy v0.1)$referer 소스 정보(있는 경우)$cookies 쿠키(있는 경우)$ rawheaders 기타 헤더 정보(있는 경우) $maxredirs 최대 리디렉션 수, 0=허용되지 않음(5)$offsiteok 오프사이트 리디렉션 허용 여부(true)$expandlinks 전체 주소에 대한 모든 링크를 완료할지 여부(true)$user 인증 사용자 이름(있는 경우)$pass 인증 사용자 이름(있는 경우)$ http 허용 유형(image/gif, image/x-xbitmap, image/jpeg, image/pjpeg, */*)$error 오류가 있는 경우 보고할 위치 $ response_code 서버에서 반환된 응답 코드$headers 서버에서 반환된 헤더 정보$maxlength 반환된 가장 긴 데이터 길이$ read_timeout 읽기 작업 시간 초과(PHP 필요) 4 Beta 4+) 시간 초과 없이 0으로 설정 $timed_out 읽기 작업 시간이 초과되면 이 속성은 true를 반환합니다(PHP 4 Beta 4+ 필요) $maxframes 추적이 허용되는 최대 프레임 수$status 캡처된 http 상태$temp_dir 웹 서버가 쓸 수 있는 임시 파일 디렉터리(/tmp) $curl_path cURL 바이너리 디렉터리, cURL 바이너리가 없으면 false로 설정
다음은 예시입니다: include "Snoopy.class.php";
$snoopy = new Snoopy;
$snoopy->proxy_host = "http://www.9it.me";
$snoopy->proxy_port = "80";
$snoopy->agent = "(compatible; MSIE 4.01; MSN 2.5; AOL 4.0; Windows 98)";
$snoopy->referer = "http://www.9it.me";
$snoopy->cookies["SessionID"] = 238472834723489l;
$snoopy->cookies["favoriteColor"] = "RED";
$snoopy->rawheaders["Pragma"] = "no-cache";
$snoopy->maxredirs = 2;
$snoopy->offsiteok = false;
$snoopy->expandlinks = false;
$snoopy->user = "joe";
$snoopy->pass = "bloe";
if($snoopy->fetchtext("http://www.9it.me"))
{
echo "<PRE>".htmlspecialchars($snoopy->results)."
\n";
}
else
echo "error fetching document: ".$snoopy->error."\n";
로그인 후 복사
지정된 URL의 콘텐츠 가져오기
<?php
$url = "http://www.9it.me";
include("snoopy.php");
$snoopy = new Snoopy;
$snoopy->fetch($url); //获取所有内容
echo $snoopy->results; //显示结果
//可选以下
$snoopy->fetchtext //获取文本内容(去掉html代码)
$snoopy->fetchlinks //获取链接
$snoopy->fetchform //获取表单
?>
로그인 후 복사
表单提交
<?php
$formvars["username"] = "admin";
$formvars["pwd"] = "admin";
$action = "http://www.9it.me";//</a>表单提交地址
$snoopy->submit($action,$formvars);//$formvars为提交的数组
echo $snoopy->results; //获取表单提交后的 返回的结果
//可选以下
$snoopy->submittext; //提交后只返回 去除html的 文本
$snoopy->submitlinks;//提交后只返回 链接
?>
로그인 후 복사
既然已经提交的表单 那就可以做很多事情 接下来我们来伪装ip,伪装浏览器
伪装浏览器
<?php
$formvars["username"] = "lanfengye";
$formvars["pwd"] = "lanfengye";
$action = "http://www.9it.me";
include "snoopy.php";
$snoopy = new Snoopy;
$snoopy->cookies["PHPSESSID"] = 'fc106b1918bd522cc863f36890e6fff7'; //伪装sessionid
$snoopy->agent = "(compatible; MSIE 4.01; MSN 2.5; AOL 4.0; Windows 98)"; //伪装浏览器
$snoopy->referer = "http://www.9it.me"; //伪装来源页地址 http_referer
$snoopy->rawheaders["Pragma"] = "no-cache"; //cache 的http头信息
$snoopy->rawheaders["X_FORWARDED_FOR"] = "127.0.0.101"; //伪装ip
$snoopy->submit($action,$formvars);
echo $snoopy->results;
?>
로그인 후 복사
原来我们可以伪装session 伪装浏览器 ,伪装ip, haha 可以做很多事情了。例如 带验证码,验证ip 投票, 可以不停的投。ps:这里伪装ip ,其实是伪装http头, 所以一般的通过 REMOTE_ADDR 获取的ip是伪装不了,反而那些通过http头来获取ip的(可以防止代理的那种) 就可以自己来制造ip。关于如何验证码 ,简单说下:首先用普通的浏览器, 查看页面 , 找到验证码所对应的sessionid,同时记下sessionid和验证码值,接下来就用snoopy去伪造 。原理:由于是同一个sessionid 所以取得的验证码和第一次输入的是一样的。
有时我们可能需要伪造更多的东西,snoopy完全为我们想到了
<?php
$snoopy->proxy_host = "http://www.9it.me";
$snoopy->proxy_port = "8080"; //使用代理
$snoopy->maxredirs = 2; //重定向次数
$snoopy->expandlinks = true; //是否补全链接 在采集的时候经常用到
// 例如链接为 /images/taoav.gif 可改为它的全链接 <a href="http://www.9it.me/images/taoav.gif">http://www.9it.me/images/taoav.gif</a>
$snoopy->maxframes = 5 //允许的最大框架数
//注意抓取框架的时候 $snoopy->results 返回的是一个数组
$snoopy->error //返回报错信息
?>
로그인 후 복사
以上就介绍了snoopy(强大的PHP采集类) 详细介绍,包括了方面的内容,希望对PHP教程有兴趣的朋友有所帮助。
본 웹사이트의 성명
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.
저자별 최신 기사
-
2024-10-22 09:46:29
-
2024-10-13 13:53:41
-
2024-10-12 12:15:51
-
2024-10-11 22:47:31
-
2024-10-11 19:36:51
-
2024-10-11 15:50:41
-
2024-10-11 15:07:41
-
2024-10-11 14:21:21
-
2024-10-11 12:59:11
-
2024-10-11 12:17:31