URL 크롤러

WBOY
풀어 주다: 2016-07-25 08:48:11
원래의
1282명이 탐색했습니다.
csdn의 포인트 없는 다운로드, pudn의 포인트 없는 다운로드 또는 포인트 없는 51cto가 필요한 경우 http://www.itziy.com/
으로 이동하여 명령줄에서 직접 PHP 호출을 실행하세요.
기능 설명
1. 프록시 지원
2. 재귀 검사 횟수 설정 지원
3. 출력 유형 제어 및 내용 검사 지원

기능:
주로 육안을 대체하고 가능한 한 많은 요청 패킷과 URL 주소를 캡처하여 침투 테스트를 용이하게 합니다.
  1. error_reporting(E_ERROR | E_WARNING | E_PARSE);
  2. ini_set('memory_limit','1024M');
  3. set_time_limit(0);
  4. define('CHECK_A_TAG', false);
  5. define('CHECK_JS_TAG', true);
  6. define('CHECK_URL', true);
  7. define('SAVE_ERROR', true);
  8. $checkArr = array(
  9. '$.load',
  10. '.ajax',
  11. '$.post',
  12. '$.get',
  13. '.getJSON '
  14. );
  15. if ($argc < 2)
  16. die(showerror('죄송합니다, 매개변수 오류', array('예: php debug.php url num 파일 이름 헤더 프록시', '상세정보:', 'url: 확인하고 싶은 대상 url 주소', 'num: 재귀 페이지 수,기본값 3', 'filename: 출력 파일명 기본 이름 ret.txt', 'header: The 요청 헤더 파일 기본값 null', '프록시: 프록시를 사용하려면 여기에서 설정하세요. 기본값은 프록시를 사용하지 마세요.')));
  17. if (!check_extension())
  18. die(showerror('extension) 컬이 지원되지 않음', 'PHP 컬 확장 지원을 열어주세요'));
  19. //전역 변수
  20. $url = Trim($argv[1]);
  21. if (stripos($url , 'http') === false)
  22. $url = 'http://'.$url;
  23. $num = isset($argv[2]) ? intval($argv[2]) : 3;
  24. $output = isset($argv[3]) ? Trim(str_replace("\", '/', $argv[3])) : str_replace("\", '/', dirname(__FILE__) )).'/ret.txt';
  25. $header = null;
  26. $proxy = null;
  27. $host = null;
  28. if (isset($argv[4]) )
  29. {
  30. $header = Trim(str_replace("\", '/', $argv[4]));
  31. if (file_exists($header))
  32. $header = array_filter( 폭발("n", str_replace("r", '', file_get_contents($header))));
  33. else
  34. {
  35. $file = str_replace("\", '/', dirname( __FILE__)).'/'.$header;
  36. if (file_exists($file))
  37. $header = array_filter(explode("n", str_replace("r", '', file_get_contents($file) )));
  38. else
  39. $header = null;
  40. }
  41. }
  42. if (isset($argv[5]))
  43. $proxy = Trim($ argv[5]);
  44. if (!is_array($header) || 비어 있음($header))
  45. $header = null;
  46. $result = check_valid_url($url);
  47. $outputArr = array();
  48. if (!empty($result))
  49. {
  50. $result = str_replace("r", '', $result);
  51. $ result = str_replace("n", '', $result);
  52. $tmpArr =parse_url($url);
  53. if (!isset($tmpArr['host']))
  54. die(showerror ('URL 구문 분석 오류', '호스트 양식 URL을 가져올 수 없습니다: '.$url));
  55. $host = $tmpArr['host'];
  56. if (stripos($host, 'http') === false)
  57. $host = 'http://'.$host;
  58. unset($tmpArr);
  59. //현재 페이지 확인
  60. if (!isset( $outputArr[md5($url)]))
  61. {
  62. $outputArr[md5($url)] = $url;
  63. file_put_contents($output, $url."n", FILE_APPEND);
  64. echo 'url: ',$url,' ajax가 필요하므로 저장하세요',PHP_EOL;
  65. }
  66. work($result);
  67. }
  68. echo 'run final',PHP_EOL;
  69. 함수 작업($result, $reverse = false)
  70. {
  71. 전역 $num, $host, $outputArr, $checkArr, $output;
  72. if (!$ 결과)
  73. 반환;
  74. $result = str_replace("r", '', $result);
  75. $result = str_replace("n", '', $result);
  76. while ($num > 0)
  77. {
  78. echo 'remain: ',$num,' 이제 URL 주소 확인을 시작합니다.',PHP_EOL,PHP_EOL;
  79. preg_match_all('//i', $result, $match);
  80. if (CHECK_A_TAG && isset ($match[2]) && !empty($match[2]))
  81. {
  82. foreach ($match[2]를 $mc로)
  83. {
  84. $mc = Trim($mc );
  85. if ($mc == '#')
  86. 계속;
  87. if (stripos($mc, 'http') === false)
  88. $mc = $host.$mc ;
  89. if (($ret = check_valid_url($mc)))
  90. {
  91. if (!isset($outputArr[md5($mc)]))
  92. {
  93. $outputArr[md5($mc)] = $mc;
  94. file_put_contents($output, $mc."n", FILE_APPEND);
  95. echo 'url: ',$mc,' find ajax require이므로 저장하세요. ',PHP_EOL;
  96. }
  97. }
  98. }
  99. }
  100. //페이지 URL 확인
  101. echo 'remain: ',$num', 이제 확인을 시작합니다. 페이지 URL',PHP_EOL,PHP_EOL;
  102. preg_match_all('/(https?|ftp|mms)://([A-z0-9] [_-]?[A-z0-9] .)*[ A-z0-9] -?[A-z0-9] .[A-z]{2,}(/.*)*/?/i', $result, $match);
  103. if (CHECK_URL && isset($match[2]) && !empty($match[2]))
  104. {
  105. foreach ($match[2] as $mc)
  106. {
  107. $mc = Trim($mc);
  108. if ($mc == '#')
  109. continue;
  110. if (stripos($mc, 'http') === false)
  111. $mc = $host.$mc;
  112. if (($ret = check_valid_url($mc)))
  113. {
  114. if (!isset($outputArr[md5($mc)]))
  115. {
  116. $outputArr[md5($mc)] = $mc;
  117. file_put_contents($output, $mc ."n", FILE_APPEND);
  118. echo 'url: ',$mc,' find ajax가 필요하므로 저장하세요',PHP_EOL;
  119. }
  120. }
  121. }
  122. }
  123. //javascript ajax require 확인
  124. echo 'remain: ',$num', 이제 javascript ajax require 확인을 시작합니다',PHP_EOL,PHP_EOL;
  125. preg_match_all('//i', $result, $match);
  126. if (CHECK_JS_TAG && isset($ match[2]) && !empty($match[2]))
  127. {
  128. foreach ($match[2]를 $mc로)
  129. {
  130. $mc = Trim($mc);
  131. if ($mc == '#')
  132. 계속;
  133. if (stripos($mc, 'http') === false)
  134. $mc = $host.$mc;
  135. if (($ret = check_valid_url($mc)))
  136. {
  137. //현재 페이지 확인
  138. foreach ($checkArr as $ck)
  139. {
  140. if (!isset($outputArr[md5($mc)]) && strpos($ret, $ck) !== false)
  141. {
  142. $outputArr[md5($mc)] = $mc;
  143. file_put_contents($output, $mc."n", FILE_APPEND);
  144. echo 'url: ',$mc,' find ajax require so save it',PHP_EOL;
  145. break;
  146. }
  147. }
  148. }
  149. }
  150. }
  151. if ($reverse)
  152. return;
  153. //다음 페이지 확인
  154. preg_match_all('/< ;a.*?hrefs*=s*("|'|s) (.*?)("|'|s) .*?>/i', $result, $match);
  155. if ( isset($match[2]) && !empty($match[2]))
  156. {
  157. echo '다음 페이지 확인, 페이지 수 남음: ',$num,PHP_EOL;
  158. foreach ($ match[2] as $mc)
  159. {
  160. $mc = Trim($mc);
  161. if ($mc == '#')
  162. continue;
  163. if (stripos($ mc, 'http') === false)
  164. $mc = $host.$mc;
  165. echo '다음 페이지 확인: ',$mc,PHP_EOL;
  166. work(check_valid_url($mc) , true);
  167. }
  168. }
  169. $num--;
  170. sleep(3);
  171. }
  172. }
  173. function check_valid_url($url)
  174. {
  175. if (stripos($url, 'http') === false)
  176. $url = 'http://'.$url;
  177. $ch = cur_init();
  178. 컬_setopt($ch, CURLOPT_URL, $url);
  179. 컬_setopt($ch, CURLOPT_HEADER, true);
  180. 컬_setopt($ch, CURLOPT_FOLLOWLOCATION, true);
  181. 컬_setopt($ch, CURLOPT_RETURNTRANSFER, true);
  182. 컬_setopt($ch, CURLOPT_USERAGENT, 'Mozilla/5.0(호환 가능; 구글봇/2.1; http://www.google.com/bot.html)');
  183. if (!is_null($header))
  184. cur_setopt($ch, CURLOPT_HTTPHEADER, $header);
  185. if (!is_null ($proxy))
  186. 컬_setopt($ch, CURLOPT_PROXY, $proxy);
  187. $ret = 컬_exec($ch);
  188. $errinfo = 컬_오류($ch);
  189. 컬_닫기($ch );
  190. unset($ch);
  191. if (!empty($errinfo) || ((strpos($ret, '200 OK') === false) && (strpos($ret, '302 이동됨') === false)) || strpos($ret, '114so.cn') !== false)
  192. {
  193. showerror('check url: '.$url. ' 일부 오류를 찾으세요.' , array($errinfo, $ret));
  194. if (SAVE_ERROR)
  195. file_put_contents(dirname(__FILE__).'/error.txt', $url."n", FILE_APPEND);
  196. return false ;
  197. }
  198. return $ret;
  199. }
  200. function check_extension()
  201. {
  202. if (!function_exists('curl_init') || !extension_loaded('curl' ))
  203. false 반환;
  204. true 반환;
  205. }
  206. function showerror($t, $c)
  207. {
  208. $str = "###### ############################################# ################n";
  209. $str .= "# ".$t."n";
  210. if (is_string($c))
  211. $str .= "# ".$c;
  212. elseif (is_array($c) && !empty($c))
  213. {
  214. foreach ($c를 $c1로)
  215. $ str .= "# ".$c1."n";
  216. }
  217. $str .= "n##################### ############################################# n";
  218. echo $str;
  219. unset($str);
  220. }
复代码


관련 라벨:
원천:php.cn
본 웹사이트의 성명
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.
인기 튜토리얼
더>
최신 다운로드
더>
웹 효과
웹사이트 소스 코드
웹사이트 자료
프론트엔드 템플릿