오늘은 저의 컬렉션 코드를 공유해드리겠습니다! 아이디어: 수집 프로그램의 아이디어는 매우 간단하며 다음 단계로 나눌 수 있습니다
1. 원격 파일의 소스 코드를 가져옵니다(file_get_contents 또는 fopen 사용). 2. 원하는 콘텐츠(여기서는 형식적 일치를 사용하고 일반적으로 페이지 매김을 얻습니다).
3. 루트에서 얻은 콘텐츠를 다운로드하여 저장하세요.
여기서 두 번째 단계는 여러 번 반복해야 할 수도 있습니다. 예를 들어 먼저 페이징 주소를 분석한 다음 원하는 것을 얻으려면 내부 페이지의 내용을 분석해야 합니다.
코드:
예전에 코드 일부를 올렸던 기억이 나네요. 오늘은 여기에 간단하게 올릴게요
PHP 코드:
@$nl=file_get_contents($rs['url']);//抓取远程内容 preg_match_all("/var url = "gameswf/(.*?).swf";/is",$nl,$connect);//进行正规匹配取得自己要的内容 mysql_query("insert ......插入数据库部分");
이제 플래시 이미지를 로컬에 다운로드하는 방법을 공유하겠습니다. 코드 두 줄이면 너무 간단합니다.
PHP 코드:
if(@copy($url,$newurl)){ echo 'ok'; }
PHP 코드:
/*本存图片函数*/ function getimg($url,$filename){ /*判断图片的url是否为空,如果为空停止函数*/ if($url==""){ return false; } /*取得图片的扩展名,存入变量$ext中*/ $ext=strrchr($url,"."); /*判断是否是合法的图片文件*/ if($ext!=".gif" && $ext!=".jpg"){ return false; } /*读取图片*/ $img=file_get_contents($url); /*打开指定的文件*/ $fp=@fopen($filename.$ext,"a"); /*写入图片到指点的文件*/ fwrite($fp,$img); /*关闭文件*/ fclose($fp); /*返回图片的新文件名*/ return $filename.$ext; }
1. 핫링크로부터 보호되는 사이트는 수집하지 마세요. 사실 소스를 위조할 수도 있지만, 그런 사이트의 수집 비용이 너무 높습니다.
2. 가능한 한 빨리 사이트를 수집하고, 로컬에서 수집하는 것이 좋습니다
3. 수집 시 데이터의 일부를 먼저 데이터베이스에 저장한 후 다음 처리 단계로 진행할 수 있는 경우가 많습니다.
4. 수집 시 오류를 처리해야 합니다. 저는 보통 수집에 3번 실패하면 건너뜁니다. 과거에는 콘텐츠를 선택할 수 없다는 이유로 콘텐츠를 선택하지 못하는 경우가 많았습니다.
5. 데이터베이스에 들어가기 전에 올바른 판단을 내리고, 내용의 합법성을 확인하고, 불필요한 문자열을 필터링해야 합니다.
위 내용은 PHP 프로그램이 수집한 코드에 대하여의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!