目次
Rejected!
ホームページ php教程 php手册 php curl 抓取页面几种方法介绍

php curl 抓取页面几种方法介绍

May 25, 2016 pm 04:39 PM
php

curl主要是抓取数据,当然我们可以用其他的方法来抓取,比如fsockopen,file_get_contents等,但是只能抓那些能直接访问的页面,如果要抓取有页面访问控制的页面,或者是登录以后的页面就比较困难了,是把PHP的主页取回放到一个文件中.

例 1,使用PHP的CURL模块取回PHP主页,代码如下:

$ch = curl_init(); 
curl_setopt($ch, CURLOPT_URL, "http://localhost/mytest/phpinfo.php"); 
curl_setopt($ch, CURLOPT_HEADER, false); 
curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1); //如果把这行注释掉的话,就会直接输出 
$result=curl_exec($ch); 
curl_close($ch);
ログイン後にコピー

2,使用代理进行抓取

为什么要使用代理进行抓取呢?以google为例吧,如果去抓google的数据,短时间内抓的很频繁的话,你就抓取不到了,google对你的ip地址做限制这个时候,你可以换代理重新抓,代码如下:

<?php 
$ch = curl_init(); 
curl_setopt($ch, CURLOPT_URL, "http://www.phprm.com"); 
curl_setopt($ch, CURLOPT_HEADER, false); 
curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1); 
curl_setopt($ch, CURLOPT_HTTPPROXYTUNNEL, TRUE); 
curl_setopt($ch, CURLOPT_PROXY, 125.21.23.6:8080); 
//url_setopt($ch, CURLOPT_PROXYUSERPWD, &#39;user:password&#39;);如果要密码的话,加上这个 
$result=curl_exec($ch); 
curl_close($ch);
ログイン後にコピー

3,post数据后,抓取数据

单独说一下数据提交数据,因为用 curl的时候,很多时候会有数据交互的,所以比较重要的,代码如下:

<?php 
$ch = curl_init(); 
/*在这里需要注意的是,要提交的数据不能是二维数组或者更高 
*例如array(&#39;name&#39;=>serialize(array(&#39;tank&#39;,&#39;zhang&#39;)),&#39;sex&#39;=>1,&#39;birth&#39;=>&#39;20101010&#39;)//开源代码phprm.com 
*例如array(&#39;name&#39;=>array(&#39;tank&#39;,&#39;zhang&#39;),&#39;sex&#39;=>1,&#39;birth&#39;=>&#39;20101010&#39;)这样会报错的*/ 
$data = array(&#39;name&#39; => &#39;test&#39;, &#39;sex&#39;=>1,&#39;birth&#39;=>&#39;20101010&#39;); 
curl_setopt($ch, CURLOPT_URL, &#39;http://localhost/mytest/curl/upload.php&#39;); 
curl_setopt($ch, CURLOPT_POST, 1); 
curl_setopt($ch, CURLOPT_POSTFIELDS, $data); 
curl_exec($ch);
ログイン後にコピー

在 upload.php文件中,print_r($_POST);利用curl就能抓取出upload.php输出的内容Array ( [name] => test [sex] => 1 [birth] => 20101010 )

4,抓取一些有页面访问控制的页面,页面访问控制的3种方法.

分类目录: apache/nginx

apache 页面访问控制:为什么要进行这样的控制呢,给不同的人看不同的东西,对信息进行保护,虽然这种保护比较低级,多多少少还是有点用的.

一,用htpasswd命令,产生权限控制文件,代码如下:

1.[zhangy@BlackGhost test]$ htpasswd -c ./access tank //生成一个密码文件 ,-c是新建一个文件 htpasswd -h可查看

2.New password: //提示输入密码

3.Re-type new password: //重复密码

4.Adding password for user tank

5.[zhangy@BlackGhost test]$ cat access //查看一下密码文件

6.tank:Uj5B3qIF/BNdI //用户名是明文的,密码是加密的。

[zhangy@BlackGhost test]$ htpasswd -c ./access tank //生成一个密码文件 ,-c是新建一个文件 htpasswd -h可查看

New password: //提示输入密码

Re-type new password: //重复密码

Adding password for user tank

[zhangy@BlackGhost test]$ cat access //查看一下密码文件

tank:Uj5B3qIF/BNdI //用户名是明文的,密码是加密的。到这儿密码文件是生成好了。

二,页面访问控制方法

1,能过修改httpd.conf或者是httpd-vhosts.conf来进行配置,代码如下:

listen 10004 
NameVirtualHost *:10004 
<VirtualHost *:10004> 
DocumentRoot "/home/zhangy/www/test" 
ServerName *:10004 
BandwidthModule On 
ForceBandWidthModule On 
Bandwidth all 1024000 
MinBandwidth all 50000 
LargeFileLimit * 500 50000 
MaxConnection all 2 
ErrorLog "/home/zhangy/apache/blog.51yip.com.com-error.log" 
CustomLog "/home/zhangy/apache/blog.51yip.com-access.log" common
ログイン後にコピー

//看一下,下面的配置

<Directory /home/zhangy/www/test> 
AuthType Basic 
AuthName "access test" 
AuthUserFile /home/zhangy/www/test/access 
Require valid-user 
</Directory> 
</VirtualHost>
ログイン後にコピー

2,我们可以利用.htaccess文件来进行控制,在test的根目录下面建一个.htaccess的文件,代码如下:

[zhangy@BlackGhost test]$ vi .htaccess   //打开个文件 ,添加权限内容 
[zhangy@BlackGhost test]$ cat .htaccess  //下面就是.htaccess的内容 
AuthType Basic 
AuthName "access test" 
AuthUserFile /home/zhangy/www/test/access 
Require valid-user
ログイン後にコピー

3,不用密码文件,也可以进行访问控制,代码如下:

define(&#39;ADMIN_USERNAME&#39;,&#39;tank&#39;); // Admin Username 
define(&#39;ADMIN_PASSWORD&#39;,&#39;tank&#39;); // Admin Password 
//log check 
if (!isset($_SERVER[&#39;PHP_AUTH_USER&#39;]) || !isset($_SERVER[&#39;PHP_AUTH_PW&#39;]) || 
$_SERVER[&#39;PHP_AUTH_USER&#39;] != ADMIN_USERNAME ||$_SERVER[&#39;PHP_AUTH_PW&#39;] != ADMIN_PASSWORD) { 
Header("WWW-Authenticate: Basic realm="access test""); 
Header("HTTP/1.0 401 Unauthorized"); 
echo <<<EOB 
<html><body>; 
<h1 id="Rejected">Rejected!</h1>
<big>Wrong Username or Password!</big>; 
</body></html>; 
EOB;
exit; 
}
ログイン後にコピー

curl相关函数列表:

curl_init — 初始化一个CURL会话
curl_setopt — 为CURL调用设置一个选项
curl_exec — 执行一个CURL会话
curl_close — 关闭一个CURL会话
curl_version — 返回当前CURL版本
curl_init — 初始化一个CURL会话
ログイン後にコピー

描述:int curl_init ([string url])

curl_init()函数将初始化一个新的会话,返回一个CURL句柄供 curl_setopt(), curl_exec(),和 curl_close() 函数使用,如果可选参数被提供,那么CURLOPT_URL选项将被设置成这个参数的值,你可以使用curl_setopt()函数人工设置.

例 1.初始化一个新的CURL会话,且取回一个网页,代码如下:

$ch = curl_init(); 
curl_setopt ($ch, CURLOPT_URL, "http://www.phprm.com/"); 
curl_setopt ($ch, CURLOPT_HEADER, 0); 
curl_exec ($ch); 
curl_close ($ch);
ログイン後にコピー


永久地址:

转载随意~请带上教程地址吧^^

このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

メモ帳++7.3.1

メモ帳++7.3.1

使いやすく無料のコードエディター

SublimeText3 中国語版

SublimeText3 中国語版

中国語版、とても使いやすい

ゼンドスタジオ 13.0.1

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

ドリームウィーバー CS6

ドリームウィーバー CS6

ビジュアル Web 開発ツール

SublimeText3 Mac版

SublimeText3 Mac版

神レベルのコード編集ソフト(SublimeText3)

Ubuntu および Debian 用の PHP 8.4 インストールおよびアップグレード ガイド Ubuntu および Debian 用の PHP 8.4 インストールおよびアップグレード ガイド Dec 24, 2024 pm 04:42 PM

PHP 8.4 では、いくつかの新機能、セキュリティの改善、パフォーマンスの改善が行われ、かなりの量の機能の非推奨と削除が行われています。 このガイドでは、Ubuntu、Debian、またはその派生版に PHP 8.4 をインストールする方法、または PHP 8.4 にアップグレードする方法について説明します。

PHP 開発用に Visual Studio Code (VS Code) をセットアップする方法 PHP 開発用に Visual Studio Code (VS Code) をセットアップする方法 Dec 20, 2024 am 11:31 AM

Visual Studio Code (VS Code とも呼ばれる) は、すべての主要なオペレーティング システムで利用できる無料のソース コード エディター (統合開発環境 (IDE)) です。 多くのプログラミング言語の拡張機能の大規模なコレクションを備えた VS Code は、

今まで知らなかったことを後悔している 7 つの PHP 関数 今まで知らなかったことを後悔している 7 つの PHP 関数 Nov 13, 2024 am 09:42 AM

あなたが経験豊富な PHP 開発者であれば、すでにそこにいて、すでにそれを行っていると感じているかもしれません。あなたは、運用を達成するために、かなりの数のアプリケーションを開発し、数百万行のコードをデバッグし、大量のスクリプトを微調整してきました。

PHPでHTML/XMLを解析および処理するにはどうすればよいですか? PHPでHTML/XMLを解析および処理するにはどうすればよいですか? Feb 07, 2025 am 11:57 AM

このチュートリアルでは、PHPを使用してXMLドキュメントを効率的に処理する方法を示しています。 XML(拡張可能なマークアップ言語)は、人間の読みやすさとマシン解析の両方に合わせて設計された多用途のテキストベースのマークアップ言語です。一般的にデータストレージに使用されます

JSON Web Tokens(JWT)とPHP APIでのユースケースを説明してください。 JSON Web Tokens(JWT)とPHP APIでのユースケースを説明してください。 Apr 05, 2025 am 12:04 AM

JWTは、JSONに基づくオープン標準であり、主にアイデンティティ認証と情報交換のために、当事者間で情報を安全に送信するために使用されます。 1。JWTは、ヘッダー、ペイロード、署名の3つの部分で構成されています。 2。JWTの実用的な原則には、JWTの生成、JWTの検証、ペイロードの解析という3つのステップが含まれます。 3. PHPでの認証にJWTを使用する場合、JWTを生成および検証でき、ユーザーの役割と許可情報を高度な使用に含めることができます。 4.一般的なエラーには、署名検証障害、トークンの有効期限、およびペイロードが大きくなります。デバッグスキルには、デバッグツールの使用とロギングが含まれます。 5.パフォーマンスの最適化とベストプラクティスには、適切な署名アルゴリズムの使用、有効期間を合理的に設定することが含まれます。

母音を文字列にカウントするPHPプログラム 母音を文字列にカウントするPHPプログラム Feb 07, 2025 pm 12:12 PM

文字列は、文字、数字、シンボルを含む一連の文字です。このチュートリアルでは、さまざまな方法を使用してPHPの特定の文字列内の母音の数を計算する方法を学びます。英語の母音は、a、e、i、o、u、そしてそれらは大文字または小文字である可能性があります。 母音とは何ですか? 母音は、特定の発音を表すアルファベットのある文字です。大文字と小文字など、英語には5つの母音があります。 a、e、i、o、u 例1 入力:string = "tutorialspoint" 出力:6 説明する 文字列「TutorialSpoint」の母音は、u、o、i、a、o、iです。合計で6元があります

PHPでの後期静的結合を説明します(静的::)。 PHPでの後期静的結合を説明します(静的::)。 Apr 03, 2025 am 12:04 AM

静的結合(静的::) PHPで後期静的結合(LSB)を実装し、クラスを定義するのではなく、静的コンテキストで呼び出しクラスを参照できるようにします。 1)解析プロセスは実行時に実行されます。2)継承関係のコールクラスを検索します。3)パフォーマンスオーバーヘッドをもたらす可能性があります。

PHPマジックメソッド(__construct、__destruct、__call、__get、__setなど)とは何ですか? PHPマジックメソッド(__construct、__destruct、__call、__get、__setなど)とは何ですか? Apr 03, 2025 am 12:03 AM

PHPの魔法の方法は何ですか? PHPの魔法の方法には次のものが含まれます。1。\ _ \ _コンストラクト、オブジェクトの初期化に使用されます。 2。\ _ \ _リソースのクリーンアップに使用される破壊。 3。\ _ \ _呼び出し、存在しないメソッド呼び出しを処理します。 4。\ _ \ _ get、dynamic属性アクセスを実装します。 5。\ _ \ _セット、動的属性設定を実装します。これらの方法は、特定の状況で自動的に呼び出され、コードの柔軟性と効率を向上させます。

See all articles