http - php的curl如何使用head协议来获取资源的大小等信息
我的程序里允许用户填写网址从其它网站抓取资源,但是在抓取之前我要知道资源的大小,要不然资源太大耗时太长也会占用不必要的带宽。我查到了http里面有HEAD这个协议,就是只获取一个资源的http头部信息,那么在curl
里怎么只获取http的头而不下载全部body呢?
还有content-length
是所有的http头部信息里必须都有的吗,因为我只有这个办法来获取资源大小了。如果没有这个信息,我想用一个替代方法,就是设置curl下载资源的最大长度,如果超过了就中断连接,然后报错。在curl有达到此类效果的选项吗?
最后问一点,各大服务器对HEAD协议支持情况如何呢?
回复内容:
我的程序里允许用户填写网址从其它网站抓取资源,但是在抓取之前我要知道资源的大小,要不然资源太大耗时太长也会占用不必要的带宽。我查到了http里面有HEAD这个协议,就是只获取一个资源的http头部信息,那么在curl
里怎么只获取http的头而不下载全部body呢?
还有content-length
是所有的http头部信息里必须都有的吗,因为我只有这个办法来获取资源大小了。如果没有这个信息,我想用一个替代方法,就是设置curl下载资源的最大长度,如果超过了就中断连接,然后报错。在curl有达到此类效果的选项吗?
最后问一点,各大服务器对HEAD协议支持情况如何呢?
其实curl里面早就有对HEAD
协议的支持
// 只需要在你的代码中加上这样一行,就会自动选择head协议 curl_setopt($ch, CURLOPT_NOBODY, true);
如果你要读取Content-Length
,那么只需要在curl_exec
后
// 读取的header里的Content-Length值 $size = curl_getinfo($ch, CURLINFO_CONTENT_LENGTH_DOWNLOAD);
需要说明的是HEAD
协议虽然被大部分服务器支持,但也不是说所有的服务器都支持,有的服务器为了防抓取,在设置中干掉了这个协议。而Content-Length
也不是必须的字段,你应该做到如果有这个值,而且超过了最大值,可以返回错误,如果没有这个值,或者没有超过最大值,就必须自己通过已经下载的内容大小来判断。
至于你说的最大资源下载长度,我还没看到这个设置项,不过这个问题有一个更加美好的解决方案,那就是用到CURLOPT_HEADERFUNCTION
和CURLOPT_WRITEFUNCTION
两个回调,那么就只需要一次请求即可完成所有的判断,而且可以随时断掉
$size = 0; $max_size = 123456; curl_setopt($ch, CURLOPT_HEADERFUNCTION, function ($ch, $str) { // 第一个参数是curl资源,第二个参数是每一行独立的header! list ($name, $value) = array_map('trim', explode(':', $str, 2)); $name = strtolower($name); // 判断大小啦 if ('content-length' == $name) { if ($value > $max_size) { return 0; // 返回0就会中断读取 } } }); // 对于没有content-length的,我们一边读取一边判断 curl_setopt($ch, CURLOPT_WRITEFUNCTION, function ($ch, $str) use (&$size) { $len = strlen($str); $size += $len; if ($size > $max_size) { return 0; // 中断读取 } return $len; });
为什么要用curl呢?直接用fsockopen往那边发一个head请求就行了。
不过head请求不一定会返回资源的大小,这个似乎不是可以保证的。
curl_setopt($curl, CURLOPT_HEADER, true);
curl_exec返回的结果中也就包含了HTTP response header,其中抽取 Content-Length 值就可以了
HTTP/1.1 200 OK Server: Apache Content-Type: text/html Content-Encoding: gzip Content-Length: 26395
这个长度值不可靠,服务器后端脚本可以任意修改该值。
设置最大抓取大小不就行了。远程服务器并不可信,给出的Content-Length并不一定是真实大小。为了防止被滥用,你也得去加上大小限制。
同时你可以做一个额外判断,比如说某个域名经常返回Content-Length与实际不一致的内容,就给它一个比较低的reputation。用户如果提交reputation低的域名的资源抓取需求,可以延迟或低优先级处理。
加上最大执行时间控制就好了吧,Curl是可以控制超时时间的。

Outils d'IA chauds

Undresser.AI Undress
Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover
Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool
Images de déshabillage gratuites

Clothoff.io
Dissolvant de vêtements AI

AI Hentai Generator
Générez AI Hentai gratuitement.

Article chaud

Outils chauds

Bloc-notes++7.3.1
Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise
Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1
Puissant environnement de développement intégré PHP

Dreamweaver CS6
Outils de développement Web visuel

SublimeText3 version Mac
Logiciel d'édition de code au niveau de Dieu (SublimeText3)

PHP 8.4 apporte plusieurs nouvelles fonctionnalités, améliorations de sécurité et de performances avec une bonne quantité de dépréciations et de suppressions de fonctionnalités. Ce guide explique comment installer PHP 8.4 ou mettre à niveau vers PHP 8.4 sur Ubuntu, Debian ou leurs dérivés. Bien qu'il soit possible de compiler PHP à partir des sources, son installation à partir d'un référentiel APT comme expliqué ci-dessous est souvent plus rapide et plus sécurisée car ces référentiels fourniront les dernières corrections de bogues et mises à jour de sécurité à l'avenir.

Pour travailler avec la date et l'heure dans cakephp4, nous allons utiliser la classe FrozenTime disponible.

CakePHP est un framework open source pour PHP. Il vise à faciliter grandement le développement, le déploiement et la maintenance d'applications. CakePHP est basé sur une architecture de type MVC à la fois puissante et facile à appréhender. Modèles, vues et contrôleurs gu

Pour travailler sur le téléchargement de fichiers, nous allons utiliser l'assistant de formulaire. Voici un exemple de téléchargement de fichiers.

Le validateur peut être créé en ajoutant les deux lignes suivantes dans le contrôleur.

Se connecter à CakePHP est une tâche très simple. Il vous suffit d'utiliser une seule fonction. Vous pouvez enregistrer les erreurs, les exceptions, les activités des utilisateurs, les actions entreprises par les utilisateurs, pour tout processus en arrière-plan comme cronjob. La journalisation des données dans CakePHP est facile. La fonction log() est fournie

Visual Studio Code, également connu sous le nom de VS Code, est un éditeur de code source gratuit – ou environnement de développement intégré (IDE) – disponible pour tous les principaux systèmes d'exploitation. Avec une large collection d'extensions pour de nombreux langages de programmation, VS Code peut être c

CakePHP est un framework MVC open source. Cela facilite grandement le développement, le déploiement et la maintenance des applications. CakePHP dispose d'un certain nombre de bibliothèques pour réduire la surcharge des tâches les plus courantes.
