请问寻找PHP采集大量网页高效可行的方法-tutoriel php-php.cn

Maison

développement back-end

tutoriel php

请问寻找PHP采集大量网页高效可行的方法

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Jun 13, 2016 pm 12:05 PM

curl header nbsp

请教寻找PHP采集大量网页高效可行的方法

本帖最后由 oasisxp 于 2014-08-25 13:45:08 编辑想用PHP的CURL采集虾米网的音乐信息。
但是很慢，采集到50个左右的时候就会停掉，然后网页卡住，第二次运行的时候就无法采集，应该是根据IP识别后，不允许采集了吧，所以基本上采集数据非常慢。
请问这种大数据的采集应该怎么做？
也有可能是我代码的问题。
以下是部分代码。

$j=0;<br />	//起始ID<br />	$id = 200000;<br />	//采集1000条<br />	//保存采集的数据<br />	$data = array();<br />	while($j<1000){<br />		$url = 'http://www.xiami.com/song/'.($id++);<br />		$ch = curl_init();<br />		$status = curl_getinfo($ch);<br />		///$status['redirect_url'] ;// 跳转到的新地址<br />		$header[]='Accept:text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8';<br />		$header[]='Accept-Encoding:gzip,deflate,sdch';<br />		$header[]='Accept-Language:zh-CN,zh;q=0.8';<br />		$header[]='Cache-Control:max-age=0';<br />		$header[]='Connection:keep-alive';<br />		$header[]='Cookie:_unsign_token=a35437bd35c221c09a0e6f564e17c225; __gads=ID=7fcc242f6fd63d77:T=1408774454:S=ALNI_Mae8MH6vL5z6q4NlGYzyqgD4jHeEg; bdshare_firstime=1408774454639; _xiamitoken=3541aab48832ba3ceb089de7f39b9b0f; pnm_cku822=211n%2BqZ9mgNqgJnCG0Zu8%2BzyLTPuc%2B7wbrff98%3D%7CnOiH84T3jPCG%2FIr%2BiPOG8lI%3D%7CneiHGXz6UeRW5k4rRCFXIkcoTdd7ym3fZdO2FrY%3D%7Cmu6b9JHlkuGa5pDqnOie5ZDkmeqb4ZTule6V7ZjjlOib7JrmkvdX%7Cm%2B%2BT%2FGIUew96DXsUYBd4HawbrTOXOVI4iyOLIYUqT%2B9P%7CmO6BH2wDcB9rHGsYdwRrH2gfbAN%2FDH8QZBNkF3gDeQqqCg%3D%3D%7Cme6d7oHyneiH84Twn%2BmR64TzUw%3D%3D; CNZZDATA921634=cnzz_eid%3D1437506062-1408774274-%26ntime%3D1408937320; CNZZDATA2629111=cnzz_eid%3D2021816723-1408774274-%26ntime%3D1408937320; isg=075E6FBDF77039CEB63A1BA239420244';<br />		$header[]='Host:www.xiami.com';<br />		$header[]='User-Agent:Mozilla/5.0 (Windows NT 5.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/32.0.1653.0 Safari/537.36';<br /><br />		curl_setopt($ch, CURLOPT_URL, $url);	//要访问的地址<br />		curl_setopt($ch, CURLOPT_HTTPHEADER, $header);	//设置http头<br />		curl_setopt($ch, CURLOPT_HEADER, 0);	//显示返回的Header区域内容<br />		curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);	//获取的信息以文件流的形式返回<br />		curl_setopt($ch, CURLOPT_TIMEOUT, 20);	//设置超时限制防止死循环<br />		$content = curl_exec($ch);	//执行操作<br />		$curl_errno = curl_errno($ch);<br />		$curl_error = curl_error($ch);<br />		curl_close($ch);	//关闭CURL会话<br />		preg_match('/name="description"\s+content="《(.+)》演唱者(.+)，所属专辑《(.+)》/', $content,$matches);<br />		//如果歌曲名字为空，跳过<br />		if(empty($matches[1]) || trim($matches[1]) == ''){<br />			continue;<br />		}<br />		<br />		//匹配出的数据<br />		$data[$id]['song'] = empty($matches[1])?' ':$matches[1];<br />		$data[$id]['songer'] = empty($matches[2])?' ':$matches[2];<br />		$data[$id]['album'] = empty($matches[3])?' ':$matches[3];<br />		<br />		preg_match('/album\/(\d+)/', $content,$matches);<br /><br />		$data[$id]['albumId'] = empty($matches[1])?0:$matches[1];<br /><br />		preg_match('/\/artist\/(\d+)/', $content,$matches);<br />		$data[$id]['songerId'] = empty($matches[1])?0:$matches[1];<br /><br />		//歌词<div class="lrc_main"><br />		preg_match('/<div class="lrc_main">(.*)<\/div>/Us', $content,$matches);<br />		$data[$id]['lrc'] =  empty($matches[1])?' ':addslashes($matches[1]);<br />		//分享 分享<em>(3269)</em><br />		preg_match('/分享<em>\((\d+)\)<\/em>/Us', $content,$matches);<br />		$data[$id]['share'] =  empty($matches[1]) ? 0:$matches[1];<br />		//评论次数 <p class="wall_list_count"><span>920<br />		preg_match('/<p class="wall_list_count"><span>(\d+)<\/span>/Us', $content,$matches);<br />		$data[$id]['comment_count'] =  empty($matches[1])?0:$matches[1];<br /><br /><br />		//入库操作<br />		//print_r($data);<br />		//_____________________________<br />		$j++;<br />		usleep(3000);<br />	}

Copier après la connexion

------解决方案--------------------
亲，用snoopy类吧
------解决方案--------------------

本帖最后由 PhpNewnew 于 2014-08-27 22:09:20 编辑

亲用 Ruby 或者 Go 吧

开玩笑，就算你要跑好歹你也弄成命令行的模式跑呀....
------解决方案--------------------
应该是xiami.com服务器有限制，禁止采集吧

1，每个url请求只采10-20打，然后做个跳转在继续采集，这样也可以防止页面超时，如果你在虚机上运行，长时间点用cpu，进程可能会被kill.

2，每次url请求header中的user-agent，cookies，最好都能改一下。

3，如果还不行，用火车头试试吧！

4，如果火车也不行，那就放弃这个站吧！
------解决方案--------------------
把foreach拆分成循环执行同一页面。
第一次浏览器或者cronrab定时执行 http://localhost/caiji.php?num=1 每次完成后，$_GET['num']+1；curl 重复l执行同一脚本，当$_GET['num']==1000后，退出，不再执行curl。

if($_GET['num']){<br />$url = 'http://www.xiami.com/song/'.$_GET['num'];<br />//你的代码<br />$_GET['num'])++;<br />}<br />if($_GET['num']<1001){<br />        $ch = curl_init();<br />	curl_setopt($ch, CURLOPT_URL,"http://localhost/caiji.php?num=".$_GET['num']));<br />	curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);<br />	curl_setopt($ch, CURLOPT_CONNECTTIMEOUT ,2); <br />	curl_setopt($ch, CURLOPT_TIMEOUT ,2);<br />	curl_exec($ch);<br />	curl_close($ch);<br />}else{<br />   exit;<br />}<br />

Copier après la connexion

Déclaration de ce site Web

Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn

Outils d'IA chauds

Undresser.AI Undress

Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover

Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool

Images de déshabillage gratuites

Clothoff.io

Dissolvant de vêtements AI

Video Face Swap

Échangez les visages dans n'importe quelle vidéo sans effort grâce à notre outil d'échange de visage AI entièrement gratuit !

Afficher plus

Article chaud

Assassin's Creed Shadows: Solution d'énigmes de coquille

3 Il y a quelques semaines By DDD

Quoi de neuf dans Windows 11 KB5054979 et comment résoudre les problèmes de mise à jour

2 Il y a quelques semaines By DDD

Où trouver la courte de la grue à atomide atomique

3 Il y a quelques semaines By DDD

<🎜>: Dead Rails - Comment relever chaque défi

4 Il y a quelques semaines By DDD

Guide de l'atomfall: emplacements des articles, guides de quête et conseils

4 Il y a quelques semaines By DDD

Afficher plus

Outils chauds

Bloc-notes++7.3.1

Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise

Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1

Puissant environnement de développement intégré PHP

Dreamweaver CS6

Outils de développement Web visuel

SublimeText3 version Mac

Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Afficher plus

Sujets chauds

Où se trouve l'entrée de connexion pour la messagerie Gmail ?

7667

Tutoriel CakePHP

1393

Tutoriel C#

1205

Quel est le format du nom de compte de Steam

Clé d&amp;amp;amp;amp;amp;amp;#39;activation Win11 permanent

Afficher plus

Related knowledge

Solution : Votre organisation vous demande de modifier votre code PIN Oct 04, 2023 pm 05:45 PM

Le message « Votre organisation vous a demandé de modifier votre code PIN » apparaîtra sur l'écran de connexion. Cela se produit lorsque la limite d'expiration du code PIN est atteinte sur un ordinateur utilisant les paramètres de compte basés sur l'organisation, sur lesquels ils contrôlent les appareils personnels. Cependant, si vous configurez Windows à l'aide d'un compte personnel, le message d'erreur ne devrait idéalement pas apparaître. Même si ce n'est pas toujours le cas. La plupart des utilisateurs qui rencontrent des erreurs déclarent utiliser leur compte personnel. Pourquoi mon organisation me demande-t-elle de modifier mon code PIN sous Windows 11 ? Il est possible que votre compte soit associé à une organisation et votre approche principale devrait être de le vérifier. Contacter votre administrateur de domaine peut vous aider ! De plus, des paramètres de stratégie locale mal configurés ou des clés de registre incorrectes peuvent provoquer des erreurs. Tout de suite

Comment ajuster les paramètres de bordure de fenêtre sous Windows 11 : modifier la couleur et la taille Sep 22, 2023 am 11:37 AM

Windows 11 met au premier plan un design frais et élégant ; l'interface moderne vous permet de personnaliser et de modifier les moindres détails, tels que les bordures des fenêtres. Dans ce guide, nous discuterons des instructions étape par étape pour vous aider à créer un environnement qui reflète votre style dans le système d'exploitation Windows. Comment modifier les paramètres de bordure de fenêtre ? Appuyez sur + pour ouvrir l'application Paramètres. WindowsJe vais dans Personnalisation et clique sur Paramètres de couleur. Changement de couleur Paramètres des bordures de fenêtre Fenêtre 11" Largeur = "643" Hauteur = "500" > Recherchez l'option Afficher la couleur d'accent sur la barre de titre et les bordures de fenêtre et activez le commutateur à côté. Pour afficher les couleurs d'accent dans le menu Démarrer et la barre des tâches Pour afficher la couleur du thème dans le menu Démarrer et la barre des tâches, activez Afficher le thème dans le menu Démarrer et la barre des tâches.

Comment changer la couleur de la barre de titre sous Windows 11 ? Sep 14, 2023 pm 03:33 PM

Par défaut, la couleur de la barre de titre sous Windows 11 dépend du thème sombre/clair que vous choisissez. Cependant, vous pouvez le changer pour la couleur de votre choix. Dans ce guide, nous discuterons des instructions étape par étape sur trois façons de le modifier et de personnaliser votre expérience de bureau pour la rendre visuellement attrayante. Est-il possible de changer la couleur de la barre de titre des fenêtres actives et inactives ? Oui, vous pouvez modifier la couleur de la barre de titre des fenêtres actives à l'aide de l'application Paramètres, ou vous pouvez modifier la couleur de la barre de titre des fenêtres inactives à l'aide de l'Éditeur du Registre. Pour connaître ces étapes, passez à la section suivante. Comment changer la couleur de la barre de titre sous Windows 11 ? 1. Appuyez sur + pour ouvrir la fenêtre des paramètres à l'aide de l'application Paramètres. WindowsJe vais dans "Personnalisation" puis

Problèmes d'erreur OOBELANGUAGE dans la réparation de Windows 11/10 Jul 16, 2023 pm 03:29 PM

Voyez-vous « Un problème est survenu » avec l'instruction « OOBELANGUAGE » sur la page Windows Installer ? L'installation de Windows s'arrête parfois à cause de telles erreurs. OOBE signifie expérience hors des sentiers battus. Comme l'indique le message d'erreur, il s'agit d'un problème lié à la sélection de la langue OOBE. Il n'y a rien à craindre, vous pouvez résoudre ce problème avec une astucieuse modification du registre à partir de l'écran OOBE lui-même. Solution rapide – 1. Cliquez sur le bouton « Réessayer » en bas de l'application OOBE. Cela permettra de poursuivre le processus sans autre problème. 2. Utilisez le bouton d'alimentation pour forcer l'arrêt du système. Après le redémarrage du système, OOBE devrait continuer. 3. Déconnectez le système d'Internet. Terminez tous les aspects d'OOBE en mode hors ligne

Comment activer ou désactiver les aperçus miniatures de la barre des tâches sur Windows 11 Sep 15, 2023 pm 03:57 PM

Les miniatures de la barre des tâches peuvent être amusantes, mais elles peuvent aussi être distrayantes ou ennuyeuses. Compte tenu de la fréquence à laquelle vous survolez cette zone, vous avez peut-être fermé plusieurs fois des fenêtres importantes par inadvertance. Un autre inconvénient est qu'il utilise plus de ressources système, donc si vous cherchez un moyen d'être plus efficace en termes de ressources, nous allons vous montrer comment le désactiver. Cependant, si vos spécifications matérielles peuvent le gérer et que vous aimez l'aperçu, vous pouvez l'activer. Comment activer l’aperçu miniature de la barre des tâches dans Windows 11 ? 1. Utilisez l'application Paramètres pour appuyer sur la touche et cliquez sur Paramètres. Windows, cliquez sur Système et sélectionnez À propos. Cliquez sur Paramètres système avancés. Accédez à l'onglet Avancé et sélectionnez Paramètres sous Performances. Sélectionnez "Effets visuels"

Afficher le guide de mise à l'échelle sur Windows 11 Sep 19, 2023 pm 06:45 PM

Nous avons tous des préférences différentes en matière de mise à l'échelle de l'affichage sur Windows 11. Certaines personnes aiment les grandes icônes, d’autres les petites. Cependant, nous sommes tous d’accord sur le fait qu’il est important d’avoir la bonne échelle. Une mauvaise mise à l'échelle des polices ou une mise à l'échelle excessive des images peuvent nuire à la productivité lorsque vous travaillez. Vous devez donc savoir comment la personnaliser pour tirer le meilleur parti des capacités de votre système. Avantages du zoom personnalisé : Il s'agit d'une fonctionnalité utile pour les personnes qui ont des difficultés à lire du texte à l'écran. Cela vous aide à voir plus sur l’écran à la fois. Vous pouvez créer des profils d'extension personnalisés qui s'appliquent uniquement à certains moniteurs et applications. Peut aider à améliorer les performances du matériel bas de gamme. Cela vous donne plus de contrôle sur ce qui est sur votre écran. Comment utiliser Windows 11

10 façons de régler la luminosité sous Windows 11 Dec 18, 2023 pm 02:21 PM

La luminosité de l’écran fait partie intégrante de l’utilisation des appareils informatiques modernes, en particulier lorsque vous regardez l’écran pendant de longues périodes. Il vous aide à réduire la fatigue oculaire, à améliorer la lisibilité et à visualiser le contenu facilement et efficacement. Cependant, en fonction de vos paramètres, il peut parfois être difficile de gérer la luminosité, notamment sous Windows 11 avec les nouvelles modifications de l'interface utilisateur. Si vous rencontrez des difficultés pour régler la luminosité, voici toutes les manières de gérer la luminosité sous Windows 11. Comment modifier la luminosité sous Windows 11 [10 méthodes expliquées] Les utilisateurs d'un seul moniteur peuvent utiliser les méthodes suivantes pour régler la luminosité sous Windows 11. Cela inclut les systèmes de bureau utilisant un seul moniteur ainsi que les ordinateurs portables. Commençons. Méthode 1 : Utiliser le Centre d'action Le Centre d'action est accessible

Comment réparer le code d'erreur d'activation 0xc004f069 dans Windows Server Jul 22, 2023 am 09:49 AM

Le processus d'activation sous Windows prend parfois une tournure soudaine pour afficher un message d'erreur contenant ce code d'erreur 0xc004f069. Bien que le processus d'activation soit en ligne, certains anciens systèmes exécutant Windows Server peuvent rencontrer ce problème. Effectuez ces vérifications initiales et si elles ne vous aident pas à activer votre système, passez à la solution principale pour résoudre le problème. Solution de contournement : fermez le message d'erreur et la fenêtre d'activation. Ensuite, redémarrez votre ordinateur. Réessayez le processus d'activation de Windows à partir de zéro. Correctif 1 – Activer depuis le terminal Activez le système Windows Server Edition à partir du terminal cmd. Étape – 1 Vérifiez la version de Windows Server Vous devez vérifier quel type de W vous utilisez

See all articles

请问 寻找PHP采集大量网页高效可行的方法

Outils d'IA chauds

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

Video Face Swap

Article chaud

Outils chauds

Bloc-notes++7.3.1

SublimeText3 version chinoise

Envoyer Studio 13.0.1

Dreamweaver CS6

SublimeText3 version Mac

Sujets chauds

请问寻找PHP采集大量网页高效可行的方法