mysql - php写的爬虫报内存不足
具体的场景:php从网站列表上抓取数据,然后直接插入mysql数据库,使用cli模式运行,一次可能要插入上万条数据
我之前的代码是这样的:
ini_set('memory_limit', '512M'); $con = mysqli_connect('''); for(...) { //爬虫抓取代码省略 mysqli_query($con,'抓取后生成的insert语句'); }
这样差不多半天就会报Allowed memory size of 536870912 bytes exhausted (tried to allocate 1542571 bytes)
PS:如果不执行mysql插入操作,而直接将sql语句file_put_contents到一个文件中,那是不会报错的,所以排除爬虫代码的问题
现在我把mysql的插入语句封装成一个方法:
function execute($query) { $mysqli = new mysqli(...); $mysqli->query('set names utf8mb4'); $mysqli->query($query); $mysqli->close(); }
不知道还会不会发生这个问题呢?
各位有什么好办法么?
回复内容:
具体的场景:php从网站列表上抓取数据,然后直接插入mysql数据库,使用cli模式运行,一次可能要插入上万条数据
我之前的代码是这样的:
ini_set('memory_limit', '512M'); $con = mysqli_connect('''); for(...) { //爬虫抓取代码省略 mysqli_query($con,'抓取后生成的insert语句'); }
这样差不多半天就会报Allowed memory size of 536870912 bytes exhausted (tried to allocate 1542571 bytes)
PS:如果不执行mysql插入操作,而直接将sql语句file_put_contents到一个文件中,那是不会报错的,所以排除爬虫代码的问题
现在我把mysql的插入语句封装成一个方法:
function execute($query) { $mysqli = new mysqli(...); $mysqli->query('set names utf8mb4'); $mysqli->query($query); $mysqli->close(); }
不知道还会不会发生这个问题呢?
各位有什么好办法么?
你目前的做法是上万次插入上万条数据,而不是一次插入上万条数据。
From
INSERT INTO tbl_name (a,b,c) VALUES (1,2,3); INSERT INTO tbl_name (a,b,c) VALUES (4,5,6); INSERT INTO tbl_name (a,b,c) VALUES (7,8,9);
To
INSERT INTO tbl_name (a,b,c) VALUES (1,2,3), (4,5,6), (7,8,9);
数据库插入操作改为批量提交方式
<code>$sql = array(); foreach( $data as $row ) { $sql[] = '("'.mysql_real_escape_string($row['text']).'", '.$row['category_id'].')'; } mysql_query('INSERT INTO table (text, category) VALUES '.implode(',', $sql));</code>
之前做个一个类似的功能,规模是大几十万条
我是用的web方式去执行,在for{}中判断一个条件,比如达到万条后跳转回本页面,把n*10000这个参数传过去。

Outils d'IA chauds

Undresser.AI Undress
Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover
Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool
Images de déshabillage gratuites

Clothoff.io
Dissolvant de vêtements AI

AI Hentai Generator
Générez AI Hentai gratuitement.

Article chaud

Outils chauds

Bloc-notes++7.3.1
Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise
Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1
Puissant environnement de développement intégré PHP

Dreamweaver CS6
Outils de développement Web visuel

SublimeText3 version Mac
Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Sujets chauds

PHP 8.4 apporte plusieurs nouvelles fonctionnalités, améliorations de sécurité et de performances avec une bonne quantité de dépréciations et de suppressions de fonctionnalités. Ce guide explique comment installer PHP 8.4 ou mettre à niveau vers PHP 8.4 sur Ubuntu, Debian ou leurs dérivés. Bien qu'il soit possible de compiler PHP à partir des sources, son installation à partir d'un référentiel APT comme expliqué ci-dessous est souvent plus rapide et plus sécurisée car ces référentiels fourniront les dernières corrections de bogues et mises à jour de sécurité à l'avenir.

Visual Studio Code, également connu sous le nom de VS Code, est un éditeur de code source gratuit – ou environnement de développement intégré (IDE) – disponible pour tous les principaux systèmes d'exploitation. Avec une large collection d'extensions pour de nombreux langages de programmation, VS Code peut être c

L'un des changements majeurs introduits dans MySQL 8.4 (la dernière version LTS en 2024) est que le plugin « MySQL Native Password » n'est plus activé par défaut. De plus, MySQL 9.0 supprime complètement ce plugin. Ce changement affecte PHP et d'autres applications

Ce tutoriel montre comment traiter efficacement les documents XML à l'aide de PHP. XML (Language de balisage extensible) est un langage de balisage basé sur le texte polyvalent conçu à la fois pour la lisibilité humaine et l'analyse de la machine. Il est couramment utilisé pour le stockage de données et

Une chaîne est une séquence de caractères, y compris des lettres, des nombres et des symboles. Ce tutoriel apprendra à calculer le nombre de voyelles dans une chaîne donnée en PHP en utilisant différentes méthodes. Les voyelles en anglais sont a, e, i, o, u, et elles peuvent être en majuscules ou en minuscules. Qu'est-ce qu'une voyelle? Les voyelles sont des caractères alphabétiques qui représentent une prononciation spécifique. Il y a cinq voyelles en anglais, y compris les majuscules et les minuscules: a, e, i, o, u Exemple 1 Entrée: String = "TutorialSpoint" Sortie: 6 expliquer Les voyelles dans la chaîne "TutorialSpoint" sont u, o, i, a, o, i. Il y a 6 yuans au total

Si vous êtes un développeur PHP expérimenté, vous aurez peut-être le sentiment d'y être déjà allé et de l'avoir déjà fait. Vous avez développé un nombre important d'applications, débogué des millions de lignes de code et peaufiné de nombreux scripts pour réaliser des opérations.

La page est vide après que PHP se connecte à MySQL, et la raison pour laquelle la fonction Die () échoue. Lorsque vous apprenez la connexion entre PHP et la base de données MySQL, vous rencontrez souvent des choses déroutantes ...

CMS signifie Système de gestion de contenu. Il s'agit d'une application logicielle ou d'une plate-forme qui permet aux utilisateurs de créer, gérer et modifier du contenu numérique sans nécessiter de connaissances techniques avancées. Le CMS permet aux utilisateurs de créer et d'organiser facilement du contenu tel que du texte, des images, des vidéos et des documents, et de le publier sur des sites Web ou d'autres plateformes numériques.
