Nous savons tous que la base de données MySQL peut stocker une grande quantité de données, mais savez-vous comment les données sont stockées dans MySQL ?
Généralement, il existe deux façons de sauvegarder des données sur MySQL, le mode synchrone et le mode asynchrone.
Mode de synchronisation
Le mode de synchronisation utilise des instructions SQL pour insérer des données dans la base de données. Cependant, il convient de noter que la vitesse d'analyse de Scrapy est beaucoup plus rapide que la vitesse de journalisation de MySQL. Lorsqu'il y a une grande quantité d'analyse, la journalisation de MySQL peut être bloquée.
import MySQLdbclass MysqlPipeline(object): def __init__(self): self.conn = MySQLdb.connect('127.0.0.1','root','root','article_spider',charset="utf8",use_unicode=True) self.cursor = self.conn.cursor() def process_item(self, item, spider): insert_sql = """ insert into jobbole_article(title,create_date,url,url_object_id) VALUES (%s,%s,%s,%s) """ self.cursor.execute(insert_sql,(item["title"],item["create_date"],item["url"],item["url_object_id"])) self.conn.commit()
Mode asynchrone
L'utilisation du mode synchrone peut provoquer un blocage. Nous pouvons utiliser Twisted pour transformer l'entreposage et l'analyse de MySQL en opérations asynchrones au lieu d'une simple exécution et validation. opérations synchrones.
Concernant la configuration de MySQL, on peut configurer la base de données directement dans le fichier de configuration :
MYSQL_HOST = "127.0.0.1" MYSQL_DBNAME = "article_spider" MYSQL_USER = "root"MYSQL_PASSWORD = "root"
Pour la configuration dans settings, on obtient l'objet settings en définissant from_settings dans le pipeline, et on peut directement obtenir la valeur du fichier de configuration des paramètres dans .
Utilisez le conteneur asynchrone fourni par Twisted pour vous connecter à MySQL :
import MySQLdb import MySQLdb.cursorsfrom twisted.enterprise import adbapi
L'utilisation d'adbapi peut rendre certaines opérations de mysqldb asynchrones
Utiliser des curseurs pour exécuter et soumettre des instructions SQL
Partie de code :
class MysqlTwistedPipline(object): def __init__(self,dbpool): self.dbpool = dbpool @classmethod def from_settings(cls,settings): dbparms = dict( host = settings["MYSQL_HOST"], db = settings["MYSQL_DBNAME"], user = settings["MYSQL_USER"], passwd = settings["MYSQL_PASSWORD"], charset = 'utf8', cursorclass = MySQLdb.cursors.DictCursor, use_unicode=True, ) dbpool = adbapi.ConnectionPool("MySQLdb",**dbparms) return cls(dbpool) def process_item(self, item, spider): #使用Twisted将mysql插入变成异步执行 #runInteraction可以将传入的函数变成异步的 query = self.dbpool.runInteraction(self.do_insert,item) #处理异常 query.addErrback(self.handle_error,item,spider) def handle_error(self,failure,item,spider): #处理异步插入的异常 print(failure) def do_insert(self,cursor,item): #会从dbpool取出cursor #执行具体的插入 insert_sql = """ insert into jobbole_article(title,create_date,url,url_object_id) VALUES (%s,%s,%s,%s) """ cursor.execute(insert_sql, (item["title"], item["create_date"], item["url"], item["url_object_id"])) #拿传进的cursor进行执行,并且自动完成commit操作
La partie de code ci-dessus, à l'exception de do_insert, peut être réutilisée.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!