Scrapy INSERT dans 'new_table' uniquement si aucun enregistrement n'existe dans la 'table actuelle'

Question

J'ai essayé du scraping de sites Web. J'ai réussi à récupérer les données de la table de base de données actuelle. Mais je souhaite insérer "new_table" uniquement si l'enregistrement n'existe pas dans la "table actuelle". Mon code est (pipeline) table='products' table2='new_products'`defsave(self,row):cursor=self.cnx curseur. ()cursor.execute("SELECTDISTINCTproduct_idFROMpr

P粉278379495 · Answer

Si vous souhaitez simplement insérer s'il n'existe pas, vous n'avez pas besoin de faire ce que vous faites. Pas besoin de tous les sélectionner et de voir si celui que vous recherchez est là.

Ce dont vous avez besoin est de créer un index unique pour le produc_id

dans le tableau 2

Puis changez le code en :

table = 'products'
table2 = 'new_products'`

def save(self, row):  
    create_query = ("INSERT INTO " + self.table + 
        "(rowid, date, listing_id, product_id, product_name, price, url) "
        "VALUES (%(rowid)s, %(date)s, %(listing_id)s, %(product_id)s, %(product_name)s, %(price)s, %(url)s)")

    cursor.execute(create_query, row)
    lastRecordId = cursor.lastrowid

    self.cnx.commit()
    print("Item saved with ID: {}" . format(lastRecordId))
    create_query = ("INSERT INTO " + self.table2 + 
            "(rowid, date, listing_id, product_id, product_name, price, url) "
            "VALUES (%(rowid)s, %(date)s, %(listing_id)s, %(product_id)s, %(product_name)s, %(price)s, %(url)s) ON DUPLICATE KEY UPDATE product_id=product_id")
    cursor.execute(create_query, row)
    self.cnx.commit()

Si vous utilisez ON DUPLICATE KEY, lorsqu'il trouve une ligne en double (product_id déjà existant), le système essaiera de mettre à jour le product_id avec le même product_id, donc cela ne prendra pas effet.

Si vous définissez autocommit=True, vous pouvez supprimer ces commits.

Modifier

Si, comme vous l'avez dit dans votre commentaire, vous devez insérer dans le nouveau tableau uniquement s'il n'existe pas dans le tableau, vous pouvez modifier votre code comme ceci :

Vous devez changer le nom de la variable dans la ligne old_ids = [row[0] pour la ligne incursor.fetchall()] car vous modifiez la valeur du paramètre row 2. Votre problème réside dans l'instruction if, la variable product_id n'existe pas et doit être modifiée

table = 'products'
table2 = 'new_products'`

def save(self, row):     
    cursor = self.cnx.cursor()
    cursor.execute("SELECT DISTINCT product_id FROM products;")
    old_ids = [element[0] for element in cursor.fetchall()]
    create_query = ("INSERT INTO " + self.table + 
        "(rowid, date, listing_id, product_id, product_name, price, url) "
        "VALUES (%(rowid)s, %(date)s, %(listing_id)s, %(product_id)s, %(product_name)s, %(price)s, %(url)s)")

    cursor.execute(create_query, row)
    lastRecordId = cursor.lastrowid

    self.cnx.commit()
    cursor.close()
    print("Item saved with ID: {}" . format(lastRecordId))

 

   if not row['product_id'] in old_ids:
        create_query = ("INSERT INTO " + self.table2 + 
            "(rowid, date, listing_id, product_id, product_name, price, url) "
            "VALUES (%(rowid)s, %(date)s, %(listing_id)s, %(product_id)s, %(product_name)s, %(price)s, %(url)s)")