Mysql批量插入数据之前如何判断重复？

Question

使用MySQL做统计，需要查询大量数据计算后重新组装各种数据入库，考虑到大数据量和性能问题，要批量插入数据库，而且可能会出现重复的情况，如何判断重复呢？ 如果在入库前判断重复，需要每条数据都select一下判...

怪我咯 · Answer

可以試試 replace into 或 Insert into ..... on duplicate key update

參考：
http://blog.csdn.net/mchdba/article/details/8647560
http://dev.mysql.com/doc/refman/5.7/en/insert-on- duplicate.html

PHP中文网 · Answer

批次入庫的時候建議使用mysql導入工具－mysqlimport，可以設定忽略重複資料。
http://www.runoob.com/mysql/mysql-database-import.html

高洛峰 · Answer

我覺得你先插入再刪掉的方法不錯。
你說的重複是「主鍵重複」的資料吧？那你要插入的必定是最新的數據。我會先刪除舊數據，假設主鍵是'uid'，先開事務，再'delete ... where uid in (...)'，然後插入新數據，提交關事務。
如果還想優化，用'select ...where uid in ()' 一次查出已經有的數據，然後不插入那些重複數據。

迷茫 · Answer

建個臨時表全插入再insert

迷茫 · Answer

@好雨雲他說的replace into 或 Insert into ..... on duplicate key update算是一種解決方案。

不過建議使用Insert into ..... on duplicate key update

當你資料量大的時候，效率是比replace高的，究其原因是因為replace插入資料時候需要額外維護主鍵索引。