84669 orang belajar
152542 orang belajar
20005 orang belajar
5487 orang belajar
7821 orang belajar
359900 orang belajar
3350 orang belajar
180660 orang belajar
48569 orang belajar
18603 orang belajar
40936 orang belajar
1549 orang belajar
1183 orang belajar
32909 orang belajar
有个36.6G的csv文件,需要去重并导入到数据库(顺序无所谓,只需要结果是一个无重复的表),如何处理?
ringa_lee
如果 Foo 字段不能重复,那么定义 Unique 就好了,自动去掉了:
CREATE TABLE xxx ( ... Foo varchar unique not null, ... );
你可以全部导入数据库然后通过sql操作删除重复的数据
对可能重复的字段建一个唯一索引
插入的时候用insert ignore into ...
可以用bash, 先sort, 然后用awk检查相邻行是否一样,如果不一样就输出到一个新的文件。这样其实速度并不慢,但是可能需要很多空间。
比较好的做法是在导入时让数据库自己处理,比如前面所说的定义unique域。
如果 Foo 字段不能重复,那么定义 Unique 就好了,自动去掉了:
你可以全部导入数据库然后通过sql操作删除重复的数据
对可能重复的字段建一个唯一索引
插入的时候用insert ignore into ...
可以用bash, 先sort, 然后用awk检查相邻行是否一样,如果不一样就输出到一个新的文件。这样其实速度并不慢,但是可能需要很多空间。
比较好的做法是在导入时让数据库自己处理,比如前面所说的定义unique域。