from pymongo import MongoClient
client = MongoClient()
db = client.dbname
documentname = db.documentname
keys = {}
for k in documentname.find():
key = k['field']
if keys.has_key(key):
print 'duplicate key %s' % key
documentname.remove({'_id':k['_id']})
else:
print 'first record key %s' % key
keys[key]=1
Idea ini sangat mudah, rentasi dan simpan dalam dict, dan padamkannya apabila ia ditemui buat kali kedua.
Tetapi dengan cara ini anda tidak boleh mengawal objek yang dipadam dan disimpan Anda boleh melaraskan skrip mengikut senario anda
Apabila terdapat lebih daripada 100,000 keping data, bolehkah ia diproses dengan cepat melalui skrip? Bagaimanakah skrip mengendalikan apabila terdapat banyak keselarasan?
Pendua boleh dialih keluar melalui skrip python
Idea ini sangat mudah, rentasi dan simpan dalam dict, dan padamkannya apabila ia ditemui buat kali kedua.
Tetapi dengan cara ini anda tidak boleh mengawal objek yang dipadam dan disimpan Anda boleh melaraskan skrip mengikut senario anda
Saya juga pernah menghadapi situasi ini dan saya tidak tahu bagaimana untuk menyelesaikannya. Bolehkah anda memberi saya nasihat
Apabila terdapat lebih daripada 100,000 keping data, bolehkah ia diproses dengan cepat melalui skrip? Bagaimanakah skrip mengendalikan apabila terdapat banyak keselarasan?
mongoDB3.0 membuang parameter dropDups Data pendua tidak boleh dipadamkan melalui ini pada masa hadapan.
http://blog.chinaunix.net/xmlrpc.php?r=blog/article&id=4865696&uid=15795819