Jetzt gibt es einen Stapel von Adressbuchdaten (Adressbücher von mehr als 10.000 Personen), die die doppelten Teile der Adressbücher von jeweils zwei Personen finden müssen (d. h. wer das gleiche Adressbuch hat). (wie wem und wie viele Einträge wiederholt werden). Vergleichen Sie das Adressbuch jeder Person paarweise
Es gibt beispielsweise vier Adressbücher von ABCDE und ermitteln Sie die Anzahl der doppelten Einträge im Adressbuch zwischen AB AC AD AE BC BD BE CD CE DE
Wenn die Mobiltelefonnummer dupliziert ist, wird davon ausgegangen, dass es sich bei diesen beiden Adressbüchern um Duplikate handelt
Dies ist eine Datentabelle, es gibt mehr als 10.000 persönliche Adressbücher
Der im Listenfeld gespeicherte JSON ist der Inhalt des Adressbuchs
Das Adressbuch einer Person umfasst 100 bis 1000 Einträge
Was ich gerade versuche, ist, das Adressbuch aller auf einmal herauszunehmen, dann das Adressbuch der ersten Person mit den übrigen zu vergleichen (das foreach-Array mit darin verschachteltem foreach) und dann die Adresse der zweiten Person zu nehmen Buchen und vergleichen Sie es mit dem Rest, und so weiter 🎜>
Dann hat die Ausführung des Skripts mehr als 20 Stunden gedauert und nur etwa die Hälfte davon wurde abgeschlossen.Die Speicher- und CPU-Auslastung ist ebenfalls relativ hoch.
Ich würde gerne fragen, ob es eine bessere Möglichkeit gibt, die doppelten Teile dieses Datenstapels zu finden oder wie das Skript optimiert werden kann
Vielen Dank an alle
Antwortinhalt:
Der im Listenfeld gespeicherte JSON ist der Inhalt des Adressbuchs
Das Adressbuch einer Person umfasst 100 bis 1000 Einträge
Was ich gerade versuche, ist, das Adressbuch aller auf einmal herauszunehmen, dann das Adressbuch der ersten Person mit den übrigen zu vergleichen (das foreach-Array mit darin verschachteltem foreach) und dann die Adresse der zweiten Person zu nehmen Buchen und vergleichen Sie es mit dem Rest, und so weiter 🎜>
Dann hat die Ausführung des Skripts mehr als 20 Stunden gedauert und nur etwa die Hälfte davon wurde abgeschlossen.Die Speicher- und CPU-Auslastung ist ebenfalls relativ hoch.
Ich würde gerne fragen, ob es eine bessere Möglichkeit gibt, die doppelten Teile dieses Datenstapels zu finden oder wie das Skript optimiert werden kann
Vielen Dank an alle