Warum UDFs in SQL-Abfragen zu kartesischen Produkten führen
Bei der Verwendung von SQL können benutzerdefinierte Funktionen (UDFs) zu unerwarteten Leistungsproblemen führen. Dies zeigt sich insbesondere bei Verknüpfungsoperationen, bei denen UDFs zu kartesischen Produkten anstelle der gewünschten vollständigen äußeren Verknüpfung führen können.
Ursache kartesischer Produkte
Die Verwendung von UDFs erfordert die Auswertung beliebiger Funktionen mit potenziell unendlichen Definitionsbereichen und nichtdeterministischem Verhalten. Um den Wert dieser Funktionen zu bestimmen, muss das System alle möglichen Argumentkombinationen berücksichtigen, was zu einem kartesischen Produkt führt.
Beispiel
Berücksichtigen Sie die in der angegebenen SQL-Abfragen Databricks-Frage:
-- Query 1: Join without UDF SELECT col1, col2 FROM table1 AS t1 JOIN table2 AS t2 ON t1.foo = t2.bar; -- Query 2: Join with UDF SELECT col1, col2 FROM table1 AS t1 JOIN table2 AS t2 ON equals(t1.foo, t2.bar);
In Abfrage 1 ermöglicht die einfache Gleichheitsbedingung das Mischen von Daten basierend auf foo- und bar-Spalten, was das erwartete Ergebnis liefert. In Abfrage 2 erfordert die Verwendung der Gleichheits-UDF jedoch die Auswertung der Funktion für alle möglichen Paarkombinationen, was zu einem kartesischen Produkt führt.
Lösung
Erzwingen eines Äußeren Eine Verknüpfung über ein kartesisches Produkt ist im Allgemeinen nicht möglich, ohne die Spark SQL-Engine zu ändern. Allerdings könnte die Optimierung der UDF selbst zur Reduzierung der Anzahl der Auswertungen einen Teil der Leistungseinbußen abmildern.
Das obige ist der detaillierte Inhalt vonWarum erzeugen UDFs in SQL-Joins manchmal kartesische Produkte anstelle erwarteter Joins?. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!