SQL 쿼리에서 UDF가 데카르트 곱으로 이어지는 이유
SQL을 사용할 때 사용자 정의 함수(UDF)로 인해 예상치 못한 성능 문제가 발생할 수 있습니다. 이는 UDF가 원하는 전체 외부 조인 대신 데카르트 곱으로 이어질 수 있는 조인 작업에서 특히 분명합니다.
데카르트 곱의 원인
UDF를 사용하려면 다음이 필요합니다. 잠재적으로 무한한 영역과 비결정적 동작을 갖는 임의 함수의 평가. 이러한 함수의 값을 결정하려면 시스템은 가능한 모든 인수 조합을 고려하여 데카르트 곱을 만들어야 합니다.
예
주어진 항목에 제공된 SQL 쿼리를 고려하세요. Databricks-Question:
-- Query 1: Join without UDF SELECT col1, col2 FROM table1 AS t1 JOIN table2 AS t2 ON t1.foo = t2.bar; -- Query 2: Join with UDF SELECT col1, col2 FROM table1 AS t1 JOIN table2 AS t2 ON equals(t1.foo, t2.bar);
쿼리 1에서 간단한 동등 조건은 데이터를 허용합니다. foo 및 bar 열을 기준으로 셔플링하여 예상한 결과를 생성합니다. 그러나 쿼리 2에서 같음 UDF를 사용하려면 가능한 모든 쌍 조합에 대한 함수를 평가해야 하며 결과적으로 데카르트 곱이 생성됩니다.
해결책
외부 강제 데카르트 곱을 통한 조인은 일반적으로 Spark SQL 엔진을 수정하지 않고는 불가능합니다. 그러나 UDF 자체를 최적화하여 평가 횟수를 줄이면 성능 저하를 어느 정도 완화할 수 있습니다.
위 내용은 SQL 조인의 UDF가 때때로 예상 조인 대신 데카르트 곱을 생성하는 이유는 무엇입니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!