Spark SQL에서 SQL 쿼리 내에서 사용자 정의 함수(UDF)를 활용하면 특히 예상치 못한 동작이 발생할 수 있습니다. 의도된 완전 외부 조인 대신 데카르트 곱의 등장.
UDF를 사용할 때 Spark는 평가를 위해 가능한 모든 인수 조합을 고려하여 이를 임의의 함수로 처리합니다. 이를 위해서는 모든 쌍에 대한 철저한 검사를 보장하기 위한 데카르트 곱이 필요합니다.
UDF와 달리 t1.foo = t2.bar와 같은 기본 동등 비교는 예측 가능한 동작을 갖고 있으므로 Spark가 허용됩니다. 동등 기준에 따라 t1 및 t2 행을 효율적으로 섞습니다. 예측할 수 없는 특성으로 인해 UDF에는 이러한 최적화가 없습니다.
관계 대수학에서 외부 조인은 기본적으로 자연 조인으로 표현됩니다. 널리 사용되는 SQL 엔진의 최적화. 따라서 Spark SQL 엔진 자체를 변경하지 않고는 UDF가 포함된 데카르트 곱에 대한 외부 조인을 강제로 실행하는 것이 쉽지 않다는 점을 인식하는 것이 중요합니다.
위 내용은 Spark SQL의 UDF: 때때로 전체 외부 조인 대신 데카르트 곱을 생성하는 이유는 무엇입니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!