SQL 쿼리의 UDF 및 데카르트 곱
SQL 쿼리에서 사용자 정의 함수(UDF)를 사용하면 데카르트 곱이 발생할 수 있습니다. 의도한 완전 외부 조인 대신. 데카르트 곱은 한 테이블의 모든 행이 다른 테이블의 모든 행과 결합되어 완전 외부 조인보다 훨씬 더 큰 데이터세트를 생성할 때 발생합니다.
UDF가 데카르트 곱을 발생시키는 이유는 무엇입니까?
UDF는 쿼리 엔진에 의한 최적화를 방해하는 추가적인 복잡성 수준을 도입합니다. UDF는 비결정적 동작으로 인수를 개수 제한 없이 받아들일 수 있습니다. 가능한 모든 행 조합에 대해 UDF를 평가하려면 쿼리 엔진이 데카르트 곱을 수행해야 합니다.
반면, 열 간의 단순 동등 비교(예: t1.foo = t2.bar)에는 예측 가능한 동작이 있습니다. . 쿼리 엔진은 이를 사용하여 foo 및 bar 열을 기반으로 행을 섞음으로써 조인을 최적화할 수 있으며, 데카르트 곱이 필요하지 않습니다.
외부 조인 시행
불행하게도 위의 예에서 데카르트 곱에 대해 외부 조인을 강제하는 간단한 방법은 없습니다. 유일한 옵션은 Spark SQL 엔진을 수정하는 것입니다.
위에서 설명했듯이 데카르트 곱은 UDF의 임의적이고 비결정적인 특성의 결과입니다. 추가 제약 조건을 도입하지 않으면 쿼리 엔진이 이를 최적화할 수 없습니다.
위 내용은 SQL 쿼리의 UDF가 때때로 외부 조인 대신 데카르트 곱을 생성하는 이유는 무엇입니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!