SQL과 유사한 IN 절을 사용하여 Pyspark DataFrame 필터링: 구문 오류 해결
SQL을 사용하여 Pyspark DataFrame을 필터링하려고 할 때- IN 절과 마찬가지로 IN 절 값을 작은따옴표로 묶지 않으면 구문 오류가 발생할 수 있습니다. 이 문제를 해결하려면 SQL 쿼리에서 값을 명시적으로 문자열로 전달하세요.
해결책:
값을 튜플로 직접 지정하는 대신 문자열 형식을 사용하세요. 값을 SQL 쿼리에 통합합니다. 예:
df = sqlc.sql("SELECT * FROM my_df WHERE field1 IN {}".format(str((1, 2, 3))))
이 접근 방식을 사용하면 SQL 환경의 컨텍스트에서 값이 평가되고 SQL 파서에서 올바르게 처리됩니다.
대체 접근 방식: Spark 사용 DataFrame API
Spark는 Dataframe API를 통해 IN 절을 사용하여 DataFrame을 필터링하는 보다 편리한 방법도 제공합니다. 이 접근 방식은 일반적으로 단순성과 표현성 때문에 선호됩니다.
from pyspark.sql.functions import col df.where(col("field1").isin((1, 2, 3))).count()
여기서 isin() 함수는 튜플이나 배열을 인수로 사용하고 field1 열의 각 값이 입력 목록에 있는지 확인합니다. . 이 방법은 간결하면서도 다양하고 강력한 데이터 조작 작업을 제공합니다.
위 내용은 Pyspark DataFrame 필터링을 위해 IN 절을 올바르게 사용하는 방법은 무엇입니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!