> 데이터 베이스 > MySQL 튜토리얼 > IN 절을 사용하여 PySpark DataFrame을 효율적으로 필터링하는 방법은 무엇입니까?

IN 절을 사용하여 PySpark DataFrame을 효율적으로 필터링하는 방법은 무엇입니까?

Patricia Arquette
풀어 주다: 2024-12-28 21:57:11
원래의
370명이 탐색했습니다.

How to Efficiently Filter PySpark DataFrames Using an IN Clause?

IN 절을 사용하여 Pyspark DataFrame 필터링 처리

SQL과 같은 IN 절을 사용하여 Pyspark DataFrame 필터링은 문자열 형식을 사용하여 수행할 수 있습니다.

주어진 예에서:

sc = SparkContext()
sqlc = SQLContext(sc)
df = sqlc.sql('SELECT * from my_df WHERE field1 IN a')
로그인 후 복사

SQLContext에 전달된 문자열은 다음과 같습니다. SQL 환경에서 평가되며 클로저를 캡처하지 않습니다. 변수를 명시적으로 전달하려면 문자열 형식을 사용하세요.

df.registerTempTable("df")
sqlContext.sql("SELECT * FROM df WHERE v IN {0}".format(("foo", "bar"))).count()
로그인 후 복사

또는 DataFrame DSL이 동적 쿼리에 더 나은 옵션을 제공합니다.

from pyspark.sql.functions import col

df.where(col("v").isin({"foo", "bar"})).count()
로그인 후 복사

위 내용은 IN 절을 사용하여 PySpark DataFrame을 효율적으로 필터링하는 방법은 무엇입니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

원천:php.cn
본 웹사이트의 성명
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.
저자별 최신 기사
인기 튜토리얼
더>
최신 다운로드
더>
웹 효과
웹사이트 소스 코드
웹사이트 자료
프론트엔드 템플릿