지역 사회

배우다

도구 라이브러리

AI 도구

여가

한국어

집 > 데이터 베이스 > MySQL 튜토리얼 > Pyspark DataFrame 필터링을 위해 IN 절을 올바르게 사용하는 방법은 무엇입니까?

Pyspark DataFrame 필터링을 위해 IN 절을 올바르게 사용하는 방법은 무엇입니까?

Susan Sarandon

풀어 주다： 2024-12-27 18:31:20

원래의

680명이 탐색했습니다.

How to Correctly Use the IN Clause for Filtering Pyspark DataFrames?

SQL과 유사한 IN 절을 사용하여 Pyspark DataFrame 필터링: 구문 오류 해결

SQL을 사용하여 Pyspark DataFrame을 필터링하려고 할 때- IN 절과 마찬가지로 IN 절 값을 작은따옴표로 묶지 않으면 구문 오류가 발생할 수 있습니다. 이 문제를 해결하려면 SQL 쿼리에서 값을 명시적으로 문자열로 전달하세요.

해결책:

값을 튜플로 직접 지정하는 대신 문자열 형식을 사용하세요. 값을 SQL 쿼리에 통합합니다. 예:

df = sqlc.sql("SELECT * FROM my_df WHERE field1 IN {}".format(str((1, 2, 3))))

로그인 후 복사

이 접근 방식을 사용하면 SQL 환경의 컨텍스트에서 값이 평가되고 SQL 파서에서 올바르게 처리됩니다.

대체 접근 방식: Spark 사용 DataFrame API

Spark는 Dataframe API를 통해 IN 절을 사용하여 DataFrame을 필터링하는 보다 편리한 방법도 제공합니다. 이 접근 방식은 일반적으로 단순성과 표현성 때문에 선호됩니다.

from pyspark.sql.functions import col

df.where(col("field1").isin((1, 2, 3))).count()

로그인 후 복사

여기서 isin() 함수는 튜플이나 배열을 인수로 사용하고 field1 열의 각 값이 입력 목록에 있는지 확인합니다. . 이 방법은 간결하면서도 다양하고 강력한 데이터 조작 작업을 제공합니다.

위 내용은 Pyspark DataFrame 필터링을 위해 IN 절을 올바르게 사용하는 방법은 무엇입니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

이전 기사：PostgreSQL에서 각 카테고리의 최대 날짜를 가진 ID를 선택하는 방법은 무엇입니까? 다음 기사：SQL 쿼리에서 데이터를 일치시킬 때 공백을 어떻게 무시할 수 있습니까?

본 웹사이트의 성명

본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.

저자별 최신 기사

최신 이슈

function_exists()는 사용자 정의 함수를 결정할 수 없습니다. 기능 테스트() { ...

에서 2024-04-29 11:01:01

0

3

2890

Chrome 모바일 버전을 표시하는 방법 안녕하세요 선생님, Chrome을 모바일 버전으로 어떻게 변경하나요?

에서 2024-04-23 00:22:19

0

11

3075

자식 창이 부모 창을 작동하지만 출력이 응답하지 않습니다. 처음 두 문장은 실행 가능하지만 마지막 문장은 구현할 수 없습니다.

에서 2024-04-19 15:37:47

0

1

2523

상위 창에 출력이 없습니다. document.onclick = function(){ window.opener.document.write('나는 자식 창의 출력입니다.');

에서 2024-04-18 23:52:34

0

1

2459

CSS 마인드맵 코스웨어는 어디에 있나요? 코스웨어

에서 2024-04-16 10:10:18

0

0

2492

관련 주제

더>

인기 추천

인기 튜토리얼

더>

관련 튜토리얼

인기 추천

최신 강좌

최신 다운로드

더>

웹 효과

웹사이트 소스 코드

웹사이트 자료

프론트엔드 템플릿