> 데이터 베이스 > MySQL 튜토리얼 > PySpark의 JDBC를 사용하여 외부 데이터베이스에서 특정 쿼리 결과를 어떻게 가져올 수 있습니까?

PySpark의 JDBC를 사용하여 외부 데이터베이스에서 특정 쿼리 결과를 어떻게 가져올 수 있습니까?

Linda Hamilton
풀어 주다: 2024-11-30 07:34:15
원래의
441명이 탐색했습니다.

How Can I Fetch Specific Query Results from an External Database Using PySpark's JDBC?

Apache Spark 2.0.0의 외부 데이터베이스에서 특정 쿼리 결과 가져오기

PySpark를 사용하여 Apache Spark 2.0.0에서 외부 데이터베이스로 작업하는 경우 , 사용자는 전체 테이블을 가져오는 대신 특정 쿼리에서 데이터를 가져오고 싶어할 수 있습니다. 이렇게 하면 성능이 향상되고 데이터 전송이 줄어들 수 있습니다.

질문:

다음 PySpark 코드에서 df DataFrame은 "schema.tablename"이라는 데이터베이스 테이블에서 로드됩니다. . 대신 사용자 정의 쿼리의 결과 세트에서 데이터를 가져오도록 코드를 수정하려면 어떻게 해야 합니까?

from pyspark.sql import SparkSession

spark = SparkSession\
    .builder\
    .appName("spark play")\
    .getOrCreate()    

df = spark.read\
    .format("jdbc")\
    .option("url", "jdbc:mysql://localhost:port")\
    .option("dbtable", "schema.tablename")\
    .option("user", "username")\
    .option("password", "password")\
    .load()
로그인 후 복사

답변:

사용자 정의 쿼리의 결과 세트를 가져오려면 쿼리의 경우 Spark DataFrameReader의 옵션에서 "dbtable" 인수로 쿼리를 제공합니다. 쿼리는 괄호로 묶어야 하며 임시 테이블 이름에 대한 별칭을 지정해야 합니다.

...
.option("dbtable", "(SELECT foo, bar FROM schema.tablename) AS tmp")
...
로그인 후 복사

하위 쿼리를 "dbtable" 인수로 전달하면 Spark는 쿼리를 실행하고 결과 데이터를 DataFrame에 로드합니다. 이를 통해 사용자는 전체 테이블을 가져오는 오버헤드 없이 외부 데이터베이스에서 특정 데이터를 검색할 수 있습니다.

위 내용은 PySpark의 JDBC를 사용하여 외부 데이터베이스에서 특정 쿼리 결과를 어떻게 가져올 수 있습니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

원천:php.cn
본 웹사이트의 성명
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.
저자별 최신 기사
인기 튜토리얼
더>
최신 다운로드
더>
웹 효과
웹사이트 소스 코드
웹사이트 자료
프론트엔드 템플릿