Récupération de résultats de requête spécifiques à partir d'une base de données externe dans Apache Spark 2.0.0
Lorsque vous travaillez avec des bases de données externes dans Apache Spark 2.0.0 à l'aide de PySpark , les utilisateurs peuvent souhaiter récupérer des données à partir de requêtes spécifiques plutôt que de récupérer la table entière. Cela peut améliorer les performances et réduire le transfert de données.
Question :
Dans le code PySpark suivant, le DataFrame df est chargé à partir d'une table de base de données nommée "schema.tablename" . Comment pouvons-nous modifier le code pour récupérer les données de l'ensemble de résultats d'une requête personnalisée ?
from pyspark.sql import SparkSession spark = SparkSession\ .builder\ .appName("spark play")\ .getOrCreate() df = spark.read\ .format("jdbc")\ .option("url", "jdbc:mysql://localhost:port")\ .option("dbtable", "schema.tablename")\ .option("user", "username")\ .option("password", "password")\ .load()
Réponse :
Pour récupérer l'ensemble de résultats d'une requête personnalisée requête, fournissez la requête comme argument « dbtable » dans les options de Spark DataFrameReader. La requête doit être placée entre parenthèses et alias un nom de table temporaire.
... .option("dbtable", "(SELECT foo, bar FROM schema.tablename) AS tmp") ...
En passant la sous-requête comme argument "dbtable", Spark exécutera la requête et chargera les données résultantes dans le DataFrame. Cela permet aux utilisateurs de récupérer des données spécifiques à partir de bases de données externes sans avoir à récupérer la table entière.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!