Création d'un DataFrame dans Pyspark, la structure de données de base pour Spark, est l'étape de base pour toute tâche de traitement des données. Il existe plusieurs façons d'y parvenir, selon votre source de données. L'approche la plus simple et la plus courante consiste à utiliser la méthode spark.read.csv()
, que nous explorerons en détail plus tard. Cependant, avant de plonger dans des détails, installons notre environnement Spark. Vous devrez installer Pyspark. Sinon, vous pouvez l'installer en utilisant pip install pyspark
. Ensuite, vous devez initialiser une éteinte, qui est le point d'entrée de la fonctionnalité Spark. Cela se fait généralement comme suit:
from pyspark.sql import SparkSession spark = SparkSession.builder.appName("DataFrameCreation").getOrCreate()
Cela crée un objet Sparkcession nommé spark
. Nous utiliserons cet objet tout au long de nos exemples. N'oubliez pas d'arrêter la session une fois terminé en utilisant spark.stop()
. Maintenant, nous sommes prêts à créer notre premier DataFrame.
Les données de lecture d'un fichier CSV sont une méthode répandue pour créer des dataframes dans Pyspark. La fonction spark.read.csv()
offre une flexibilité dans la gestion de diverses caractéristiques de CSV. Supposons que vous ayez un fichier CSV nommé data.csv
dans votre répertoire de travail avec la structure suivante:
Name,Age,City Alice,25,New York Bob,30,London Charlie,28,Paris
Voici comment vous pouvez créer un DataFrame à partir de ce fichier CSV:
from pyspark.sql import SparkSession spark = SparkSession.builder.appName("DataFrameCreation").getOrCreate() df = spark.read.csv("data.csv", header=True, inferSchema=True) df.show() spark.stop()
header=True
indique que la première ligne contient des en-têtes de colonnes, et inferSchema=True
instruites étincelles pour inférer automatiquement les types de données de chaque colonne. Si ces options ne sont pas spécifiées, Spark supposera que la première ligne est des données et attribuera un type de données par défaut (généralement une chaîne) à toutes les colonnes. Vous pouvez explicitement définir le schéma à l'aide d'un objet StructType
pour plus de contrôle, ce qui est particulièrement bénéfique pour les ensembles de données complexes ou importants.
En plus de lire les fichiers CSV, Pyspark fournit plusieurs voies pour la création de données:
>from pyspark.sql import SparkSession spark = SparkSession.builder.appName("DataFrameCreation").getOrCreate()
Name,Age,City Alice,25,New York Bob,30,London Charlie,28,Paris
spark.read.json()
. Ceci est particulièrement utile pour les données semi-structurées. spark.read.parquet()
pour cela. spark.read
fournit des méthodes pour accéder à ces sources. Plusieurs problèmes courants peuvent survenir lors de la création de Fames de données:
spark.read.option("maxRecordsPerFile",10000).csv(...)
header=True
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!