Pysparkで最初のデータフレームを作成する
Sparkのコアデータ構造であるPysparkでデータフレームを作成することは、データ処理タスクの基礎ステップです。 データソースに応じて、これを達成するにはいくつかの方法があります。 最も単純で最も一般的なアプローチは、メソッドを使用することです。これについては、後で詳しく説明します。 ただし、詳細に飛び込む前に、Spark環境を設定しましょう。 Pysparkをインストールする必要があります。 そうでない場合は、spark.read.csv()
を使用してインストールできます。 次に、スパークセッションを初期化する必要があります。これは、スパーク機能へのエントリポイントです。これは通常、次のように行われます。このオブジェクトは、例全体で使用します。 pip install pyspark
の使用が終了したら、セッションを停止することを忘れないでください。これで、最初のデータフレームを作成する準備が整いました。
from pyspark.sql import SparkSession spark = SparkSession.builder.appName("DataFrameCreation").getOrCreate()
spark
CSVファイルからデータの読み取りは、PySparkでデータフレームを作成するための一般的な方法です。 spark.stop()
関数は、さまざまなCSV特性を処理する柔軟性を提供します。 次の構造を備えた作業ディレクトリに
spark.read.csv()
data.csv
Name,Age,City Alice,25,New York Bob,30,London Charlie,28,Paris
from pyspark.sql import SparkSession spark = SparkSession.builder.appName("DataFrameCreation").getOrCreate() df = spark.read.csv("data.csv", header=True, inferSchema=True) df.show() spark.stop()
CSVファイルからの読み取り以外に、Pysparkはデータフレーム作成のための複数のアベニューを提供します。リストまたはタプルのリストから
from pyspark.sql import SparkSession spark = SparkSession.builder.appName("DataFrameCreation").getOrCreate()
Name,Age,City Alice,25,New York Bob,30,London Charlie,28,Paris
以上がPysparkで最初のデータフレームを作成しますの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。