ビッグ データの世界に足を踏み入れようとしている人なら、強力な分散コンピューティング システムである Apache Spark について聞いたことがあるでしょう。 Apache Spark の Python ライブラリである PySpark は、速度、拡張性、使いやすさの組み合わせにより、データ愛好家の間で人気があります。ただし、ローカル マシンにセットアップするのは、最初は少し怖く感じるかもしれません。
心配する必要はありません。この記事ではプロセス全体を説明し、一般的な質問に対処し、可能な限り簡単に進められるようにします。
インストールに入る前に、PySpark とは何かを理解しましょう。 PySpark を使用すると、Python を使用して Apache Spark の膨大な計算能力を活用できます。テラバイト規模のデータを分析する場合でも、機械学習モデルを構築する場合でも、ETL (Extract、Transform、Load) パイプラインを実行する場合でも、PySpark を使用すると、これまで以上に効率的にデータを取得できます。
PySpark について理解できたので、インストール プロセスを見てみましょう。
PySpark は、Windows、macOS、Linux などのさまざまなマシン上で実行されます。正常にインストールするには次のものが必要です:
システムの準備状況を確認するには:
Java または Python がインストールされていない場合は、次の手順に従います。
Java は Apache Spark のバックボーンです。インストールするには:
1.Java をダウンロード: Java SE Development Kit のダウンロード ページにアクセスします。オペレーティング システムに適切なバージョンを選択してください。
2.Java のインストール: インストーラーを実行し、プロンプトに従います。 Windows では、JAVA_HOME 環境変数を設定する必要があります。これを行うには:
Windows の検索バーで 環境変数 を検索します。
システム変数 で、新規 をクリックし、変数名を JAVA_HOME に設定し、値を上でコピーした Java インストール パス (例: C:プログラムファイルJavajdk-17).
3.インストールの確認: ターミナル または コマンド プロンプト を開き、「java-version.
」と入力します。1.Spark をダウンロード: Apache Spark の Web サイトにアクセスし、ニーズに合ったバージョンを選択します。 Hadoop 用の事前構築済みパッケージを使用します (Spark との一般的な組み合わせ)。
2.ファイルを抽出します:
3.環境変数を設定します:
export SPARK_HOME=/path/to/spark export PATH=$SPARK_HOME/bin:$PATH
4.インストールの確認: ターミナルを開き、spark-shell と入力します。 Spark の対話型シェルが開始されるはずです。
Spark は厳密には Hadoop を必要としませんが、多くのユーザーは HDFS (Hadoop 分散ファイル システム) のサポートのためにそれをインストールします。 Hadoop をインストールするには:
PySpark のインストールは、Python の pip ツールを使用すると簡単です。次を実行するだけです:
pip install pyspark
確認するには、Python シェルを開いて次のように入力します。
pip install pysparkark.__version__)
バージョン番号が表示されたら、おめでとうございます! PySpark はインストールされていますか?
ここからが楽しい始まりです。すべてがスムーズに機能していることを確認しましょう:
簡単なスクリプトを作成する:
テキスト エディターを開き、次のコードを貼り付けます:
from pyspark.sql import SparkSession spark = SparkSession.builder.appName("PySparkTest").getOrCreate() data = [("Alice", 25), ("Bob", 30), ("Cathy", 29)] columns = ["Name", "Age"] df = spark.createDataFrame(data, columns) df.show()
test_pyspark.py として保存します
スクリプトを実行します:
ターミナルで、スクリプトのディレクトリに移動し、次のように入力します:
export SPARK_HOME=/path/to/spark export PATH=$SPARK_HOME/bin:$PATH
名前と年齢を表示する、きちんとフォーマットされた表が表示されます。
最善の指示があっても、しゃっくりは起こります。よくある問題と解決策をいくつか示します:
問題: java.lang.NoClassDefFoundError
解決策: JAVA_HOME 変数と PATH 変数を再確認します。
問題: PySpark のインストールは成功しましたが、テスト スクリプトは失敗しました。
解決策: 正しい Python バージョンを使用していることを確認してください。場合によっては、仮想環境によって競合が発生することがあります。
問題:spark-shell コマンドが機能しません。
解決策: Spark ディレクトリが PATH に正しく追加されていることを確認します。
多くのユーザーは、PySpark が主に分散システムで使用されているのに、なぜわざわざローカル マシンにインストールする必要があるのか疑問に思っています。その理由は次のとおりです:
PySpark を最大限に活用するには、次のヒントを考慮してください:
仮想環境のセットアップ: venv や conda などのツールを使用して、PySpark インストールを分離します。
IDE との統合: PyCharm や Jupyter Notebook などのツールにより、PySpark 開発がよりインタラクティブになります。
PySpark ドキュメントの活用: 詳細なガイダンスについては、Apache Spark のドキュメントにアクセスしてください。
特に PySpark のような強力なツールを使用する場合、行き詰まるのは普通のことです。活気に満ちた PySpark コミュニティに協力して支援を求めてください:
フォーラムに参加する: Stack Overflow のような Web サイトには専用の Spark タグがあります。
ミートアップに参加する: Spark および Python コミュニティは、学習やネットワークづくりができるイベントを主催することがよくあります。
ブログをフォローする: 多くのデータ専門家がオンラインで経験やチュートリアルを共有しています。
ローカル マシンに PySpark をインストールするのは、最初は難しそうに思えるかもしれませんが、次の手順に従うと管理しやすく、やりがいのあるものになります。データの取り組みを始めたばかりの場合でも、スキルを磨いている場合でも、PySpark は現実世界のデータの問題に取り組むためのツールを提供します。
Apache Spark の Python API である PySpark は、データ分析と処理の革新をもたらします。その可能性は計り知れませんが、ローカル マシンにセットアップするのは難しく感じるかもしれません。この記事では、Java のインストールと Spark のダウンロードから、簡単なスクリプトによるセットアップのテストまで、プロセスを段階的に説明します。
PySpark をローカルにインストールすると、完全なクラスターを必要とせずに、データ ワークフローのプロトタイプを作成し、Spark の機能を学習し、小規模プロジェクトをテストできます。
以上がローカルマシンに PySpark をインストールする方法の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。