목차
설치
파이썬 구성
PySpark 노트북 예시
참고자료
백엔드 개발 파이썬 튜토리얼 PySpark 로컬 Python Windows 노트북 실행

PySpark 로컬 Python Windows 노트북 실행

Jan 21, 2025 pm 06:15 PM

PySpark 시작 가이드: 로컬 환경에서 쉽게 구성하고 사용할 수 있습니다

PySpark는 빠르고 확장 가능한 데이터 처리를 가능하게 하는 오픈 소스 분산 컴퓨팅 시스템인 Apache Spark의 Python API입니다. PySpark를 사용하면 Python 개발자는 Java 또는 Scala의 복잡성을 탐구할 필요 없이 Spark의 강력한 기능을 활용하여 빅 데이터 분석, 기계 학습 및 데이터 엔지니어링 작업을 수행할 수 있습니다.

PySpark를 사용하면 사용자는 대규모 데이터 세트를 처리하고, 분산 데이터 변환을 수행하고, 클러스터에서 기계 학습 알고리즘을 실행할 수 있습니다. Hadoop과 같은 널리 사용되는 데이터 처리 프레임워크와 원활하게 통합되고 다양한 데이터 형식을 지원하므로 데이터 과학 및 분석 분야의 다목적 도구가 됩니다.

이 가이드에서는 로컬 컴퓨터 환경에서 PySpark를 쉽게 설정하고 사용할 수 있도록 PySpark 구성에 대한 개요를 제공합니다.

설치

  1. Python 설치: https://www.php.cn/link/70fa3e3aed5e5da45f0114c00fadfb41
  2. Java 설치: 먼저 최신 버전의 Java를 다운로드하세요. https://www.php.cn/link/8513351ff7f10b0f156c9d1f669e1210 (이 글에서는 Java 23을 사용합니다.)
  3. PySpark 설치:

먼저 다음에서 Apache Spark를 다운로드해야 합니다.

이 문서에서는 https://www.php.cn/link/8f7b2d9100577f77aa8fbb4f51c0366e를 튜토리얼 예시로 사용합니다.

파이썬 구성

  1. Java 구성:
import os
os.environ["JAVA_HOME"] = fr"D:\Soft\JAVA\jdk-23.0.1"
os.environ["PATH"] = os.environ["JAVA_HOME"] + "/bin;" + os.environ["PATH"]
로그인 후 복사
  1. PySpark 구성:
import os
os.environ["SPARK_HOME"] = fr"D:\Soft\pyspark\spark-3.5.4-bin-hadoop3"
os.environ["PATH"] = os.environ["SPARK_HOME"] + "/bin;" + os.environ["PATH"]
로그인 후 복사

구성이 완료되면 명령줄에서 PySpark를 확인해 볼 수 있습니다.

PySpark 노트북 예시

import numpy as np
import pandas as pd
from pyspark.sql import SparkSession

spark = SparkSession.builder \
    .appName("调试示例") \
    .master("local[*]") \
    .config("spark.eventLog.enabled", "true") \
    .config("spark.sql.shuffle.partitions", "1") \
    .getOrCreate()

spark.sparkContext.setLogLevel("DEBUG")
# 启用基于Arrow的列式数据传输
spark.conf.set("spark.sql.execution.arrow.enabled", "true")

# 生成pandas DataFrame
pdf = pd.DataFrame(np.random.rand(100, 3))

# 使用Arrow从pandas DataFrame创建Spark DataFrame
df = spark.createDataFrame(pdf)
# 重命名列
df = df.toDF("a", "b", "c")
df.show(5) # 使用df.show(5)查看PySpark测试输出
로그인 후 복사

Run PySpark Local Python Windows Notebook

머신러닝 데이터 예시:

import requests
from pyspark.sql import SparkSession

# 数据集URL
url = "https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data"

# 下载数据集并保存到本地
response = requests.get(url)
with open("iris.data", "wb") as file:
    file.write(response.content)

# 创建SparkSession
spark = SparkSession.builder \
    .appName("鸢尾花数据分析") \
    .master("local[*]") \
    .getOrCreate()

# 本地下载的鸢尾花数据集路径
iris_data_path = "iris.data"

# 定义数据的模式
columns = ["sepal_length", "sepal_width", "petal_length", "petal_width", "species"]

# 将数据加载到DataFrame中
df = spark.read.csv(iris_data_path, header=False, inferSchema=True)

# 设置列名
df = df.toDF(*columns)

# 显示DataFrame的前几行
df.show()

# 完成后停止SparkSession
spark.stop()
로그인 후 복사

Run PySpark Local Python Windows Notebook

성공적으로 실행하세요!

참고자료

위 내용은 PySpark 로컬 Python Windows 노트북 실행의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

본 웹사이트의 성명
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.

핫 AI 도구

Undresser.AI Undress

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

Clothoff.io

AI 옷 제거제

AI Hentai Generator

AI Hentai Generator

AI Hentai를 무료로 생성하십시오.

뜨거운 도구

메모장++7.3.1

메모장++7.3.1

사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전

SublimeText3 중국어 버전

중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기

스튜디오 13.0.1 보내기

강력한 PHP 통합 개발 환경

드림위버 CS6

드림위버 CS6

시각적 웹 개발 도구

SublimeText3 Mac 버전

SublimeText3 Mac 버전

신 수준의 코드 편집 소프트웨어(SublimeText3)

Python을 사용하여 텍스트 파일의 ZIPF 배포를 찾는 방법 Python을 사용하여 텍스트 파일의 ZIPF 배포를 찾는 방법 Mar 05, 2025 am 09:58 AM

Python을 사용하여 텍스트 파일의 ZIPF 배포를 찾는 방법

파이썬에서 파일을 다운로드하는 방법 파이썬에서 파일을 다운로드하는 방법 Mar 01, 2025 am 10:03 AM

파이썬에서 파일을 다운로드하는 방법

파이썬의 이미지 필터링 파이썬의 이미지 필터링 Mar 03, 2025 am 09:44 AM

파이썬의 이미지 필터링

HTML을 구문 분석하기 위해 아름다운 수프를 어떻게 사용합니까? HTML을 구문 분석하기 위해 아름다운 수프를 어떻게 사용합니까? Mar 10, 2025 pm 06:54 PM

HTML을 구문 분석하기 위해 아름다운 수프를 어떻게 사용합니까?

Python을 사용하여 PDF 문서를 사용하는 방법 Python을 사용하여 PDF 문서를 사용하는 방법 Mar 02, 2025 am 09:54 AM

Python을 사용하여 PDF 문서를 사용하는 방법

Django 응용 프로그램에서 Redis를 사용하여 캐시하는 방법 Django 응용 프로그램에서 Redis를 사용하여 캐시하는 방법 Mar 02, 2025 am 10:10 AM

Django 응용 프로그램에서 Redis를 사용하여 캐시하는 방법

NLTK (Natural Language Toolkit) 소개 NLTK (Natural Language Toolkit) 소개 Mar 01, 2025 am 10:05 AM

NLTK (Natural Language Toolkit) 소개

Tensorflow 또는 Pytorch로 딥 러닝을 수행하는 방법은 무엇입니까? Tensorflow 또는 Pytorch로 딥 러닝을 수행하는 방법은 무엇입니까? Mar 10, 2025 pm 06:52 PM

Tensorflow 또는 Pytorch로 딥 러닝을 수행하는 방법은 무엇입니까?

See all articles