> 백엔드 개발 > 파이썬 튜토리얼 > PySpark를 사용한 데이터 분석 소개

PySpark를 사용한 데이터 분석 소개

DDD
풀어 주다: 2025-01-12 12:14:43
원래의
998명이 탐색했습니다.

이 튜토리얼에서는 세계 인구 데이터세트를 사용하여 PySpark 기능을 보여줍니다.

사전 설정

먼저 Python이 설치되어 있는지 확인하세요. 다음을 사용하여 터미널을 확인하세요.

python --version
로그인 후 복사

설치되어 있지 않은 경우 공식 웹사이트에서 Python을 다운로드하고 운영 체제에 적합한 버전을 선택하세요.

Jupyter Notebook을 설치합니다(온라인 지침 제공). 또는 다양한 과학 라이브러리와 함께 Python 및 Jupyter Notebook이 포함된 Anaconda를 설치하세요.

터미널에서 Jupyter Notebook을 실행하세요.

jupyter notebook
로그인 후 복사

새 Python 3 노트북을 만듭니다. 필수 라이브러리 설치:

!pip install pandas
!pip install pyspark
!pip install findspark
!pip install pyspark_dist_explore
로그인 후 복사

datahub.io에서 인구 데이터 세트(CSV 형식)를 다운로드하고 해당 위치를 기록해 두세요.

라이브러리 가져오기 및 Spark 초기화

필요한 라이브러리 가져오기:

import pandas as pd
import matplotlib.pyplot as plt
import findspark
findspark.init()
from pyspark.sql import SparkSession
from pyspark.sql.types import StructType, IntegerType, FloatType, StringType, StructField
from pyspark_dist_explore import hist
로그인 후 복사

Spark 세션을 초기화하기 전에 Java가 설치되어 있는지 확인하세요.

java -version
로그인 후 복사

그렇지 않다면 JDK(Java Development Kit)를 설치하세요.

Spark 세션 초기화:

spark = SparkSession \
    .builder \
    .appName("World Population Analysis") \
    .config("spark.sql.execution.arrow.pyspark.enabled", "true") \
    .getOrCreate()
로그인 후 복사

세션 확인:

spark
로그인 후 복사

호스트 이름 확인에 대한 경고가 나타나면 SPARK_LOCAL_IP 또는 local-spark-env.shspark-env.sh127.0.0.1 이외의 IP 주소(예: export SPARK_LOCAL_IP="10.0.0.19")로 설정한 후 다시 초기화하세요.

데이터 로딩 및 조작

Pandas DataFrame에 데이터 로드:

pd_dataframe = pd.read_csv('population.csv')
pd_dataframe.head()
로그인 후 복사

Spark DataFrame에 데이터 로드:

sdf = spark.createDataFrame(pd_dataframe)
sdf.printSchema()
로그인 후 복사

더 쉬운 처리를 위해 열 이름 바꾸기:

sdf_new = sdf.withColumnRenamed("Country Name", "Country_Name").withColumnRenamed("Country Code", "Country_Code")
sdf_new.head(5)
로그인 후 복사

임시 보기 만들기:

sdf_new.createTempView('population_table')
로그인 후 복사

SQL 쿼리를 사용한 데이터 탐색

SQL 쿼리 실행:

spark.sql("SELECT * FROM population_table").show()
spark.sql("SELECT Country_Name FROM population_table").show()
로그인 후 복사

데이터 시각화

아루바 인구의 히스토그램 그리기:

sdf_population = sdf_new.filter(sdf_new.Country_Name == 'Aruba')
fig, ax = plt.subplots()
hist(ax, sdf_population.select('Value'), bins=20, color=['red'])
로그인 후 복사

Intro to Data Analysis using PySpark

이 수정된 응답은 원래 구조와 내용을 유지하면서 좀 더 자연스러운 흐름과 향상된 명확성을 위해 약간 다른 단어와 문구를 사용합니다. 이미지는 원래 형식과 위치로 유지됩니다.

위 내용은 PySpark를 사용한 데이터 분석 소개의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

본 웹사이트의 성명
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.
인기 튜토리얼
더>
최신 다운로드
더>
웹 효과
웹사이트 소스 코드
웹사이트 자료
프론트엔드 템플릿