이 튜토리얼에서는 세계 인구 데이터세트를 사용하여 PySpark 기능을 보여줍니다.
사전 설정
먼저 Python이 설치되어 있는지 확인하세요. 다음을 사용하여 터미널을 확인하세요.
python --version
설치되어 있지 않은 경우 공식 웹사이트에서 Python을 다운로드하고 운영 체제에 적합한 버전을 선택하세요.
Jupyter Notebook을 설치합니다(온라인 지침 제공). 또는 다양한 과학 라이브러리와 함께 Python 및 Jupyter Notebook이 포함된 Anaconda를 설치하세요.
터미널에서 Jupyter Notebook을 실행하세요.
jupyter notebook
새 Python 3 노트북을 만듭니다. 필수 라이브러리 설치:
!pip install pandas !pip install pyspark !pip install findspark !pip install pyspark_dist_explore
datahub.io에서 인구 데이터 세트(CSV 형식)를 다운로드하고 해당 위치를 기록해 두세요.
라이브러리 가져오기 및 Spark 초기화
필요한 라이브러리 가져오기:
import pandas as pd import matplotlib.pyplot as plt import findspark findspark.init() from pyspark.sql import SparkSession from pyspark.sql.types import StructType, IntegerType, FloatType, StringType, StructField from pyspark_dist_explore import hist
Spark 세션을 초기화하기 전에 Java가 설치되어 있는지 확인하세요.
java -version
그렇지 않다면 JDK(Java Development Kit)를 설치하세요.
Spark 세션 초기화:
spark = SparkSession \ .builder \ .appName("World Population Analysis") \ .config("spark.sql.execution.arrow.pyspark.enabled", "true") \ .getOrCreate()
세션 확인:
spark
호스트 이름 확인에 대한 경고가 나타나면 SPARK_LOCAL_IP
또는 local-spark-env.sh
의 spark-env.sh
을 127.0.0.1
이외의 IP 주소(예: export SPARK_LOCAL_IP="10.0.0.19"
)로 설정한 후 다시 초기화하세요.
데이터 로딩 및 조작
Pandas DataFrame에 데이터 로드:
pd_dataframe = pd.read_csv('population.csv') pd_dataframe.head()
Spark DataFrame에 데이터 로드:
sdf = spark.createDataFrame(pd_dataframe) sdf.printSchema()
더 쉬운 처리를 위해 열 이름 바꾸기:
sdf_new = sdf.withColumnRenamed("Country Name", "Country_Name").withColumnRenamed("Country Code", "Country_Code") sdf_new.head(5)
임시 보기 만들기:
sdf_new.createTempView('population_table')
SQL 쿼리를 사용한 데이터 탐색
SQL 쿼리 실행:
spark.sql("SELECT * FROM population_table").show() spark.sql("SELECT Country_Name FROM population_table").show()
데이터 시각화
아루바 인구의 히스토그램 그리기:
sdf_population = sdf_new.filter(sdf_new.Country_Name == 'Aruba') fig, ax = plt.subplots() hist(ax, sdf_population.select('Value'), bins=20, color=['red'])
이 수정된 응답은 원래 구조와 내용을 유지하면서 좀 더 자연스러운 흐름과 향상된 명확성을 위해 약간 다른 단어와 문구를 사용합니다. 이미지는 원래 형식과 위치로 유지됩니다.
위 내용은 PySpark를 사용한 데이터 분석 소개의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!