php小编柚子近日接到用户反馈,称在使用Docker上的Jupyter Notebook连接PySpark时遇到了问题。具体问题是在连接的过程中遇到了一些与PostgreSQL相关的困扰。针对这个问题,我们将为大家提供解决方案和操作步骤,以帮助用户顺利连接PySpark并解决问题。在本文中,我们将详细介绍如何使用Docker上的Jupyter Notebook连接PySpark,并提供一些常见问题的解决方法,希望能对大家有所帮助。
我遇到了这个问题 py4jjavaerror: 调用 o124.save 时发生错误。 :org.postgresql.util.psqlexception:与 localhost:5432 的连接被拒绝。检查主机名和端口是否正确,以及 postmaster 是否接受 tcp/ip 连接。
当我在 jupyter notbook 上运行此 pysark 代码并使用 docker 运行所有内容时,postgresql 将安装在本地计算机(windows)中。
from pyspark.sql import SparkSession from pyspark.sql.functions import lit, col, explode import pyspark.sql.functions as f spark = SparkSession.builder.appName("ETL Pipeline").config("spark.jars", "./postgresql-42.7.1.jar").getOrCreate() df = spark.read.text("./Data/WordData.txt") df2 = df.withColumn("splitedData", f.split("value"," ")) df3 = df2.withColumn("words", explode("splitedData")) wordsDF = df3.select("words") wordCount = wordsDF.groupBy("words").count() driver = "org.postgresql.Driver" url = "jdbc:postgresql://localhost:5432/local_database" table = "word_count" user = "postgres" password = "12345" wordCount.write.format("jdbc") \ .option("driver", driver) \ .option("url", url) \ .option("dbtable", table) \ .option("mode", "append") \ .option("user", user) \ .option("password", password) \ .save() spark.stop()
我尝试编辑 postgresql.conf 添加“listen_addresses = 'localhost'”并编辑 pg_hba.conf 添加“host all all 0.0.0.0/0 md5”,但它对我不起作用,所以我不知道该怎么做做。
我也解决了在 docker 上安装 PostgreSQL 的问题(使用此图像 https://hub.docker .com/_/postgres/ 仅为 postgres 创建一个容器)并使用命令在 PySpark 容器和 postgreSQL 容器之间创建网络
docker网络创建my_network
,
此命令用于 postgres 容器
docker run --name postgres_container --network my_network -e POSTGRES_PASSWORD=12345 -d -p 5432:5432 postgres:latest
这个用于 Jupyter-pyspark 容器
docker run --name jupyter_container --network my_network -it -p 8888:8888 -v C:homeworkpath:/home/jovyan/work jupyter/pyspark-notebook:latest
以上是postgreSQL 出现问题,尝试在 Docker 上的 Jupyter Notebook 上连接 PySpark的详细内容。更多信息请关注PHP中文网其他相关文章!