首页 > Java > 正文

postgreSQL 出现问题,尝试在 Docker 上的 Jupyter Notebook 上连接 PySpark

王林
发布: 2024-02-11 20:00:11
转载
1419 人浏览过

php小编柚子近日接到用户反馈,称在使用Docker上的Jupyter Notebook连接PySpark时遇到了问题。具体问题是在连接的过程中遇到了一些与PostgreSQL相关的困扰。针对这个问题,我们将为大家提供解决方案和操作步骤,以帮助用户顺利连接PySpark并解决问题。在本文中,我们将详细介绍如何使用Docker上的Jupyter Notebook连接PySpark,并提供一些常见问题的解决方法,希望能对大家有所帮助。

问题内容

我遇到了这个问题 py4jjavaerror: 调用 o124.save 时发生错误。 :org.postgresql.util.psqlexception:与 localhost:5432 的连接被拒绝。检查主机名和端口是否正确,以及 postmaster 是否接受 tcp/ip 连接。 当我在 jupyter notbook 上运行此 pysark 代码并使用 docker 运行所有内容时,postgresql 将安装在本地计算机(windows)中。

from pyspark.sql import SparkSession
from pyspark.sql.functions import lit, col, explode
import pyspark.sql.functions as f

spark = SparkSession.builder.appName("ETL Pipeline").config("spark.jars", "./postgresql-42.7.1.jar").getOrCreate()
df = spark.read.text("./Data/WordData.txt")

df2 = df.withColumn("splitedData", f.split("value"," "))
df3 = df2.withColumn("words", explode("splitedData"))
wordsDF = df3.select("words")
wordCount = wordsDF.groupBy("words").count()

driver = "org.postgresql.Driver"
url = "jdbc:postgresql://localhost:5432/local_database"
table = "word_count"
user = "postgres"
password = "12345"

wordCount.write.format("jdbc") \
    .option("driver", driver) \
    .option("url", url) \
    .option("dbtable", table) \
    .option("mode", "append") \
    .option("user", user) \
    .option("password", password) \
    .save()

spark.stop()
登录后复制

我尝试编辑 postgresql.conf 添加“listen_addresses = 'localhost'”并编辑 pg_hba.conf 添加“host all all 0.0.0.0/0 md5”,但它对我不起作用,所以我不知道该怎么做做。

解决方法

我也解决了在 docker 上安装 PostgreSQL 的问题(使用此图像 https://hub.docker .com/_/postgres/ 仅为 postgres 创建一个容器)并使用命令在 PySpark 容器和 postgreSQL 容器之间创建网络

docker网络创建my_network

此命令用于 postgres 容器

docker run --name postgres_container --network my_network -e POSTGRES_PASSWORD=12345 -d -p 5432:5432 postgres:latest

这个用于 Jupyter-pyspark 容器

docker run --name jupyter_container --network my_network -it -p 8888:8888 -v C:homeworkpath:/home/jovyan/work jupyter/pyspark-notebook:latest

以上是postgreSQL 出现问题,尝试在 Docker 上的 Jupyter Notebook 上连接 PySpark的详细内容。更多信息请关注PHP中文网其他相关文章!

来源:stackoverflow.com
本站声明
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn
热门教程
更多>
最新下载
更多>
网站特效
网站源码
网站素材
前端模板
关于我们 免责声明 Sitemap
PHP中文网:公益在线PHP培训,帮助PHP学习者快速成长!