hadoop数据节点通信异常
在前几天,我们的 hadoop 集群很不稳定。经常会有1个数据节点挂掉。使用jps查看,tasktracker和datanode均正常,没有crash掉。查看日志: org.apache. hadoop .ipc.Client: Retrying connect to server : xxxxx/192.168.0.xxxx:9001. Already tried 9 time(s
在前几天,我们的hadoop集群很不稳定。经常会有1个数据节点挂掉。使用jps查看,tasktracker和datanode均正常,没有crash掉。查看日志:
org.apache.hadoop.ipc.Client: Retrying connect to server: xxxxx/192.168.0.xxxx:9001. Already tried 9 time(s).
org.apache.hadoop.ipc.Client: Retrying connect to server: xxxxx/192.168.0.xxxx:9001. Already tried 8 time(s).
org.apache.hadoop.ipc.Client: Retrying connect to server: xxxxx/192.168.0.xxxx:9001. Already tried 7 time(s).
org.apache.hadoop.ipc.Client: Retrying connect to server: xxxxx/192.168.0.xxxx:9001. Already tried 6 time(s).
org.apache.hadoop.ipc.Client: Retrying connect to server: xxxxx/192.168.0.xxxx:9001. Already tried 5 time(s).
就是与namenode无法正常通信。
从集群的角度看,最近没有做过任何修改。
先尝试通过hadoop-daemon.sh stop datanode ,hadoop-daemon.sh stop tasktracker停止数据节点。
然后尝试通过hadoop-daemon.sh start datanode ,hadoop-daemon.sh start tasktracker启动数据节点。
均正常,无错误信息。
但是在运行一段时间,或者跑一两个MR程序后,该数据几点所在服务器负载开始暴增。
然后无法与namenode正常通信。
一个一个排查吧。
节点信息配置,HDFS信息,均无异常。在排查服务器配置的时候,看到了一个很奇怪的东西。
在etc/hosts中被增加了一个配置,如下:
127.0.1.1 xxxxxx
127.0.1.1是debian中的本地回环。这个造成了hadoop解析出现问题。而且此项配置不知道是谁增加上的。
在屏蔽该项后,问题依然存在,只能重启该服务器。重启后一切正常。
由此可看,保持hadoop集群的环境清洁是很重要的。而且这对于我以后针对hadoop集群异常检查增加了不少经验。hadoop集群的配置一般不会有很大的变动,hadoop对服务器环境的依赖较大,从服务器环境是否变化来排查问题是一个不错的解决方式,mark一下。
原文地址:hadoop数据节点通信异常, 感谢原作者分享。

热AI工具

Undresser.AI Undress
人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover
用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool
免费脱衣服图片

Clothoff.io
AI脱衣机

Video Face Swap
使用我们完全免费的人工智能换脸工具轻松在任何视频中换脸!

热门文章

热工具

记事本++7.3.1
好用且免费的代码编辑器

SublimeText3汉化版
中文版,非常好用

禅工作室 13.0.1
功能强大的PHP集成开发环境

Dreamweaver CS6
视觉化网页开发工具

SublimeText3 Mac版
神级代码编辑软件(SublimeText3)

热门话题

DDREASE是一种用于从文件或块设备(如硬盘、SSD、RAM磁盘、CD、DVD和USB存储设备)恢复数据的工具。它将数据从一个块设备复制到另一个块设备,留下损坏的数据块,只移动好的数据块。ddreasue是一种强大的恢复工具,完全自动化,因为它在恢复操作期间不需要任何干扰。此外,由于有了ddasue地图文件,它可以随时停止和恢复。DDREASE的其他主要功能如下:它不会覆盖恢复的数据,但会在迭代恢复的情况下填补空白。但是,如果指示工具显式执行此操作,则可以将其截断。将数据从多个文件或块恢复到单

0.这篇文章干了啥?提出了DepthFM:一个多功能且快速的最先进的生成式单目深度估计模型。除了传统的深度估计任务外,DepthFM还展示了在深度修复等下游任务中的最先进能力。DepthFM效率高,可以在少数推理步骤内合成深度图。下面一起来阅读一下这项工作~1.论文信息标题:DepthFM:FastMonocularDepthEstimationwithFlowMatching作者:MingGui,JohannesS.Fischer,UlrichPrestel,PingchuanMa,Dmytr

上篇文章(链接),小枣君给大家介绍了宽带技术从ISDN、xDSL到10GPON的发展历程。今天,我们来聊聊即将到来的新一代光纤宽带技术——50GPON。█F5G和F5G-A介绍50GPON之前,先说说F5G和F5G-A。2020年2月,ETSI(欧洲电信标准化协会)推进了一套以10GPON+FTTR、Wi-Fi6、200G光传送/汇聚、OXC等技术为基础的固定通信网络技术体系,并将其命名为F5G,也就是第五代固网通信技术(The5thgenerationFixednetworks)。F5G是固网

谷歌力推的JAX在最近的基准测试中性能已经超过Pytorch和TensorFlow,7项指标排名第一。而且测试并不是在JAX性能表现最好的TPU上完成的。虽然现在在开发者中,Pytorch依然比Tensorflow更受欢迎。但未来,也许有更多的大模型会基于JAX平台进行训练和运行。模型最近,Keras团队为三个后端(TensorFlow、JAX、PyTorch)与原生PyTorch实现以及搭配TensorFlow的Keras2进行了基准测试。首先,他们为生成式和非生成式人工智能任务选择了一组主流

在iPhone上面临滞后,缓慢的移动数据连接?通常,手机上蜂窝互联网的强度取决于几个因素,例如区域、蜂窝网络类型、漫游类型等。您可以采取一些措施来获得更快、更可靠的蜂窝互联网连接。修复1–强制重启iPhone有时,强制重启设备只会重置许多内容,包括蜂窝网络连接。步骤1–只需按一次音量调高键并松开即可。接下来,按降低音量键并再次释放它。步骤2–该过程的下一部分是按住右侧的按钮。让iPhone完成重启。启用蜂窝数据并检查网络速度。再次检查修复2–更改数据模式虽然5G提供了更好的网络速度,但在信号较弱

哭死啊,全球狂炼大模型,一互联网的数据不够用,根本不够用。训练模型搞得跟《饥饿游戏》似的,全球AI研究者,都在苦恼怎么才能喂饱这群数据大胃王。尤其在多模态任务中,这一问题尤为突出。一筹莫展之际,来自人大系的初创团队,用自家的新模型,率先在国内把“模型生成数据自己喂自己”变成了现实。而且还是理解侧和生成侧双管齐下,两侧都能生成高质量、多模态的新数据,对模型本身进行数据反哺。模型是啥?中关村论坛上刚刚露面的多模态大模型Awaker1.0。团队是谁?智子引擎。由人大高瓴人工智能学院博士生高一钊创立,高

特斯拉机器人Optimus最新视频出炉,已经可以在厂子里打工了。正常速度下,它分拣电池(特斯拉的4680电池)是这样的:官方还放出了20倍速下的样子——在小小的“工位”上,拣啊拣啊拣:这次放出的视频亮点之一在于Optimus在厂子里完成这项工作,是完全自主的,全程没有人为的干预。并且在Optimus的视角之下,它还可以把放歪了的电池重新捡起来放置,主打一个自动纠错:对于Optimus的手,英伟达科学家JimFan给出了高度的评价:Optimus的手是全球五指机器人里最灵巧的之一。它的手不仅有触觉

多模态文档理解能力新SOTA!阿里mPLUG团队发布最新开源工作mPLUG-DocOwl1.5,针对高分辨率图片文字识别、通用文档结构理解、指令遵循、外部知识引入四大挑战,提出了一系列解决方案。话不多说,先来看效果。复杂结构的图表一键识别转换为Markdown格式:不同样式的图表都可以:更细节的文字识别和定位也能轻松搞定:还能对文档理解给出详细解释:要知道,“文档理解”目前是大语言模型实现落地的一个重要场景,市面上有很多辅助文档阅读的产品,有的主要通过OCR系统进行文字识别,配合LLM进行文字理
