友人が次のような状況に遭遇しました: java.lang.System#exit でアプリケーションを終了できません。
この状況を聞いて驚いたのですが、この機能はまだ使えるのでしょうか?これには興味があります。
その後、友人はシーンの説明を続けました。Dubbo アプリケーションが登録センターに接続するとき、接続 (タイムアウト) が失敗した場合、System#exit を呼び出してアプリケーションを終了することが期待されています。アプリケーションは実行されましたが、プログラムは期待どおりに終了せず、JVM プロセスはまだ存在します
同時に、System#exit を実行するコードが別のスレッドに配置されている場合、プログラムは期待どおりに終了できます。 JVM プロセスが終了します
疑似コードを使用して、次のように説明します:
Future<Object> future = 连接注册中心的Future; try { Object o = future.get(3, TimeUnit.SECONDS); } catch (Exception e) { log.error("connect failed xxxx"); System.exit(1); // 程序无法退出 } ----------- Future<Object> future = 连接注册中心的Future; try { Object o = future.get(3, TimeUnit.SECONDS); } catch (Exception e) { log.error("connect failed xxxx"); new Thread(() -> System.exit(1)).start(); // 程序能按期望退出 }
私の友人が直面したシナリオは、疑似コードで説明されている状況よりもはるかに複雑です。しかし、直面する本質的な問題は同じです。
より一般的な問題として、Dubbo の org.apache.dubbo.registry.zookeeper.ZookeeperRegistry#ZookeeperRegistry コンストラクターで、直接実行します。 System.exit(1);
プログラムは終了できません。非同期スレッドであるため、期待どおりに終了できます
つまり、
// org.apache.dubbo.registry.zookeeper.ZookeeperRegistry#ZookeeperRegistry public ZookeeperRegistry(URL url, ZookeeperTransporter zookeeperTransporter) { super(url); System.exit(1); //JVM进程无法退出 // ...(省略) } ----------- // org.apache.dubbo.registry.zookeeper.ZookeeperRegistry#ZookeeperRegistry public ZookeeperRegistry(URL url, ZookeeperTransporter zookeeperTransporter) { super(url); new Thread(() -> {System.exit(1);}).start(); //JVM进程正常退出 // ...(省略) }
これはさらに驚くべきことです。
問題の原因を探るには、予備知識がないと、何もできずに困ってしまいます
java.lang.System#exit メソッドは、JVM プロセスを停止するために Java によって提供されるメソッドです。
フック関数の無限ループがあるかどうか終了できないため、JVM はシャットダウンされませんか? プロセス?
例:
public static void main(String[] args) { Runtime.getRuntime().addShutdownHook(new Thread(() -> { while (true) { try { System.out.println("closing..."); TimeUnit.SECONDS.sleep(1); } catch (InterruptedException e) { } } })); System.out.println("before exit..."); System.exit(0); System.out.println("after exit..."); //代码不会执行 }
System.exit(0); メソッドを実行して、JVM プロセスを終了します
閉店中...閉店中...
結果として、コンソールには「closeing...」と表示され続け、JVM プロセスは終了しません。
閉店中...
閉店中...
閉店中...
.. .
理由は、次の 2 番目の点で述べたとおりです。上記の知識を確保してください: JVM はプロセスを閉じる前に、すべてのフックが実行されるまで待機します。この例のシャットダウン フックは決して実行されないため、JVM プロセスはシャットダウンされません。
予備知識があるにもかかわらず、まだ混乱しています。無限ループのシャットダウン フックがある場合は、
System .exitメイン スレッドで呼び出されるか、非同期スレッドで呼び出されるかに関係なく、not
JVM プロセスを閉じる必要があります。逆に、無限ループ シャットダウン フックがない場合は、どのスレッドで呼び出されても関係ありません。を呼び出すと は JVM プロセスをシャットダウンします。 Background の疑似コードでは、異なる呼び出しスレッドが System.exit を実行し、異なる結果が生じるのはなぜですか? 現時点では、シャットダウン フックが密かに何を行っているか、および実行が完了せず、JVM プロセスが終了できない理由を確認する方法を考える必要がありました。
注: 今回使用した Dubbo バージョンは 2.7.6
のコンストラクターに移動します。コンストラクターの 2 行目は新しいコードであるためです// org.apache.dubbo.registry.zookeeper.ZookeeperRegistry#ZookeeperRegistry public ZookeeperRegistry(URL url, ZookeeperTransporter zookeeperTransporter) { super(url); System.exit(1); // 新增加的一行代码 // ...(省略) }ログイン後にコピープロジェクトを開始しますDubbo に詳しい友人は、コンシューマーが開始されるため、アプリケーションが起動プロセス (ここでは Zookeeper) の登録またはサブスクリプション中に登録センターに移動することを知っているはずです。そのため、アプリケーションは登録センター Zookeeper に接続しようとします。そして、
ZookeeperRegistry
System.exit(1);Background
によると、 JVM は終了せずにスタックします。このとき、IDEA の「スナップショット」機能を使用すると、Java の「写真を撮る」ことができます。スレッド スタックの実行ステータスは、機能的には
jstack の実行と同等です。 コマンド
スレッド スタックを表示する 疑わしいスレッド: DubboShutdownHook
It名前から、Dubbo によって登録されたシャットダウン フックであることがわかります。その主な目的は、接続を閉じてリソースのリサイクルを行うことです。
画像からも、スレッドがブロックされていることがわかります。org.apache.dubbo.registry.support.AbstractRegistryFactory
Line 83public static void destroyAll() { if (!destroyed.compareAndSet(false, true)) { return; } if (LOGGER.isInfoEnabled()) { LOGGER.info("Close all registries " + getRegistries()); } // Lock up the registry shutdown process LOCK.lock(); // 83行,DubboShutdownHook线程阻塞在此处 try { for (Registry registry : getRegistries()) { try { registry.destroy(); } catch (Throwable e) { LOGGER.error(e.getMessage(), e); } } REGISTRIES.clear(); } finally { // Release the lock LOCK.unlock(); } }
コードからはっきりとわかります。ロックを取得できないため、スレッドは 83 行目でブロックされています。ロックの取得を待っています。つまり、他のスレッドがロックを保持していますが、まだ解放されていないため、DubboShutdownHook は待機する必要があります。
IDEA により、ロックが取得された場所を確認します。以下に、org.apache.dubbo.registry.support.AbstractRegistryFactory#getRegistry(org.apache.dubbo.common.URL)
// org.apache.dubbo.registry.support.AbstractRegistryFactory public Registry getRegistry(URL url) { // ...(省略) LOCK.lock(); // 获取锁 try { // ...(省略) // 创建Registry,由于我们选用的注册中心是Zookeeper,因此通过SPI选择了ZookeeperRegistryFactory对ZookeeperRegistry进行创建,最终会调用到我们添加过一行System.exit的ZookeeperRegistry构造函数中 registry = createRegistry(url); // ...(省略) } finally { // Release the lock LOCK.unlock(); // 创建完registry,与注册中心连上之后,才会释放锁 } }
// org.apache.dubbo.registry.zookeeper.ZookeeperRegistryFactory public Registry createRegistry(URL url) { // 调用修改过源码的ZookeeperRegistry构造函数 return new ZookeeperRegistry(url, zookeeperTransporter); }
如此,System.exit无法退出JVM进程的问题总算真相大白了:
1.Dubbo启动过程中会先获取锁,然后创建registry与注册中心进行连接,在ZookeeperRegistry中调用了java.lang.System#exit方法,程序转而执行"唤起shutdown hook"的代码并阻塞等待所有勾子函数执行完毕,而此时,之前持有的锁并没有释放
2.所有勾子函数(每个勾子函数都对应一个线程)被唤醒并执行,其中有一个Dubbo的勾子函数在执行的过程中,需要获取步骤1中的锁,由于获取锁失败,就阻塞等待着
3.由于1没有释放锁的情况下等待2执行完,而2的执行需要等待1释放锁,这样就形成了一个类似"死锁"的场景,因此也就导致了程序卡死,而JVM进程还存活的现象。之所以称为"类似"死锁,是因为1中执行System.exit的线程,也即持有锁的线程,永远不会走到释放锁的代码:一旦程序进入System.exit的世界里,就像进了一个单向虫洞,只能进不能出,如果勾子函数执行完毕,JVM进程接着就会被关闭,不会有机会再释放锁
那么,为什么在异步线程中执行System.exit
,却能够正常退出JVM?
那是因为:"唤起shutdown hook"并阻塞等待所有勾子函数执行完毕的线程是其它线程(此处假设是线程A),该线程在阻塞时并未持有任何锁,而主线程会继续往下执行并接着释放锁。一旦锁释放,Shutdown hook就有机会持有该锁,并且执行其它资源的回收操作,等到所有的shutdown hook执行完毕,A线程就能从阻塞中返回并执行halt
方法关闭JVM,因此能够正常退出JVM进程
深入学习
以上是对java.lang.System#exit 无法退出程序问题的分析,来龙去脉已经阐述清楚,受益于对Dubbo源码的了解以及正确的排查思路和排查手段,整个问题排查过程其实并没有花太多时间,但可以趁着这个机会,把java.lang.System#exit
系统学习一下,或许会对以后问题排查、基础组件设计提供一些思路
System#exit
// java.lang.System public static void exit(int status) { Runtime.getRuntime().exit(status); }
Terminates the currently running Java Virtual Machine. The argument serves as a status code; by convention, a nonzero status code indicates abnormal termination.
This method calls the exit method in class Runtime. This method never returns normally.
The call System.exit(n) is effectively equivalent to the call:
Runtime.getRuntime().exit(n)
这个方法实现非常简单,是Runtime#exit
的一个简便写法,其作用是用来关闭JVM进程,一旦调用该方法,永远也不会从该方法正常返回:执行完该方法后JVM进程就直接关闭了。
入参status取值分两类:0值与非0值,0值意味着正常关闭,非0值意味着异常关闭。
传入0值[有可能]会去执行所有的finalizer方法,非0值则一定不会执行(都不正常了,还执行啥finalizer呢?)。这儿提及[有可能]是因为,默认并不会执行finalizers,需要调用java.lang.Runtime#runFinalizersOnExit
方法开启,而该方法早被JDK标识为Deprecated,因此通常情况下是不会开启的
// java.lang.Runtime @Deprecated public static void runFinalizersOnExit(boolean value) { SecurityManager security = System.getSecurityManager(); if (security != null) { try { security.checkExit(0); } catch (SecurityException e) { throw new SecurityException("runFinalizersOnExit"); } } Shutdown.setRunFinalizersOnExit(value); }
接着看java.lang.Runtime#exit
,可以看到,最终调用的是Shutdown.exit(status);
,该方法是个包级别可见的方法,外部不可见
// java.lang.Runtime public void exit(int status) { SecurityManager security = System.getSecurityManager(); if (security != null) { security.checkExit(status); } Shutdown.exit(status); }
// java.lang.Shutdown static void exit(int status) { // ...(省略) synchronized (Shutdown.class) { /* Synchronize on the class object, causing any other thread * that attempts to initiate shutdown to stall indefinitely */ // 执行shutdown序列 sequence(); // 关闭JVM halt(status); } }
// java.lang.Shutdown private static void sequence() { // ...(省略) runHooks(); // ...(省略) }
// java.lang.Shutdown private static void runHooks() { for (int i=0; i < MAX_SYSTEM_HOOKS; i++) { try { Runnable hook; synchronized (lock) { // 这个锁很重要,目的是通过Happens-Before保证内存的可见性 currentRunningHook = i; hook = hooks[i]; } if (hook != null) hook.run(); //执行勾子函数 } catch(Throwable t) { if (t instanceof ThreadDeath) { ThreadDeath td = (ThreadDeath)t; throw td; } } } }
java.lang.Shutdown#runHooks
有两个点需要注意,第一点MAX_SYSTEM_HOOKS(hooks)
这个并不是我们注册的shutdown hooks,而是按顺序预定义的系统关闭勾子,目前JDK源码(JDK8)预定义了三个:
Console restore hook
Application hooks
DeleteOnExit hook
其中,Application hooks才是我们应用程序中主动注册的shutdown hook。
在java.lang.ApplicationShutdownHooks
类初始化时,会执行static代码块,并在其中注册了Application hooks
// java.lang.ApplicationShutdownHooks class ApplicationShutdownHooks { /* The set of registered hooks */ // 这个才是我们应用程序代码中注册的shutdown hook private static IdentityHashMap<Thread, Thread> hooks; static { try { Shutdown.add(1 /* shutdown hook invocation order */, false /* not registered if shutdown in progress */, new Runnable() { public void run() { runHooks(); } } ); hooks = new IdentityHashMap<>(); } catch (IllegalStateException e) { // application shutdown hooks cannot be added if // shutdown is in progress. hooks = null; } }
其次要注意的点是,给hook变量赋值的时候进行了加锁
Runnable hook; synchronized (lock) { currentRunningHook = i; hook = hooks[i]; }
一般而言,给局部变量赋值是不需要加锁的,因为局部变量是栈上变量,而线程栈之间数据是隔离的,不会出现线程安全的问题,因此不需要靠加锁来保证数据并发访问的安全性。
而此处加锁也并非为了解决线程安全问题,其真正的目的在于,通过Happens-Before规则来保证hooks的内存可见性:An unlock on a monitor happens-before every subsequent lock on that monitor。
如果不加锁,有可能导致从hooks数组中读取到的值并不是内存中最新的变量值,而是一个旧值
上面是读取hooks数组给hook变量赋值,为了满足HB(Happens-Before)
原则,需要确保写操作中同样对hooks变量进行了加锁,因此我们看一下写hooks数组的地方,如下:
// java.lang.Shutdown static void add(int slot, boolean registerShutdownInProgress, Runnable hook) { synchronized (lock) { // ...(省略) hooks[slot] = hook; } }
写 操作确实加了锁,这样才能让接下来的 读 操作的加锁行为满足HB原则
由于篇幅原因,就不展开具体的HB介绍,相信了解过HB原则的朋友一下就能明白其中的原理
这个点个人感觉很有意思,因为锁的作用不单是为了保证线程安全,还可以用来做为内存通信、保证内存可见性的手段,因此可以当作面试的一个点,当下次面试官问到:你写的代码中用过锁(synchronized)吗?什么场景用到锁?都集群部署了,单机锁还有意义吗? 我们就可以回答:为了保证内存的可见性,balabalaba
所以你瞧,这个点其实也给我们设计基础组件带来很大的启发,synchronized在当今集群、分布式环境下并非一无是处,总有合适的地方在等待着它发挥光和热
注:JDK源码中真处处是宝藏,很多地方隐藏着巧妙而不可缺少的设计
在给hook变量赋值之后,就执行 if (hook != null) hook.run();
,其中会执行到Application hooks,即上面提到的在ApplicationShutdownHooks
类初始化时注册的勾子,勾子内部调用了java.lang.ApplicationShutdownHooks#runHooks
方法
// java.lang.ApplicationShutdownHooks Shutdown.add(1 /* shutdown hook invocation order */, false /* not registered if shutdown in progress */, new Runnable() { public void run() { runHooks(); } } );
// java.lang.ApplicationShutdownHooks static void runHooks() { Collection<Thread> threads; synchronized(ApplicationShutdownHooks.class) { threads = hooks.keySet(); // hooks才是应用程序真正注册的shutdown hook hooks = null; } // 每一个shutdown hook都对应一个thread,由此可见是并发执行关闭勾子函数 for (Thread hook : threads) { hook.start(); } for (Thread hook : threads) { while (true) { try { hook.join(); // 死等到hook执行完毕 break; } catch (InterruptedException ignored) { // 即便被唤醒都不搭理,接着进行下一轮循环,继续死等 } } } }
上面的hooks才是应用程序真正注册的shutdown hook,由源码可以看出,每一个hook都对应着一个thread,且调用了它们的start方法,即开启thread,意味着shutdown hook是并发、无序地执行
接着,唤起shutdown hook的线程,会通过死循环和join死等到所有关闭勾子都执行完毕,且忽略任何 唤醒异常。也即是说,如果勾子们不执行完,唤醒线程是不会离开的
等所有的Application hooks执行完毕,接下来会执行DeleteOnExit hook(如果存在),等所有system hooks执行完毕,也基本意味着sequence方法执行完毕,接下来就执行halt方法关闭JVM虚拟机
synchronized (Shutdown.class) { sequence(); halt(status); }
这里额外还有一个知识点,上文只是提了一嘴,可能会容易忽略,此处拿出来解释一下:执行java.lang.System#exit
永远也不会从该方法正常返回,也即是说,即便System#exit
后边跟着的是finally,也不会执行 。一不注意就容易掉坑里
try { // ... System.exit(0); } finally { // 这里的代码永远执行不到 }
java.lang.Runtime#addShutdownHook
聊完System#exit
方法,接着来聊聊注册shutdown hook的方法。该方法本身实现上很简单,如下示:
// java.lang.Runtime public void addShutdownHook(Thread hook) { // ...(省略) ApplicationShutdownHooks.add(hook); } // java.lang.ApplicationShutdownHooks static synchronized void add(Thread hook) { // ...(省略) hooks.put(hook, hook); }
需要注意的是,注册的关闭勾子会在以下几种时机被调用到
程序正常退出
最后一个非守护线程执行完毕退出时
System.exit方法被调用时
程序响应外部事件
程序响应用户输入事件,例如在控制台按ctrl+c(^+c)
程序响应系统事件,如用户注销、系统关机等
除此之外,shutdown hook是不会被执行的
Shutdown hook存在的意义之一,是能够帮助我们实现优雅停机,而优雅停机的意义是:应用的重启、停机等操作,不影响业务的连续性
以Dubbo Provider的视角为例,优雅停机需要满足两点基本诉求:
Consumer不应该请求到已经下线的Provider
在途请求需要处理完毕,不能被停机指令中断
Dubbo注册了Shutdown hook,JVM在收到操作系统发来的关闭指令时,会执行关闭勾子
在勾子中停止与注册中心的连接,注册中心会通知Consumer某个Provider已下线,后续不应该再调用该Provider进行服务。此行为是断掉上游流量,满足第一点诉求
接着,勾子执行Protocol(Dubbo相关概念)的注销逻辑,在其中判断server(Dubbo相关概念)是否还在处理请求,在超时时间内等待所有任务处理完毕,则关闭server。此行为是处理在途请求,满足第二点述求
因此,一种优雅停机的整体方案如下:
$pid = ps | grep xxx // 查找要关闭的应用 kill $pid // 发出关闭应用指令 sleep for a period of time // 等待一段时间,让应用程序执行shutdown hook进行现场的保留跟资源的清理工作 $pid = ps | grep xxx // 再次查找要关闭的应用,如果还存在,就需要强行关闭应用 if($pid){kill -9 $pid} // 等待一段时间之后,应用程序仍然没有正常停止,则需要强行关闭应用
以上がJava System#exit がプログラムを終了できない問題の解決方法の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。