(给
ImportNew加星标,提高Java技能)
现象描述:Spring Boot 项目,启动的时候卡住了,一直卡在那里不动,没有报错,也没有日志输出。
![](http://mmbiz.qpic.cn/sz_mmbiz_png/eZzl4LXykQwclnhicagmQFymCW5FgT9GATcja3d0svRFTzHohPH07avUm4SPs6B9iaT3icRVDo6k4S4DywLiaGLUiaA/640?wx_fmt=png&from=appmsg)
但是,奇怪的是,本地可以正常启动。
![](http://mmbiz.qpic.cn/sz_mmbiz_png/eZzl4LXykQwclnhicagmQFymCW5FgT9GA8QwMIIaCiaicU3jeNKb7tJcjsUHdBmZ7nHbGM1fly9ic8D2S2bbgr3b1A/640?wx_fmt=png&from=appmsg)
好吧,姑且先不深究为什么本地可以启动而部署到服务器上就无法启动的问题,这个不是重点,重点是怎么让它启动起来。(PS:我猜测可能是环境不同造成的,包括操作系统不同和JDK版本不同)
遇到这种情况,我先用jstack查看堆栈情况,果然发现了死锁。
![](http://mmbiz.qpic.cn/sz_mmbiz_png/eZzl4LXykQwclnhicagmQFymCW5FgT9GAbeFnv648tQqpibMjeW8hQLGbicDr1pgibxUPKmcMIcB5SzLrU0SVQtbGw/640?wx_fmt=png&from=appmsg)
拿到 jstack 的完整信息,然后仔细排查,看不懂的话也可以借助工具。
![](http://mmbiz.qpic.cn/sz_mmbiz_png/eZzl4LXykQwclnhicagmQFymCW5FgT9GAUkxjHNKT1hBPAn74flDpuTNwbEbSHgdERGsUrPW1eiclMia6pnEfb8PQ/640?wx_fmt=png&from=appmsg)
![](http://mmbiz.qpic.cn/sz_mmbiz_png/eZzl4LXykQwclnhicagmQFymCW5FgT9GAu9z6Tky9lByMjbKeZnoGpPzRfic7fV3NvtiaTPbc3q8JauZ3HjuBRMNA/640?wx_fmt=png&from=appmsg)
分析了每个被阻塞的线程之后,发现 main 线程和 timeoutChecker_1_1 互相等待对方持有的锁,从而形成了死锁。
可以通过 jconsole 和 jvisualvm 查看。
![](http://mmbiz.qpic.cn/sz_mmbiz_png/eZzl4LXykQwclnhicagmQFymCW5FgT9GAj1cYsbOCgUBv6G7j37EkcSiaJc9wj8UQdER0JFhB8UYQZVxbEiaNlZuA/640?wx_fmt=png&from=appmsg)
需要注意,如果是查看远程进程,则需要加一些启动参数:
-Dcom.sun.management.jmxremote:启用 JMX
-Dcom.sun.management.jmxremote.port=:指定 JMX 远程连接的端口号
-Dcom.sun.management.jmxremote.authenticate=false:禁用 JMX 远程连接的认证
-Dcom.sun.management.jmxremote.ssl=false:禁用 JMX 远程连接的 SSL 加密
于是,我又重启启动。
java -jar -Dcom.sun.management.jmxremote -Dcom.sun.management.jmxremote.port=9099 -Dcom.sun.management.jmxremote.authenticate=false -Dcom.sun.management.jmxremote.ssl=false app.jar
通过 jps 或者 ps 命令查找应用的 pid。
![](http://mmbiz.qpic.cn/sz_mmbiz_png/eZzl4LXykQwclnhicagmQFymCW5FgT9GAyjnNAYtiapiabNkR5R2ZjVnkUb86abf1ndvNNZLul9EpYOyHQg4Gianrw/640?wx_fmt=png&from=appmsg)
![](http://mmbiz.qpic.cn/sz_mmbiz_png/eZzl4LXykQwclnhicagmQFymCW5FgT9GA40CfY8JYy3dia3cOibjUouf77t4vLJia6CLFIMTIHrt2cTq3G5JIljDibg/640?wx_fmt=png&from=appmsg)
![](http://mmbiz.qpic.cn/sz_mmbiz_png/eZzl4LXykQwclnhicagmQFymCW5FgT9GAOicX7hyqEItyClyVAq5LdKSE1xvsLT7P1tjLsSlfU4f1OQPic4meW6nw/640?wx_fmt=png&from=appmsg)
![](http://mmbiz.qpic.cn/sz_mmbiz_png/eZzl4LXykQwclnhicagmQFymCW5FgT9GANVPqnicT5TUEeWxbGLptnQYFKoy5UQpJUeV7WjHePllSAGJGzRa2SRQ/640?wx_fmt=png&from=appmsg)
![](http://mmbiz.qpic.cn/sz_mmbiz_png/eZzl4LXykQwclnhicagmQFymCW5FgT9GAqKibPeRysJibcVqTrtBvPjib0Zdsfxst0LUEZpj3H58Qh62icOUr2FeNHw/640?wx_fmt=png&from=appmsg)
用 jvisualvm 查看也可以,不再赘述,结果都是一样的。
![](http://mmbiz.qpic.cn/sz_mmbiz_png/eZzl4LXykQwclnhicagmQFymCW5FgT9GAknlUO5BaxXxtRYkkleMNGkydsjAeBsNibtbBDBFviaMHX5Ke1qgUSw1w/640?wx_fmt=png&from=appmsg)
![](http://mmbiz.qpic.cn/sz_mmbiz_png/eZzl4LXykQwclnhicagmQFymCW5FgT9GAdntXiauSeLYzaP75jK7gV3moROM5RyZT23CYyWFfhY6ftD4pOlpRhHA/640?wx_fmt=png&from=appmsg)
好了,工具介绍到此为止,下面重点看代码。
![](http://mmbiz.qpic.cn/sz_mmbiz_png/eZzl4LXykQwclnhicagmQFymCW5FgT9GAzw54APwOBiaiaaZL0jQiadXbAicuIwyAXl6nEjpt1DUQvDA6jyHVOH9RxA/640?wx_fmt=png&from=appmsg)
main 线程持有 <0x00000000c07a33d8> 这个对象的锁,同时它还需要 <0x00000000ff295ca8> 对象的锁;而 timeoutChecker_1_1 线程正好相反,于是死锁了。
main 线程很好理解,就是我们这个 Spring Boot 应用的主线程。但是timeoutChecker_1_1线程是哪儿来的呢?通过分析发现它来自 Seata。
对了,该项目中 Spring Boot 版本是 2.6.6,Seata 版本是 1.4.2。
找到 timeoutChecker 的出处了:
![](http://mmbiz.qpic.cn/sz_mmbiz_png/eZzl4LXykQwclnhicagmQFymCW5FgT9GAiautDF0O3iaDwQOrNCdMOOZlfTxVal5nAN6kcTbQUKMqGWckj84J3wXQ/640?wx_fmt=png&from=appmsg)
![](http://mmbiz.qpic.cn/sz_mmbiz_png/eZzl4LXykQwclnhicagmQFymCW5FgT9GAYFCUbedREzhzMfdZ6TYxy8Rm5XKfplkehJX4u80n0Z04wk3rgRgo7A/640?wx_fmt=png&from=appmsg)
![](http://mmbiz.qpic.cn/sz_mmbiz_png/eZzl4LXykQwclnhicagmQFymCW5FgT9GASYmbia81UZT7Z7MvBqzic6z45kOsdut1k87S9cWSg8vlv6hdkqTqHVkQ/640?wx_fmt=png&from=appmsg)
延迟 60 秒启动定时任务,每隔 10 秒执行一次,调用 io.seata.core.rpc.netty.NettyClientChannelManager#reconnect()。
![](http://mmbiz.qpic.cn/sz_mmbiz_png/eZzl4LXykQwclnhicagmQFymCW5FgT9GAgtt40OywWDHJgUhkPUQs8TzvbLtS2iaiaWJXaibeHXN68D6WyBaaKG9kQ/640?wx_fmt=png&from=appmsg)
![](http://mmbiz.qpic.cn/sz_mmbiz_png/eZzl4LXykQwclnhicagmQFymCW5FgT9GAqJwVTgKxwGKMjSIQO6V4Ok4Y4diacbrsl7wUesQcnpVjjg0VDc1ORWQ/640?wx_fmt=png&from=appmsg)
记住这一行,首先调用 RegistryFactory.getInstance() 获取一个 RegistryService,然后调用 RegistryService 对象的 lookup() 方法。
![](http://mmbiz.qpic.cn/sz_mmbiz_png/eZzl4LXykQwclnhicagmQFymCW5FgT9GA4K3Ijjiajo5QBXq51SWxjoKBItcRORzCYdh90q90GBiaicpJC7f1yTTicQ/640?wx_fmt=png&from=appmsg)
![](http://mmbiz.qpic.cn/sz_mmbiz_png/eZzl4LXykQwclnhicagmQFymCW5FgT9GAGG5WmicAia3w50ia9I1rbt5DC0xuNic2KemNXPibKbfWGFCMflqsdIOI69w/640?wx_fmt=png&from=appmsg)
接着看 Seata 1.4.2 的代码。
![](http://mmbiz.qpic.cn/sz_mmbiz_png/eZzl4LXykQwclnhicagmQFymCW5FgT9GAkvu5WDGBuYMCyOcOt8w7WYsV0hqfOEInEQ1oBsrrQvV2QtqeD4Jw3w/640?wx_fmt=png&from=appmsg)
最重要的是 EnhancedServiceLoader.load(ExtConfigurationProvider.class).provide(configuration);
![](http://mmbiz.qpic.cn/sz_mmbiz_png/eZzl4LXykQwclnhicagmQFymCW5FgT9GACECxkxPTAq5hy22Rrhh6SjDia7HxspWmeu4SKiafF1CEKq7Uia3FIxwcg/640?wx_fmt=png&from=appmsg)
所以,ExtConfigurationProvider 是 SpringBootConfigurationProvider。
![](http://mmbiz.qpic.cn/sz_mmbiz_png/eZzl4LXykQwclnhicagmQFymCW5FgT9GAKTHBskV5HPXWjF0kFwHjjAxew1HWJeMuWIukTOAxV4nKbOgZ43MGhQ/640?wx_fmt=png&from=appmsg)
![](http://mmbiz.qpic.cn/sz_mmbiz_png/eZzl4LXykQwclnhicagmQFymCW5FgT9GAlhJCOLwyp4qRbiajblz2cL6FhokGmxpZddroADdibwnUzNgF52AumibJw/640?wx_fmt=png&from=appmsg)
![](http://mmbiz.qpic.cn/sz_mmbiz_png/eZzl4LXykQwclnhicagmQFymCW5FgT9GANVaxYnfs58gMHFc2bKjKrryia4giadc7wibEG4kZOibiaBaEdXjMpwcDO1w/640?wx_fmt=png&from=appmsg)
回到 seata-1.4.2,可以看到这里调用了 applicationContext.getBean(),于是 DefaultListableBeanFactory.getBean()。
![](http://mmbiz.qpic.cn/sz_mmbiz_png/eZzl4LXykQwclnhicagmQFymCW5FgT9GAr1IMuXPeniaMoXY5oNjLsd8AOv3jMBmU0uMNMd0afo2iaaibBUxS1YoCg/640?wx_fmt=png&from=appmsg)
![](http://mmbiz.qpic.cn/sz_mmbiz_png/eZzl4LXykQwclnhicagmQFymCW5FgT9GAOuBPUsy1siaLp1nmdRplVvWUBMGp37ibLeJhAlZGjaeRny1tMISFWNlg/640?wx_fmt=png&from=appmsg)
![](http://mmbiz.qpic.cn/sz_mmbiz_png/eZzl4LXykQwclnhicagmQFymCW5FgT9GAl6JQ8vfc7iaaXQlGVKR3J2icOiahpkoNiaIMibuEVlO2CnNUoR75In4nibWQ/640?wx_fmt=png&from=appmsg)
![](http://mmbiz.qpic.cn/sz_mmbiz_png/eZzl4LXykQwclnhicagmQFymCW5FgT9GAbRKWGcMhIyLORzF9GL8Z4qxffwo3N8xSvLJ1P7QLibYJsDC5efv1j2A/640?wx_fmt=png&from=appmsg)
![](http://mmbiz.qpic.cn/sz_mmbiz_png/eZzl4LXykQwclnhicagmQFymCW5FgT9GAbfN4DF0P6XibOE7SE4RT4mmlGOM4LT7FmBHolKv2gMLwYwPiaNFmD6aA/640?wx_fmt=png&from=appmsg)
可以看到,getSingletonFactoryBeanForTypeCheck() 方法里,对 singletonObjects 加了同步锁。
凡是通过 DefaultSingletonBeanRegistry#getSingleton() 获取单例 Bean 的都会先对 singletonObjects 加锁。
接下来看 lookup():
![](http://mmbiz.qpic.cn/sz_mmbiz_png/eZzl4LXykQwclnhicagmQFymCW5FgT9GAaib2BGQn1aM3248hFgicvicoiaULWMkhk8RiaWibM2TY6xHAdiaE5yxrcy5mw/640?wx_fmt=png&from=appmsg)
![](http://mmbiz.qpic.cn/sz_mmbiz_png/eZzl4LXykQwclnhicagmQFymCW5FgT9GASuDIYrX8LXYShtP9n96SLibK5pMKVnSQKhIwelK7Niaic2tTFUjeyxssg/640?wx_fmt=png&from=appmsg)
可以看到,NacosRegistryServiceImpl的lookup() 这里也加了锁。
另外,getNamingProperties() 的时候由于再次用到了 ConfigurationFactory.CURRENT_FILE_INSTANCE,所以又到了 SpringBootConfigurationProvider#provide()。
至此,Seata 整个定时任务启动的主要逻辑我们都梳理完了,几处加锁的也都找到了:
![](http://mmbiz.qpic.cn/sz_mmbiz_png/eZzl4LXykQwclnhicagmQFymCW5FgT9GArHKzV8iaiaOADeRvmZiaReUCAufkVWd5SToibca1hIcPTrSmCLmhnE2c9g/640?wx_fmt=png&from=appmsg)
这些加锁的地方也就是容易出现死锁的地方。
死锁是由于加锁顺序不一致造成的。
下面看 main 线程启动:
由于 SeataDataSourceBeanPostProcessor 实现了 BeanPostProcessor 接口,所以在创建容器之后会回调其 postProcessAfterInitialization() 方法。
![](http://mmbiz.qpic.cn/sz_mmbiz_png/eZzl4LXykQwclnhicagmQFymCW5FgT9GAKZJo2MvHY8Mn7y7Kick0V8NWgXgEwk3R04jNT0rhFkibDicPjTyP8Xn9w/640?wx_fmt=png&from=appmsg)
![](http://mmbiz.qpic.cn/sz_mmbiz_png/eZzl4LXykQwclnhicagmQFymCW5FgT9GAxjLVQSiaXEjuvrXxwkBmOkQC4FXgibLGiahIyfTaUWibozcBSYgdeLnfUA/640?wx_fmt=png&from=appmsg)
![](http://mmbiz.qpic.cn/sz_mmbiz_png/eZzl4LXykQwclnhicagmQFymCW5FgT9GACs56aib8KcQAhibugdqibDXqwRueXQN0bhYZsFZySHMPvKmwTJibNOspmg/640?wx_fmt=png&from=appmsg)
![](http://mmbiz.qpic.cn/sz_mmbiz_png/eZzl4LXykQwclnhicagmQFymCW5FgT9GATHiaBZXmSONLgGwT0eI8R4Cic09efzia6xkLFmNnxXO3yFujQ2GBNDG2g/640?wx_fmt=png&from=appmsg)
![](http://mmbiz.qpic.cn/sz_mmbiz_png/eZzl4LXykQwclnhicagmQFymCW5FgT9GAia3fph2HxicwIiaSfVzicytzmddkLUtLVxzfclRKN0jwyhCT354K2BfCEQ/640?wx_fmt=png&from=appmsg)
![](http://mmbiz.qpic.cn/sz_mmbiz_png/eZzl4LXykQwclnhicagmQFymCW5FgT9GAjZxBxfT6s4k1Hw2nhbcPQ6XyQzZ971R9EhEH5fOHlVJIhzDAcoWibsw/640?wx_fmt=png&from=appmsg)
![](http://mmbiz.qpic.cn/sz_mmbiz_png/eZzl4LXykQwclnhicagmQFymCW5FgT9GAWeVUjbs01Zdl3tFtW2hv5Rm8dUUjS8j1HSGkbOLAhYMg9F8I3D5S6A/640?wx_fmt=png&from=appmsg)
![](http://mmbiz.qpic.cn/sz_mmbiz_png/eZzl4LXykQwclnhicagmQFymCW5FgT9GAt7CkcHia2LU6LCMpIjQ0we4o6UlDJwaeBExVcenz1vic7hAj9Sxmlia7g/640?wx_fmt=png&from=appmsg)
![](http://mmbiz.qpic.cn/sz_mmbiz_png/eZzl4LXykQwclnhicagmQFymCW5FgT9GAdCuvRHiaKNP0XHIPiciauBMcHW1dVoq6TwAg0lY9udozZTk9RPtibG3Tibg/640?wx_fmt=png&from=appmsg)
所以,最终还是调 NettyClientChannelManager#reconnect()。