【问题描述】
在客户测试环境中,出现启动线程失败导致数据库节点重启。该组随后发生选举,在选举期间有业务过来,出现104 105的错误。请问是什么原因?
【解决办法】
1. 到日志中找到节点在重启前和重启后的 limit 信息,对比重启前后的limit配置是否有变化。
2. 该问题极可能是由操作系统对进程的资源限制导致,而操作系统(centos7)在分配线程失败时不会返回具体原因,因此无法知道具体是什么资源限制所导致。
3. 建议客户检查一下系统所有的资源配置信息,centos7系统可到/etc/security/limit.conf 和 /etc/security/limit.d/20-nproc.conf 文件确认所有的资源配置是否正确,注意/etc/security/limit.d/20-nproc.conf 文件是centos7新加的,用于配置用户最大进程数量,且修改该文件的配置会覆盖 limit.conf 文件的配置。