[发明专利]一种有序系统发生软件故障的重演恢复方法有效
申请号: | 201911412089.1 | 申请日: | 2019-12-31 |
公开(公告)号: | CN111209133B | 公开(公告)日: | 2023-09-12 |
发明(设计)人: | 唐兴余;杨植群;苏龙;柯学;巫禄芳 | 申请(专利权)人: | 深圳证券通信有限公司 |
主分类号: | G06F11/07 | 分类号: | G06F11/07 |
代理公司: | 深圳市凯博企服专利代理事务所(特殊普通合伙) 44482 | 代理人: | 蔡凤银 |
地址: | 518000 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 有序 系统 发生 软件 故障 重演 恢复 方法 | ||
本发明涉及在Linux操作系统环境下的有序系统发生软件故障的技术领域,具体涉及一种有序系统发生软件故障的重演恢复方法,采用如下步骤:步骤一:针对有序系统中的业务执行流,对输入在各级业务流水线,有序系统对输入进行编号,形成在有序系统内的唯一序号,形成识别各级业务流水线身份的线程序号数据库;步骤二:针对于Linux环境下软件缺陷所引发的进程异常退出,会伴随信号的产生,形成代码缺陷数据库;它克服了有序系统的致命缺陷,大大提升了系统可用性。在有序系统发生由“肇事者”输入触发的软件故障而导致系统崩溃时,可以通过本方案迅速、无损地恢复服务,并可对系统后续运行可能出现的同类故障提供一定的防御功能。
【技术领域】
本发明涉及在Linux操作系统环境下的有序系统发生软件故障的技术领域,具体涉及一种有序系统发生软件故障的重演恢复方法。
【背景技术】
目前在证券期货行业最流行的快速交易系统——多活内存交易系统就是典型的有序系统,利用基于内存而非磁盘数据库进行业务处理以提升处理速度,多活和有序性则用来确保高可用和数据零丢失。多活集群由多个系统实例组成,每个实例接受完全相同的输入序列,进行完全相同的业务逻辑处理并产生完全相同的输出。这使得多活集群具备极高的可用性和故障恢复能力,任一实例发生故障都不会造成业务中断和数据丢失,并且在任何时候都可以通过重演来无损地恢复已发生故障的实例。此处的“无损”是指故障前已发生的业务在重演恢复后仍然有效,相关数据不会丢失,这对金融领域关键业务系统而言至关重要。
但这类有序系统存在一个致命问题:一个由特定输入触发的软件故障(例如段错误、浮点异常等),会导致多活集群的全部实例同时崩溃,并且无法通过重演来恢复。这是因为所有实例共用相同的代码逻辑,因此也共有相同的代码缺陷,而有序系统的特点导致系统重演到触发缺陷的输入(称为“肇事者”)时,总是会再次触发缺陷,导致系统崩溃。这是包括多活有序系统在内的所有有序系统的灾难性问题。
导致这类软件故障的代码缺陷通常较为常见,尤其是在C/C++语言开发的系统中。虽然可以通过加强测试来尽量避免,但在实际生产环境中仍然时有发生。特别是对开放服务接口的有序系统(比如证券或期货经纪商的交易平台等系统)而言,可能有许多不同的外部厂商或个人开发的异构系统或终端,通过开放接口访问系统提供的服务,在系统测试阶段很难对各家外部系统各种可能的输入进行全面覆盖。
如果外部系统的某个输入导致有序系统发生了故障,常规的做法是先尝试重启系统并重演输入序列,发现无法恢复后,立即组织开发人员迅速进行故障定位和紧急修复、升级。恢复服务的周期很长(短则几个小时,长则几天甚至几周都有可能),这对于关键业务系统而言是完全无法接受的。软件缺陷是无法完全避免的,但发生故障后不能迅速恢复是不能接受的。
【发明内容】
本发明的目的在于针对现有技术的缺陷和不足,提供一种有序系统发生软件故障的重演恢复方法。
本发明所述的一种有序系统发生软件故障的重演恢复方法,采用如下步骤:
步骤一:针对有序系统中的业务执行流,对输入在各级业务流水线,有序系统对输入进行编号,形成在有序系统内的唯一序号,形成识别各级业务流水线身份的线程序号数据库;
步骤二:针对于Linux环境下软件缺陷所引发的进程异常退出,会伴随信号的产生,形成代码缺陷数据库;
步骤三:根据步骤二的代码缺陷数据库,针对不同的异常信号,形成异常信号数据任务表;
步骤四:在有序系统中安装针对步骤三中不同的异常信号的信号处理函数,形成信号处理函数数据库;
步骤五:在有序系统中,设置能够实时刷新的业务线程的当前任务表,当前任务表用来存放每个业务线程当前正在处理的输入信息,输入信息为序号及其他的输入信息;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳证券通信有限公司,未经深圳证券通信有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911412089.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种通信网络相连的通信设备
- 下一篇:一种环形码及其设计方法