[发明专利]适用于证券交易系统的故障检测方法及装置有效
申请号: | 201810787117.7 | 申请日: | 2018-07-16 |
公开(公告)号: | CN109117294B | 公开(公告)日: | 2022-04-19 |
发明(设计)人: | 佘鹏飞;王泊;韩大伟 | 申请(专利权)人: | 上交所技术有限责任公司 |
主分类号: | G06F11/07 | 分类号: | G06F11/07;G06F11/30;G06Q40/04 |
代理公司: | 上海三方专利事务所(普通合伙) 31127 | 代理人: | 吴玮;李美立 |
地址: | 200131 上海市浦东新*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 适用于 证券 交易系统 故障 检测 方法 装置 | ||
本发明涉及故障检测技术领域,具体来说是一种适用于证券交易系统的故障检测方法及装置,包括用于定时向检测者模块发送心跳消息的被检测者模块,用于接收所有被检测者模块的心跳消息,并计算每一被检测者模块每次心跳消息的超时时限,若在任一次心跳消息的超时时限内未接收到心跳消息,则向协调者模块汇报被检测者模块的状态视图的检测者模块,及一个用于接收所有检测者模块汇报的状态视图,并根据状态视图来判断被检测者模块的故障行为并作出裁决的协调者模块。本发明同现有技术相比,其优点在于:故障检测的时效性更高;故障检测的准确性更高;能够解决在网络分区下故障检测问题,避免分布式证券交易系统在网络分区故障下多主节点的故障。
技术领域
本发明涉及故障检测技术领域,具体来说是一种适用于证券交易系统的故障检测方法及装置。
背景技术
证券交易系统是一个对可用性要求很高的分布式系统,在设计高可用证券交易系统时通常会采用基于IP组播的组通信模式来构建多服务副本的方法,从而保证系统的高可用性。在组通信的服务发生故障的时候,对系统发现故障的及时性和正确性都有非常高的要求。发现故障的及时性直接影响着系统服务的恢复时间,故障识别错误后会直接导致业务处理错误,所以故障检测算法对于采用组通信分布式架构的证券交易系统来说是高可用性指标的关键因素。目前绝大多数分布式系统的故障检测都是基于超时判断的方法,比如采用ping方法、心跳方法、Gossip方法等,基于不可靠的故障检测算法不适用于类似证券交易系统这样对可靠性和实时性都要求很高的分布式系统。
证券交易系统是一个通过网络连接的多台主机构成的高可用分布式系统。整个系统由一组有限的进程组成,进程之间只能通过发送和接收消息进行通信。进程一般会由于主机故障或者崩溃导致明确的故障,或者由于设备故障导致进程的消息丢失也是明确的故障,比较复杂的故障是由于网络分裂导致的系统分区故障,所以证券交易系统需要处理崩溃故障和丢失故障以及网络分区故障。在这里我们不讨论分布式系统中的消息篡改问题,因为在证券交易系统中内部节点都是可信任的。
适用于基于组通信的分布式架构证券交易系统的故障检测算法需要能够对上述3种故障的及时准确发现,传统的故障检测算法一般不考虑网络分区的故障,而且假设的故障场景也不是组通信场景而是点对点的故障检测。
发明内容
本发明的目的在于解决现有技术的不足,提供一种适用于证券交易系统的故障检测方法及装置,能实现故障的及时检测,尤其适用于证券交易系统。
为了实现上述目的,设计一种适用于证券交易系统的故障检测方法,所述的方法如下:
由若干被检测者模块定时向检测者模块发送包括进程组状态信息的心跳消息。
由至少一个检测者模块接收所有被检测者模块的心跳消息,并计算每一被检测者模块每次心跳消息的超时时限,若在任一次心跳消息的超时时限内检测者模块未接收到被检测者模块发出的心跳消息,则检测者模块向协调者模块汇报被检测者模块的状态视图。
由一个协调者模块接收所有检测者模块汇报的状态视图,并根据状态视图来判断被检测者模块的故障行为并作出裁决。
所述的每次心跳消息的超时时限通过如下公式获得:
Tok+1=Tek+1+Tαk+1 (a)
式中:Tok+1是第k+1次心跳消息的超时时限,Tαk+1是第k+1次心跳消息的自适应安全余量,Tek+1是第k+1次预期的心跳消息到达时间;
所述的第k+1次预期的心跳消息到达时间的通过如下公式获得:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上交所技术有限责任公司,未经上交所技术有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810787117.7/2.html,转载请声明来源钻瓜专利网。