[发明专利]并行计算机系统中基于接收方滑动窗口的数据传输方法有效

专利信息
申请号: 201410782208.3 申请日: 2014-12-16
公开(公告)号: CN104484295A 公开(公告)日: 2015-04-01
发明(设计)人: 王绍刚;陆平静;徐炜遐;庞征斌;王克非;张峻;夏军;董德尊;赖明澈;戴艺;齐星云;罗章;常俊胜;徐金波;黎渊;张建民;王桂彬 申请(专利权)人: 中国人民解放军国防科学技术大学
主分类号: G06F13/28 分类号: G06F13/28;G06F15/163
代理公司: 国防科技大学专利服务中心 43202 代理人: 郭敏
地址: 410073 湖*** 国省代码: 湖南;43
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 并行 计算机系统 基于 接收 滑动 窗口 数据传输 方法
【说明书】:

技术领域

发明涉及并行计算机系统中,在两个计算节点之间进行内存数据搬移的方法,特别是基于乱序和不可靠网络实现计算节点间基于接收方滑动窗口的数据传输方法。

背景技术

并行计算机系统通常是由多个计算节点(简记为节点)和互连网络组成,节点由处理器、网络接口和内存组成,节点通过网络接口进行数据的发送接收,节点间通过互连网络进行通信。并行计算机系统中,一种基本的通信模式是在两个节点(记为发送节点和接收节点)间的内存中进行数据拷贝,也就是发送节点将本节点内存区域中的数据写入到接收节点的指定内存区域中,这种通信模式通常称为远程直接内存访问(Remote Direct Memory Access,RDMA)。

RDMA通信需要依赖并行计算机的互连网络完成,一般来说,一次RDMA传输的数据量很大,在互连网络上进行数据传输时,需要将一次RDMA传输拆分成多个报文,各个报文独立地由发送节点传输到接收节点。

互连网络中,为了提高网络的传输性能,在两个节点间可以设计多条路径,设计路由算法在发送节点和接收节点间的多条路径中选择某一条路径进行报文传输。路由算法考虑的因素一般包括:路径负载平衡、死锁避免、路径延迟等。由于多条路径的存在,发送节点向接收节点发出的多个报文,到达接收节点的顺序可能与发送节点发出的顺序不一致,也就是存在乱序传输的特点。

大规模并行计算机系统中,互连网络的规模通常很大,在实现上,难以保证互连网络的可靠性,例如,网络中的某条通路可能会断开。不可靠的互连网络造成的结果是发送节点向接收节点传输的报文,不一定能够最终到达接收节点。

从节点上运行的软件看来,RDMA传输的数据应该是正确完整的。如何基于乱序和不可靠网络实现快速正确的RDMA传输是并行计算机系统设计中的重要问题之一。目前现有的RDMA传输方法主要有两类:

1 基于发送节点滑动窗口的RDMA传输方法

采用这种方法的主要是美国Cray公司并行计算机系统,发送节点将已经发出、但还未收到响应的报文保存在一个缓冲区中,称为发送滑动窗口,发送滑动窗口的大小代表在没有收到接收节点确认信息的情况下发送节点最多可以发送的报文个数,一般根据设计需要设置发送滑动窗口的大小。采用基于发送节点滑动窗口的RDMA传输方法进行一次RDMA数据传输流程如下:发送节点向接收节点发送报文,同时将该报文保存在发送滑动窗口中,启动硬件上的超时计数器,如果发送滑动窗口中的报文超时还未收到接收节点返回的响应报文,则发送节点将重新向接收节点发送该报文;接收节点接收到报文后,向报文的发送节点返回表明已经接收成功的响应报文;发送节点一旦接收到响应报文,就将响应报文所对应的发送报文从发送滑动窗口中移除;如果发送节点的发送滑动窗口满,则发送节点暂停向接收节点发送报文,直到有报文从发送滑动窗口中移除后再恢复报文的发送;发送节点将一次RDMA传输的所有报文发送完成,并且收齐了所有的响应报文后,一次RDMA传输操作完成。

这类方法存在如下缺点:1)由于接收节点需要为每个报文向发送节点返回响应报文,因而网络中响应报文的数量很多,容易引起网络拥塞;2)发送滑动窗口需要设置存储空间对每一个发送报文进行缓存,只有收到接收节点确认信息时才将报文从发送滑动窗口中移除,消耗芯片上的存储器资源,因而硬件开销比较大。

2 基于接收方计数器的方法

采用这种方法的主要是天河系列计算机系统,采用基于接收方计数器的方法进行一次RDMA数据传输流程如下:发送节点向接收节点进行RDMA传输时,首先告知接收节点本次RDMA传输中所包含的报文总数,然后才进行报文的传输;接收节点对收到的报文进行计数,当计数器达到报文总数时,接收节点向发送节点返回响应报文,告知发送节点所有的报文都收齐;在接收节点上,为报文计数器设置超时机制,当计数器的值超过一定时间还未收齐报文时,将通知发送节点重新发送本次RDMA传输的报文。

这类方法存在的缺点是,当接收节点的计数器超时后,要求发送节点将此次RDMA传输的所有报文全部重发,重发的报文中可能大部分已经被接收节点成功接收到,因此,当发送失败需要重传时此类方法重传开销大、易引起网络拥塞、传输效率低。

发明内容

本发明要解决的技术问题是:现有并行计算机系统设计中基于乱序和不可靠网络的RDMA传输过程中需要保证传输数据的完整正确性,同时要保证数据传输性能较好,而现有方法存在易引起网络拥塞、硬件开销大和重传开销大的问题。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国人民解放军国防科学技术大学,未经中国人民解放军国防科学技术大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201410782208.3/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top