[发明专利]分布式计算方法及分布式计算系统有效
申请号: | 202010123789.5 | 申请日: | 2020-02-27 |
公开(公告)号: | CN111275176B | 公开(公告)日: | 2023-09-26 |
发明(设计)人: | 黄鑫;宋宪政;王琳 | 申请(专利权)人: | 支付宝(杭州)信息技术有限公司 |
主分类号: | G06N3/042 | 分类号: | G06N3/042;G06N3/0464;G06N3/08;G06F9/50 |
代理公司: | 北京留理知识产权代理事务所(普通合伙) 16049 | 代理人: | 李哲 |
地址: | 310000 浙江省杭州市*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 分布式 计算方法 计算 系统 | ||
本说明书提供了一种用于运行分析图结构的深度学习模型的分布式计算方法和系统。所述分布式计算系统中的至少一个计算设备反复迭代执行所述图结构的图嵌入向量更新操作,包括:获取所述图结构中目标节点的目标图嵌入向量;从所述分布式计算系统中的至少一个关联计算设备接收相邻目标图嵌入向量;基于所述目标图嵌入向量和相邻目标图嵌入向量,生成迭代后的目标图嵌入向量;以及将所述迭代后的目标图嵌入向量发送给所述关联计算设备。
技术领域
本说明书中的一个或者多个实施例涉及分布式计算领域,具体地,本说明书中的一个或者多个实施例涉及一种用于运行分析图结构的深度学习模型的分布式计算方法和分布式计算系统。
背景技术
传统上,如果要对一张图像进行分类,一种方式是采取手动的方式提取出比如纹理、颜色、或者一些更高级的特征。然后再把这些特征输入到分类器中(比如随机森林等),输出标明这些特征的类别的标签。另一种方式是通过深度学习的方式。将这张图像输入一个经过训练的神经网络(比如卷积神经网络Convolutional Neural Network“CNN”和循环神经网络Recurrent Neural Network“RNN”),然后直接输出标明类别的标签。相较于手动提取的方式来说神经网络特征提取和分类一步到位,避免了手工提取特征或者人工规则。从原始数据中自动化地去提取特征,是一种端到端(end-to-end)的学习。相较于传统的方法,深度学习能够更高效地学习到所述图像的特征与模式。
然而卷积神经网络主要是对诸如图像和音频等数据的处理上功能强大。这是因为其研究的对象是欧几里得整环(Euclidean domains)中的数据,称为欧几里得数据(Euclidean data)。欧几里得数据最显著的特征就是有规则的空间结构,比如图像是规则的二维正方形栅格,比如语音是规则的一维序列。因为这些数据结构都能够用一维、二维的矩阵表示,所以卷积神经网络处理起来很高效。
然而,现实生活中有很多数据并不具备规则的空间结构。比如推荐系统、电子交易、计算几何、3D网格,社交网络,电信网络,生物网络或大脑连接组、分子结构等抽象出的图谱。这些图谱结构每个节点连接都不尽相同,有的节点有三个连接、有的节点有两个连接、有些节点有更多的连接,是不规则的数据结构,称为非欧几里得数据(Non Euclideandata)。非欧几里得数据通常可以方便的以图的形式表示,称为图数据(Graph data)。图数据广泛存在于公司的各个业务中。而业务的扩张需要挖掘图数据中的信息促进业务发展。但是因为图数据结构是不规则的,每个节点的相邻节点的数目都可能不同,无法用一个同样尺寸的卷积核来进行卷积运算。也就是说,传统的卷积神经网络不能对公司的各个业务中的数据进行有效的分析。
目前有多种尝试将深度学习模型应用在图数据的特征提取和分析上。比如图神经网络(Graph Neural Network,“GNN”)和图注意网络(Graph Attention Network)等等。在使用这些深度学习模型分析图数据的时候,传统上都是将图数据通过图查询加载到单个计算设备上,比如单个电子计算机(单机)上。然后单机运行所述深度学习模型,对所述图数据的一些指标进行分析。
然而这种对于所述图数据进行分析的方法十分低效。因为在做指标分析时需要同时计算待分析节点周围的多个相邻节点的指标,单机运行的时候不可避免的有如下问题:一方面,这些相邻节点占用内存太多。对于一些达到十亿节点、千亿边规模的图数据,每个单机无法对其全部进行存储。另一方面,因为所述待分析节点周围的所述多个相邻节点同时也带有超大的子图,无法在同一个单机上进行存储,其他基于子图的方案也无法实现。因此,传统方案不得不对图数据进行采样裁剪,通过减少输入数据,降低模型效果从而换取节省内存。另一方面,节点计算过程中会有相同的图数据在不同节点之间重复出现的情况,而单机计算的时候要对每个节点单独分析,这就不可避免的产生大量冗余重复计算,降低了分析的效率。
因此,有必要找到一种减少或者不进行采样剪裁,同时又不产生大量冗余计算的方法及系统。
发明内容
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于支付宝(杭州)信息技术有限公司,未经支付宝(杭州)信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010123789.5/2.html,转载请声明来源钻瓜专利网。