[发明专利]一种模型训练的联合数据处理方法、装置与系统有效
申请号: | 202010249329.7 | 申请日: | 2020-04-01 |
公开(公告)号: | CN111126578B | 公开(公告)日: | 2020-08-25 |
发明(设计)人: | 周胜平;吴栋;林俊杰;吴敏;梁乔忠;仲景武 | 申请(专利权)人: | 阿尔法云计算(深圳)有限公司 |
主分类号: | G06N3/04 | 分类号: | G06N3/04;G06N3/08;G06N3/12;G06N20/00 |
代理公司: | 广州三环专利商标代理有限公司 44202 | 代理人: | 熊永强 |
地址: | 518000 广东省深圳市南山区粤海街道*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 模型 训练 联合 数据处理 方法 装置 系统 | ||
1.一种模型训练的联合数据处理方法,所述方法包括:
配置AI算法,所述AI算法用于构建深度神经网络;
配置第一数据集,所述第一数据集包含多个第一数据,所述第一数据为联合增强与协同训练的样本数据;其中,通过将简历网站的数据作为样本数据1,将其它网站可获得的数据作为其它联合数据,所述联合数据包括来自于论坛/学术期刊的加工数据;通过梳理其它网站的信息得到分门别类的信息,在类型可对应的情况下,将其它联合数据与简历网站数据作联合增强以得到所述第一数据集;进一步,还包括:
生成第二数据,所述第二数据包含第四数据的某个子集,所述第四数据为所述第一数据集中的至少两个第一数据的交集的超集,所述第二数据还包含形成所述交集的所述至少两个第一数据中的一个第一数据,将所述第二数据加入第二数据集;
构建深度神经网络组,所述深度神经网络的结构由对应的所述第二数据确定,所述深度神经网络间的组合由多个所述第二数据确定;所述深度神经网络组的构建过程,还包括:Embedding化所述子集各数据的列值;所述列值包括简历各类描述项的列值;融合所述子集各数据的列值为统一的特征表示,所述融合的过程使用Self Attention与Attention机制;将所述融合的结果的特征表示与网络的输出层相连;
训练深度神经网络组,更新公共神经网络模块以及模型的参数,所述公共神经网络模块为文本Embedding神经网络模块、或者图像Embedding神经网络模块、或者视频Embedding神经网络模块;
生成第三数据,所述第三数据为使用所述深度神经网络组验证得来的效果评估值,将所述第三数据加入第三数据集;
生成第五数据集,所述第五数据集为所述第三数据集中效果评估值较优的部分;
生成联合模型,其中,所述模型训练的联合数据处理方法可用于通过照片直接判断职业与技能特长,通过将联合后的数据作为最终样本作算法学习,从而得到新的“图片-职业”的识别模型。
2.根据权利要求1所述方法,其特征在于,所述第三数据的生成过程,还包括:
获取所述第二数据集的一个子集,所述子集包含至少一个第二数据,所述子集的其它第二数据跟另一个第二数据属于关联数据;
使用所述子集构建深度神经网络组;
根据所述子集的关联关系,分配与部署训练任务组,所述任务组用于执行所述深度神经网络组的构建过程。
3.根据权利要求1所述方法,其特征在于,所述第三数据的生成过程,还包括:
使用训练数据集训练所述深度神经网络组;
使用验证数据集评估所述深度神经网络组。
4.根据权利要求1所述方法,其特征在于,所述生成第五数据集并启动新一轮算法迭代,还包括:
挑选第七数据,所述第七数据对应所述第五数据集中的一个第五数据,将所述第七数据加入第七数据集;
生成第八数据集,所述第八数据集为所述第七数据集中数据通过交叉互换得到;
将所述第八数据集加入所述第二数据集。
5.根据权利要求1所述方法,其特征在于,所述联合模型的生成过程,还包括:
生成第九数据集,将每个轮次下所生成的所述第五数据集加入所述第九数据集;
根据所述第九数据集,生成与部署协同性联合学习任务;
启动联合学习任务,训练并生成所述联合模型。
6.根据权利要求1所述方法,其特征在于,还包括:
部署所述联合模型,同时部署协同性任务组信息。
7.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有程序指令,所述程序指令当被处理器执行时使所述处理器执行如权利要求1-6任一项所述的方法。
8.一种执行计算机程序的装置,其特征在于,包括处理组件、存储组件和通信模组件,处理组件、存储组件和通信组件相互连接,其中,存储组件用于存储数据处理代码,通信组件用于与外部设备进行信息交互;处理组件被配置用于调用程序代码,执行如权利要求1-6任一项所述的方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿尔法云计算(深圳)有限公司,未经阿尔法云计算(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010249329.7/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种图像分类方法及系统
- 下一篇:一种模型训练的数据处理方法、装置与系统