[发明专利]模型构建方法和电子设备在审
申请号: | 202211251827.0 | 申请日: | 2022-10-13 |
公开(公告)号: | CN115471279A | 公开(公告)日: | 2022-12-13 |
发明(设计)人: | 应兴盛 | 申请(专利权)人: | 维沃软件技术有限公司 |
主分类号: | G06Q30/02 | 分类号: | G06Q30/02;G06N3/04;G06N3/08 |
代理公司: | 北京东方亿思知识产权代理有限责任公司 11258 | 代理人: | 尹婧 |
地址: | 100015 北京市朝阳区酒仙桥*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 模型 构建 方法 电子设备 | ||
本申请公开一种模型构建方法和电子设备。方法包括根据多个归因节点的关系树,得到N个归因节点组,每个归因节点组包括至少M个归因节点;构建模型的共享向量层,共享向量层包括N个专家网络,各专家网络在输入样本的情况下,输出各专家网络对应的归因节点组的共享向量;构建模型的向量融合层,向量融合层包括与多个归因节点一一对应的多个融合模块,各融合模块连接至少一个第一专家网络,各融合模块在输入至少一个第一专家网络输出的共享向量的情况下,输出融合向量;构建模型的输出层,输出层包括多个目标塔,多个目标塔与多个融合模块一一对应连接,各目标塔在输入融合模块输出的融合向量的情况下,输出融合模块对应的归因节点的预测值。
技术领域
本申请属于人工智能技术领域,具体涉及一种模型构建方法和电子设备。
背景技术
在广告推荐场景中,通常需要通过模型对多个归因节点进行学习。目前对多个归因节点进行学习的模型的构建方法可以采用异构的多专家网络参数共享方式,异构的多专家网络参数共享的模型通常包括多门混合专家算法(Multi-gate Mixture-Of-Experts,MMOE)模型和定制闸门控制(Customized Gate Control,CGC)/渐进分层提取(ProgressiveLayered Extraction,PLE)模型。
其中,MMOE模型中每个专家网络均与上层所有目标塔连接,且每个目标塔需要利用一个门网络去学习与之连接的不同共享向量的权重,容易造成模型的参数量的迅速增大,模型结构难以训练收敛,模型结构较复杂。CGC/PLE模型中采用一个共享专家网络与多个其他专家网络组合,除了共享专家网络与所有目标塔连接外,其他专家网络中每个专家网络只与部分目标塔随机均匀连接,相对于MMOE模型,CGC/PLE模型的结构较简单,但专家网络输出的共享向量与目标塔随机均匀连接的方式存在因不相关归因节点而导致负迁移现象的缺陷。可见,相关技术中的模型构建方法往往难以同时满足模型结构简单,且能够缓解负迁移现象的需求。
发明内容
本申请实施例的目的是提供一种模型构建方法和电子设备,能够解决模型构建方法往往难以同时满足模型结构简单,且能够缓解负迁移现象的需求的问题。
第一方面,本申请实施例提供了一种模型构建方法,该方法包括:
根据包括多个归因节点的关系树,划分多个归因节点,得到N个归因节点组,每个归因节点组包括至少M个归因节点,N、M为大于1的整数;
构建模型的共享向量层,共享向量层包括与N个归因节点组一一对应的N个专家网络,各专家网络在输入样本的情况下,输出各专家网络对应的归因节点组的共享向量;
构建模型的向量融合层,向量融合层包括与多个归因节点一一对应的多个融合模块,各融合模块连接至少一个第一专家网络,第一专家网络对应的归因节点组中包括与第一专家网络连接的融合模块对应的归因节点,各融合模块在输入至少一个第一专家网络输出的共享向量的情况下,输出融合向量;
构建模型的输出层,输出层包括多个目标塔,多个目标塔与多个融合模块一一对应连接,各目标塔在输入融合模块输出的融合向量的情况下,输出融合模块对应的归因节点的预测值。
第二方面,本申请实施例提供了一种模型构建的装置,装置包括:
划分模块,用于根据包括多个归因节点的关系树,划分多个归因节点,得到N个归因节点组,每个归因节点组包括至少M个归因节点,N、M为大于1的整数;
第一构建模块,用于构建模型的共享向量层,共享向量层包括与N个归因节点组一一对应的N个专家网络,各专家网络在输入样本的情况下,输出各专家网络对应的归因节点组的共享向量;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于维沃软件技术有限公司,未经维沃软件技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211251827.0/2.html,转载请声明来源钻瓜专利网。