[发明专利]用于多任务场景的网络结构构建方法和装置在审
申请号: | 202010468557.3 | 申请日: | 2020-05-28 |
公开(公告)号: | CN111666763A | 公开(公告)日: | 2020-09-15 |
发明(设计)人: | 朱威;李恬静;何义龙 | 申请(专利权)人: | 平安科技(深圳)有限公司 |
主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F40/30;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 广州华进联合专利商标代理有限公司 44224 | 代理人: | 毛丹 |
地址: | 518000 广东省深圳市福田区福*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 任务 场景 网络 结构 构建 方法 装置 | ||
1.一种用于多任务场景的网络结构构建方法,所述方法包括:
获取训练集,所述训练集包括多个不同目标语义任务对应的训练子样本,训练子样本包括训练子文本数据和训练子标签数据;
将各个目标语义任务对应的训练子文本数据分步输入待确定网络结构的多任务网络模型,得到各个目标语义任务对应的子预测结果,根据子预测结果与对应的训练子标签数据的差异调整所述多任务网络模型的网络参数,直到得到与当前网络结构对应的当前目标网络参数;
获取所述多任务网络模型对应的搜索空间,形成可微网络搜索空间,获取验证集,根据所述验证集通过搜索可微网络搜索空间调整所述当前目标网络参数对应的多任务网络模型的结构参数,搜索时将所述多任务网络模型的隐含状态向量分为多个有序的子隐含状态向量,按预设顺序获取当次搜索对应的子隐含状态向量,将子隐含状态向量输入对应的网络层进行训练,得到更新的多任务网络模型,返回将各个目标语义任务对应的训练子文本数据分步输入待确定网络结构的多任务网络模型的步骤,直到多任务网络模型在所述验证集上的输出结果满足收敛条件,得到目标结构参数,获取与目标结构参数匹配的网络参数,根据所述目标结构参数和匹配的网络参数得到已训练的多任务网络模型。
2.根据权利要求1所述的方法,其特征在于,所述搜索可微网络搜索空间通过以下共享方式中的至少一种:
所述可微网络搜索空间中多头注意力的矩阵参数共享;
所述多任务网络模型的池化层的搜索时,基于胶囊网络的多个操作符,共享映射网络的参数;
获取所述多任务网络模型的节点间的连接关系,将具有同一个起始节点的节点组成节点集合,不同节点集合中的节点对应的操作符进行参数共享。
3.根据权利要求1所述的方法,其特征在于,所述将各个目标语义任务对应的训练子文本数据分步输入待确定网络结构的多任务网络模型,得到各个目标语义任务对应的子预测结果包括:
将当前目标语义任务对应的当前训练子文本数据进行分词,将各个分词映射到对应的向量,组成向量集;
经过编码器对所述向量集提取语义特征,根据语义特征得到所述当前目标语义任务对应的子预测结果,其中所述当前目标语义任务是所述各个目标语义任务中的一个。
4.根据权利要求1所述的方法,其特征在于,所述将各个目标语义任务对应的训练子文本数据分步输入待确定网络结构的多任务网络模型,得到各个目标语义任务对应的子预测结果包括:
计算当前目标语义任务对应的当前训练子文本数据与数据库中的候选文本对应的相似度,得到与所述当前训练子文本数据匹配的相似子文本数据;
将所述当前训练子文本数据对应的第一向量集输入第一编码器提取语义特征得到第一语义特征,将所述相似子文本数据对应的第二向量集输入第二编码器提取语义特征得到第二语义特征;
根据所述第一语义特征和第二语义特征得到所述当前目标语义任务对应的子预测结果。
5.根据权利要求4所述的方法,其特征在于,所述第一编码器和第二编码器的权重共享。
6.根据权利要求1所述的方法,其特征在于,所述根据子预测结果与对应的训练子标签数据的差异调整所述多任务网络模型的网络参数包括:
获取各个目标语义任务对应的子预测结果与训练子标签数据,得到与各个目标语义任务对应的子差异;
获取各个目标语义任务对应的任务权重,根据任务权重对各个子差异进行加权得到统计子差异;
根据所述统计子差异调整所述多任务网络模型的网络参数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安科技(深圳)有限公司,未经平安科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010468557.3/1.html,转载请声明来源钻瓜专利网。