[发明专利]多任务分类模型训练方法、多任务分类方法及装置在审
申请号: | 201910839054.X | 申请日: | 2019-09-05 |
公开(公告)号: | CN110728298A | 公开(公告)日: | 2020-01-24 |
发明(设计)人: | 任磊;步佳昊;杨扬;王金刚;张富峥;王仲远 | 申请(专利权)人: | 北京三快在线科技有限公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 11319 北京润泽恒知识产权代理有限公司 | 代理人: | 任亚娟 |
地址: | 100083 北京市海*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 任务分类 预设信息 信息单元 标注 语义 训练模型 训练数据 预测结果 向量 调用参数 分类处理 模型训练 全局向量 分类器 共享层 分类 预设 调用 全局 | ||
1.一种多任务分类模型训练方法,其特征在于,包括:
将预设信息输入至预训练模型,所述预设信息包括多个信息单元,所述预训练模型包括参数共享层和多个分类器;
调用所述参数共享层,对每个所述信息单元进行全局向量表征处理,确定每个所述信息单元在所述预设信息中的全局语义表征向量;
调用所述多个分类器,根据每个所述全局语义表征向量对所述预设信息进行分类处理,确定所述预设信息在多个任务上的分类预测结果;
基于所述分类预测结果、所述预设信息在各所述任务上的第一数量、所述任务的第二数量和所述预设信息的标注结果,计算得到损失值;
在所述损失值处于预设范围内的情况下,将训练得到的目标预训练模型作为多任务分类模型。
2.根据权利要求1所述的方法,其特征在于,所述参数共享层包括嵌入层、双向网络结构编码器和表征结果输出层;
所述调用所述参数共享层,对每个所述信息单元进行全局向量表征处理,确定每个所述信息单元在所述预设信息中的全局语义表征向量,包括:
调用所述嵌入层,对每个所述信息单元进行信息单元向量表征处理,计算得到每个所述信息单元对应的信息单元语义表征向量;
调用所述双向网络结构编码器,对每个所述信息单元语义表征向量进行语义识别处理,计算得到每个信息单元语义表征向量在所述预设信息中的全局语义表征向量;
调用所述表征结果输出层输出所述全局语义表征向量。
3.根据权利要求2所述的方法,其特征在于,所述嵌入层包括信息表征嵌入层、信息单元嵌入层和单元位置嵌入层;
所述调用所述嵌入层,对每个所述信息单元进行信息单元向量表征处理,计算得到每个所述信息单元对应的信息单元语义表征向量,包括:
调用所述信息表征嵌入层,在初始化矩阵中查找每个所述信息单元对应的初始语义表征向量;
调用所述信息单元嵌入层,对每个所述信息单元进行语义识别,获取每个所述信息单元在所述预设信息中所处的信息单元片段;
调用所述单元位置嵌入层,提取每个所述信息单元在所述预设信息中所处的信息单元位置;
基于所述初始语义表征向量、所述信息单元片段和所述信息单元位置,确定每个所述信息单元对应的信息单元语义表征向量。
4.根据权利要求1所述的方法,其特征在于,所述多个分类器包括注意力机制层和分类层,
所述调用所述多个分类器,根据每个所述全局语义表征向量对每个所述预设信息进行分类处理,确定所述预设信息在多个任务上的分类预测结果,包括:
调用所述注意力机制层,根据每个所述全局语义表征向量,计算所述预设信息在每个所述任务上的维度语义表征向量;
调用所述分类层,根据各所述维度语义表征向量,计算所述预设信息在每个任务上的分类预测结果。
5.根据权利要求4所述的方法,其特征在于,所述调用所述注意力机制层,根据每个所述全局语义表征向量,计算所述预设信息在每个所述任务上的维度语义表征向量,包括:
调用所述注意力机制层,对每个所述全局语义表征向量进行评分,获取每个所述信息单元在每个所述任务上的权重值;
通过各所述权重值、每个所述信息单元对应的全局语义表征向量、每个所述任务的横向嵌入向量和所述预设信息在各所述任务上的联合分布概率,计算所述预设信息对应的维度语义表征向量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京三快在线科技有限公司,未经北京三快在线科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910839054.X/1.html,转载请声明来源钻瓜专利网。