[发明专利]改进自注意力模型的文本处理方法及装置在审
申请号: | 202310283224.7 | 申请日: | 2023-03-22 |
公开(公告)号: | CN116306791A | 公开(公告)日: | 2023-06-23 |
发明(设计)人: | 王芳;暴宇健 | 申请(专利权)人: | 北京龙智数科科技服务有限公司 |
主分类号: | G06N3/045 | 分类号: | G06N3/045;G06N3/08;G06N3/048;G06F16/35;G06F16/33 |
代理公司: | 北京嘉科知识产权代理事务所(特殊普通合伙) 11687 | 代理人: | 陈美君 |
地址: | 100020 北京市朝*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 改进 注意力 模型 文本 处理 方法 装置 | ||
1.一种改进自注意力模型的文本处理方法,其特征在于,包括:
构建自注意力模型中Q向量与K向量对应的第一分支网络所对应的可训练的目标参数矩阵,其中,所述自注意力模型,包括:所述第一分支网络以及V向量对应的第二分支网络;
在所述自注意力模型中利用所述目标参数矩阵替代所述第一分支网络;
对利用所述目标参数矩阵替代所述第一分支网络后的自注意力模型进行训练,以优化所述目标参数矩阵和所述第二分支网络中的V向量参数矩阵;
利用训练后的自注意力模型执行文本处理任务。
2.根据权利要求1所述的方法,其特征在于,所述自注意力模型是基于掩码语言模型任务预训练后的BERT模型、ALBERT模型、RoBerta模型、SimBERT或者Debert模型;
所述文本处理任务为文本分类任务、序列标注任务、文本生成任务或者语义检索任务。
3.根据权利要求1所述的方法,其特征在于,构建自注意力模型中Q向量与K向量对应的第一分支网络所对应的可训练的目标参数矩阵,包括:
确定所述第一分支网络的输出的维度;
构建可训练的目标参数矩阵,其中,所述目标参数矩阵为所述维度的矩阵。
4.根据权利要求1所述的方法,其特征在于,对利用所述目标参数矩阵替代所述第一分支网络后的自注意力模型进行训练,以优化所述目标参数矩阵和所述第二分支网络中的V向量参数矩阵,包括:
冻结所述自注意力模型中第二分支网络的网络参数,对所述自注意力模型中的目标参数矩阵进行第一训练,以优化所述目标参数矩阵;
在完成所述第一训练后,解冻所述自注意力模型中第二分支网络的网络参数,冻结所述自注意力模型中的目标参数矩阵,对所述自注意力模型中的第二分支网络进行第二训练,以优化所述V向量参数矩阵。
5.根据权利要求1所述的方法,其特征在于,对利用所述目标参数矩阵替代所述第一分支网络后的自注意力模型进行训练,以优化所述目标参数矩阵和所述第二分支网络中的V向量参数矩阵,包括:
获取训练数据集,其中,所述训练数据集包括样本和样本对应的标签;
将所述样本输入所述自注意力模型,输出处理结果;
根据所述处理结果和所述标签,利用所述自注意力模型的损失函数计算损失值,依据所述损失值优化所述目标参数矩阵和所述V向量参数矩阵,其中,所述处理结果与所述目标参数矩阵和所述V向量参数矩阵相关。
6.根据权利要求1所述的方法,其特征在于,利用训练后的自注意力模型执行文本处理任务,包括:
将待处理的目标文本输入训练后的自注意力模型:
所述自注意力模型中的目标参数矩阵处理所述目标文本,得到目标矩阵;
所述自注意力模型中的所述第二分支网络处理所述目标文本,得到所述目标文本的V向量;
将所述V向量与所述目标矩阵相乘,得到相乘结果;
将所述相乘结果经过softmax层,得到所述目标文本的文本处理结果。
7.根据权利要求1所述的方法,其特征在于,包括:
构建所述自注意力模型中V向量对应的第二分支网络所对应的可训练的V向量参数向量;
在所述自注意力模型中利用所述V向量参数向量替代所述第二分支网络;
对利用所述V向量参数向量替代所述第二分支网络后的自注意力模型进行训练,以优化所述V向量参数向量和所述第一分支网络中的网络参数,其中,所述第一分支网络中的网络参数包括Q向量参数矩阵与K向量参数矩阵;
利用训练后的自注意力模型执行文本处理任务。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京龙智数科科技服务有限公司,未经北京龙智数科科技服务有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310283224.7/1.html,转载请声明来源钻瓜专利网。
- 上一篇:应用于室内消防通信的路由方法
- 下一篇:一种显色腐蚀液及其制备方法与应用