[发明专利]改进自注意力模型的文本处理方法及装置在审
申请号: | 202310283224.7 | 申请日: | 2023-03-22 |
公开(公告)号: | CN116306791A | 公开(公告)日: | 2023-06-23 |
发明(设计)人: | 王芳;暴宇健 | 申请(专利权)人: | 北京龙智数科科技服务有限公司 |
主分类号: | G06N3/045 | 分类号: | G06N3/045;G06N3/08;G06N3/048;G06F16/35;G06F16/33 |
代理公司: | 北京嘉科知识产权代理事务所(特殊普通合伙) 11687 | 代理人: | 陈美君 |
地址: | 100020 北京市朝*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 改进 注意力 模型 文本 处理 方法 装置 | ||
本公开涉及文本处理技术领域,提供了一种改进自注意力模型的文本处理方法及装置。该方法包括:构建自注意力模型的嵌入层和线性层各自对应的第一矩阵和第二矩阵;利用嵌入层对应的第一矩阵和第二矩阵构建嵌入层的第一旁路网络,利用线性层对应的第一矩阵和第二矩阵构建线性层的第二旁路网络;对构建第一旁路网络和第二旁路网络后的自注意力模型进行训练:冻结自注意力模型中除第一旁路网络和第二旁路网络之外的其它网络层的网络参数,对第一旁路网络和第二旁路网络进行训练;利用训练后的自注意力模型执行文本处理任务。采用上述技术手段,解决现有技术中,自注意力模型训练面临待调优参数量大和耗时长的问题。
技术领域
本公开涉及文本处理技术领域,尤其涉及一种改进自注意力模型的文本处理方法及装置。
背景技术
随着机器学习技术的发展,机器学习技术被广泛应用到了文本处理中,尤其是自注意力机制在文本处理中的应用。自注意力机制参数繁多,再加上一个自注意力模型通常会采用多个注意力头,导致自注意力模型的参数总量极大,进而导致自注意力模型的训练耗时长,同时运行或者训练自注意力模型也要求较高的算力。
在实现本公开构思的过程中,发明人发现相关技术中至少存在如下技术问题:自注意力模型的训练耗时长以及运行或者训练自注意力模型对算力要求高等问题。
发明内容
有鉴于此,本公开实施例提供了一种改进自注意力模型的文本处理方法、装置、电子设备及计算机可读存储介质,以解决现有技术中,自注意力模型的训练耗时长以及运行或者训练自注意力模型对算力要求高等问题。
本公开实施例的第一方面,提供了一种改进自注意力模型的文本处理方法,包括:构建自注意力模型中Q向量与K向量对应的第一分支网络所对应的可训练的目标参数矩阵,其中,自注意力模型,包括:第一分支网络以及V向量对应的第二分支网络;在自注意力模型中利用目标参数矩阵替代第一分支网络;对利用目标参数矩阵替代第一分支网络后的自注意力模型进行训练,以优化目标参数矩阵和第二分支网络中的V向量参数矩阵;利用训练后的自注意力模型执行文本处理任务。
本公开实施例的第二方面,提供了一种改进自注意力模型的文本处理装置,包括:构建模块,用于构建自注意力模型中Q向量与K向量对应的第一分支网络所对应的可训练的目标参数矩阵,其中,自注意力模型,包括:第一分支网络以及V向量对应的第二分支网络;改进模块,用于在自注意力模型中利用目标参数矩阵替代第一分支网络;训练模块,用于对利用目标参数矩阵替代第一分支网络后的自注意力模型进行训练,以优化目标参数矩阵和第二分支网络中的V向量参数矩阵;处理模块,用于利用训练后的自注意力模型执行文本处理任务。
本公开实施例的第三方面,提供了一种电子设备,包括存储器、处理器以及存储在存储器中并且可在处理器上运行的计算机程序,该处理器执行计算机程序时实现上述方法的步骤。
本公开实施例的第四方面,提供了一种计算机可读存储介质,该计算机可读存储介质存储有计算机程序,该计算机程序被处理器执行时实现上述方法的步骤。
本公开实施例与现有技术相比存在的有益效果是:因为本公开实施例通过构建自注意力模型中Q向量与K向量对应的第一分支网络所对应的可训练的目标参数矩阵,其中,自注意力模型,包括:第一分支网络以及V向量对应的第二分支网络;在自注意力模型中利用目标参数矩阵替代第一分支网络;对利用目标参数矩阵替代第一分支网络后的自注意力模型进行训练,以优化目标参数矩阵和第二分支网络中的V向量参数矩阵;利用训练后的自注意力模型执行文本处理任务,因此,采用上述技术手段,可以解决现有技术中,自注意力模型的训练耗时长以及运行或者训练自注意力模型对算力要求高等问题,进而减少自注意力模型的训练耗时长,降低运行或者训练自注意力模型的算力要求。
附图说明
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京龙智数科科技服务有限公司,未经北京龙智数科科技服务有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310283224.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:应用于室内消防通信的路由方法
- 下一篇:一种显色腐蚀液及其制备方法与应用