[发明专利]一种基于依存树句法增强机制的神经机器翻译方法在审
申请号: | 202111315938.9 | 申请日: | 2021-11-08 |
公开(公告)号: | CN114021591A | 公开(公告)日: | 2022-02-08 |
发明(设计)人: | 冯冲;惠子杨;张天夫;王黎超 | 申请(专利权)人: | 北京理工大学 |
主分类号: | G06F40/58 | 分类号: | G06F40/58;G06N3/04;G06N3/08 |
代理公司: | 北京正阳理工知识产权代理事务所(普通合伙) 11639 | 代理人: | 张利萍 |
地址: | 100081 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 依存 句法 增强 机制 神经 机器翻译 方法 | ||
本发明涉及一种基于依存树句法增强机制的神经机器翻译方法,属于自然语言处理机器翻译技术领域,解决了现有多头自注意力网络无法有效发挥冗余自注意力头作用的技术问题。本方法构建的依存树,利用依存矩阵作为掩码来对不存在直接依存关系的词汇之间的注意力进行建模。同时,本方法提出了一种动态的、轻量级的冗余头激活策略,精确地识别了并在句法层面上激活了Tranformer编码器端的冗余头,提升了多头注意力网络中注意力头的运行效率。本方法通过句法增强的注意力机制模拟了重要头的特定功能,相比于现有的改进的自注意力方法,在测试集上的提升效果更为明显。
技术领域
本发明涉及一种在神经机器翻译中利用依存树激活多头自注意力机制中冗余头的技术,具体涉及一种基于依存树句法增强机制的神经机器翻译方法,属于自然语言处理机器翻译技术领域。
背景技术
多头自注意力机制,基于其显著的并行计算能力及灵活的可扩展性,受到人们的关注。但是,最近一些研究表明,并不是所有的自注意力头都能够对神经网络起到正反馈,其中一部分自注意力头的贡献很小。因此,可以通过对其修剪,以提高整个网络的效果。
近年来,自注意力网络已经应用到各种NLP(Natural Language Processing,自然语言处理)任务中。它不像递归神经网络和卷积神经网络那样描述距离感知的依赖关系,而是捕捉词汇之间的短期和长期关系。自注意力网络通过平均加权,使网络更集中于特定的关系。在机器翻译领域表现良好的Transformer正是使用了多头注意力网络来结合不同子空间的注意力机制。有研究者指出,Transformer中编码器端的注意力头对网络的贡献不一,可以划分为重要的和冗余的注意力头,修剪冗余的注意力头不会严重影响性能。他们还假设重要头在翻译中的影响程度不同,包括句法、位置、以及基于稀有词的功能。
然而,这些方法是将多头自注意力网络作为一个整体考虑,忽略了自注意力头之间对于网络的不均衡贡献,并且对自注意力网络中多头的理解十分有限,没有系统地分析不同头的作用。
发明内容
本发明的目的是为了解决现有多头自注意力网络无法有效发挥冗余自注意力头作用的技术问题,创造性地提出一种基于依存树句法增强机制的神经机器翻译方法。
本发明采用的技术方案如下:
一种基于依存树句法增强机制的神经机器翻译方法,包括以下步骤:
步骤1:构建基于依存树的句法增强注意力机制算法。在标准注意力机制上,加入依存掩码偏置。
步骤2:识别冗余头,根据句法注意力的平均权重,动态确定训练过程中每个头的重要性。
步骤3:采用基于依存树的句法增强的注意力机制代替原本的冗余头,以激活其潜在能力。
有益效果
本发明,对比现有技术,具有以下有益效果及优点:
1.本发明首次提出了一种动态的、轻量级的冗余头激活策略,精确地识别了并在句法层面上激活了Tranformer编码器端的冗余头,提升了多头注意力网络中注意力头的运行效率。
2.本发明构建的依存树利用依存矩阵作为掩码来对不存在直接依存关系的词汇之间的注意力进行建模。相比于现有的基础Transformer的BLEU值,提升了平均0.6个百分点。
3.本发明通过句法增强的注意力机制模拟了重要头的特定功能,相比于现有的改进的自注意力方法,在测试集上的提升效果更为明显。
附图说明
图1为本发明方法的流程图。
具体实施方式
下面结合说明书附图对本发明方法做进一步详细说明。
如图1所示,一种基于依存树句法增强机制的神经机器翻译方法,包括以下步骤:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京理工大学,未经北京理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111315938.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种掘锚机的锚固机构
- 下一篇:一种区块链数字货币地址关联系统及方法