[发明专利]一种基于依存树句法增强机制的神经机器翻译方法在审
申请号: | 202111315938.9 | 申请日: | 2021-11-08 |
公开(公告)号: | CN114021591A | 公开(公告)日: | 2022-02-08 |
发明(设计)人: | 冯冲;惠子杨;张天夫;王黎超 | 申请(专利权)人: | 北京理工大学 |
主分类号: | G06F40/58 | 分类号: | G06F40/58;G06N3/04;G06N3/08 |
代理公司: | 北京正阳理工知识产权代理事务所(普通合伙) 11639 | 代理人: | 张利萍 |
地址: | 100081 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 依存 句法 增强 机制 神经 机器翻译 方法 | ||
1.一种基于依存树句法增强机制的神经机器翻译方法,其特征在于,包括以下步骤:
步骤1:构建基于依存树的句法增强注意力机制算法;
在标准注意力机制上,加入依存掩码偏置:
其中,Att()表示注意力机制,Qi表示单词i的查询query,Kj表示单词j的键值key,xi表示单词i的词嵌入向量,xj表示单词j的词嵌入向量,WQ表示查询query权重矩阵,WK表示键值key权重矩阵,T表示对矩阵做转置操作,dk表示向量维度;
给定一个依存掩码D,D∈{0,-∞}u*u,u表示矩阵维度;根据式2将偏置d设为常向量Di,j1,其中1表示每一维均为1的向量;由于softmax的指数操作,加上偏置d∈{0,-∞}u*u,之后对齐的结果相当于为注意力分布乘以一个在[1,0)范围内的权重;
根据词汇xi和xj之间的依存关系Dep(xi,xj)定义Di,j的值:
将Di,j置为-∞,表示系统会忽略相互独立的词对(xi,xj)之间的关系,同时,注意力权重会更倾向于独立的词对;设每一独立的关系都是同等重要的,将Di,j置为0,表示对于不同的独立词对,并不会赋予其不同的偏置;
步骤2:识别冗余头,根据句法注意力的平均权重,动态确定训练过程中每个头的重要性;
步骤3:采用基于依存树的句法增强的注意力机制代替原本的冗余头,以激活其潜在能力。
2.如权利要求1所述的一种基于局部短语句法增强机制的神经机器翻译方法,其特征在于,步骤2中,首先,将依存掩码Dep_mask加入到注意力权重矩阵中,得到对应的反映短期和长期句法关系的句法注意力权重;然后,将序列中对于每个xi与其句法相关的xj,求出其句法注意力权重之和;最后,计算句法注意力权重的平均值Synattn如下:
其中,n表示单词个数。
3.如权利要求2所述的一种基于局部短语句法增强机制的神经机器翻译方法,其特征在于,判断重要头和冗余头的标准如下:
当某一注意力头的句法注意力权重大于最大注意力权重的平均值时,就认为它是重要头,并且它具备了句法功能;
通过比较句法注意力权重Synattn与动态可学习的句法阈值Syngate来确定注意力头的函数,其中,Syngate是作用于置信度hconf的sigmoid激活函数,置信度hconf表示一个注意力头对于序列中n个词汇的最大注意力权重之和的均值:
Syngate=sigmoid(hcomf)
如果Synattn小于Syngate,则认为当前注意力头为冗余:
其中,hlabel表示注意力头是否冗余,1代表非冗余,0代表冗余。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京理工大学,未经北京理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111315938.9/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种掘锚机的锚固机构
- 下一篇:一种区块链数字货币地址关联系统及方法