[发明专利]一种针对词汇序列数据的综合位置编码方法有效

专利信息
申请号: 202011297709.4 申请日: 2020-11-18
公开(公告)号: CN112464651B 公开(公告)日: 2023-06-23
发明(设计)人: 柳林青;徐小龙 申请(专利权)人: 南京邮电大学
主分类号: G06F40/242 分类号: G06F40/242;G06F40/284;G06F40/58;G06N3/0455;G06N3/047;G06N3/048;G06N3/08
代理公司: 南京纵横知识产权代理有限公司 32224 代理人: 母秋松
地址: 210003 江苏*** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 针对 词汇 序列 数据 综合 位置 编码 方法
【说明书】:

本发明公开了一种针对词汇序列数据的综合位置编码方法,在词汇序列输入模型之前,每个词汇除了自身的编码之外,还附加了词汇在序列中绝对位置的编码;在深度学习模型中进行两两词汇的二元关系计算时,还加入了两个词汇在序列中的相对位置的编码;两种位置编码本身的数值是可优化的,在训练过程中不断被调整数值。本发明在对词汇原位置进行绝对位置编码的基础上,进一步将任意两个词汇之间距离进行编码,并将两种编码进行组合,从而将具有序列化特征的语言源数据在并行输入到深度学习模型进行计算时,能够有效地体现数据的序列性。相比现有的位置编码方法,本发明可以使目前主流的机器翻译模型实现更高的翻译精度,错误率更低。

技术领域

本发明涉及一种针对词汇序列数据的综合位置编码方法,属于自然语言处理技术领域。

背景技术

在自然语言处理任务中,最常见的作为输入的源数据单元为句子,或称为词汇的序列,是天生具备时间/空间/逻辑关系序列属性的。自然而然,在使用神经网络模型对序列进行处理时,人们最先想到了循环神经网络:一种具备对数据进行序列化处理能力的深度学习模型。但从语义分析的角度来看,词汇序列的处理不能完全按照空间顺序进行,因为词汇与词汇之间关系并不完全与它们在序列中的空间顺序一致对应,同时简单的循环神经网络无法处理长期依赖。LSTM、基于注意力的双向LSTM等深度学习模型被提出来应对这些问题。

进一步地,针对循环神经网络模型不可避免的高时间开销的问题,具有对数据进行并行化处理功能的卷积神经网络被引入到神经机器翻译领域用来对数据输入进行处理;与此同时,注意力机制的发现,对于提高神经机器翻译模型的性能表现起到了重要作用,其中,通过融入编码器/解码器自注意力机制和编码器与解码器之间的注意力机制,对数据输入进行并行化处理的点乘网络模型:Transformer,进一步地将并行模型与序列化数据结合了起来,起到了非常好的效果。

与循环神经网络模型、卷积神经网络模型相同,Transformer模型作为神经机器翻译的工具时,我们需要对此类模型进行训练和测试,在得到模型测试的满意结果之后,才能够将此模型应用到具体的翻译实践当中去。在对Transformer模型进行训练时,我们所需的训练数据,就是一对一对的翻译样例,我们称之为平行语料,比如:

“I love my family:我爱我的家庭”;英文部分为源输入,中文部分为目标输入,或者二者颠倒过来。

这样的翻译样例,当我们手里有几十上百万不同的平行语料之后,我们就可以利用这些平行语料对翻译模型进行训练了,技术上我们称这些平行语料为“训练数据”,对应的,在对模型的测试阶段,我们也需要使用数据对训练好的模型进行测试,以判断训练后的模型是否能够满足我们的要求并应用到实践中去,这些在测试阶段使用的数据,虽然形式和训练阶段使用的数据一样都是一对一对的平行语料,但我们要求这些在测试阶段使用的数据不同于训练阶段使用的数据,并且把其称为“测试数据”。

这种一对一的平行语料,在输入模型之前,会被分解为两部分内容,第一部分内容为输入语句所包含的一个一个单词其本身所包含的内容,比如“I love my family;”,针对英文来说,由于英文语句本身就是由一个一个彼此隔开的单词所组成的,所以我们可以直接将其拆分成一组单词,而对于中文来说,由于中文句子是连续的汉字组成的,而我们显然不可能以单个汉字为单位来表示一个句子,因此在输入模型之前我们还需要使用单词切分技术将其切分成一个一个像英文语句那样隔开的单词组合,这牵扯到另外一个语句切分的技术话题,由于本专利涉及内容与此技术相隔较远,在此不作赘述,我们需要默认中文语句是由已经被切分好的单词组所组成的。平行语料被分解的第二部分内容为语句中每个单词在语句中的位置信息,比如单词“my”在语句“I love my family;”中的位置就是3,我们需要将单词的位置信息附加到单词上,作为模型的输入。这样,这些一对一的翻译样例,就具备了完整的信息,作为序列化的词汇数据,被输入模型进行训练/测试。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京邮电大学,未经南京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202011297709.4/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top