[发明专利]一种针对词汇序列数据的综合位置编码方法有效
申请号: | 202011297709.4 | 申请日: | 2020-11-18 |
公开(公告)号: | CN112464651B | 公开(公告)日: | 2023-06-23 |
发明(设计)人: | 柳林青;徐小龙 | 申请(专利权)人: | 南京邮电大学 |
主分类号: | G06F40/242 | 分类号: | G06F40/242;G06F40/284;G06F40/58;G06N3/0455;G06N3/047;G06N3/048;G06N3/08 |
代理公司: | 南京纵横知识产权代理有限公司 32224 | 代理人: | 母秋松 |
地址: | 210003 江苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 针对 词汇 序列 数据 综合 位置 编码 方法 | ||
本发明公开了一种针对词汇序列数据的综合位置编码方法,在词汇序列输入模型之前,每个词汇除了自身的编码之外,还附加了词汇在序列中绝对位置的编码;在深度学习模型中进行两两词汇的二元关系计算时,还加入了两个词汇在序列中的相对位置的编码;两种位置编码本身的数值是可优化的,在训练过程中不断被调整数值。本发明在对词汇原位置进行绝对位置编码的基础上,进一步将任意两个词汇之间距离进行编码,并将两种编码进行组合,从而将具有序列化特征的语言源数据在并行输入到深度学习模型进行计算时,能够有效地体现数据的序列性。相比现有的位置编码方法,本发明可以使目前主流的机器翻译模型实现更高的翻译精度,错误率更低。
技术领域
本发明涉及一种针对词汇序列数据的综合位置编码方法,属于自然语言处理技术领域。
背景技术
在自然语言处理任务中,最常见的作为输入的源数据单元为句子,或称为词汇的序列,是天生具备时间/空间/逻辑关系序列属性的。自然而然,在使用神经网络模型对序列进行处理时,人们最先想到了循环神经网络:一种具备对数据进行序列化处理能力的深度学习模型。但从语义分析的角度来看,词汇序列的处理不能完全按照空间顺序进行,因为词汇与词汇之间关系并不完全与它们在序列中的空间顺序一致对应,同时简单的循环神经网络无法处理长期依赖。LSTM、基于注意力的双向LSTM等深度学习模型被提出来应对这些问题。
进一步地,针对循环神经网络模型不可避免的高时间开销的问题,具有对数据进行并行化处理功能的卷积神经网络被引入到神经机器翻译领域用来对数据输入进行处理;与此同时,注意力机制的发现,对于提高神经机器翻译模型的性能表现起到了重要作用,其中,通过融入编码器/解码器自注意力机制和编码器与解码器之间的注意力机制,对数据输入进行并行化处理的点乘网络模型:Transformer,进一步地将并行模型与序列化数据结合了起来,起到了非常好的效果。
与循环神经网络模型、卷积神经网络模型相同,Transformer模型作为神经机器翻译的工具时,我们需要对此类模型进行训练和测试,在得到模型测试的满意结果之后,才能够将此模型应用到具体的翻译实践当中去。在对Transformer模型进行训练时,我们所需的训练数据,就是一对一对的翻译样例,我们称之为平行语料,比如:
“I love my family:我爱我的家庭”;英文部分为源输入,中文部分为目标输入,或者二者颠倒过来。
这样的翻译样例,当我们手里有几十上百万不同的平行语料之后,我们就可以利用这些平行语料对翻译模型进行训练了,技术上我们称这些平行语料为“训练数据”,对应的,在对模型的测试阶段,我们也需要使用数据对训练好的模型进行测试,以判断训练后的模型是否能够满足我们的要求并应用到实践中去,这些在测试阶段使用的数据,虽然形式和训练阶段使用的数据一样都是一对一对的平行语料,但我们要求这些在测试阶段使用的数据不同于训练阶段使用的数据,并且把其称为“测试数据”。
这种一对一的平行语料,在输入模型之前,会被分解为两部分内容,第一部分内容为输入语句所包含的一个一个单词其本身所包含的内容,比如“I love my family;”,针对英文来说,由于英文语句本身就是由一个一个彼此隔开的单词所组成的,所以我们可以直接将其拆分成一组单词,而对于中文来说,由于中文句子是连续的汉字组成的,而我们显然不可能以单个汉字为单位来表示一个句子,因此在输入模型之前我们还需要使用单词切分技术将其切分成一个一个像英文语句那样隔开的单词组合,这牵扯到另外一个语句切分的技术话题,由于本专利涉及内容与此技术相隔较远,在此不作赘述,我们需要默认中文语句是由已经被切分好的单词组所组成的。平行语料被分解的第二部分内容为语句中每个单词在语句中的位置信息,比如单词“my”在语句“I love my family;”中的位置就是3,我们需要将单词的位置信息附加到单词上,作为模型的输入。这样,这些一对一的翻译样例,就具备了完整的信息,作为序列化的词汇数据,被输入模型进行训练/测试。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京邮电大学,未经南京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011297709.4/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置