[发明专利]机器翻译模型的训练方法及相关装置有效
申请号: | 202110255893.4 | 申请日: | 2021-03-09 |
公开(公告)号: | CN112990434B | 公开(公告)日: | 2023-06-20 |
发明(设计)人: | 魏文琦;王健宗;张之勇;程宁 | 申请(专利权)人: | 平安科技(深圳)有限公司 |
主分类号: | G06N3/0455 | 分类号: | G06N3/0455;G06N3/0499;G06N3/084;G06F40/284;G06F18/22 |
代理公司: | 广州三环专利商标代理有限公司 44202 | 代理人: | 熊永强 |
地址: | 518000 广东省深圳市福田区福*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 机器翻译 模型 训练 方法 相关 装置 | ||
本申请实施例提供了一种机器翻译模型的训练方法及相关装置,该方法包括:通过自注意力层计算待编码单词与预设的第一序列中每个单词之间的相似度,其中,待编码单词为预设的第二序列中第i时刻输入的单词,第二序列为预设的需要通过k个时刻输完的单词序列,第一序列为第二序列的单词中第i个时刻之前输入的单词序列,i和k均为正整数,i小于k;根据相似度计算得到待编码单词的自注意力;将自注意力输入至前馈神经网络中得到输出结果;计算输出结果与自注意力之间的损失值;根据损失值调整机器翻译模型的网络参数。通过本申请实施例,能够提高模型的训练速度。
技术领域
本申请涉及人工智能技术领域,尤其涉及一种机器翻译模型的训练方法及相关装置。
背景技术
在自然语音生成的任务中,大部分是基于Seq2Seq模型实现的,例如生成式对话,机器翻译,文本摘要等等。Seq2Seq是一个编码器Encoder-解码器Decoder结构的网络,它的输入是一个序列,输出也是一个序列。Encoder中将一个可变长度的信号序列变为固定长度的向量表达,Decoder将这个固定长度向量变成可变长度的目标的信号序列。其中,Encoder和Decoder可以由Transfomer结构来构成,Transformer结构中的注意力机制使得Seq2Seq模型可以集中在所有对于下一个目标单词重要的输入信息上,使得Seq2Seq模型效果得到极大的改善。
但是,在训练模型的过程,当输入输出序列长度很长的时候,计算量会很大,训练速度不快,会造成时间上的低效。
发明内容
本申请提供了一种机器翻译模型的训练方法,能够提高模型的训练速度。
本申请第一方面提供了一种机器翻译模型的训练方法,机器翻译模型包括编码器,编码器包括自注意力层和前馈神经网络,该方法可以包括:通过自注意力层计算待编码单词与预设的第一序列中每个单词之间的相似度,其中,待编码单词为预设的第二序列中第i时刻输入的单词,第二序列为预设的需要通过k个时刻输完的单词序列,第一序列为第二序列的单词中第i个时刻之前输入的单词序列,i和k均为正整数,i小于k;根据相似度计算得到待编码单词的自注意力;将自注意力输入至前馈神经网络中得到输出结果;计算输出结果与自注意力之间的损失值;根据损失值调整机器翻译模型的网络参数。
根据第一方面,在一种可能的实现方式中,通过自注意力层计算待编码单词与预设的第一序列中每个单词之间的相似度,包括:获取第一序列中的每个单词的Key,Value数据对;计算待编码单词的Query和各个Key的相似度,相似度为每个Key对应Value值的权重系数。
根据第一方面,在一种可能的实现方式中,根据相似度计算得到待编码单词的自注意力,包括:获取随机函数值;若随机函数值大于或等于第一阈值,则将所述相似度和所述相似度所表示的单词的Value值进行加权求和,得到待编码单词的自注意力。
根据第一方面,在一种可能的实现方式中,还包括:若随机函数值小于第一阈值,则将第一序列中第i-1时刻的单词的自注意力作为待编码单词的自注意力。
根据第一方面,在一种可能的实现方式中,前馈神经网络包括输入层、隐藏层和输出层,将自注意力输入至前馈神经网络中得到输出结果,包括:将自注意力输入至输入层得到第一输出;将第一输出输入至隐藏层得到第二输出;将第二输出输入至输出层得到输出结果。
根据第一方面,在一种可能的实现方式中,计算输出结果与自注意力之间的损失值,包括:通过似然函数的递推式得到自注意力的闭式表达式,其中,闭式表达式为:
采用损失函数计算自注意力的闭式表达式与输出结果之间的损失值。
根据第一方面,在一种可能的实现方式中,根据损失值调整机器翻译模型中编码器的网络参数,包括:将损失值对机器翻译模型中的每一个网络参数求偏导;根据求导链式法则计算损失值对网络参数的梯度值;根据梯度值更新网络参数,使得损失值收敛至全局最优。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安科技(深圳)有限公司,未经平安科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110255893.4/2.html,转载请声明来源钻瓜专利网。