[发明专利]一种Seq2Seq模型训练方法、装置、介质和设备有效

申请号：	201911284649.X	申请日：	2019-12-13
公开（公告）号：	CN111126072B	公开（公告）日：	2023-06-20
发明（设计）人：	周思丞;苏少炜;陈孝良;常乐	申请（专利权）人：	北京声智科技有限公司
主分类号：	G06N3/09	分类号：	G06N3/09;G06F40/30;G06N3/0455
代理公司：	北京同达信恒知识产权代理有限公司 11291	代理人：	万晓君
地址：	100080 北京市海淀区北四***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种 seq2seq 模型训练方法装置介质设备
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种句子到句子模型训练方法，其特征在于，所述方法包括：

接收输入的训练样本集，所述训练样本集中的每个纠错文本对包括一个正确文本和一个错误文本；

利用所述训练样本集对预先建立的句子到句子模型进行一轮迭代训练；

一轮迭代训练过程中，根据每次迭代训练过程中确定的损失函数调整预先建立的句子到句子模型，直至一轮迭代训练完成，其中，确定所述损失函数时，用于训练的错误文本中错误位置对应的误差的比重，大于该错误文本中正确位置对应的误差的比重，每个位置对应的误差，为针对该错误文本，句子到句子模型输出的目标文本相对于该错误文本对应的正确文本得到的每个位置的误差；

其中，确定所述损失函数，包括：

对错误文本和对应的正确文本进行比对，确定错误文本中的错误位置；

根据错误文本中的错误位置，确定文本标识向量，所述文本标识向量中错误文本中的正确位置用0表示，错误文本中的错误位置用1表示；

确定文本标识向量与设定的误差系数的乘积，获得误差权重向量，其中，所述误差系数大于1；

确定误差权重向量与单位向量之和，获得修正权重向量；

对修正权重向量以及句子到句子模型输出的目标文本每个位置对应的误差值进行矩阵乘法，确定目标文本每个位置对应的带权误差值；

确定目标文本每个位置对应的带权误差值的平均值，将确定出的该平均值作为确定出的损失函数。

2.如权利要求1所述的方法，其特征在于，一轮迭代训练完成之后，若利用验证样本集确定训练出的句子到句子模型进行文本纠错的准确率低于设定值，所述方法还包括：

更新所述训练样本集中至少一个错误文本的错误形式，利用更新后的训练样本集对训练出的句子到句子模型进行下一轮迭代训练，直至利用验证样本集确定训练出的句子到句子模型进行文本纠错的准确率不低于设定值。

3.如权利要求1～2任一所述的方法，其特征在于，在一轮迭代训练的每次迭代训练过程中，句子到句子模型的编码器采用双向循环的神经网络模型，通过上下文信息进行文本纠错。

4.一种句子到句子模型训练装置，其特征在于，所述装置包括：

接收模块，用于接收输入的训练样本集，所述训练样本集中的每个纠错文本对包括一个正确文本和一个错误文本；

训练模块，用于利用所述训练样本集对预先建立的句子到句子模型进行一轮迭代训练；一轮迭代训练过程中，根据每次迭代训练过程中确定的损失函数调整预先建立的句子到句子模型，直至一轮迭代训练完成，其中，确定所述损失函数时，用于训练的错误文本中错误位置对应的误差的比重，大于该错误文本中正确位置对应的误差的比重，每个位置对应的误差，为针对该错误文本，句子到句子模型输出的目标文本相对于该错误文本对应的正确文本得到的每个位置的误差；

其中，所述训练模块，确定所述损失函数，包括：

对错误文本和对应的正确文本进行比对，确定错误文本中的错误位置；

根据错误文本中的错误位置，确定文本标识向量，所述文本标识向量中错误文本中的正确位置用0表示，错误文本中的错误位置用1表示；

确定文本标识向量与设定的误差系数的乘积，获得误差权重向量，其中，所述误差系数大于1；

确定误差权重向量与单位向量之和，获得修正权重向量；

对修正权重向量以及句子到句子模型输出的目标文本每个位置对应的误差值进行矩阵乘法，确定目标文本每个位置对应的带权误差值；

确定目标文本每个位置对应的带权误差值的平均值，将确定出的该平均值作为确定出的损失函数。

5.如权利要求4所述的装置，其特征在于，所述训练模块，还用于一轮迭代训练完成之后，若利用验证样本集确定训练出的句子到句子模型进行文本纠错的准确率低于设定值，更新所述训练样本集中至少一个错误文本的错误形式，利用更新后的训练样本集对训练出的句子到句子模型进行下一轮迭代训练，直至利用验证样本集确定训练出的句子到句子模型进行文本纠错的准确率不低于设定值。

6.如权利要求4～5任一所述的装置，其特征在于，所述训练模块，具体用于在一轮迭代训练的每次迭代训练过程中，句子到句子模型的编码器采用双向循环的神经网络模型，通过上下文信息进行文本纠错。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于北京声智科技有限公司，未经北京声智科技有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201911284649.X/1.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06N 基于特定计算模型的计算机系统
G06N3-00 基于生物学模型的计算机系统
G06N3-02 .采用神经网络模型
G06N3-12 .采用遗传模型
G06N3-04 ..体系结构，例如，互连拓扑
G06N3-06 ..物理实现，即神经网络、神经元或神经元部分的硬件实现
G06N3-08 ..学习方法

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种Seq2Seq模型训练方法、装置、介质和设备有效

专利文献下载