[发明专利]一种Seq2Seq模型训练方法、装置、介质和设备有效
申请号: | 201911284649.X | 申请日: | 2019-12-13 |
公开(公告)号: | CN111126072B | 公开(公告)日: | 2023-06-20 |
发明(设计)人: | 周思丞;苏少炜;陈孝良;常乐 | 申请(专利权)人: | 北京声智科技有限公司 |
主分类号: | G06N3/09 | 分类号: | G06N3/09;G06F40/30;G06N3/0455 |
代理公司: | 北京同达信恒知识产权代理有限公司 11291 | 代理人: | 万晓君 |
地址: | 100080 北京市海淀区北四*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 seq2seq 模型 训练 方法 装置 介质 设备 | ||
本发明涉及一种Seq2Seq模型训练方法、装置、介质和设备。本发明实施例提供的方案中提出,确定损失函数时,可以加大错误位置对应的误差的比重,设置错误文本中错误位置对应的误差的比重,大于错误文本中正确位置对应的误差的比重。这样,在通过损失函数调整Seq2Seq模型时,可以使得模型首先考虑降低错误位置对应的误差,更好地完成文本纠错,从而提高训练出的模型用于文本纠错时的准确性。
技术领域
本发明涉及人工智能技术领域,特别涉及一种Seq2Seq模型训练方法、装置、介质和设备。
背景技术
随着云计算、大数据等人工智能技术的发展与应用,自然语言算法在机器学习和深度学习的帮助下,在实时性、全面性、有效性和准确性等方面都得到了较大提升,与此同时,诸如情感分类算法,实体抽取算法,文本生成算法等自然语言算法得到了广泛应用。文本纠错算法作为常见的自然语言算法之一,已经较为成熟,且应用广泛。
现阶段的文本纠错算法通常通过以下两种方式实现:
一、通过词典进行文本纠错
通过词典进行文本纠错,即采用现有的词典与文本进行完全匹配,从句首至句尾逐字对照,挖掘出用字错误的词汇并进行标识。
通过词典进行文本纠错的优点是设计比较简单,但是缺点也比较突出。逐词遍历词典带来的时间开销是十分巨大的,同时其缺失对语义的理解,即只能判断词汇中的字是否正确,并不能对用词错误进行纠正,导致文本纠错的准确性较低。
二、通过神经网络进行文本纠错
利用神经网络进行文本纠错,则是采用句子到句子(Seq2Seq)模型,利用大量的文本纠错训练语料进行训练,利用神经网络强大的非线性拟合能力对文本的语义进行理解,并生成正确的句子。
Seq2Seq模型是一个有监督的编解码模型,已经广泛应用在文本生成领域中。如图1所示,Seq2Seq模型包括编码器(Encoder)和解码器(Decoder)部分,二者通过中间状态向量(如图1中C)连接。Encoder将一个可变长度的输入序列变为固定长度的向量,Decoder将固定长度的向量解码成可变长度的输出序列。例如,Seq2Seq模型的输入是一个Encoder序列(如图1中X1,X2……XT),输出是一个Decoder序列(如图1中y1,y2……yT’)。
若采用Seq2Seq模型进行文本纠错,通过训练样本集(训练样本集包括多个纠错文本对,一个纠错文本对包括一个错误文本(包含错误字的文本)和一个对应的正确文本)训练Seq2Seq模型,将错误文本输入到Seq2Seq模型中,输出目标文本,训练目标为输出的目标文本为正确文本。
训练样本集中的错误文本和正确文本逐对输入到Seq2Seq模型中进行迭代训练,让Seq2Seq模型逐字生成正确的文本,使得训练出的Seq2Seq模型可以用于文本纠错任务。
通过现有技术训练出的Seq2Seq模型进行文本纠错,改善了通过词典进行文本纠错存在的缺点,但是文本纠错的准确性仍然有待提高。
发明内容
本发明实施例提供一种Seq2Seq模型训练方法、装置、介质和设备,用于解决利用现有技术训练出的Seq2Seq模型进行文本纠错,准确率较低的问题。
本发明提供了一种句子到句子Seq2Seq模型训练方法,所述方法包括:
接收输入的训练样本集,所述训练样本集中的每个纠错文本对包括一个正确文本和一个错误文本;
利用所述训练样本集对预先建立的Seq2Seq模型进行一轮迭代训练;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京声智科技有限公司,未经北京声智科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911284649.X/2.html,转载请声明来源钻瓜专利网。