[发明专利]文本纠错方法、装置、设备及可读存储介质在审

申请号：	202011515647.X	申请日：	2020-12-18
公开（公告）号：	CN112632912A	公开（公告）日：	2021-04-09
发明（设计）人：	邓悦;郑立颖;徐亮	申请（专利权）人：	平安科技（深圳）有限公司
主分类号：	G06F40/151	分类号：	G06F40/151;G06F40/232;G06K9/62
代理公司：	深圳市世纪恒程知识产权代理事务所 44287	代理人：	魏润洁
地址：	518000 广东省深圳市福田区福***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	文本纠错方法装置设备可读存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明涉及人工智能技术领域，本发明公开了一种文本纠错方法、装置、设备及可读存储介质，该方法包括步骤：获取待纠错文本；将所述待纠错文本输入预设文本纠错模型，生成纠错编辑操作序列；所述预设文本纠错模型由预设标注编辑操作序列训练得到；所述预设标注编辑操作序列用于将预设错误文本转化为与所述预设错误文本对应的正确文本；基于所述纠错编辑操作序列对所述待纠错文本进行纠错，得到纠错后文本。本发明避免了由于编码器编码和解码器解码的交叉进行而产生的时间序列依赖的问题，即将文本纠错的问题转换为序列生成问题，使得生成纠错编辑操作序列和将错误文本转换为正确文本的过程可以并行，进而提高了文本纠错过程的纠错速度。

技术领域

本发明涉及人工智能技术领域，尤其涉及一种文本纠错方法、装置、设备及可读存储介质。

背景技术

在公文撰写或文章编辑的过程中，多字、错字和漏字情况时常发生，提交一份没有错别字的公文往往需要人工耗时校对，从而在一定程度上降低了办公效率，为了解决这个问题，文本纠错的自动化与智能化是十分必要的。

目前，文本纠错的建模方法主要依靠的是基于注意力机制的序列到序列的编码器-解码器框架，该框架在文本纠错的过程中将原本有错误的句子作为输入，通过编码器进行编码之后，使用解码器逐个解码出纠错后的正确句子。然而，序列到序列的模型每一步的解码都依赖于其上一步解码器的输出，该解码过程为逐个解码的过程，会产生时间序列依赖的问题，造成运行速度上的损失，并且上述编码器编码和解码器解码的过程难以并行，导致线上的运行速度缓慢。

由此可知，目前在进行文本纠错任务时，存在文本纠错过程纠错速度慢的问题。

发明内容

本发明的主要目的在于提供一种文本纠错方法、装置、设备及可读存储介质，旨在解决现有的在进行文本纠错任务时，存在的文本纠错过程纠错速度慢的技术问题。

为实现上述目的，本发明提供一种文本纠错方法，所述文本纠错方法包括步骤：

获取待纠错文本；

将所述待纠错文本输入预设文本纠错模型，生成纠错编辑操作序列；所述预设文本纠错模型由预设标注编辑操作序列训练得到；所述预设标注编辑操作序列用于将预设错误文本转化为与所述预设错误文本对应的正确文本；

基于所述纠错编辑操作序列对所述待纠错文本进行纠错，得到目标纠错后文本。

可选地，获取所述预设文本纠错模型，包括：

获取训练数据集和待训练模型；

基于所述训练数据集对所述待训练模型进行迭代训练，得到更新后的待训练模型，并确定所述更新后的待训练模型是否满足预设迭代结束条件；

若所述更新后的待训练模型满足所述预设迭代结束条件，则将所述更新后的待训练模型作为所述预设文本纠错模型；

若所述更新后的待训练模型未满足所述迭代结束条件，则继续对所述更新后的待训练模型进行迭代训练更新，直至所述更新后的待训练模型满足所述迭代结束条件。