[发明专利]文本纠错方法、装置、电子设备和存储介质在审

专利信息
申请号: 202110969895.X 申请日: 2021-08-23
公开(公告)号: CN115719062A 公开(公告)日: 2023-02-28
发明(设计)人: 李晟;孔令凯;冯烨;李佳贞 申请(专利权)人: 中移(成都)信息通信科技有限公司;中国移动通信集团有限公司
主分类号: G06F40/253 分类号: G06F40/253;G06F40/289;G06F40/211;G06F40/30;G06N3/04;G06N3/08
代理公司: 北京派特恩知识产权代理有限公司 11270 代理人: 蒋雅洁;张颖玲
地址: 610041 四川省成都市中国(四川)*** 国省代码: 四川;51
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 文本 纠错 方法 装置 电子设备 存储 介质
【说明书】:

本申请公开了一种文本纠错方法、装置、电子设备和存储介质,所述方法包括:获取待纠错文本;基于已训练的纠错模型对所述待纠错文本进行纠错,得到纠错后文本;其中,所述已训练的纠错模型是利用训练文本对初始纠错模型进行训练得到的;所述训练文本是基于对第一初始文本进行文本处理后得到的文本和对第一修改文本进行文本处理后得到的文本而生成;所述第一修改文本为对所述第一初始文本进行修改后的文本。从而能够利用已训练的纠错模型,智能化地对待纠错文本进行纠错,提高文本的正确率。

技术领域

本申请涉及模型训练技术领域,涉及但不限于一种文本纠错方法、装置、电子设备和存储介质。

背景技术

作为语义识别的基础,对语法纠错是目前深度学习应用的重要成果之一。一般深度学习模型对文本进行语法纠错,在深度学习模型的训练过程中,需要大量的正确文本和错误文本组成的文本对作为训练文本。

相关技术中,在一种方法中,可以通过程度规则对正确文本进行处理,如替换掉正确文本中的部分相同词语,造成错误文本,或者截取深度学习模型在训练过程中的中间结果作为错误文本,该方法以计算机的随机数为基础,完全等概率生成随机错误,这与现实中的错误完全不相匹配。

在另一种方法中,可以通过专业人员对素材完成者的作文进行编辑校对,修改文本中的错误,同一文本修改前后的内容就可以被记录为一组正确-错误文本对,该方法对参与者的专业度要求高,专业人才在持续工作中难免存在错误,且该方法基本是以存在“正确答案”为假设前提,该假设并不符合文无第一的基本情况,对于创新的表达形式甚至文学创作基本没有包容度。

发明内容

有鉴于此,本申请实施例提供一种文本纠错方法、装置、电子设备和存储介质。

第一方面,本申请实施例提供一种文本纠错方法,所述方法包括:获取待纠错文本;基于已训练的纠错模型对所述待纠错文本进行纠错,得到纠错后文本;其中,所述已训练的纠错模型是利用训练文本对初始纠错模型进行训练得到的;所述训练文本是基于对第一初始文本进行文本处理后得到的文本和对第一修改文本进行文本处理后得到的文本而生成;所述第一修改文本为对所述第一初始文本进行修改后的文本。

第二方面,本申请实施例提供一种文本纠错装置,包括:第一获取模块,用于获取待纠错文本;纠错模块,用于基于已训练的纠错模型对所述待纠错文本进行纠错,得到纠错后文本;其中,所述已训练的纠错模型是利用训练文本对初始纠错模型进行训练得到的;所述训练文本是基于对第一初始文本进行文本处理后得到的文本和对第一修改文本进行文本处理后得到的文本而生成;所述第一修改文本为对所述第一初始文本进行修改后的文本。

第三方面,本申请实施例提供一种电子设备,包括存储器和处理器,所述存储器存储有可在处理器上运行的计算机程序,所述处理器执行所述程序时实现本申请实施例第一方面任一所述文本纠错方法中的步骤。

第四方面,本申请实施例提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现本申请实施例第一方面任一所述文本纠错方法中的步骤。

本申请实施例中,通过根据对第一初始文本和第一修改文本进行文本处理后得到的文本,生成训练文本以训练初始纠错模型,从而能够利用已训练的纠错模型,智能化地对待纠错文本进行纠错,提高文本的正确率;还可以增加训练文本的规模、多样性和针对性,提高纠错模型的训练效果,降低模型尺寸。

附图说明

图1为本申请实施例一种文本纠错方法的流程示意图;

图2为本申请实施例一种句对生成方法的流程示意图;

图3为本申请实施例一种深度语言模型的离线训练过程示意图;

图4为本申请实施例一种文本纠错装置的组成结构示意图;

图5为本申请实施例电子设备的一种硬件实体示意图。

具体实施方式

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中移(成都)信息通信科技有限公司;中国移动通信集团有限公司,未经中移(成都)信息通信科技有限公司;中国移动通信集团有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110969895.X/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top