[发明专利]文本纠错方法、装置、设备及介质在审

申请号：	202011302530.3	申请日：	2020-11-19
公开（公告）号：	CN112380840A	公开（公告）日：	2021-02-19
发明（设计）人：	郑立颖;徐亮;肖京	申请（专利权）人：	平安科技（深圳）有限公司
主分类号：	G06F40/232	分类号：	G06F40/232;G06F40/242;G06F40/226;G06F40/166;G06F40/279
代理公司：	深圳市明日今典知识产权代理事务所(普通合伙) 44343	代理人：	王杰辉;曹勇
地址：	518000 广东省深圳市福田区福***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	文本纠错方法装置设备介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本申请涉及人工智能技术领域，揭示了一种文本纠错方法、装置、设备及介质，其中方法包括：根据目标词典对引擎纠错后的文本进行分词及错误用词判断得到第一潜在错误用词数据；将引擎纠错后的文本输入预训练模型进行替换概率预测得到替换概率预测结果，根据替换概率预测结果确定第二潜在错误用词数据；根据引擎纠错后的文本、第一潜在错误用词数据和第二潜在错误用词数据确定候选替换句得到多个待评分的候选替换句；分别将每一个待评分的候选替换句输入统计语言模型进行候选替换句评分得到多个候选替换句评分结果；根据多个候选替换句评分结果确定目标候选替换句。从而实现了对规则以内和规则以外的错误情况的识别，提高了文本纠错的准确性。

技术领域

本申请涉及到人工智能技术领域，特别是涉及到一种文本纠错方法、装置、设备及介质。

背景技术

文本纠错指的是对自然语言在使用过程中出现的问题自动进行识别和纠正，比如，用字错误(痛点写成通点)、语法错误(的地得混用)、用词搭配错误(辅助决策写成扶助决策)、多字、漏字等。

因为特定场景的相关术语、专业术语，比如，机构的缩写：广东分公司写成广分，公司内部的缩写用语：会议纪要写成会纪，导致采用通用语料(如维基百科中文语料、人民日报中文语料)训练出的文本纠错模型的纠错效果不会太好。

目前已有的纠错技术针对特定场景大都结合规则引擎，但是仅依赖规则引擎会造成文本纠错模型覆盖率有限，针对规则以外的错误情况无法处理，同时规则引擎也会容易引起误判。

发明内容

本申请的主要目的为提供一种文本纠错方法、装置、设备及介质，旨在解决现有技术的纠错技术仅依赖规则引擎会造成文本纠错模型覆盖率有限，针对规则以外的错误情况无法处理，同时规则引擎也会容易引起误判的技术问题。

为了实现上述发明目的，本申请提出一种文本纠错方法，所述方法包括：

获取待纠错文本，将所述待纠错文本输入纠错规则引擎进行纠错处理，得到引擎纠错后的文本；

获取目标词典，根据所述目标词典对所述引擎纠错后的文本进行分词及错误用词判断，得到第一潜在错误用词数据；

将所述引擎纠错后的文本输入预训练模型进行替换概率预测，得到替换概率预测结果，根据所述替换概率预测结果，确定第二潜在错误用词数据；