[发明专利]文本纠错方法、装置、设备及介质在审
申请号: | 202011302530.3 | 申请日: | 2020-11-19 |
公开(公告)号: | CN112380840A | 公开(公告)日: | 2021-02-19 |
发明(设计)人: | 郑立颖;徐亮;肖京 | 申请(专利权)人: | 平安科技(深圳)有限公司 |
主分类号: | G06F40/232 | 分类号: | G06F40/232;G06F40/242;G06F40/226;G06F40/166;G06F40/279 |
代理公司: | 深圳市明日今典知识产权代理事务所(普通合伙) 44343 | 代理人: | 王杰辉;曹勇 |
地址: | 518000 广东省深圳市福田区福*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 纠错 方法 装置 设备 介质 | ||
本申请涉及人工智能技术领域,揭示了一种文本纠错方法、装置、设备及介质,其中方法包括:根据目标词典对引擎纠错后的文本进行分词及错误用词判断得到第一潜在错误用词数据;将引擎纠错后的文本输入预训练模型进行替换概率预测得到替换概率预测结果,根据替换概率预测结果确定第二潜在错误用词数据;根据引擎纠错后的文本、第一潜在错误用词数据和第二潜在错误用词数据确定候选替换句得到多个待评分的候选替换句;分别将每一个待评分的候选替换句输入统计语言模型进行候选替换句评分得到多个候选替换句评分结果;根据多个候选替换句评分结果确定目标候选替换句。从而实现了对规则以内和规则以外的错误情况的识别,提高了文本纠错的准确性。
技术领域
本申请涉及到人工智能技术领域,特别是涉及到一种文本纠错方法、装置、设备及介质。
背景技术
文本纠错指的是对自然语言在使用过程中出现的问题自动进行识别和纠正,比如,用字错误(痛点写成通点)、语法错误(的地得混用)、用词搭配错误(辅助决策写成扶助决策)、多字、漏字等。
因为特定场景的相关术语、专业术语,比如,机构的缩写:广东分公司写成广分,公司内部的缩写用语:会议纪要写成会纪,导致采用通用语料(如维基百科中文语料、人民日报中文语料)训练出的文本纠错模型的纠错效果不会太好。
目前已有的纠错技术针对特定场景大都结合规则引擎,但是仅依赖规则引擎会造成文本纠错模型覆盖率有限,针对规则以外的错误情况无法处理,同时规则引擎也会容易引起误判。
发明内容
本申请的主要目的为提供一种文本纠错方法、装置、设备及介质,旨在解决现有技术的纠错技术仅依赖规则引擎会造成文本纠错模型覆盖率有限,针对规则以外的错误情况无法处理,同时规则引擎也会容易引起误判的技术问题。
为了实现上述发明目的,本申请提出一种文本纠错方法,所述方法包括:
获取待纠错文本,将所述待纠错文本输入纠错规则引擎进行纠错处理,得到引擎纠错后的文本;
获取目标词典,根据所述目标词典对所述引擎纠错后的文本进行分词及错误用词判断,得到第一潜在错误用词数据;
将所述引擎纠错后的文本输入预训练模型进行替换概率预测,得到替换概率预测结果,根据所述替换概率预测结果,确定第二潜在错误用词数据;
根据所述引擎纠错后的文本、所述第一潜在错误用词数据和所述第二潜在错误用词数据确定候选替换句,得到多个待评分的候选替换句;
分别将每一个所述待评分的候选替换句输入统计语言模型进行候选替换句评分,得到多个候选替换句评分结果;
根据所述多个候选替换句评分结果,确定目标候选替换句。
进一步的,所述获取目标词典的步骤之前,包括:
获取多个业务场景文本样本;
对所述多个业务场景文本样本进行分词,得到待统计的词语集合;
对所述待统计的词语集合中每个词语进行词频统计,得到多个待分析词语词频;
获取词频阈值;
判断所述多个待分析词语词频是否大于所述词频阈值;
当所述待分析词语词频大于所述词频阈值时,将所述待分析词语词频对应的词语作为业务场景常用词数据;
采用点间互信息和左右熵的新词发现算法对所述多个业务场景文本样本进行新词挖掘,得到业务场景新词数据;
获取业务场景特定词数据和通用场景常用词数据;
根据所述业务场景常用词数据、所述业务场景新词数据、所述业务场景特定词数据和所述通用场景常用词数据,确定所述目标词典。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安科技(深圳)有限公司,未经平安科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011302530.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种碳纤维增韧碳化硅-碳化锆复合材料的制备方法
- 下一篇:一种灌装装置