[发明专利]一种错别字检测方法、装置及设备在审
申请号: | 202011268549.0 | 申请日: | 2020-11-13 |
公开(公告)号: | CN112380839A | 公开(公告)日: | 2021-02-19 |
发明(设计)人: | 顾文剑;贾弼然;蔡巍;张霞 | 申请(专利权)人: | 沈阳东软智能医疗科技研究院有限公司 |
主分类号: | G06F40/232 | 分类号: | G06F40/232;G06F40/205;G06F16/33;G06K9/62 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 柳欣 |
地址: | 110167 辽宁省沈*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 错别字 检测 方法 装置 设备 | ||
本申请实施例公开了一种错别字检测方法、装置及设备,该方法包括:先获取待检测分句,将待检测分句输入到错别字检测模型中,得到错别字检测模型输出的待检测分句中各个原始字符对应的预测字符,将待检测分句中与预测字符不一致的原始字符确定为错别字。错别字检测模型是用于利用正向排序的待检测分句中的第1个到第m个原始字符得到第m个原始字符对应的第一预测结果,利用反向排序的待检测分句中第n个到第m个原始字符得到第m个原始字符对应的第二预测结果;根据第一预测结果以及第二预测结果得到对应的预测字符。通过将得到的两种预测结果进行融合,得到与原始字符对应的,较为准确的预测字符,能够提高错别字检测的准确性以及精确性。
技术领域
本申请涉及数据处理领域,具体涉及一种错别字检测方法、装置及设备。
背景技术
在文本生成的过程中,可能存在着由于撰写错误所导致的错别字。错别字是在特定语境中或者是特定词汇中使用错误的字符,错别字具有对应的正确的字符。在对文本进行处理的过程中,为了从文本中获取较为准确的信息,需要确保文本的正确性。错别字会影响到文本的结构以及文本所表示的信息,在文本处理之前需要对文本中的错别字进行检测,以便对文本中的错别字进行修正。
目前,在通过神经网络模型对错别字进行检测的方法中,错别字检测的准确性较低。
发明内容
有鉴于此,本申请实施例提供一种错别字检测方法、装置及设备,能够提高错别字检测的准确性。
为解决上述问题,本申请实施例提供的技术方案如下:
一种错别字检测方法,所述方法包括:
获取待检测分句;
将所述待检测分句输入错别字检测模型,得到所述错别字检测模型输出的各个原始字符对应的预测字符;所述错别字检测模型用于利用正向排序的所述待检测分句中第1个到第m个原始字符得到所述第m个原始字符对应的第一预测结果,利用反向排序的所述待检测分句中第n个到第m个原始字符得到所述第m个原始字符对应的第二预测结果,根据所述第m个原始字符对应的第一预测结果以及第二预测结果得到所述待检测分句中第m个原始字符对应的预测字符;其中,n为所述待检测分句的字符数量,m的取值分别为1到n的整数;
将所述待检测分句中与对应的预测字符不一致的原始字符确定为错别字。
在一种可能的实现方式中,所述错别字检测模型具体用于:
提取所述待检测分句中各个原始字符的字特征;
利用正向排序的所述待检测分句中第1个到第m个原始字符的字特征,得到所述第m个原始字符对应的各个预测标签的第一概率值;
利用反向排序的所述待检测分句中第n个到第m个原始字符的字特征,得到所述第m个原始字符对应的各个预测标签的第二概率值;
将所述第m个原始字符对应的各个预测标签的第一概率值以及第二概率值进行融合,得到所述第m个原始字符对应的各个预测标签的第一总概率值;
将所述第一总概率值最大的预测标签确定为所述待检测分句中第m个原始字符对应的预测字符。
在一种可能的实现方式中,所述错别字检测模型具体用于:
提取所述待检测分句中各个原始字符的字特征;
利用正向排序的所述待检测分句中第1个到第m个原始字符的字特征,得到所述第m个原始字符对应的各个预测标签的第一概率值;
将所述第m个原始字符对应的各个预测标签的第一概率值乘以所述第m个原始字符对应的第一正向置信度得到所述第m个原始字符对应的各个预测标签的第三概率值;所述第一正向置信度取值为m/n;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于沈阳东软智能医疗科技研究院有限公司,未经沈阳东软智能医疗科技研究院有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011268549.0/2.html,转载请声明来源钻瓜专利网。