[发明专利]中文文本纠错方法、装置、电子设备及可读存储介质在审
申请号: | 202111376112.3 | 申请日: | 2021-11-19 |
公开(公告)号: | CN114077832A | 公开(公告)日: | 2022-02-22 |
发明(设计)人: | 卢凌云;杨占栋;张晨;李昱;王全礼 | 申请(专利权)人: | 中国建设银行股份有限公司 |
主分类号: | G06F40/216 | 分类号: | G06F40/216;G06F16/35 |
代理公司: | 北京同立钧成知识产权代理有限公司 11205 | 代理人: | 吴梅锡;刘芳 |
地址: | 100033 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 中文 文本 纠错 方法 装置 电子设备 可读 存储 介质 | ||
1.一种中文文本纠错方法,其特征在于,包括:
获取待纠错中文文本,并对所述待纠错中文文本进行错误位置检测,得到检测结果;
对所述检测结果进行错误类型分类,并进行错误类型修正,得到修正后的检测结果;
针对修正后的检测结果对应的错误类型,基于预先存储的纠错模型中找到该错误类型对应的第一优先级纠错模型对所述修正后的检测结果进行纠错,得到所述待纠错中文文本的纠错结果。
2.根据权利要求1所述的方法,其特征在于,对所述待纠错中文文本进行错误位置检测,得到检测结果,包括:
利用第一检错模块对所述待纠错中文文本进行检测,得到检测结果;所述第一检错模块包括第一检错模型和/或预先训练好的第二检错模型。
3.根据权利要求1所述的方法,其特征在于,对所述检测结果进行错误类型分类,并进行错误类型修正,得到修正后的检测结果,包括:
基于所述检测结果中的错误位置利用第二检测模块对所述检测结果进行错误类型的分类,并进行错误类型的修正,得到修正后的检测结果。
4.根据权利要求1所述的方法,其特征在于,基于预先存储的纠错模型中找到该错误类型对应的第一优先级纠错模型对所述修正后的检测结果进行纠错,得到所述待纠错中文文本的纠错结果,包括:
基于预先存储的纠错模型中找到该错误类型对应的第一优先级纠错模型,并利用所述第一优先级纠错模型对所述待纠错中文文本进行纠错,得到第一候选集,并选取所述第一候选集中概率最大的备选词替换所述检测结果中的错误位置,得到第一文本;
计算所述第一文本的第一文本困惑度,并判断所述第一文本困惑度是否小于所述待纠错中文文本的文本困惑度;若是,则得到纠错结果,否则,基于预先存储的纠错模型中找到该错误类型对应的次优先级纠错模型,并利用所述次优先级纠错模型对所述待纠错中文文本进行纠错,得到第二候选集,并选取所述第二候选集中概率最大的备选词替换所述检测结果中的错误位置,得到第二文本;
计算所述第二文本的第二文本困惑度,并判断所述第二文本困惑度是否小于所述待纠错中文文本的文本困惑度;若是,则得到纠错结果,否则,确定所述检测结果中的错误位置不需要纠错。
5.根据权利要求2所述的方法,其特征在于,还包括:
获取训练数据集,所述训练数据集中的每一训练数据包括:无标签的语句和带标签的语句;
根据所述训练数据集,对第二检错模型进行训练;
相应的,利用第一检错模块对所述待纠错中文文本进行检测,得到检测结果,包括:
将所述待纠错中文文本输入第一检错模型中,得到第一检测结果;
将所述待纠错中文文本输入通过所述训练数据集训练得到的第二检错模型中,得到第二检测结果;
将所述第一检测结果和所述第二检测结果进行合并,得到检测结果。
6.根据权利要求3所述的方法,其特征在于,所述错误类型包括:字错误、词错误和语义错误;所述字错误为文本中包含单个字的错误,所述词错误为文本中包含两字、三字或四字的错误,所述语义错误为文本中包含多于四字的错误;基于所述检测结果中的错误位置利用第二检测模块对所述检测结果进行错误类型的分类,并进行错误类型的修正,包括:
基于所述错误位置的字数多少利用第二检测模块对所述检测结果进行错误类型的分类,得到分类结果;
对所述分类结果对应的检测结果利用分类修正方法进行分词处理,修正所述检测结果中的错误位置及错误类型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国建设银行股份有限公司,未经中国建设银行股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111376112.3/1.html,转载请声明来源钻瓜专利网。