[发明专利]中文纠错方法和装置、存储介质及电子装置有效
申请号: | 201910901631.3 | 申请日: | 2019-09-23 |
公开(公告)号: | CN110852087B | 公开(公告)日: | 2022-02-22 |
发明(设计)人: | 何蕾;曹霖;张锋 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | G06F40/284 | 分类号: | G06F40/284 |
代理公司: | 北京康信知识产权代理有限责任公司 11240 | 代理人: | 周婷婷 |
地址: | 518000 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 中文 纠错 方法 装置 存储 介质 电子 | ||
本发明公开了一种中文纠错方法和装置、存储介质及电子装置。其中,该方法包括:根据待纠错语句中的目标词从候选词表中获取候选词,并将候选词替换待纠错语句中的目标词;计算待纠错语句在替换前的第一困惑度指标PPL值,以及待纠错短句中文字在替换后的第二困惑度指标PPL值;在第一PPL值与第二PPL值的差值小于第一阈值的情况下,获取待纠错语句中疑似错别字的位置;将标记有疑似错别字位置的文字用预测文字进行替换,计算预测文字在目标语句中的概率;在概率大于第二阈值的情况下,将疑似错别字替换为预测字。本发明解决了现有技术中,对语句进行纠错的方式单一、无法快速、有效的实现纠错的技术问题。
技术领域
本发明涉及语言处理领域,具体而言,涉及一种中文纠错方法和装置、存储介质及电子装置。
背景技术
自媒体时代,面对数量众多、内容庞杂的文章,如何自动识别文章中的错别字,辅助判断文章质量,是一项重要而又耗时耗力的工作。和英文相比,汉语表达丰富多样,文法句法结构灵活多变,出错的原因也是千差万别:有浅层的拼写错误,例如谐音错误、形似错误;也有深层的语法错误,例如介词误用、搭配不当,更有难以捕捉的逻辑错误,例如把字句与被字句的混用,大大增加了中文纠错的难度,使得中文纠错面临的问题更加具有挑战性。
随着人工智能技术和自然语音处理技术的发展,自然语音处理技术已经成为人工智能技术发展的重要方向。
目前,将人工智能技术和自然语音处理技术应用到中文纠错系统主要有以下两类技术路线:1、基于语言模型的中文纠错方法:基于语言模型的中文纠错依赖大规模语料上训练的统计语言模型计算句子的困惑度得分,设定阈值判断句子是否是合理的自然语言。具体来说,输入一个分好词的句子,逐词采用同音词候选、近音词候选、形似候选进行替换,计算替换前、后句子的PPL得分降比,对所有候选的结果比较并排序,得到最优纠正词。基于语言模型的中文纠错是一种局部特征的纠错方法。统计语言模型在于多数含有错别字的句子在改正正确后PPL的降比并不显著,常常达不到阈值,召回率偏低,但降低阈值,则会导致准确率骤降。此外,语句中的标点和停用词等都对PPL的计算影响很大,PPL指标不稳定。
2、基于深度神经网络模型的中文纠错方法:错别字改正任务现有的主要解决方法是基于端到端的神经网络生成模型(Seq2Seq),将中文纠错视为机器翻译的过程,即错误句子翻译为正确句子。生成模型使用encoder-decoder框架结构解决由源序列转换为目标序列的问题,使用一个RNN(encoder)将输入句子表示为一个向量,再使用另一个RNN(decoder)解码这个向量获取目标输出。基于生成模型的错别字纠错方法在生成目标序列时往往产生大量重复片段、语句不通等情况,模型训练非常容易过拟合,例如输入句子为“在/与/韩国队/的/金牌/争夺战/中/…”,模型产生的目标输出为“在/与/韩国队/的/金牌/金牌/中…”,重复片段造成的语句不通往往难以避免。基于深度神经网络的纠错能够对句子中的错别字根据整句话判定该错误,是一种全局特征的纠错方法。模型预测结果较稳定,不足在于模型计算耗时较长(一次Bert MLM预测大约需0.2ms),难以满足线上服务的响应需求。
针对上述的问题,目前尚未提出有效的解决方案。
发明内容
本发明实施例提供了一种中文纠错方法和装置、存储介质及电子装置,以至少解决现有技术中,对语句进行纠错的方式单一、无法快速、有效的实现纠错的技术问题。
根据本发明实施例的一个方面,提供了一种中文纠错方法,包括:根据待纠错语句中的目标词从候选词表中获取候选词,并将所述候选词替换所述待纠错语句中的所述目标词;计算所述待纠错语句在替换前的第一困惑度指标PPL值,以及所述待纠错短句中文字在替换后的第二困惑度指标PPL值;在所述第一PPL值与所述第二PPL值的差值小于第一阈值的情况下,获取所述待纠错语句中疑似错别字的位置;将标记有疑似错别字位置的文字用预测文字进行替换,计算所述预测文字在所述目标语句中的概率;在所述概率大于第二阈值的情况下,将所述疑似错别字替换为预测字。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910901631.3/2.html,转载请声明来源钻瓜专利网。