首页在售求购查询申请展会资讯专利榜企服商城升级VIP

立即登录免费注册

在售专利
求购专利
查询专利
新闻资讯
技术展会
招商加盟
专利榜

本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247 本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247 本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247

本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247 本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247 本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247

[发明专利]文本纠错方法、装置、介质及设备在审

申请号：	202110172228.9	申请日：	2021-02-08
公开（公告）号：	CN113392635A	公开（公告）日：	2021-09-14
发明（设计）人：	罗文寒;陈博恒;殷泽龙	申请（专利权）人：	腾讯科技（深圳）有限公司
主分类号：	G06F40/232	分类号：	G06F40/232;G06F40/289
代理公司：	广州三环专利商标代理有限公司 44202	代理人：	熊永强;贾允
地址：	518057 广东省深圳***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	文本纠错方法装置介质设备
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种文本纠错方法，其特征在于，所述方法包括：

获取待纠错文本，基于语言模型对所述待纠错文本进行预测，得到所述待纠错文本中目标文本的文本预测值；

根据形近字列表确定所述文本预测值的一个或多个形近字，所述形近字列表是预先通过对文本库语料进行处理得到的；

根据所述文本预测值和所述文本预测值的一个或多个形近字，对所述待纠错文本中所述目标文本进行纠错。

2.根据权利要求1所述的方法，其特征在于，所述根据形近字列表确定所述文本预测值的一个或多个形近字之前，所述方法还包括：

通过对文本库语料进行词频分析和差异量化，得到所述形近字列表；

所述通过对文本库语料进行词频分析和差异量化，得到所述形近字列表，包括：

获取文本库中的短文本语料；

对所述短文本语料进行词频统计和排序，得到第一词汇集合和第二词汇集合；

对于所述第一词汇集合中的第一目标词汇，从所述第二词汇集合中获取与所述第一目标词汇的差异程度满足预设条件的第二目标词汇；

根据所述第一目标词汇和所述第二目标词汇确定差异文本，根据所述差异文本生成至少一组形近字对；

遍历所述第一词汇集合中的所有词汇，确定所述第一词汇集合中所有词汇的形近字对，得到形近字列表。

3.根据权利要求2所述的方法，其特征在于，所述对于所述第一词汇集合中的第一目标词汇，从所述第二词汇集合中获取与所述第一目标词汇的差异程度满足预设条件的第二目标词汇，包括：

计算得到所述第二词汇集合中各第二词汇与所述第一目标词汇的编辑距离；

将编辑距离满足预设条件的第二词汇确定为第二目标词汇。

4.根据权利要求1所述的方法，其特征在于，所述获取待纠错文本，基于语言模型对所述待纠错文本进行预测，得到所述待纠错文本中目标文本的文本预测值，包括：

通过所述文本库语料对机器学习模型进行训练得到语言模型；

确定所述待纠错文本中的目标文本以及所述目标文本的上文或下文；

基于所述语言模型，根据所述目标文本的上文或下文进行预测，得到所述待纠错文本中所述目标文本的文本预测值。

5.根据权利要求1所述的方法，其特征在于，所述根据所述文本预测值和所述文本预测值的一个或多个形近字，对所述待纠错文本中所述目标文本进行纠错，包括：

根据所述文本预测值的一个或多个形近字，判断所述目标文本是否为所述文本预测值的形近字；

若所述目标文本为所述文本预测值的形近字，则将所述目标文本纠正为所述文本预测值，则将所述目标文本纠正为所述文本预测值。

6.根据权利要求2所述的方法，其特征在于，所述方法还包括：

对于所述第一词汇集合中的第一目标词汇，从所述形近字列表中获取所述第一目标词汇中各文本的全部形近字对；

将所述全部形近字对进行组合，得到所述第一目标词汇的混淆词汇；

遍历所述第一词汇集合中的所有词汇，确定所述第一词汇集合中的所有词汇的混淆词汇，生成错误词汇候选集合，所述错误词汇候选集合中的词汇对包括标准词汇和对应的混淆词汇；

获取所述待纠错文本中的短文本，根据所述错误词汇候选集合对所述短文本进行检错纠错。

7.根据权利要求6所述的方法，其特征在于，所述获取所述待纠错文本中的短文本，根据所述错误词汇候选集合对所述短文本进行检错纠错，包括：

获取所述待纠错文本中的短文本；

对于所述短文本中词频低于预设词频阈值的目标短文本，若所述目标短文本为所述错误词汇候选集合中的混淆词汇，则根据所述错误词汇候选集合将所述目标短文本纠正为所述混淆词汇对应的标准词汇。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于腾讯科技（深圳）有限公司，未经腾讯科技（深圳）有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202110172228.9/1.html，转载请声明来源钻瓜专利网。

上一篇：流量测量装置
下一篇：信息处理系统、信息处理方法、信息处理程序和装置

同类专利

专利分类

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

友情链接：交换友情链接需要网站权重大于4，网站收录10W以上，如符合条件，请联系QQ：。

关于我们寻求报道投稿须知广告合作版权声明网站地图友情链接企业标识联系我们

在线咨询

周一至周五 9:00-18:00

版权所有http://www.vipzhuanli.com/公布日期

咨询在线客服

咨询在线客服

tel code back_top