[发明专利]文本校正方法和装置在审

申请号：	201610083955.7	申请日：	2016-02-06
公开（公告）号：	CN105550173A	公开（公告）日：	2016-05-04
发明（设计）人：	刘佳;俞晓光	申请（专利权）人：	北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司
主分类号：	G06F17/27	分类号：	G06F17/27
代理公司：	北京英赛嘉华知识产权代理有限责任公司 11204	代理人：	王达佐;马晓亚
地址：	100080 北京市海淀区杏石口路6***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	文本校正方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本申请涉及计算机技术领域，具体涉及文本处理技术领域，尤其涉及文本校正方法和装置。

背景技术

随着人工智能技术的不断发展，越来越多的服务或商品提供商开始建立智能服务交互系统，以便24小时不间断的为用户提供所需要的咨询或业务服务。通常用户可以通过输入文字信息与这类智能系统进行交互。但是，用户所输入的文字信息经常会因为各种原因(例如，拼写错误或按键错误)出现词不达意的情况，而使得用户无法从智能系统中获取有效的帮助信息。因此，对用户在智能交互系统中输入的语句进行纠错，是所有智能交互系统都必须解决的问题。

在现有技术中，主要通过预先配置的纠错规则，对用户输入的文本进行校正。具体可以将所有命中纠错规则的词，全都校正为纠错后的词，例如，只要用户输入“优惠卷”，就将其校正为“优惠券”。由于这种纠错规则中只能包括一定数量的固定词汇，因此只能对部分特定词汇进行校正。例如，只能将“ipone6”校正为“Iphone6”，而无法将“ipone6”校正为“Iphone”，也无法对“iphne6”、“iphon6”、“ipone6” 等进行校正，因此导致文本校正的准确率和召回率都比较低。

发明内容

本申请的目的在于提出一种文本校正方法和装置，来解决以上背景技术部分提到的技术问题。

第一方面，本申请提供了一种文本校正方法，所述方法包括：接收用户输入的文本信息；通过第一语言模型确定出所述文本信息中的至少一个出错词；基于预定规则确定出与所述出错词对应的候选词；使用所述候选词替换所述出错词，得到校正后的文本信息。

在一些实施例中，所述通过第一语言模型确定出所述文本信息中的至少一个出错词，包括：通过所述第一语言模型计算所述文本信息中每个词的出现概率；根据所述每个词的出现概率，确定出所述文本信息中的至少一个出错词。

在一些实施例中，所述第一语言模型是通过以下方法得到的：获取历史文本信息；对所述历史文本信息进行预处理，得到训练样本；使用所述训练样本进行语言模型训练，得到所述第一语言模型；其中，所述预处理包括文本过滤、切词和泛化。

在一些实施例中，所述预处理还包括基于业务类型的分类；所述使用所述训练样本进行语言模型训练，得到所述第一语言模型，包括：通过循环神经网络算法，对分类后的训练样本分别进行语言模型训练，得到每个业务类型对应的第一语言模型；所述通过所述第一语言模型计算所述文本信息中每个词的出现概率，包括：确定所述文本信息对应的业务类型；通过与该业务类型对应的第一语言模型计算所述文本信息中每个词的出现概率。

在一些实施例中，所述预定规则包括拼音规则、字形规则、编辑距离规则中的至少一项；所述文本校正方法还包括：若所述出错词对应多个候选词，通过第二语言模型分别计算每个候选词的出现次数；根据所述每个候选词的出现次数，从所述多个候选词中选定至少一个待定候选词；其中，所述第二语言模型是使用所述训练样本对一元语言模型训练得到的。

在一些实施例中，所述使用所述候选词替换所述出错词，得到校正后的文本信息，包括：分别使用每个所述待定候选词替换所述出错词，得到至少一个待定文本信息；通过所述第一语言模型分别计算每个所述待定文本信息的出现概率；根据所述待定文本信息的出现概率，将一个待定文本信息确定为校正后的文本信息。

第二方面，本申请提供了一种文本校正装置，所述装置包括：接收模块，用于接收用户输入的文本信息；出错词确定模块，用于通过第一语言模型确定出所述文本信息中的至少一个出错词；候选词确定模块，用于基于预定规则确定出与所述出错词对应的候选词；校正模块，用于使用所述候选词替换所述出错词，得到校正后的文本信息。

在一些实施例中，所述出错词确定模块进一步用于：通过所述第一语言模型计算所述文本信息中每个词的出现概率；根据所述每个词的出现概率，确定出所述文本信息中的至少一个出错词。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司，未经北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201610083955.7/2.html，转载请声明来源钻瓜专利网。

上一篇：一种网页中识别信息的标识方法及电子设备
下一篇：一种确定对象的概念词的方法和装置

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F17-00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法
G06F17-10 .复杂数学运算的
G06F17-20 .处理自然语言数据的
G06F17-30 .信息检索；及其数据库结构
G06F17-40 .数据的获取和记录
G06F17-50 .计算机辅助设计

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]文本校正方法和装置在审

专利文献下载