[发明专利]一种文本纠错方法、装置以及相关设备有效

申请号：	201810532317.8	申请日：	2018-05-29
公开（公告）号：	CN108874174B	公开（公告）日：	2020-04-24
发明（设计）人：	卢小东	申请（专利权）人：	腾讯科技（深圳）有限公司
主分类号：	G06F3/023	分类号：	G06F3/023;G06F40/232;G06F40/30
代理公司：	广州三环专利商标代理有限公司 44202	代理人：	郝传鑫;熊永强
地址：	518057 广东省深圳***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种文本纠错方法装置以及相关设备
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明实施例公开了一种文本纠错方法、装置以及相关设备，所述方法包括：获取目标文本，将所述目标文本中的所有字符，作为目标字符；获取与每个目标字符相关联的多个辅助数据，分别提取每个辅助数据对应的辅助特征向量，并将属于同一个目标字符的多个辅助特征向量拼接处理，得到目标特征向量；一个所述辅助数据是指所述目标字符对应的一种输入来源数据；将所有目标特征向量组合为目标特征向量序列，识别所述目标特征向量序列，得到标准文本，并根据所述标准文本对所述目标文本进行纠错处理。采用本发明，可以提高对文本的纠错准确率。

技术领域

本发明涉及计算机技术领域，尤其涉及一种文本纠错方法、装置以及相关设备。

背景技术

在信息技术迅猛发展的今天，人与移动终端的交互也越来越来越频繁。现在移动终端已经能够理解自然语言，但是用户在向移动终端输入自然语言的同时不可避免地会出现输入错误，这样给移动终端理解用户的语义带来很大的障碍，所以对自然语言的输入纠错就具有非常重要的意义。

用户的输入错误主要包括拼音错误(例如，将“勤劳”输入为“琴老”)、手写错误(例如将“太阳”输入为“大阳”)等，现有方法只能根据拼音纠错，即是根据拼音和汉字的对应关系以及该汉字的上下文关系，训练纠错模型，该纠错模型可以纠正拼音相同或者拼音相似但文字不同的错误输入文本，例如，可以将“琴劳的人民”纠正为“勤劳的人民”。

但用户的输入方式是多种多样的，对那些非拼音输入的错误文本(例如，笔画错误)，采用单一的拼音纠错模型就不能准确识别文本中的错误以及有效地纠正该错误，进而降低对输入文本的纠错准确率。

发明内容

本发明实施例提供一种文本纠错方法、装置以及相关设备，可以提高对文本的纠错准确率。

本发明一方面提供了一种文本纠错方法，包括：

获取目标文本，将所述目标文本中的所有字符，作为目标字符；

获取与每个目标字符相关联的多个辅助数据，分别提取每个辅助数据对应的辅助特征向量，并将属于同一个目标字符的多个辅助特征向量拼接处理，得到目标特征向量；一个所述辅助数据是指所述目标字符对应的一种输入来源数据；

将所有目标特征向量组合为目标特征向量序列，识别所述目标特征向量序列，得到标准文本，并根据所述标准文本对所述目标文本进行纠错处理。

其中，所述辅助数据包括：拼音数据、笔画数据和字形数据；

所述分别提取每个辅助数据对应的辅助特征向量，包括

基于循环神经网络对所述笔画数据进行时序处理，得到所述笔画数据对应的时序特征向量；

基于卷积神经网络对所述拼音数据进行卷积处理和池化处理，得到所述拼音数据对应的空间特征向量；

基于所述卷积神经网络对所述字形数据进行卷积处理和池化处理，得到所述字形数据对应的空间特征向量；