[发明专利]中文纠错的方法、装置及设备在审

申请号：	201910557826.0	申请日：	2019-06-25
公开（公告）号：	CN110276077A	公开（公告）日：	2019-09-24
发明（设计）人：	华容;俞涛	申请（专利权）人：	上海应用技术大学
主分类号：	G06F17/27	分类号：	G06F17/27
代理公司：	上海汉声知识产权代理有限公司 31236	代理人：	胡晶
地址：	200235 上海***	国省代码：	上海;31
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	纠错词语序列短句装置及设备中文词语文法语言模型分词处理纠错结果三元语法候选集序集合准确率替换集合
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明提供了一种中文纠错的方法、装置及设备，通过获得待纠错的目标短句，对目标短句进行分词处理，获得与目标短句对应的原始词语序列，将词语序列中的词语输入文法语言模型中，获得该词的得分，得分较低的利用困惑集逐一替换生成纠错候选集，针对纠错词语序列集合中的每一个纠错词语序列，计算利用二元和三元语法得出每一个纠错词语序列得分，将纠错词语序集合中得分最大的纠错词语序列确定为目标短句的纠错结果，以提高中文纠错的准确率。

技术领域

本发明涉及一种中文纠错的方法、装置及设备。

背景技术

随着人工智能，语言识别，光学字符识别的迅猛发展，中文自动校对技术也得到了极大的发展。拼音纠错技术在推动中文自动校对技术的发展中功不可没。拼写检查是每种书面语言的共同任务，它可以用于自动检测和纠正人类的拼写错误。自动拼写校正早在20世纪60年代就开始了。拼写检查系统应该具有错误检测和错误纠正两种能力。错误检测是指检测在文本中拼写错误的各种类型，错误纠正是指进一步改正检测到的错误字符。近几十年来，汉语作为外语正在蓬勃发展。未来几年汉语作为外语的学习者的数量将会越来越大。汉语自动拼写检查已成为当今的一项重要任务。

然而，与英语或其他字母语言不同，汉语是音调音节和字符组成的语言，其中每个字符的发音都是音调音节共同组成。在汉语中，词之间没有分隔符或边界，每个汉语“词”的长度非常短，在大多数情况下可能只有两个或三个字符。此外，拼写错误的类型比其他语言多，因为许多汉字的形状相似或发音相同，甚至有些字符在形状和发音上都相似，所以现有的方案中中文纠错的准确率不高。

发明内容

本发明的目的在于提供一种中文纠错的方法、装置及设备。

为解决上述问题，本发明提供一种中文纠错的方法，包括：

步骤1：获得待纠错的目标短句；

步骤2：对所述待纠错的目标短句进行分词，获得包括若干字词的分词序列；

步骤3：利用文法语言模型在所述分词序列进行错误字词的定位；

步骤4：对于定位到的错误字词用预设困惑集进行逐一的替换，并生成纠错词语序列候选集合；

步骤5：利用文法语言模型评价所述纠错词语序列候选集合并生成得分指标；

步骤6：根据所述得分指标确定所述待纠错的目标短句的纠错结果。

进一步的，在上述方法中，步骤5：利用元文法语言模型如二三元文法语言模型评价所述纠错词语序列候选集合并生成得分指标，包括：

对所述纠错词语序列候选集合中的每一个纠错词语序列，利用文法语言模型计算该纠错词语序列中每一个词语的得分；

将该纠错词语序列中每一个词语与相邻词语的得分进行累加，获得该纠错词语序列的语言模型总得分。