[发明专利]基于模式匹配的汉语错别字识别方法及系统有效

申请号：	201911219533.8	申请日：	2019-12-03
公开（公告）号：	CN110991166B	公开（公告）日：	2021-07-30
发明（设计）人：	曹馨宇;王海涛;刘亮亮;付雪;赵静;张帆;赵超;吴刚;丁文兴;周长青	申请（专利权）人：	中国标准化研究院
主分类号：	G06F40/232	分类号：	G06F40/232;G06F40/295
代理公司：	北京酷爱智慧知识产权代理有限公司 11514	代理人：	梁波
地址：	100089***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于模式匹配汉语错别字识别方法系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种基于模式匹配的错别字识别方法，包括步骤：S1.根据语言的结构特征，定义错别字识别模式；S2.基于图存储结构建立错别字识别模式的索引；S3.通过错别字识别模式的索引对待查错文本进行自动查错和自动纠错。本发明方法通过定义错别字识别模式把语法限制和条件函数搭配融合进行错别字识别，能够有效针对违背局部或长距离语法约束条件的错误，具备很好的准确率；本发明系统通过程序实现错别字识别模式的定义和索引的建立以及利用错别字识别模式索引自动对待查错文本查错、纠错；基于图存储结构的灵活性建立索引结构实现对数据的广度优先搜索、深度优先搜索，利于构建完善的数据库(搭配库)，继而提高错别字识别的准确度。

技术领域

本发明涉及人工智能计算机对自然语言处理技术领域，具体而言，为一种基于模式匹配的汉语错别字识别方法及系统。

背景技术

中文文本自动校对是自然语言处理的主要应用之一，也是自然语言理解的难题。随着大数据时代的到来，中文文本中的错误也越来越多，基于统计的方法和机器学习的方法能有效的发现文本中的一些错别字，并实现自动校正，但文本中有些错别字是因为违背了局部或长距离的语法或语义约束条件而导致的错误，这难以用一些上下文来发现准备错别字，需要通过一些语法规则和语义搭配来完成。例如“那”与“哪”，“的”与“得”及“地”等常见词人们常常混淆，常发生错误，一般自动校对方法难以发现或者误纠率特别高，而发现这种错误，用单一的上下文或搭配识别是不足以判定是否发生错误的。

有鉴于此，特提出本发明。

发明内容

针对现有技术中的缺陷，本发明提供一种基于模式匹配的汉语错别字识别方法及系统，提高识别准确度。

为实现上述目的，本发明的技术方案如下：

一种基于模式匹配的错别字识别方法，包括步骤：

S1.根据语言的结构特征，定义错别字识别模式；

S2.基于图存储结构建立错别字识别模式的索引；

S3.通过错别字识别模式的索引对待查错文本进行自动查错和自动纠错。

进一步的，上述的基于模式匹配的错别字识别方法中，步骤S1.中根据汉语的语法结构和语义限制特征，建立错别字识别模式，包括

设置识别匹配条件并关联语义操作作为识别规则，形成所述错别字识别模式。

进一步的，上述的基于模式匹配的错别字识别方法中，步骤S11.中所述识别匹配条件由限制函数搭配构成；限制函数包括

NOTCONTAIN(S,W|！WORDClASS1)，用于判断待查错句子“S”是否包含目标词“W”或词类“WORDCLASS1”，如果不包含则返回TRUE，否则返回FALSE；