[发明专利]基于模式匹配的汉语错别字识别方法及系统有效
申请号: | 201911219533.8 | 申请日: | 2019-12-03 |
公开(公告)号: | CN110991166B | 公开(公告)日: | 2021-07-30 |
发明(设计)人: | 曹馨宇;王海涛;刘亮亮;付雪;赵静;张帆;赵超;吴刚;丁文兴;周长青 | 申请(专利权)人: | 中国标准化研究院 |
主分类号: | G06F40/232 | 分类号: | G06F40/232;G06F40/295 |
代理公司: | 北京酷爱智慧知识产权代理有限公司 11514 | 代理人: | 梁波 |
地址: | 100089*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 模式 匹配 汉语 错别字 识别 方法 系统 | ||
本发明公开了一种基于模式匹配的错别字识别方法,包括步骤:S1.根据语言的结构特征,定义错别字识别模式;S2.基于图存储结构建立错别字识别模式的索引;S3.通过错别字识别模式的索引对待查错文本进行自动查错和自动纠错。本发明方法通过定义错别字识别模式把语法限制和条件函数搭配融合进行错别字识别,能够有效针对违背局部或长距离语法约束条件的错误,具备很好的准确率;本发明系统通过程序实现错别字识别模式的定义和索引的建立以及利用错别字识别模式索引自动对待查错文本查错、纠错;基于图存储结构的灵活性建立索引结构实现对数据的广度优先搜索、深度优先搜索,利于构建完善的数据库(搭配库),继而提高错别字识别的准确度。
技术领域
本发明涉及人工智能计算机对自然语言处理技术领域,具体而言,为一种基于模式匹配的汉语错别字识别方法及系统。
背景技术
中文文本自动校对是自然语言处理的主要应用之一,也是自然语言理解的难题。随着大数据时代的到来,中文文本中的错误也越来越多,基于统计的方法和机器学习的方法能有效的发现文本中的一些错别字,并实现自动校正,但文本中有些错别字是因为违背了局部或长距离的语法或语义约束条件而导致的错误,这难以用一些上下文来发现准备错别字,需要通过一些语法规则和语义搭配来完成。例如“那”与“哪”,“的”与“得”及“地”等常见词人们常常混淆,常发生错误,一般自动校对方法难以发现或者误纠率特别高,而发现这种错误,用单一的上下文或搭配识别是不足以判定是否发生错误的。
有鉴于此,特提出本发明。
发明内容
针对现有技术中的缺陷,本发明提供一种基于模式匹配的汉语错别字识别方法及系统,提高识别准确度。
为实现上述目的,本发明的技术方案如下:
一种基于模式匹配的错别字识别方法,包括步骤:
S1.根据语言的结构特征,定义错别字识别模式;
S2.基于图存储结构建立错别字识别模式的索引;
S3.通过错别字识别模式的索引对待查错文本进行自动查错和自动纠错。
进一步的,上述的基于模式匹配的错别字识别方法中,步骤S1.中根据汉语的语法结构和语义限制特征,建立错别字识别模式,包括
设置识别匹配条件并关联语义操作作为识别规则,形成所述错别字识别模式。
进一步的,上述的基于模式匹配的错别字识别方法中,步骤S11.中所述识别匹配条件由限制函数搭配构成;限制函数包括
NOTCONTAIN(S,W|!WORDClASS1),用于判断待查错句子“S”是否包含目标词“W”或词类“WORDCLASS1”,如果不包含则返回TRUE,否则返回FALSE;
NOTENDWITH(S,W|!WORDClASS1),用于判断待查错句子“S”是否以目标词“W”或词类“WORDClASS1”结尾,如果不以结尾返回TRUE,否则返回FALSE;
MATCHED(S,W|!WORDClASS1)用于判断待查错句子“S”是否匹配目标词“W”或词类“WORDClASS1”,如果匹配成功返回TRUE,否则返回FALSE;
限制函数的搭配通过连接符完成。
进一步的,上述的基于模式匹配的错别字识别方法中,设置识别匹配条件并关联语义操作中,语义操作包括:
OK(目标词):表示如果待查错句子满足识别匹配条件,该“目标词”是正确的;
MARK(目标词):表示如果待查错句子满足识别匹配条件,该“目标词”可能错误并进行标记;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国标准化研究院,未经中国标准化研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911219533.8/2.html,转载请声明来源钻瓜专利网。