[发明专利]基于模式匹配的汉语错别字识别方法及系统有效

申请号：	201911219533.8	申请日：	2019-12-03
公开（公告）号：	CN110991166B	公开（公告）日：	2021-07-30
发明（设计）人：	曹馨宇;王海涛;刘亮亮;付雪;赵静;张帆;赵超;吴刚;丁文兴;周长青	申请（专利权）人：	中国标准化研究院
主分类号：	G06F40/232	分类号：	G06F40/232;G06F40/295
代理公司：	北京酷爱智慧知识产权代理有限公司 11514	代理人：	梁波
地址：	100089***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于模式匹配汉语错别字识别方法系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于模式匹配的错别字识别方法，其特征在于：包括步骤：

S1.根据语言的结构特征，定义错别字识别模式；

S2.基于图存储结构建立错别字识别模式的索引；

S3.通过错别字识别模式的索引对待查错文本进行自动查错和自动纠错；

步骤S1.根据汉语的语法结构和语义限制特征，建立错别字识别模式，包括设置识别匹配条件并关联语义操作作为识别规则，形成所述错别字识别模式；

所述识别匹配条件由限制函数搭配构成；

识别模式的结构包括：

Rule1：NOTCONTAIN(S,目标词)NOTENDWITH(S,！标点符号)MATCHED(S，！某类词1*！某类词2)→OK(目标词)；

Rule2：NOTCONTAIN(S,某词类1)NOTENDWITH(S,目标词*！某词类2)→MARK(目标词)；

Rule3：NOTCONTAIN(S,某词类1)MATCHED(S,目标词*！某词类2)→REWRITE(目标词,正确词)；

其中，*表示中间隔开任意多个字符；表示与；→表示前面的匹配条件关联其后的语义操作；

限制函数包括：

NOTCONTAIN(S,W|！WORDClASS1)，用于判断待查错句子“S”是否包含目标词“W”或词类“WORDCLASS1”，如果不包含则返回TRUE，否则返回FALSE；

NOTENDWITH(S,W|！WORDClASS1)，用于判断待查错句子“S”是否以目标词“W”或词类“WORDClASS1”结尾，若否，返回TRUE，否则返回FALSE；

MATCHED(S,W|！WORDClASS1)用于判断待查错句子“S”是否匹配目标词“W”或词类“WORDClASS1”,如果匹配成功返回TRUE，否则返回FALSE；

限制函数的搭配通过连接符完成；

步骤S1.设置识别匹配条件并关联语义操作中，语义操作包括：

OK(目标词)：表示如果待查错句子满足识别匹配条件，该“目标词”是正确的；

MARK(目标词)：表示如果待查错句子满足识别匹配条件，该“目标词”可能错误并进行标记；

REWRITE(目标词,正确词)：表示如果待查错句子满足识别匹配条件，该“目标词”是错误的，包含错别字，“正确词”是对应的正确的词，自动进行替换。

2.根据权利要求1所述的基于模式匹配的错别字识别方法，其特征在于：所述步骤S2.基于图存储结构建立错别字识别模式的索引，包括

S21.通过代码定义图结构；

S21.通过代码定于图结构中的参数。

3.根据权利要求1所述的基于模式匹配的错别字识别方法，其特征在于：所述步骤S3.通过错别字识别模式的索引对待查错文本进行自动查错和自动纠错，包括：

S31.对待查错句子进行分词并对每个位置的词进行标记；

S32.依次过滤待查错句子中的词，如果达到句子的末尾，则退出查错，否则转向S33；

S33.将待查错句子中的词和错别字识别模式索引进行匹配，如果匹配成功，将匹配的结果放入临时数组中；

S34.对临时数组中的结果取交集，判断匹配成功的元素个数是否等于匹配规则的长度，将有长度相等的规则索引号放入到最终数组；所述规则的长度是以规则中的“”为分割符判断；

S35.依次遍历最终数组中的每一条规则，看匹配成功的规则的顺序是否和规则一致，如果规则一致，则匹配成功；

S36.匹配成功后，根据错别字识别模式的后件执行语义操作；

S37.输出查错结果，当前句子查错结束。

4.一种基于模式匹配的错别字识别系统，其特征在于：包括处理器和存储器，存储器中存储有程序，程序被处理器运行时，执行如下步骤：

S1 .根据语言的结构特征，定义错别字识别模式；

S2 .基于图存储结构建立错别字识别模式的索引；

S3 .通过建立的索引结构对待查错文本进行自动查错和自动纠错；

步骤S1.根据汉语的语法结构和语义限制特征，建立错别字识别模式，包括设置识别匹配条件并关联语义操作作为识别规则，形成所述错别字识别模式；

所述识别匹配条件由限制函数搭配构成；限制函数包括

NOTCONTAIN(S,W|！WORDClASS1)，用于判断待查错句子“S”是否包含目标词“W”或词类“WORDCLASS1”，如果不包含则返回TRUE，否则返回FALSE；

NOTENDWITH(S,W|！WORDClASS1)，用于判断待查错句子“S”是否以目标词“W”或词类“WORDClASS1”结尾，若否，返回TRUE，否则返回FALSE；

MATCHED(S,W|！WORDClASS1)用于判断待查错句子“S”是否匹配目标词“W”或词类“WORDClASS1”,如果匹配成功返回TRUE，否则返回FALSE；

限制函数的搭配通过连接符完成；

所述设置识别匹配条件并关联语义操作中，语义操作包括：

OK(目标词)：表示如果待查错句子满足识别匹配条件，该“目标词”是正确的；

MARK(目标词)：表示如果待查错句子满足识别匹配条件，该“目标词”可能错误并进行标记；

REWRITE(目标词,正确词)：表示如果待查错句子满足识别匹配条件，该“目标词”是错误的，包含错别字，“正确词”是对应的正确的词，自动进行替换。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于中国标准化研究院，未经中国标准化研究院许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201911219533.8/1.html，转载请声明来源钻瓜专利网。

上一篇：一种基于大数据处理的智能电网建设用数据分析方法
下一篇：一种水下沉积物打捞辅助装置及水下沉积物打捞装置

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于模式匹配的汉语错别字识别方法及系统有效

专利文献下载