[发明专利]一种中文变异文本匹配识别方法有效
申请号: | 201010521160.2 | 申请日: | 2010-10-27 |
公开(公告)号: | CN101976253A | 公开(公告)日: | 2011-02-16 |
发明(设计)人: | 程克非;李红波;郭瑞杰;席珍 | 申请(专利权)人: | 重庆邮电大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 重庆华科专利事务所 50123 | 代理人: | 康海燕 |
地址: | 400065 *** | 国省代码: | 重庆;85 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 一种中文变异文本匹配识别方法,该方法通过将目标文本和模式字符串进行特殊的编码转换以提高文本的相似度,并根据模式字符串中汉字字符结构特征对转换后的模式字符串添加适当的通配符,然后采用精确字符串匹配算法(即CV-BM算法)进行匹配。解决了变异文本中形近字替换及基于形近错别字替换的难以匹配的问题。能够解决形近字替换及基于形近错别字替换的文本变异难以匹配的情况,较图像分割识别方法有着更小的时间和空间复杂度,更适宜于高速网络数据传输环境中的中文信息快速匹配,可以广泛的应用于需要对中文信息进行匹配的入侵防御系统、信息检索等系统中。 | ||
搜索关键词: | 一种 中文 变异 文本 匹配 识别 方法 | ||
【主权项】:
中文变异文本匹配识别方法,其特征在于,构建由通配符和标识符组成的基于部首字符编码表及模式字符串编码转换编码表;字符识别单元依次读取模式字符串中字符,逐个与模式字符串编码转换表中标识符比较,将模式字符串存放在待匹配模式字符串存储单元中;将待匹配目标文本与模式字符串对齐,逐个比较模式字符串和待匹配目标文本中对应的字符,若对应的字符不相同时,匹配后跳单元计算后跳距离,将最大后跳距离写入后跳临时存储单元,指针控制单元读取后跳临时存储单元的信息,并触发计数器将待匹配目标文本指针移动最大后跳距离,使模式字符串和待匹配目标文本按最大后跳距离重新对齐,并继续扫描,直至完成整个待匹配文本匹配。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆邮电大学,未经重庆邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201010521160.2/,转载请声明来源钻瓜专利网。