[发明专利]一种残缺汉字识别方法有效
申请号: | 201711256495.4 | 申请日: | 2017-12-04 |
公开(公告)号: | CN108038495B | 公开(公告)日: | 2021-08-20 |
发明(设计)人: | 彭艺;尹玉梅 | 申请(专利权)人: | 昆明理工大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06K9/38 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 650093 云*** | 国省代码: | 云南;53 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 残缺 汉字 识别 方法 | ||
1.一种残缺汉字识别方法,其特征在于,具体包括以下步骤:
Step0:提取汉字特征并建立汉字特征数据库,根据15×16像素中文点阵字库,将点阵按照从左至右、从上至下的规则划分为40个2×3像素的小矩阵,记2×3像素小矩阵中汉字所占像素数为pi,i∈[1,40],观察所有pi,i∈[1,40]并生成该汉字所对应的汉字特征向量{p1,p2,…,p40},且将所有汉字及生成的汉字特征向量存入数据库,组建汉字特征数据库P:{P1,P2,…,PN};
Step1:利用扫描技术及汉字形状特征,从汉字载体中提取出待检测残缺汉字X的图片,将图片以15:16的比例剪切至待检测残缺汉字X铺满图片为止,但要将其残缺汉字重心处于图片的中心,并留取合适的边距,生成待检测残缺汉字X的扫描图片
Step2:将待检测残缺汉字X的扫描图片进行灰度化及二值化,将其按比例切割为15×16像素点所组成的矩阵形式,对每个像素点进行归一化,并以此规则生成待检测残缺汉字X的15×16像素点阵形式;
Step3:将待检测残缺汉字X的15×16像素点阵,按照从左至右、从上至下的规则划分为40个2×3像素的小矩阵,记2×3像素小矩阵中残缺汉字所占像素数为pi,i∈[1,40],观察所有pi,i∈[1,40]并生成待检测残缺汉字X所对应的汉字特征向量X:{x1,x2,…,x40};
Step4:将待检测残缺汉字X的汉字特征向量X:{x1,x2,…,x40},以及汉字特征数据库P中的汉字特征向量Pi:{p1,p2,…,p40},i∈[1,N]作为输入,由余弦定理计算公式(1)求得待检测残缺汉字X、目标汉字Pi之间基于余弦定理的字形相似度Sim1(X,Pi);
Step5:将待检测残缺汉字X的汉字特征向量X:{x1,x2,…,x40},以及汉字特征数据库P中的汉字特征向量Pi:{p1,p2,…,p40},i∈[1,N]作为输入,定义归一化参数δ,由欧氏距离计算公式(2)求得待检测残缺汉字X、目标汉字Pi之间基于欧氏距离的字形相似度Sim2(X,Pi);
Step6:设Step4、Step5步骤所计算出的相似度对应权值分别为α、β,权值α、β满足α+β=1的要求,由字形相似度Sim1(X,Pi)及权值α、字形相似度Sim2(X,Pi)及权值β,由相似度融合算法,即公式(3)计算出待检测残缺汉字X、目标汉字Pi之间的最终字形相似度Sim(X,Pi);
Sim(X,Pi)=Sim1(X,Pi)·α+Sim2(X,Pi)·β (3)
Step7:遍历汉字特征数据库P,对数据库中每个汉字Pi,i∈[1,N]都经Step4、Step5、Step6步骤,计算其与待检测残缺汉字X之间的字形相似度Sim(X,Pi),定义相似阈值θ,如果满足公式:Sim(X,Pi)≥θ的要求则将该汉字添加至相似字集合,最终导出待检测残缺汉字X的相似字集合S:{S1,S2,…,SM},其中M是与待检测残缺汉字X相似的汉字个数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于昆明理工大学,未经昆明理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711256495.4/1.html,转载请声明来源钻瓜专利网。
- 上一篇:防卡碎冰器
- 下一篇:提高西瓜育苗成活率的种植方法