[发明专利]一种基于特征向量和笔顺编码的汉字字形相似算法在审
申请号: | 201810860010.0 | 申请日: | 2018-08-01 |
公开(公告)号: | CN109299726A | 公开(公告)日: | 2019-02-01 |
发明(设计)人: | 龙华;祁俊辉;邵玉斌;彭艺 | 申请(专利权)人: | 昆明理工大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06K9/32 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 650093 云*** | 国省代码: | 云南;53 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明涉及一种基于特征向量和笔顺编码的汉字字形相似算法,属于汉语信息处理技术领域。本发明利用汉字结构、轮廓、笔画、书写顺序等特征,建立汉字特征向量数据库和汉字笔顺编码数据库,对任意两个汉字调取其汉字特征向量和汉字笔顺编码字符串,通过差值算法计算出基于汉字特征向量的字形相似度,通过Jaro‑Winkler Distance算法计算出基于汉字笔顺编码的字形相似度,两个相似度分别从不同方面反映了汉字的相似程度,吸取两种算法的优势对其进行融合,得到最终相似度。本发明与现有技术相比,主要解决了现有技术准确性欠佳、灵活性差等现象,增加了目前依靠计算机进行汉字字形相似度计算的准确性。 | ||
搜索关键词: | 汉字笔顺编码 汉字特征向量 汉字字形 算法 字形相似度 笔顺编码 特征向量 数据库 汉字 信息处理技术 相似度计算 最终相似度 差值算法 汉字结构 算法计算 相似程度 相似度 字符串 笔画 调取 汉语 书写 融合 计算机 | ||
【主权项】:
1.一种基于特征向量和笔顺编码的汉字字形相似算法,其特征在于:Step0.1:从TTC字体文件中提取出每个汉字所对应的图片,即汉字图片大小为l×w,单位为像素点,共计N个像素点;将汉字图片作为输入源,生成该汉字所对应的汉字矩阵Il×w,该矩阵中的元素值即为该像素点的灰度值;定义ξ为灰度二值化阈值,对矩阵进行公式(1)所示二值化处理,之后将矩阵Il×w按照从左至右、从上至下的规则生成该汉字所对应的特征向量{x1,x2,…,xN};将所有汉字及生成的汉字特征向量存入数据库,组建汉字特征向量数据库;Step0.2:按照汉字五笔书写顺序规则,将横、竖、撇、捺、折编码为字母a、b、c、d、e,生成该汉字所对应的笔顺编码字符串x1x2…xz,其中z为该汉字的笔画数,xi为该汉字第i笔的笔画,并且xi∈{a,b,c,d,e},i∈[1,z];将所有汉字及生成的汉字笔顺编码字符串存入数据库,组建汉字笔顺编码数据库;Step1:记X、Y为两个将要计算字形相似度的汉字,从汉字特征向量数据库中分别调取这两个汉字所对应的汉字特征向量X:{x1,x2,…,xN}和Y:{y1,y2,…,yN},从汉字笔顺编码数据库中分别调取这两个汉字所对应的汉字笔顺编码字符串strx和stry;Step2:将汉字特征向量X:{x1,x2,…,xN}和Y:{y1,y2,…,yN}作为输入,由差值算法求得汉字X、Y之间基于特征向量的字形相似度Sim1(X,Y);Step2.1:定义zi=xi‑yi,i∈[1,N],生成汉字X、Y所对应的差值特征向量Step2.2:通过差值计算公式(2)求得汉字X、Y之间基于特征向量的字形相似度Sim1(X,Y);Step3:将汉字笔顺编码字符串strx和stry作为输入,由Jaro‑Winkler Distance算法求得汉字X、Y之间基于笔顺编码的字形相似度Sim2(X,Y);Step3.1:获取汉字笔顺编码字符串strx和stry的长度lenx和leny,并生成检测矩阵Step3.2:根据公式(3)计算匹配窗口值MW;Step3.3:由检测矩阵及匹配窗口值MW,根据相关规则,计算匹配字符数m和匹配字符换位数n,并根据公式(4)计算汉字笔顺编码字符串strx和stry之间的Jaro Distance;Step3.4:获取汉字笔顺编码字符串strx和stry的最长公共子串strxy,并得到其长度lenxy,根据公式(5)进一步计算汉字笔顺编码字符串strx和stry之间的Jaro‑Winkler Distance,该值即为汉字X、Y之间基于笔顺编码的字形相似度Sim2(X,Y);其中,bt为是否需要进一步计算的阈值,p为缩放因子;Step4:设Step2、Step3步骤所计算出的相似度对应权值分别为α、β,权值α、β满足α+β=1的要求,由基于特征向量的字形相似度Sim1(X,Y)及权值α、基于笔顺编码的字形相似度Sim2(X,Y)及权值β,由相似度融合算法,即公式(6)计算出汉字X、Y之间的最终字形相似度Sim(X,Y);Sim(X,Y)=Sim1(X,Y)·α+Sim2(X,Y)·β (6)。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于昆明理工大学,未经昆明理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201810860010.0/,转载请声明来源钻瓜专利网。