[发明专利]一种基于图像处理的字体识别方法在审
申请号: | 201811035104.0 | 申请日: | 2018-09-06 |
公开(公告)号: | CN109409373A | 公开(公告)日: | 2019-03-01 |
发明(设计)人: | 龙华;吴睿;熊新;邵玉斌;杜庆治 | 申请(专利权)人: | 昆明理工大学 |
主分类号: | G06K9/34 | 分类号: | G06K9/34;G06K9/46 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 650093 云*** | 国省代码: | 云南;53 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 字体识别 字体 图像处理 字符文字 字符特征向量 二值化处理 向量数据库 单个字符 人机交互 输出识别 数据计算 特征向量 图像形式 用户上传 字符特征 字符形状 字体特征 字体文件 后提取 灰度化 排序 切割 数据库 集合 图像 计算机 灵活 组建 | ||
1.一种基于图像处理的字体识别方法,其特征在于:
Step0.1:收集TTC字体文件,记TTC字体文件数量为K;
Step0.2:从TTC字体文件中提取出每个字符所对应的图像,即字符图像大小为l×w,单位为像素点,共计N个像素点;将字符图像作为输入源,生成该字符所对应的字符矩阵Il×w,该矩阵中的元素值即为该像素点的灰度值;定义ξ为灰度二值化阈值,对矩阵Il×w进行公式(1)所示二值化处理,之后将矩阵Il×w按照从左至右、从上至下的规则生成该字符所对应的特征向量{f1,f2,…,fN};将所有字符、字符特征向量、以及所对应的字体信息等存入数据库,组建字体特征向量数据库;
Step1:由用户上传单个字符的图像形式信息X,并指出该字符所对应的字符文字信息X′;
Step2:利用现代切割技术及字符形状特征,将图像X以l:w的比例剪切至待测字符X′尽可能铺满图像为止,但要将其字符重心处于图像的中心,并留取合适的边距,生成待测字符X′的修整图像
Step3:将待测字符X′的修整图像按比例压缩至l×w像素点,共计N个像素点,随后生成待测字符X′的修整图像所对应的字符矩阵Xl×w,该矩阵中的元素值即为该像素点的灰度值;依然以ξ为灰度二值化阈值,对矩阵Xl×w进行公式(2)所示二值化处理,之后将矩阵Xl×w按照从左至右、从上至下的规则生成待测字符X′所对应的特征向量{x1,x2,…,xN};
Step4:由字符文字信息X′调取字体特征向量数据库中的字符特征向量{f1,f2,…,fN},记其所对应的字体信息为F,通过余弦定理算法计算其与待测字符X′的特征向量{x1,x2,…,xN}之间的字体识别度Sbd(X,F),计算公式如公式(3)所示;
Step4:遍历字体特征向量数据库中所有字符为用户输入的字符文字信息X′的数据,对其中的每个字体信息Fi,i∈[1,K]都经Step3步骤计算其与待测字符X′的特征向量{x1,x2,…,xN}之间的字体识别度Sbd(X,Fi),i∈[1,K];将按照从大到小的顺序排序,提取出前θ个字体信息并输出。
2.根据权利要求1所述的基于图像处理的字体识别方法,其特征在于:所述步骤Step0.2中,字符应包括汉字、字母;字符图像大小l×w是由字体文件中提取的字符字体大小决定,且总像素点N=l×w;并且灰度二值化阈值ξ满足公式(4)的要求;
0≤ξ≤255 (4)。
3.根据权利要求1所述的基于图像处理的字体识别方法,其特征在于:所述步骤Step0.2中,若按照编码方式为Unicode的基本字符集为标准,则共有20902个汉字、26个字母,则字体特征向量数据库应共计(20902+26)K条数据。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于昆明理工大学,未经昆明理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811035104.0/1.html,转载请声明来源钻瓜专利网。