[发明专利]一种基于二值化的字符去噪方法及终端有效
申请号: | 201910316926.4 | 申请日: | 2019-04-19 |
公开(公告)号: | CN110020655B | 公开(公告)日: | 2021-08-20 |
发明(设计)人: | 庄国金;郝占龙;杜保发;陈文传;吴建杭;林玉玲;方恒凯 | 申请(专利权)人: | 厦门商集网络科技有限责任公司 |
主分类号: | G06K9/34 | 分类号: | G06K9/34;G06K9/40 |
代理公司: | 福州科扬专利事务所(普通合伙) 35001 | 代理人: | 何小星 |
地址: | 361101 福建省厦*** | 国省代码: | 福建;35 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 二值化 字符 方法 终端 | ||
本发明涉及一种基于二值化的字符去噪方法及终端,属于数据处理领域。本发明通过利用所有数字和字母的最大垂直穿越数为3这一现象,先从单字符图像中识别出数字或字母字符的主连通域,再将单字符图像中的其它连通域依次与主连通域作为一个整体看待,若将主连通域与单字符图像中的一个除主连通域之外的连通域作为整体时,其最大垂直穿越数大于3,则说明该连通域不能与主连通域组合形成一个数字或字母,该连通域是噪点连通域,应将其删除。提高了去除英文和数字字符图像的噪点连通域的准确度。
技术领域
本发明涉及一种基于二值化的字符去噪方法及终端,属于数据处理领域。
背景技术
为了提高字符识别的准确度,在识别字符之前需要先对字符图像进行去噪处理,以减少干扰。常用的对字符图像进行去噪的方法具体为,搜索二值化的字符图像中面积较小的无效连通区域,并将其删除。例如,面积小于5个像素点的连通区域被自动认为孤立的噪点连通域,将孤立的噪点连通域删除,以减少干扰信息。但是,上述方法只能够识别面积较小的噪点连通域,无法识别出面积较大的噪点连通域,去噪效果差。
发明内容
本发明所要解决的技术问题是:如何提高去除英文和数字字符图像的噪点连通域的准确度。
为了解决上述技术问题,本发明采用的技术方案为:
本发明提供一种基于二值化的字符去噪方法,包括:
S1、二值化一单字符的字符图像,得到单字符图像;
S2、检测所述单字符图像的连通域,得到第一连通域集合;
S3、统计所述第一连通域集合中所有连通域的高度的平均值,得到平均高度;
S4、从所述第一连通域集合中获取高度大于所述平均高度的二分之一的连通域,得到第二连通域集合;
S5、标记所述第二连通域集合中像素点个数最多的一连通域为主连通域;
S6、获取所述单字符图像中的第三连通域和所述主连通域所在的区域,得到第一待去噪图像;所述第三连通域为所述第一连通域集合中除所述主连通域之外的任一连通域;
S7、按序获取位于所述第一待去噪图像同一列的像素点,得到第一像素点有序集合;
S8、统计所述第一像素点有序集合中,一黑色像素点的下一个像素点为白色的次数;将所述次数加一,得到垂直穿越次数;
S9、遍历所述第一待去噪图像的所有列,得到最大垂直穿越次数;
S10、若所述第一待去噪图像的最大垂直穿越数大于3,则在所述单字符图像上删除所述第三连通域;
S11、重复步骤S6至步骤S10,直至所述第二连通域集合被遍历。
优选地,还包括:
S12、从第三连通域集合中获取一连通域,得到第四连通域;所述第三连通域集合包含所述第二连通域集合中除所述主连通域之外的所有连通域;
S13、获取所述单字符图像中的第四连通域和所述主连通域所在的区域,得到第二待去噪图像;
S14、按序获取位于所述第二待去噪图像同一行的像素点,得到第二像素点有序集合;
S15、统计所述第二像素点有序集合中,一黑色像素点的下一个像素点为白色的次数;将所述次数加一,得到水平穿越次数;
S16、遍历所述第二待去噪图像的所有行,得到最大水平穿越次数;
S17、若所述第二待去噪图像的最大水平穿越数大于4,则在所述单字符图像上删除所述第四连通域;
S18、重复步骤S12至步骤S17,直至所述第三连通域集合被遍历。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于厦门商集网络科技有限责任公司,未经厦门商集网络科技有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910316926.4/2.html,转载请声明来源钻瓜专利网。