[发明专利]基于组件树和霍夫森林的文字检测和识别方法有效
申请号: | 201510107607.4 | 申请日: | 2015-03-12 |
公开(公告)号: | CN104778470B | 公开(公告)日: | 2018-07-17 |
发明(设计)人: | 于慧敏;李天豪 | 申请(专利权)人: | 浙江大学 |
主分类号: | G06K9/46 | 分类号: | G06K9/46;G06K9/62 |
代理公司: | 杭州求是专利事务所有限公司 33200 | 代理人: | 邱启旺 |
地址: | 310058 浙江*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于组件树和霍夫森林的文字检测和识别方法,首先,利用组件树提取出具有层级的连通域,同时针对文字本身的特征建立分类器,对分类器输出的正样本进行尺度统一,然后输入至霍夫森林,并以每种字符作为单独的类别,在检测过程中完成识别。对输入图像进行颜色空间转换,并对每一个颜色空间的图像及其补值进行独立处理;通过建立组件树获取具有层级的连通域;每一个连通域分别求取一组特征,并输入至分类器识别;分类器输出的正样本作为候选的文字区域,并放缩至同一尺度大小;每一个候选区域输入至霍夫森林,霍夫森林输出文字的分布概率;根据霍夫森林输出的后验概率,估计文字的位置并输出结果。 | ||
搜索关键词: | 森林 连通域 分类器输出 文字检测 分类器 正样本 层级 尺度 颜色空间转换 独立处理 分布概率 候选区域 后验概率 输出结果 输出文字 输入图像 文字区域 颜色空间 组特征 图像 输出 检测 统一 | ||
【主权项】:
1.一种基于组件树和霍夫森林的文字检测和识别方法,其特征在于,包括以下步骤:步骤1:输入待检测图像,把待检测图像转换至多个颜色空间,同时求出各个颜色空间的补值;所述的补值即该颜色空间内所有像素值进行二进制取反后组成的新图像;步骤2:通过构建组件树的方式,分别提取出各个颜色空间和各个补值中具有层级的连通域,并对每一个具有层级的连通域分别执行步骤3;所述的具有层级的连通域,具有如下层级关系:其中,S是像素值小于等于阈值τ的连通域集合;S'是像素值小于等于阈值υ的连通域集合,且υ<τ;m为连通域集合S'中的任一元素,n为连通域集合S的任一元素;步骤3:对步骤2提取出的每个连通域分别进行区域特征提取,并把特征向量输入至分类器,分类器的输出结果为文字或非文字,筛选出分类结果为文字的连通域缩放至同样的大小,并执行步骤4;步骤4:每个连通域独立输入至霍夫森林,霍夫森林由一组决策树组成,霍夫森林输出文字的分布概率,然后根据输出的分布概率识别文字,并估计文字的位置。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学,未经浙江大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201510107607.4/,转载请声明来源钻瓜专利网。