[发明专利]基于组件树和霍夫森林的文字检测和识别方法有效
申请号: | 201510107607.4 | 申请日: | 2015-03-12 |
公开(公告)号: | CN104778470B | 公开(公告)日: | 2018-07-17 |
发明(设计)人: | 于慧敏;李天豪 | 申请(专利权)人: | 浙江大学 |
主分类号: | G06K9/46 | 分类号: | G06K9/46;G06K9/62 |
代理公司: | 杭州求是专利事务所有限公司 33200 | 代理人: | 邱启旺 |
地址: | 310058 浙江*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 森林 连通域 分类器输出 文字检测 分类器 正样本 层级 尺度 颜色空间转换 独立处理 分布概率 候选区域 后验概率 输出结果 输出文字 输入图像 文字区域 颜色空间 组特征 图像 输出 检测 统一 | ||
1.一种基于组件树和霍夫森林的文字检测和识别方法,其特征在于,包括以下步骤:
步骤1:输入待检测图像,把待检测图像转换至多个颜色空间,同时求出各个颜色空间的补值;所述的补值即该颜色空间内所有像素值进行二进制取反后组成的新图像;
步骤2:通过构建组件树的方式,分别提取出各个颜色空间和各个补值中具有层级的连通域,并对每一个具有层级的连通域分别执行步骤3;
所述的具有层级的连通域,具有如下层级关系:
其中,S是像素值小于等于阈值τ的连通域集合;S'是像素值小于等于阈值υ的连通域集合,且υ<τ;m为连通域集合S'中的任一元素,n为连通域集合S的任一元素;
步骤3:对步骤2提取出的每个连通域分别进行区域特征提取,并把特征向量输入至分类器,分类器的输出结果为文字或非文字,筛选出分类结果为文字的连通域缩放至同样的大小,并执行步骤4;
步骤4:每个连通域独立输入至霍夫森林,霍夫森林由一组决策树组成,霍夫森林输出文字的分布概率,然后根据输出的分布概率识别文字,并估计文字的位置。
2.根据权利要求1所述的方法,其特征在于:步骤3所述的分类器,和步骤4所述的霍夫森林,均可以通过训练获得,使用的训练样本是通过图像合成的方式获得;图像合成的具体过程如下:从本地样本库中随机选取单个文字字符,根据字符的使用频率生成单个字符或字符组合,同时进行随机的形变,包括旋转、移动、透射变换,并与随机选择的背景进行融合。
3.根据权利要求1所述的方法,其特征在于:步骤4所述的,霍夫森林输出文字的分布概率包括如下步骤:
步骤4.1:霍夫森林的训练:
霍夫森林中的每棵决策树的训练互相独立;包含已知文字的合成图像作为输入图像,逐张输入至决策树中进行训练;其具体过程如下:
步骤4.1.1:随机采样:
从输入图像中随机采样p×q大小的样本x,并记录样本x与图像中心点的距离d,同时对x提取多维的特征向量g;每一幅输入图像进行多次采样,采样得到的样本集X输入至决策树的根结点;将根节点按照步骤4.1.2进行分类决策;
步骤4.1.2:若结点的深度大于深度阈值或样本集的元素数量小于数量阈值,则该结点为叶子结点,该叶子结点保存输入的样本集X,该结点训练完成;所述深度阈值为5~100,数量阈值为1~0.05N,N为决策树训练集元素数量;否则根据fθ(x)的判决结果把样本集X分为两个集合,即
Xa={x∈X|fθ(x)=0}
Xb={x∈X|fθ(x)=1}
其中,f是根据特征g进行判决的二值函数,θ是判决函数的参数;
步骤4.1.3:参数选择:
随机生成多组参数θ,分别利用步骤4.1.2对X进行分类,并根据以下判决规则选择其中最优的分类参数θ*;最优的分类参数θ*的判决标准为
θ*=argminθ∈ΘU(X),
其中,Θ是参数全集;U是判决的不确定性,由分类的不确定性Uc(X)和中心位置的聚类不确定性Ud(X)两项组成,即
U(X)=Uc(X)+δUd(X),
其中δ是调整权重;
步骤4.1.4:迭代训练:
根据步骤4.1.3求得的最优的分类参数θ*把X分割为Xa和Xb,并把Xa和Xb分别作为该结点的左儿子和右儿子的输入样本集,然后对左结点和右结点分别执行步骤4.1.2-4.1.4,直到所有结点训练完成;
步骤4.2:霍夫森林输出文字的分布概率,其具体过程如下:
步骤4.2.1:随机采样:
从步骤3筛选出的连通域中,独立随机采样多个p×q大小的样本x,并分别输入至步骤4.1训练好的霍夫森林中的各棵决策树中,各棵决策树之间的处理相互独立;
步骤4.2.2:获取叶子结点:
设当前决策树为Tt,每个样本x分别从决策树的根部出发,根据步骤4.1.3得到的决策树各个结点的最优的分类参数θ*,样本选择进入左结点或者右结点,并最终到达样本x的叶子结点Lt(x);
步骤4.2.3:概率估计:
根据叶子结点保存的信息,对输入样本的类别c和位置d两项,即h={c,d},进行估计,其概率估计值为
p(h|Lt(x))=p(d|c,Lt(x))p(c|Lt(x)),
其中,p(c|Lt(x))是样本类别估计概率,Lt(x)是样本x的叶子结点;p(d|c,Lt(x))是样本距离目标中心位置的概率估计;
步骤4.2.4:求解样本的估计概率p(h|x),
步骤4.2.5:求解整幅图像I中文字的分布概率估计p(h|I),
其中,Ω是图像的像素集合。
4.根据权利要求1所述的方法,其特征在于,所述步骤3中的区域特征包括区域外接矩形的长与宽的比值;轮廓周长与轮廓面积的比值;轮廓的凸包面积与轮廓面积的比值;区域内像素值的方差;区域内洞的数量;区域内洞的总面积与轮廓面积的比值;区域内凸缺陷与轮廓距离的平均值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学,未经浙江大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510107607.4/1.html,转载请声明来源钻瓜专利网。