[发明专利]一种光学印刷文本和场景文本的通用检测算法在审
申请号: | 202110267056.3 | 申请日: | 2021-03-11 |
公开(公告)号: | CN112861794A | 公开(公告)日: | 2021-05-28 |
发明(设计)人: | 励建科;许化;顾淼;陈再蝶;朱晓秋;樊伟东;邓明明;周杰 | 申请(专利权)人: | 浙江康旭科技有限公司 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06K9/62 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 310000 浙江省杭州市*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 光学 印刷 文本 场景 通用 检测 算法 | ||
1.一种光学印刷文本和场景文本的通用检测算法,其特征在于,包括以下步骤:
S1、获取待检测图片;
S2、检测待检测图片中的目标文本区域;
S3、根据预先设置的文本区域与文本检测模型之间的对应关系,确定目标文本区域对应目标文本的检测模型;
S4、采用目标文本检测模型得到目标文本检测框;
所述目标文本区域包括表头文本区域,印章文本区域和普通文本区域;
所述文本区域与文本检测模型的对应关系包括以下至少之一:采用DBnet网络算法模型对版面文本区域进行文本检测和采用OPENCV工具根据阈值进行印章区域检测;
所述DBnet网络算法模型的建立包括以下步骤:
S1、训练数据集准备;
S2、使用DBnet网络文本检测算法进行迁移学习;
所述文本检测包括以下步骤:
S1、采集需要检测的图片;
S2、采用预先训练得到的DBnet网络算法的开源预训练模型,生成固定阈值分割图和自适应阈值分割图;
S3、结合固定阈值分割图和自适应分割图生成二值化图;
S4、得到待检测图片的文本检测框,生成四边形和多边形的检测框。
2.根据权利要求1所述的一种光学印刷文本和场景文本的通用检测算法,其特征在于,所述训练数据集为一个具有中文,英文街景文字的数据集。
3.根据权利要求2所述的一种光学印刷文本和场景文本的通用检测算法,其特征在于,所述训练数据集包括3万张中文精标数据集和1万张英文精标数据集;
所述训练数据集中水平词条和竖直词条位置标注为4点,弯曲文字标注为多边形且弯曲文字采用多点进行位置标注。
4.根据权利要求1所述的一种光学印刷文本和场景文本的通用检测算法,其特征在于,所述DBnet网络算法模型中使用了阶跃函数;
所述阶跃函数的公式为:
其中:
k为放大因子,设定为50,P为像素点是文本的概率,T为每个像素点的阈值。
5.根据权利要求1所述的一种光学印刷文本和场景文本的通用检测算法,其特征在于,所述DBnet网络算法模型中通过图像多边形剪裁算法来缩小多边形;
所述图像多边形剪裁算法的公式为:
其中:
D为多边形的收缩偏移量,L为多边形的周长,A为多边形的面积,r为收缩因子。
6.根据权利要求1所述的一种光学印刷文本和场景文本的通用检测算法,其特征在于,所述DBnet网络算法模型中采用的损失函数的公式为:
L=Ls+α×Lb+β×Lt;
其中:
Ls为概率图损失,Lb为二值图损失;Lt为阈值图;α、β分别设置为1.0和10。
7.根据权利要求1所述的一种光学印刷文本和场景文本的通用检测算法,其特征在于,对所述DBnet网络算法模型进行微调过程中出现的深度网络自适应问题采用深度域适应方法来解决;
所述深度域适应方法用于固定网络的结构的特征提取层且在最后一层分类器前加入自适应的度量。
8.根据权利要求1所述的一种光学印刷文本和场景文本的通用检测算法,其特征在于,采用所述DBnet网络文本检测算法进行印章检测包括以下步骤:
S1、使用预先训练得到的DBnet文本检测算法模型检测到待检测图片的所有的目标文本区域使用OpenCV形状检测进行检测是圆形章或者是矩形章;
S2、根据业务需求,使用OpenCV技术对待检测图片的文本框位置内的内容进行印章检测,使用相对阈值判断,即对比背景图片的阈值和目标文本框内的阈值,判断目标文本区域内是否有红色印章;
S3、根据银行场景需求区分不同章的类型,以及使用OpenCV技术,去除红色印章。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江康旭科技有限公司,未经浙江康旭科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110267056.3/1.html,转载请声明来源钻瓜专利网。