[发明专利]一种光学印刷文本和场景文本的通用检测算法在审

申请号：	202110267056.3	申请日：	2021-03-11
公开（公告）号：	CN112861794A	公开（公告）日：	2021-05-28
发明（设计）人：	励建科;许化;顾淼;陈再蝶;朱晓秋;樊伟东;邓明明;周杰	申请（专利权）人：	浙江康旭科技有限公司
主分类号：	G06K9/00	分类号：	G06K9/00;G06K9/62
代理公司：	暂无信息	代理人：	暂无信息
地址：	310000 浙江省杭州市***	国省代码：	浙江;33
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种光学印刷文本场景通用检测算法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种光学印刷文本和场景文本的通用检测算法，其特征在于，包括以下步骤：

S1、获取待检测图片；

S2、检测待检测图片中的目标文本区域；

S3、根据预先设置的文本区域与文本检测模型之间的对应关系,确定目标文本区域对应目标文本的检测模型；

S4、采用目标文本检测模型得到目标文本检测框；

所述目标文本区域包括表头文本区域,印章文本区域和普通文本区域；

所述文本区域与文本检测模型的对应关系包括以下至少之一:采用DBnet网络算法模型对版面文本区域进行文本检测和采用OPENCV工具根据阈值进行印章区域检测；

所述DBnet网络算法模型的建立包括以下步骤：

S1、训练数据集准备；

S2、使用DBnet网络文本检测算法进行迁移学习；

所述文本检测包括以下步骤：

S1、采集需要检测的图片；

S2、采用预先训练得到的DBnet网络算法的开源预训练模型，生成固定阈值分割图和自适应阈值分割图；

S3、结合固定阈值分割图和自适应分割图生成二值化图；

S4、得到待检测图片的文本检测框，生成四边形和多边形的检测框。

2.根据权利要求1所述的一种光学印刷文本和场景文本的通用检测算法，其特征在于，所述训练数据集为一个具有中文，英文街景文字的数据集。

3.根据权利要求2所述的一种光学印刷文本和场景文本的通用检测算法，其特征在于，所述训练数据集包括3万张中文精标数据集和1万张英文精标数据集；

所述训练数据集中水平词条和竖直词条位置标注为4点，弯曲文字标注为多边形且弯曲文字采用多点进行位置标注。

4.根据权利要求1所述的一种光学印刷文本和场景文本的通用检测算法，其特征在于，所述DBnet网络算法模型中使用了阶跃函数；

所述阶跃函数的公式为：

其中：

k为放大因子，设定为50，P为像素点是文本的概率，T为每个像素点的阈值。

5.根据权利要求1所述的一种光学印刷文本和场景文本的通用检测算法，其特征在于，所述DBnet网络算法模型中通过图像多边形剪裁算法来缩小多边形；

所述图像多边形剪裁算法的公式为：

其中：

D为多边形的收缩偏移量，L为多边形的周长，A为多边形的面积，r为收缩因子。

6.根据权利要求1所述的一种光学印刷文本和场景文本的通用检测算法，其特征在于，所述DBnet网络算法模型中采用的损失函数的公式为：

L＝L_s+α×L_b+β×L_t；

其中：

L_s为概率图损失，L_b为二值图损失；L_t为阈值图；α、β分别设置为1.0和10。

7.根据权利要求1所述的一种光学印刷文本和场景文本的通用检测算法，其特征在于，对所述DBnet网络算法模型进行微调过程中出现的深度网络自适应问题采用深度域适应方法来解决；

所述深度域适应方法用于固定网络的结构的特征提取层且在最后一层分类器前加入自适应的度量。

8.根据权利要求1所述的一种光学印刷文本和场景文本的通用检测算法，其特征在于，采用所述DBnet网络文本检测算法进行印章检测包括以下步骤：

S1、使用预先训练得到的DBnet文本检测算法模型检测到待检测图片的所有的目标文本区域使用OpenCV形状检测进行检测是圆形章或者是矩形章；

S2、根据业务需求，使用OpenCV技术对待检测图片的文本框位置内的内容进行印章检测，使用相对阈值判断，即对比背景图片的阈值和目标文本框内的阈值，判断目标文本区域内是否有红色印章；

S3、根据银行场景需求区分不同章的类型，以及使用OpenCV技术，去除红色印章。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于浙江康旭科技有限公司，未经浙江康旭科技有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202110267056.3/1.html，转载请声明来源钻瓜专利网。

上一篇：数据查询方法、装置、电子设备及可读存储介质
下一篇：一种输送线的工位调节机构

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06K 数据识别；数据表示；记录载体；记录载体的处理
G06K9-00 用于阅读或识别印刷或书写字符或者用于识别图形，例如，指纹的方法或装置
G06K9-03 .错误的检测或校正，例如，用重复扫描图形的方法
G06K9-18 .应用具有附加代码标记或含有代码标记的打印字符的，例如，由不同形状的各个笔画组成的，而且每个笔画表示不同的代码值的字符
G06K9-20 .图像捕获
G06K9-36 .图像预处理，即无须判定关于图像的同一性而进行的图像信息处理
G06K9-60 .图像捕获和多种预处理作用的组合

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种光学印刷文本和场景文本的通用检测算法在审

专利文献下载