[发明专利]一种基于文本中心区域扩增的藏汉双语场景文本检测方法有效
申请号: | 202011550287.7 | 申请日: | 2020-12-24 |
公开(公告)号: | CN112528997B | 公开(公告)日: | 2022-04-19 |
发明(设计)人: | 王维兰;李金成;郝玉胜;王铁君;李巧巧 | 申请(专利权)人: | 西北民族大学 |
主分类号: | G06V20/62 | 分类号: | G06V20/62;G06V10/26;G06V10/80;G06V10/764;G06V10/82 |
代理公司: | 北京盛询知识产权代理有限公司 11901 | 代理人: | 方亚兵 |
地址: | 730030 甘*** | 国省代码: | 甘肃;62 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 文本 中心 区域 扩增 双语 场景 检测 方法 | ||
1.一种基于文本中心区域扩增的藏汉双语场景文本检测方法,其特征在于,包括以下步骤:
S1、构建数据集,采用可视化工具对数据进行标注,基于改进人工合成图像的方法生成藏汉双语场景文本图像,构建藏汉双语场景文本检测数据库;
S2、对生成的藏汉双语场景文本图像进行检测,确定文本区域在场景图像中的具体位置;
S3、通过预测文本区域、文本中心区域以及文本中心区域边界到完整文本实例边界的距离,从文本中心区域开始扩增,最终获取文本实例;
基于改进的人工合成图像的方法,对藏汉双语场景文本图像进行合成,合成方法包括以下步骤:
S1.11、收集不含文字的自然场景作为背景图像,利用若干个藏汉双语词条作为文本语料,将常用的藏、汉字体作为渲染文字的字体;
S1.12、使用CNN模型获得图像的像素级深度图像,提取深度信息;结合局部颜色和纹理特征,将所述背景图像分割成多个连续区域,获得区域分割图像;将所述背景图像、区域分割图像、深度图像及其信息集于一体,获得图像综合数据;
S1.13、根据图像分割区域的长宽、面积、纵横比,过滤掉不满足放文本的区域,在过滤后的区域找到处于同一平面数据点,如果各个区域中处于同一平面的数据点的数量不满足给定的阈值,则滤除该区域;再利用剩下区域的深度信息,使用RANSAC算法获得每个区域的表面法向量,根据表面法向量将每个区域拟合成若干个矩形区域蒙版,放置文本的二进制掩码;
S1.14、随机选择渲染文本的字体,根据字体大小和纵横比选择适合嵌入文本的矩形区域;
S1.15、从语料库中随机选择文本放入所述矩形区域,根据矩形区域的法线方向、纹理颜色分别为文本指定方向和颜色,渲染得到含有文本的矩形区域,最终使用泊松编辑将渲染后的文本矩形区域转换回原始状态。
2.根据权利要求1所述的基于文本中心区域扩增的藏汉双语场景文本检测方法,其特征在于,所述步骤S1中构建数据集的具体步骤为:将从藏区拍摄到的真实样本,采用可视化标注工具,对所述样本进行文本行标注,并改进现有合成图像的算法合成带有文本标注信息的场景文本图像,构建藏汉双语场景文本检测数据库。
3.根据权利要求2所述的基于文本中心区域扩增的藏汉双语场景文本检测方法,其特征在于,对文本行进行标注的方法为四边形标注,包括以下步骤:
S1.1、用四边形框选出图像中的文本实例,使所框选区域的背景减少;
S1.2、记录每个框内文本行的内容;
S1.3、为每张已标记的图像生成json格式的标签文件,将其转成txt文件。
4.根据权利要求1所述的基于文本中心区域扩增的藏汉双语场景文本检测方法,其特征在于,所述步骤S2中对生成的藏汉双语场景文本图像进行检测,包括以下步骤:
S2.1、特征提取:使用ResNet作为骨干网络提取输入图像的特征图作为特征金字塔FP1;
S2.2、特征增强:将所述特征金字塔FP1连接到特征金字塔增强模块FPEM,增强不同尺度的特征;
S2.3、特征融合:将不同网络层的特征进行融合获得特征金字塔FP4,再将特征金字塔FP4中不同大小的特征图进行上采样,连接成特征图F;
S2.4、目标预测:在特征图F上分别预测矩形文本区域、文本中心区域、以及文本中心区域向外扩增的距离。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西北民族大学,未经西北民族大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011550287.7/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种基于LOO-CV验证的交叉核验方法
- 下一篇:辅助康复机器人