[发明专利]用于文本图片字符切分的深度学习网络、切分方法有效

申请号：	201910701921.3	申请日：	2019-07-31
公开（公告）号：	CN110895695B	公开（公告）日：	2023-02-24
发明（设计）人：	刘晋;张瑾英明	申请（专利权）人：	上海海事大学
主分类号：	G06V30/148	分类号：	G06V30/148;G06V30/146;G06V10/82;G06N3/0464;G06N3/0442;G06N3/08
代理公司：	上海互顺专利代理事务所(普通合伙) 31332	代理人：	成秋丽
地址：	201306 上海市***	国省代码：	上海;31
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	用于文本图片字符切分深度学习网络方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种用于文本图片字符切分的深度学习网络，其特征在于，所述深度学习网络包括：

特征金字塔网络，为基于通道空间双重注意力融合机制的网络结构，用于提取多尺度特征图；

区域建议网络，用于在多尺度的特征图上逐像素生成锚点，每个尺度的特征图上都生成相应锚点框，通过所述锚点框进行卷积区分锚点框是前景还是背景的二分类分数；以及前景锚点框与其真值的偏移量；

特征区分网络，用于通过将不同尺度的ROI对应至其相应的特征图上并输出相同尺寸的ROI特征图；构建简单卷积层和全连接层再次回归ROI与真值的偏移量来对ROI进行二次修正。

2.根据权利要求1所述的一种用于文本图片字符切分的深度学习网络，其特征在于，所述特征区分网络为于编码解码结构的特征区分网络，用于精细化生成的轮廓，包括一个平滑网络以及一个边界网络构成，所述平滑网络采用自底向上结构及若干残差精修块和通道注意力块构成。

3.根据权利要求1所述的用于文本图片字符切分的深度学习网络，其特征在于，所述特征金字塔网络包括：用于将输入通过卷积操作进行维度统一；

将高分辨率特征图HF进行全局平均池化，利用softmax激活函数求出通道级别的注意力图CA；

根据所述通道级别的注意力图CA，指导低分辨率特征图LF进行特征选择；

将低分辨率的特征图LF利用sigmoid激活函数求出像素点级别的注意力图SA；

根据所述像素点级别的注意力图SA，指导高分辨率的特征图找到字符轮廓；

将高分辨率特征图和低分辨率特征图联接，并进行降维处理；

利用残差捷径路线将最终结果与高分辨率特征图输入进行加和进行融合，获得融合结果。

4.根据权利要求3所述的用于文本图片字符切分的深度学习网络，其特征在于，所述融合结果的具体表达为：

其中，R是融合的结果，HF是高分辨率特征图，LF是低分辨率特征图，SA是像素级别的注意力图，CA是通道级别的注意力图。

5.根据权利要求2所述的用于文本图片字符切分的深度学习网络，其特征在于，所述区域建议网络，具体用于在多尺度的特征图上分别按照滑窗法逐像素生成锚点，每个尺度的特征图上都生成相应三种长宽比的锚点框，将所述锚点框在区域建议网络中通过卷积得到二分类分数以及前景锚点框与其真值的偏移量，其中，所述二分类分数用于区分锚点框是前景还是背景的二分类分数。

6.根据权利要求2所述的用于文本图片字符切分的深度学习网络，其特征在于，所述边界网络的输出具体表达：

Out＝BO₃+SO₀

其中，

BO₀＝RRB(I₀)

BO_i＝PRB(I_i)+PRB(BO_i-1)

SO_i＝CAB(RRB(I_i)，RRB(SO_i+1))i＝2，1，0

S0₃＝CAB(RRB(I₃)，GA(I₃))

其中，BO_i表示边界网络每个阶段的输出，RRB()表示残差精修操作，SO_i表示平滑网络每个阶段的输出，CAB()表示注意力融合操作，I_i表示下采样过程中各阶段的输入，Out表示网络的最终输出。

7.根据权利要求5所述的用于文本图片字符切分的深度学习网络，其特征在于，所述区域建议网络的损失函数的二值交叉熵损失表达如下：

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于上海海事大学，未经上海海事大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】