[发明专利]一种文本定位方法、装置及模型训练方法有效
申请号: | 202010132023.3 | 申请日: | 2020-02-29 |
公开(公告)号: | CN111476226B | 公开(公告)日: | 2022-08-30 |
发明(设计)人: | 尹世豪 | 申请(专利权)人: | 新华三大数据技术有限公司 |
主分类号: | G06V10/22 | 分类号: | G06V10/22;G06N3/04;G06N3/08 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 450000 河南省郑州市郑州高*** | 国省代码: | 河南;41 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 文本 定位 方法 装置 模型 训练 | ||
1.一种文本定位装置,其特征在于,该装置包括下采样模块、上采样模块、输出层模块;
下采样模块由主干单元和N个下采样单元组成:
主干单元,由多个卷积层构成,用于提取输入图片的低级特征;主干单元输出的特征图除作为第一个下采样单元的输入外,还与第M-1个上采样单元的输出特征图融合后作为第M个上采样单元的输入;
下采样单元,用于对输入的特征图进行下采样;每个下采样单元输出的特征图尺寸相对于输入的特征图的宽和高成比例缩小,除第N个下采样单元外,每个下采样单元的输出都作为后一个下采样单元的输入,最后一个下采样单元的输出作为第一个上采样单元的输入;
上采样模块由M个上采样单元组成:
上采样单元,用于对输入的特征图进行上采样;每个上采样单元输出的特征图尺寸相对于输入的特征图的宽和高成比例放大;上采样单元的放大比例与下采样单元比例相同;上采样路径中除与输出层模块连接的上采样单元外,每个上采样单元输出的特征图都与下采样路径中主干单元和除第N个下采样单元外每个下采样单元输出的同等维度的特征图融合后作为下一个上采样单元的输入,第M个上采样单元的输出作为输出层模块的输入;
输出层模块,由多个卷积层组成,用来逐步降低特征图的通道数,其输出为二维高斯分布图;
所述下采样单元包括靠近输出侧的第一卷积子单元,靠近输入侧的第三卷积子单元及位于中间的第二卷积子单元:
第一卷积子单元和第二卷积子单元不改变特征图的宽和高,第三个卷积子单元将特征图的宽和高降低为原来的1/2;
第一卷积子单元包含两条路径,一条路径包含三个卷积层,另一条路径包含一个卷积层和一个平均池化层,两条路径的输出经过按位相加融合后得到该第一卷积子单元的输出;
第二卷积子单元包含两条路径,一条包含三个卷积层,另一条不包含任何算子,两条路径经过按位相加融合后得到第二卷积子单元的输出;
第三卷积子单元包含两条路径,一条由卷积层和转置卷积层组成,另一条由卷积层和最近邻上采样层组成,两条路径经过按位相加融合后得到第三卷积子单元的输出;
第三卷积子单元的输出作为第二卷积子单元的输入,第二卷积子单元的输出作为第一卷积子单元的输入,第一卷积子单元的输出即为该下采样单元的输出。
2.根据权利要求1所述的装置,其特征在于,
所述上采样单元中包括两条路径,一条路径中包括上下两层卷积层,中间布置一个转置卷积层;另一条路径包括一个最近邻上采样层和一个卷积层;上采样单元中的卷积层用来缩放特征图的通道数,转置卷积层和最近邻上采样层用来扩大特征图的宽和高;
所述上采样单元输出的特征图的高和宽相比于输入升高为原来的2倍。
3.根据权利要求2所述的装置,其特征在于,
所述输出层模块由多个卷积层组成,在逐步降低特征图的通道数的同时引入非线性,增加特征组合表征能力;输出层模块中最后一个卷积层的输出经激活函数处理后将输出值映射至(0,1)的区间内后输出二维高斯分布图。
4.根据权利要求3所述的装置,其特征在于,
除所述输出层模块中最后一个卷积层外,输出层模块的其它卷积层以及所述主干单元、下采样单元和上采样单元中所包含的所有卷积层的输出均经过批量归一化和激活函数处理。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于新华三大数据技术有限公司,未经新华三大数据技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010132023.3/1.html,转载请声明来源钻瓜专利网。