[发明专利]一种基于度量学习的少样本文档版面分析方法有效
申请号: | 202010884195.6 | 申请日: | 2020-08-28 |
公开(公告)号: | CN112069961B | 公开(公告)日: | 2022-06-14 |
发明(设计)人: | 徐行;赖逸;张鹏飞;邵杰;陈李江 | 申请(专利权)人: | 电子科技大学 |
主分类号: | G06V30/40 | 分类号: | G06V30/40;G06V10/40;G06K9/62;G06N3/04;G06N3/08;G06V10/764;G06V10/774 |
代理公司: | 成都行之专利代理事务所(普通合伙) 51220 | 代理人: | 温利平 |
地址: | 611731 四川省成*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 度量 学习 样本 文档 版面 分析 方法 | ||
1.一种基于度量学习的少样本文档版面分析方法,其特征在于,包括以下步骤:
(0)、构建训练集
从现有的多个文档中下载大量的support图像与query图像,其中,每K张support图像和一张query图像作为单个训练任务,在每一张support图像中,标记有每个位置与给定掩码的配对组合,通过给定掩码值标记出support图像中每个位置的类别;在每一张query图像中,同样标记有每个位置与给定掩码的配对组合,通过给定掩码值标记出query图像中每个位置的类别;
(1)、特征提取
(1.1)、随机选取一个训练任务输入至卷积神经网络;
(1.2)、K张support图像输入后,利用卷积神经网络提取每一张support图像的原始特征图,记为其中,s代表support图像,k=1,2,…,K,C、H、W分别表示原始特征图的通道数、高度和宽度;
(1.3)、单张query图像输入后,利用卷积网络提取单张query图像的原始特征图,记为其中,q代表query图像;
(2)、生成带有位置注意力的特征图和带有通道注意力的特征图;
(2.1)、将每一张原始特征图进行一次reshape操作,使的维度由C×H×W转换为C×(HW),记新的特征图为
再次对进行一次reshape操作将原始特征图维度C×H×W转换为C×(HW),然后再进行一次transpose操作将维度进行交换为(HW)×C,记新的特征图为
(2.2)、将与进行矩阵乘法操作得到矩阵再将与进行矩阵乘法操作得到矩阵然后对进行reshape操作,将其维度恢复为C×H×W,最后再与相加,得到带有位置注意力的特征图
(2.3)将与进行矩阵乘法操作得到矩阵再将与进行矩阵乘法操作得到矩阵通过对进行reshape操作,将其维度恢复为C×H×W,最后再与相加,得到带有通道注意力的特征图
(2.4)、同理,按照步骤(2.1)-(2.3)的方法对原始特征图进行处理,得到带有位置注意力的特征图和带有通道注意力的特征图
(3)、将带有位置注意力和通道注意力的特征图进行特征融合;
将带有位置注意力的特征图和通道注意力的特征图通过执行逐元素相加来完成特征融合,再通过一个1×1的卷积层,从而输出融合后的特征图
同理,按照上述方法对和进行特征融合后,得到特征图
(4)、提取特征图的前景原型与背景原型并合成
(4.1)、设置类别集合B={1,2,…,j,…,b},总类别数为b;从所有的特征图中提取每个类别下的前景原型;
其中,表示类别j的第k张特征图在(x,y)处的向量,其维度为C×1×1;表示类别j的第k张特征图在(x,y)处的给定掩码值;为指示函数,当时,指示函数的取值为1,否则为0;
(4.2)、从所有的特征图中提取背景原型;
其中,g代表背景;
(4.3)、将前景原型与背景原型合成原型集合Ps,Ps={Ps,j|j∈B}∪{Ps,g};
(5)、在特征图中计算每个像素位置最终类别所属的掩码值;
(5.1)、利用余弦距离计算公式计算特征图中每个位置(x,y)处的向量与原型集合中各原型之间的距离再通过softmax来计算每个类别下的概率;
其中,α为权衡因子,表示类别j下特征图在(x,y)处的向量;
(5.2)、通过argmax方法计算每个像素位置最终类别所属的预测掩码值;
(6)、根据掩码值提取特征图的前景原型与背景原型并合成;
(6.1)、从特征图中提取每个类别下的前景原型;
(6.2)、从特征图中提取背景原型;
(6.3)、将前景原型与背景原型合成原型集合Pq,Pq={Pq,j|j∈B}∪{Pq,g};
(7)、在所有的特征图计算每个位置最终类别所属的掩码值;
(7.1)、利用余弦距离计算公式计算特征图中每个位置(x,y)处的向量与原型集合中各原型之间的距离再通过softmax计算每个类别下的概率;
其中,α为权衡因子;
(7.2)、通过argmax方法计算每个位置最终类别所属的预测掩码值;
(8)、采用反向传播对特征提取的卷积神经网络的权重进行更新,得到用于特征提取的标准卷积神经网络;
(8.1)、根据预测掩码值构建损失函数Lseg;
其中,表示类别j下特征图在(x,y)处的给定掩码值;
(8.2)、根据预测掩码值构建损失函数Lq-s;
其中,N表示特征图中像素点数目;
(8.3)、定义总损失函数L=Lseg+λLq-s,λ为平衡因子;
(8.4)、先通过对总损失函数L进行梯度求解,再判断然后用反向传播算法对用于特征提取的卷积神经网络的权重进行更新,然后选取下一个训练任务,以更新后的网络权重继续训练卷积神经网络,当总损失函数L达到最小时完成训练,从而得到标准卷积神经网络模型;
(9)、利用标准卷积神经网络模型对待分析文档进行版面分析
将待分析文档以图像形式输入至标准卷积神经网络模型,从而输出每个位置对应的掩码值,然后按照掩码值划分每个位置对应的类别,将同一类别的位置划分为同一板块,表示这些位置对应的像素点属于同一板块。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于电子科技大学,未经电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010884195.6/1.html,转载请声明来源钻瓜专利网。