[发明专利]基于非负张量分解的时序可视媒体语义索引精度增强方法有效
申请号: | 201810121031.0 | 申请日: | 2018-02-07 |
公开(公告)号: | CN108334611B | 公开(公告)日: | 2020-04-24 |
发明(设计)人: | 王鹏;孙立峰;杨士强;晏晨 | 申请(专利权)人: | 清华大学 |
主分类号: | G06F16/71 | 分类号: | G06F16/71 |
代理公司: | 北京清亦华知识产权代理事务所(普通合伙) 11201 | 代理人: | 罗文群 |
地址: | 100084*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明涉及一种基于非负张量分解的时序可视媒体语义索引精度增强方法,属于视觉媒体处理技术领域。首先,对时序可视媒体中包含的物体和场景进行语义索引,构建置信度张量,通过阈值判断筛选出部分元素,应用加权非负张量分解的方法对筛选后的张量进行重新估计,完成精度增强。本发明的优点是利用时序语义关系,增强了时序可视媒体语义索引的准确率。本方法不依赖于大量标注数据集和知识库,具有很强的灵活性和适应性。采用加权非负张量分解,提高了方法的灵活性和效果。算法的计算复杂度低,可扩展性强,适合于实际工业应用。 | ||
搜索关键词: | 基于 张量 分解 时序 可视 媒体 语义 索引 精度 增强 方法 | ||
【主权项】:
1.一种基于非负张量分解的时序可视媒体语义索引精度增强方法,其特征在于该方法包括以下步骤:(1)分别对初始时序可视媒体中包含的物体和场景进行语义索引,得到时序可视媒体语义索引的初始探测置信度值,根据所有初始探测置信度值得到一个张量T(Tijk)N×M×L,其中,L表示时序可视媒体按固定时间间隔切分成段的分段总数量,N表示每个时间间隔中所包含的连续图片的数量,M表示时序可视媒体中的概念的个数,张量T中的每个元素Tijk表示在第k个时间间隔中第i个图片对第j个概念的探测置信度值,1≤k≤L;(2)设定一个探测置信度阈值,分别将上述张量T中的初始探测置信度值即每个元素Tijk与设定的探测置信度阈值进行比较,若张量T中的初始探测置信度值大于或等于设定的探测置信度阈值,则保留初始探测置信度值,若张量T中的初始探测置信度值小于设定的探测置信度阈值,则将初始探测置信度值更新为0,并将更新后的张量记为T”,将张量T”中的每个元素记为T”ijk,其中,1≤i≤N,1≤j≤M,1≤k≤L;(3)采用加权非负张量分解方法对上述更新后的张量T”进行加权非负张量分解,得到精度增强后的时序可视媒体语义索引,记为张量T',具体包括以下步骤:(3‑1)构建三个初始非负矩阵
及
其中K为一个设定参数,取值范围为[M/2,2M];(3‑2)构建一个权重张量W,W=(Wijk)N×M×L,其中wijk∈[0,1],1≤i≤N,1≤j≤M,1≤k≤L,根据上述步骤(2)设定的探测置信度阈值和上述步骤(1)的张量T中的初始探测置信度值,对权重张量W中的各元素wijk进行赋值,若上述步骤(1)张量T中的初始探测置信度值高于或等于上述步骤(2)设定的探测置信度阈值,则权重张量W的元素wijk赋以值(0.5,1.0],若上述步骤(1)张量T中的初始探测置信度值低于上述步骤(2)设定的探测置信度阈值,则权重张量W的元素wijk赋以值[0,0.5];(3‑3)根据上述步骤(3‑1)构建的三个非负矩阵
及
以及上述步骤(3‑2)构建的权重矩阵W,构建一个费效函数F:
其中U(1),U(2)及U(3)分别代表上述非负矩阵
及
且该费效函数满足约束U(1)≥0,U(2)≥0及U(3)≥0;(3‑4)求解上述费效函数F,得到优化后的非负矩阵
及
优化迭代过程如下:以U(1)的迭代优化过程为例:
采用上述方法,得到矩阵U(2)和U(3)的优化结果,将迭代收敛后的
及
作为优化后的非负张量
及
其中,符号○代表元素乘法,W为上述步骤(3‑2)中的权重张量;根据上述优化结果,利用下式,计算得到一个张量
张量
中的每个元素
为:
(3‑5)将上述步骤(3‑4)的张量
与上述步骤(1)的张量T进行加权平均,得到张量T':
其中,α的取值范围为(0,1),T'即为精度增强后的时序可视媒体语义索引。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学,未经清华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201810121031.0/,转载请声明来源钻瓜专利网。