[发明专利]一种用于可视媒体语义索引的精度增强方法有效

专利信息
申请号: 201610108055.3 申请日: 2016-02-26
公开(公告)号: CN105787045B 公开(公告)日: 2019-03-26
发明(设计)人: 王鹏;孙立峰;杨士强 申请(专利权)人: 清华大学
主分类号: G06F16/71 分类号: G06F16/71
代理公司: 北京清亦华知识产权代理事务所(普通合伙) 11201 代理人: 罗文群
地址: 100084*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明涉及一种用于可视媒体语义索引的精度增强方法,属于视觉媒体处理技术领域。首先,对可视媒体中包含的物体和场景进行语义索引,构建置信度矩阵,通过阈值判断筛选出部分元素,应用加权非负矩阵分解的方法对筛选后的矩阵进行重新估计,完成全局精度增强。根据全局精度增强后的结果采用相似度传播的方法,利用样本间的相似度关系进行局部精度增强。本发明的优点是利用多种语义关系,增强了可视媒体语义索引的准确率。本方法不依赖于大量标注数据集和知识库,具有很强的灵活性和适应性。全局精度增强与局部精度增强有机结合,提高了方法的灵活性和效果。算法的计算复杂度低,可扩展性强,适合于实际工业应用。
搜索关键词: 一种 用于 可视 媒体 语义 索引 精度 增强 方法
【主权项】:
1.一种用于可视媒体语义索引的精度增强方法,其特征在于该方法包括以下步骤:(1)对初始可视媒体中包含的物体和场景进行语义索引,得到初始可视媒体语义索引的探测置信度值,根据探测置信度值,构建一个矩阵C,矩阵C中的行对应于可视媒体中的一个样本ci,1≤i≤N,矩阵C中的列对应一个物体或场景vj,1≤j≤M,矩阵C中的任意一个元素cij表示样本ci包含的物体或场景vj的探测置信度值,其中,N表示样本的个数,M表示物体或场景的个数;(2)设定一个探测置信度阈值,将上述矩阵C中的探测置信度值与设定的探测置信度阈值进行比较,若矩阵C中的探测置信度值大于或等于探测置信度阈值,则保留该探测置信度值,若矩阵C中的探测置信度值小于探测置信度阈值,则将该探测置信度值置为0,并将该比较更新后的矩阵记为C”,矩阵C”的每个元素记为c”ij,1≤i≤N,1≤j≤M;(3)利用加权非负矩阵分解方法,对上述比较更新后的矩阵C”进行全局精度增强,具体过程如下:若上述比较更新后的矩阵C”中的任意两个列代表的物体或场景vi和vj不具备本体相关性信息,1≤i,j≤M,则采用以下方法对上述比较更新后的矩阵C”进行加权非负矩阵分解,得到C',具体包括以下步骤:(3‑1)构建两个初始非负矩阵LN×d及Rd×M,其中d≤min(M,N);(3‑2)构建一个权重矩阵W,W=(wij)N×M,其中wij∈[0,1],1≤i≤N,1≤j≤M,根据上述置信度阈值,对权重矩阵W中的各元素wij进行赋值,若矩阵C中的置信度值高于或等于上述置信度阈值,则元素wij赋以值(0.5,1.0],若矩阵C中的置信度值低于上述置信度阈值,则元素wij赋以值[0,0.5];(3‑3)根据上述两个非负矩阵LN×d和Rd×M以及权重矩阵W,构建一个费效函数F:其中L及R分别代表上述非负矩阵LN×d及Rd×M,且该费效函数满足约束L≥0及R≥0,其中,表示Frobenius范数,参数λ的取值范围为(0,10],二次正规化因子用于防止优化的过程中产生过拟合;(3‑4)求解上述费效函数F,得到优化后的非负矩阵LN×d及Rd×M,进而得到一个矩阵Rd×M和LN×d的迭代优化过程为:迭代收敛后的Rd×M和LN×d即为优化后的非负矩阵Rd×M和LN×d;(3‑5)将上述步骤(3‑4)的矩阵与上述步骤(1)的矩阵C进行加权平均,得到矩阵C':其中,α的取值范围为(0,1);若上述比较更新后的矩阵C”中的任意两个列代表的物体或场景vi和vj具备本体相关性信息,1≤i,j≤M,则采用以下方法对上述比较更新后的矩阵C”进行加权非负矩阵分解,得到C',具体包括以下步骤:(3‑6)构建两个初始非负矩阵LN×d及Rd×M,其中d≤min(M,N);(3‑7)构建一个权重矩阵W,W=(wij)N×M,其中wij∈[0,1],1≤i≤N,1≤j≤M,根据上述置信度阈值,对权重矩阵W中的各元素wij进行赋值,若矩阵C中的置信度值高于或等于上述置信度阈值,则元素wij赋以值(0.5,1.0],若矩阵C中的置信度值低于上述置信度阈值,则元素wij根据物体或场景的本体相关性信息赋以自适应的权值:ωij∝1‑[cij‑maxvk∈Dcik]其中,D为与物体或场景vj不能同时出现在一幅画面中的物体或场景的全集,cik为与物体或场景vj不能同时出现在一幅画面中的物体或场景vk对应的探测置信度值,maxvk∈Dcik表示与物体或场景vj不能同时出现在一幅画面中的物体或场景vk对应的探测置信度值中的最大值;(3‑8)根据上述两个非负矩阵LN×d和Rd×M以及权重矩阵W,构建一个费效函数F:其中L及R分别代表上述非负矩阵LN×d及Rd×M,且该费效函数满足约束L≥0及R≥0,其中,表示Frobenius范数,参数λ的取值范围为(0,10],二次正规化因子用于防止优化的过程中产生过拟合;(3‑9)求解上述费效函数F,得到优化后的非负矩阵LN×d及Rd×M,进而得到一个矩阵Rd×M和LN×d的迭代优化过程为:迭代收敛后的Rd×M和LN×d即为优化后的非负矩阵Rd×M和LN×d;(3‑10)将上述步骤(3‑9)的矩阵与上述步骤(1)的矩阵C进行加权平均,得到矩阵C':其中,α的取值范围为(0,1);(4)利用相似度传播方法,对上述步骤(3)得到的矩阵C'进行局部精度增强,具体过程如下:(4‑1)采用皮尔森相关系数,计算可视媒体中不同样本ci和cj之间的相似度Pi,j:其中,ci和cj在矩阵C′中的值为第i行和第j行的行向量,行向量c'i=(c'ik)1≤k≤M,c'j=(c'jk)1≤k≤M分别为c'i和c'j对应各行的平均值;采用高斯形式,对上述相似度Pi,j进行归一化处理,得到归一化后的相似度P'i,j:其中,δ为样本间距离的尺度参数,取值范围为(0,10];(4‑2)根据上述样本间归一化后的相似度P'i,j,选定可视媒体中的任意一个样本ci(1≤i≤N),从除ci以外的其他样本cj,1≤j≤N且j≠i中选择与样本ci最近邻的前K个样本,并构建一个ci与K个最近邻样本之间的相似度矩阵G:G=(P'i,j)(K+1)×(K+1)其中,矩阵G中的每个元素为相应两个样本间的相似度,矩阵G的前K行及前K列为样本ci的K个最近邻样本,矩阵G的最后第K+1行和最后第K+1列为样本ci;(4‑3)对上述矩阵G进行列归一化处理,构建概率矩阵T,概率矩阵T中的每个元素为:表示矩阵G第j列所有元素按行的求和;(4‑4)将矩阵C′中第i个样本的K个最近邻样本在矩阵C′中的行号记为ni,1≤i≤K,为矩阵C′中的第ni个行向量,将所有K+1个行向量层叠在一起,构成一个矩阵Cn,Cn=(c'n1;c'n2;...;c'nK;c'i),通过下面的传播方法对矩阵Cn中的第K+1行的向量值c′i进行更新迭代:(4‑5)进行多次更新迭代后,得到一个矩阵Cn,矩阵Cn中的第K+1行的向量值c'i即为对第i个样本通过相似度传播进行局部精度增强后的结果;(4‑6)遍历矩阵C′中所有样本ci,1≤i≤N,重复上述步骤(4‑4)和步骤(4‑5),实现对可视媒体语义索引的精度增强。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学,未经清华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201610108055.3/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top