[发明专利]一种基于特征与多标签增强表示的短视频自动标注方法在审
申请号: | 202010383978.6 | 申请日: | 2020-05-08 |
公开(公告)号: | CN111723241A | 公开(公告)日: | 2020-09-29 |
发明(设计)人: | 吕卫;李德盛;井佩光;苏育挺 | 申请(专利权)人: | 天津大学 |
主分类号: | G06F16/783 | 分类号: | G06F16/783;G06F16/75 |
代理公司: | 天津市北洋有限责任专利代理事务所 12201 | 代理人: | 李林娟 |
地址: | 300072*** | 国省代码: | 天津;12 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 特征 标签 增强 表示 视频 自动 标注 方法 | ||
本发明公开了一种基于特征与多标签增强表示的短视频自动标注方法,包括:利用字典映射矩阵、公共低秩表示的积和稀疏误差矩阵重构原始特征矩阵,构成多视角低秩表征项;通过对整体数据集进行聚类,获取全部数据集以及不同聚类中潜在标签相关性信息,构成全局与局部标签相关性学习项;将公共低秩表示作为预测标签,与真实标签相减得到标注误差并使其最小化,构成最小化标注误差项;由多视角低秩表征项、全局与局部标签相关性学习项、最小化标注误差项进行加权获得总目标函数,利用交替方向乘子法优化总目标函数,引入拉格朗日乘子,依次迭代更新各个矩阵变量,直至目标函数的值收敛,得到最终的标注结果。本发明提高了短视频多标签标注问题中的准确率。
技术领域
本发明涉及短视频领域,尤其涉及一种基于特征与多标签增强表示的短视频自动标注方法。
背景技术
当前,随着工作生活环境的变化和手机网络的迅速普及,人们对于信息的接收方式逐渐由传统的长时间接收逐渐转化为碎片化的接收方式。人们不再局限于用大段时间单纯地阅读、创作,而是随时通过手机网络等方式短时间内获取自己想要的信息,在此背景下,短视频应运而生。
短视频作为一种新兴的媒体形式广泛传播于各大网络社交平台,并在近些年获得了快速发展。各大短视频网络平台允许用户自己制作,加工,上传长度往往不超过30秒的短视频,因此各大社交平台会周期性地出现大量的短视频原始数据,且这些数据作为多媒体内容往往携带多个标签。例如,“唇彩”和“女生自拍”两个标签常常存在于同一个短视频中。
如今,对于短视频语义理解方面的研究包括场景分类、流行度预测、事件检测等,但在大量短视频数据的背景下,对短视频进行有效的标注仍然存在着一定局限性。采用人工标注的方式会使得流程更为复杂,造成效率低下以及人工成本上升等问题。
因此提出一种有效的短视频自动标注方法是很有意义的。
发明内容
本发明提供了一种基于特征与多标签增强表示的短视频自动标注方法,本发明致力于提高短视频多标签标注问题中的准确率,详见下文描述:
一种基于特征与多标签增强表示的短视频自动标注方法,所述方法包括:
利用字典映射矩阵、公共低秩表示的积和稀疏误差矩阵重构原始特征矩阵,从而整体构成多视角低秩表征项;
通过对整体数据集进行聚类,获取全部数据集以及不同聚类中潜在标签相关性信息,构成全局与局部标签相关性学习项;
将公共低秩表示作为预测标签,与真实标签相减得到标注误差并使其最小化,构成最小化标注误差项;
由多视角低秩表征项、全局与局部标签相关性学习项、最小化标注误差项进行加权获得总目标函数,利用交替方向乘子法优化总目标函数,引入拉格朗日乘子,依次迭代更新各个矩阵变量,直至目标函数的值收敛,进而得到最终的标注结果。
其中,所述多视角低秩表征项具体为:
s.t.Xi=DiL+Ei,i=1,2,...,V
其中,i为视角序号,为第i视角的特征矩阵,为第i视角的字典映射矩阵,L∈RC×N为多视角特征的公共低秩表示,为稀疏误差矩阵,R为实数集,di为第i视角的特征维度,V为视角总数,N为样本总数,C为标签类别总数,∑(·)为求和符号,||·||*为核范数,||·||1为l1范数,λ1和λ4为调节参数。
进一步地,所述全局与局部标签相关性学习项具体为:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于天津大学,未经天津大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010383978.6/2.html,转载请声明来源钻瓜专利网。