[发明专利]基于自注意力机制的电子商务视频高光检测方法及系统有效
申请号: | 202110403571.X | 申请日: | 2021-04-15 |
公开(公告)号: | CN112801076B | 公开(公告)日: | 2021-08-03 |
发明(设计)人: | 陈佳伟;赵洲;周楚程;刘瑞涛;汪达舟 | 申请(专利权)人: | 浙江大学 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06K9/62;G06N20/00 |
代理公司: | 杭州求是专利事务所有限公司 33200 | 代理人: | 郑海峰 |
地址: | 310058 浙江*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 注意力 机制 电子商务 视频 检测 方法 系统 | ||
本发明公开了一种基于自注意力机制的电子商务视频高光检测方法及系统,属于视频高光检测领域。整个检测过程分为两个阶段,在第一阶段将视频分成待检测片段和上下文片段,分别通过绝对时序编码和相对时序编码将其位置关系编码到整个视频中,通过加性注意力机制和自注意力机制将得出候选分数较高的若干候选片段;在第二阶段,从生成的若干候选片段中选择最好的得分最高的片段作为最后的高光片段输出。本发明基于自注意机制,利用绝对位置编码和相对位置编码,能够综合考虑片段与上下文以及片段和整体的关系,在高光检测中所取得的效果相比于传统的方法更好,精度更高。
技术领域
本发明涉及视频高光检测领域,尤其涉及一种基于自注意力机制的电子商务视频高光检测方法及系统。
背景技术
在电子商务中,介绍视频是展示产品特点和使用情况的重要媒介。在产品推荐流中,通常采用视频高光检测方法捕捉最吸引人的片段并展示给消费者,从而提高产品的点击率。然而,目前的研究方法应用于实际场景的效果并不令人满意,与其他视频理解任务相比,视频高光检测相对抽象和主观。
以往关于普通视频高光检测任务的方法在电子商务场景中存在一些缺陷。例如,Mrigank Rochan提出的方法计算每个采样帧的分数,而不考虑整个高光片段,而作为整体的视频片段对电子商务产品显示有时至关重要。Yingying Zhang使用图神经网络(GNN)建立模型,但没有利用时间信息,这可能包含电子商务想要销售的服务的信息。同时,使用GNN进行大型数据集的训练和推理消耗大量时间。Yifan Jiao使用3D注意力卷积跨越不同片段,但忽略了长期的片段间关系。Kaiyang Zhou将LSTM应用于时间关系的建模,但正如Ashish Vaswani指出的,基于RNN的模型排除了并行化训练的可能性,并存在长期依赖问题。
本发明提出了一种电子商务场景下的视频高光检测方法及系统,将第一阶段输出的候选片段进行下一阶段的比较,整体算法模仿人类遇到这样的问题时的情景,其首先选择少量的比较可能的候选对象,然后仔细考虑这些选择对象,以确定最终的正确答案。
发明内容
本发明提供了一种基于自注意力机制的电子商务视频高光检测方法及系统,解决了现有的高光检测算法无法很好应用于电子商务场景下的问题,提高了针对电子商务场景下的视频高光检测的表现。
为了实现上述目的,本发明采用如下技术方案:
一种基于自注意力机制的电子商务视频高光检测方法,包括以下步骤:
1)对视频进行均匀采样获取帧集合,其中
2)帧特征与绝对时序编码相加,将帧间位置关系编码到整个视频中,得到包含绝对时序信息的帧特征;
3)创建视频编码器处理包含绝对时序信息的帧特征,得到编码后的帧特征;
4)将视频划分为视频片段,将每个视频片段对应的帧特征划分为两个部分:片段内帧特征和片段外帧特征;所述的片段外帧特征包括片段前帧特征和片段后帧特征;
在片段内帧特征中引入绝对时序编码,得到编码后的片段内帧特征;在片段前帧特征和片段后帧特征中分别引入相对编码,得到编码后的片段前帧特征和编码后的片段后帧特征;将编码后的片段前帧特征和编码后的片段后帧特征相结合,作为初始上下文特征;
5)将编码后的片段内帧特征传递给片段编码器生成初始片段特征,然后利用池化层获得中间片段特征;将中间片段特征和初始上下文特征作为加性注意力模块的输入,得到上下文特征;将上下文特征和中间片段特征相结合,得到结合了上下文信息的最终片段特征,通过MLP模型获得视频片段的高光分数;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学,未经浙江大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110403571.X/2.html,转载请声明来源钻瓜专利网。