[发明专利]一种多媒体数据处理方法以及设备在审
申请号: | 201911409428.0 | 申请日: | 2019-12-31 |
公开(公告)号: | CN110955789A | 公开(公告)日: | 2020-04-03 |
发明(设计)人: | 缪畅宇 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | G06F16/45 | 分类号: | G06F16/45;G06F16/48;G06N3/08 |
代理公司: | 广州三环专利商标代理有限公司 44202 | 代理人: | 熊永强;杜维 |
地址: | 518057 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 多媒体 数据处理 方法 以及 设备 | ||
本申请实施例公开一种多媒体数据处理方法以及设备,其中方法包括如下步骤:获取多媒体数据,对多媒体数据进行采样生成多媒体数据对应的至少两个多媒体序列;根据至少两个多媒体序列生成多媒体数据的初始全局向量;从多媒体序列中获取输入多媒体序列和标准多媒体序列,根据输入多媒体序列和初始全局向量,预测输入多媒体序列对应的输出多媒体序列;根据输出多媒体序列和标准多媒体序列,调整初始全局向量,将调整后的初始全局向量确定为多媒体数据对应的全局嵌入式表示,全局嵌入式表示用于对多媒体数据进行内容类型分类。采用本申请,可以保证信息的完整性。
技术领域
本申请涉及电子技术领域,尤其涉及一种多媒体数据处理方法以及设备。
背景技术
在音乐推荐场景下,音乐的嵌入式表达扮演着重要作用,一方面可以用来压缩乐曲的表征,作为乐曲画像的一部分,另一方面可以用来为下游任务比如乐曲分类、乐曲生成服务。
传统的音频嵌入式表示主要是对整段音频做频域变换,但因为音频序列很长,导致对整段音频做频域变换会耗费大量时间,为了提高频域转换效率,会对整段音频进行分段,然后对分段后的音频进行频域变换,并对频域向量取平均,但是取平均值的方法会导致音频丢掉很多全局信息。
发明内容
本申请实施例提供一种多媒体数据处理方法以及设备,可以保证信息的完整性。
本申请实施例一方面提供了一种多媒体数据处理方法,可包括:
获取多媒体数据,对所述多媒体数据进行采样生成所述多媒体数据对应的至少两个多媒体序列;
根据所述至少两个多媒体序列生成所述多媒体数据的初始全局向量;
从所述多媒体序列中获取输入多媒体序列和标准多媒体序列,根据输入多媒体序列和所述初始全局向量,预测所述输入多媒体序列对应的输出多媒体序列;
根据所述输出多媒体序列和所述标准多媒体序列,调整初始全局向量,将调整后的初始全局向量确定为所述多媒体数据对应的全局嵌入式表示,所述全局嵌入式表示用于对多媒体数据进行内容类型分类。
其中,获取多媒体数据,对多媒体数据进行采样生成多媒体数据对应的至少两个多媒体序列,包括:
获取多媒体数据,按照第一采样频率对多媒体数据进行时间采样,生成至少两个时间多媒体序列;
按照第二采样频率对至少两个时间多媒体序列分别进行频率采样,生成每个时间多媒体序列对应的频率多媒体序列;
将至少两个频率多媒体序列确定为多媒体数据的多媒体序列。
其中,根据至少两个多媒体序列生成多媒体数据的初始全局向量,包括:
获取至少两个多媒体序列中每个多媒体序列的向量元素,根据每个多媒体序列的最大向量元素生成多媒体数据对应的初始全局向量;
初始全局向量与每个多媒体序列的维度相同。
其中,从所述多媒体序列中获取输入多媒体序列和标准多媒体序列,根据输入多媒体序列和所述初始全局向量,预测所述输入多媒体序列对应的输出多媒体序列,包括:
从多媒体序列中获取目标多媒体序列,从目标多媒体序列中确定输入多媒体序列和标准多媒体序列;目标多媒体序列是时间轴上连续的多媒体序列;
将输入多媒体序列和初始全局向量输入初始多媒体模型,获取初始多媒体模型输出的预测多媒体序列;
根据预测多媒体序列与标准多媒体序列获取初始多媒体模型的损失函数,根据损失函数调整初始全局向量。
其中,从多媒体序列中获取目标多媒体序列,从目标多媒体序列中确定输入多媒体序列和标准多媒体序列,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911409428.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:吸吐式静脉药物配药器
- 下一篇:一种手性二芳基吲哚甲烷类化合物的制备方法