[发明专利]一种多媒体数据处理方法以及设备在审

申请号：	201911409428.0	申请日：	2019-12-31
公开（公告）号：	CN110955789A	公开（公告）日：	2020-04-03
发明（设计）人：	缪畅宇	申请（专利权）人：	腾讯科技（深圳）有限公司
主分类号：	G06F16/45	分类号：	G06F16/45;G06F16/48;G06N3/08
代理公司：	广州三环专利商标代理有限公司 44202	代理人：	熊永强;杜维
地址：	518057 广东省深圳***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种多媒体数据处理方法以及设备
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本申请实施例公开一种多媒体数据处理方法以及设备，其中方法包括如下步骤：获取多媒体数据，对多媒体数据进行采样生成多媒体数据对应的至少两个多媒体序列；根据至少两个多媒体序列生成多媒体数据的初始全局向量；从多媒体序列中获取输入多媒体序列和标准多媒体序列，根据输入多媒体序列和初始全局向量，预测输入多媒体序列对应的输出多媒体序列；根据输出多媒体序列和标准多媒体序列，调整初始全局向量，将调整后的初始全局向量确定为多媒体数据对应的全局嵌入式表示，全局嵌入式表示用于对多媒体数据进行内容类型分类。采用本申请，可以保证信息的完整性。

技术领域

本申请涉及电子技术领域，尤其涉及一种多媒体数据处理方法以及设备。

背景技术

在音乐推荐场景下，音乐的嵌入式表达扮演着重要作用，一方面可以用来压缩乐曲的表征，作为乐曲画像的一部分，另一方面可以用来为下游任务比如乐曲分类、乐曲生成服务。

传统的音频嵌入式表示主要是对整段音频做频域变换，但因为音频序列很长，导致对整段音频做频域变换会耗费大量时间，为了提高频域转换效率，会对整段音频进行分段，然后对分段后的音频进行频域变换，并对频域向量取平均，但是取平均值的方法会导致音频丢掉很多全局信息。

发明内容

本申请实施例提供一种多媒体数据处理方法以及设备，可以保证信息的完整性。

本申请实施例一方面提供了一种多媒体数据处理方法，可包括：

获取多媒体数据，对所述多媒体数据进行采样生成所述多媒体数据对应的至少两个多媒体序列；

根据所述至少两个多媒体序列生成所述多媒体数据的初始全局向量；

从所述多媒体序列中获取输入多媒体序列和标准多媒体序列，根据输入多媒体序列和所述初始全局向量，预测所述输入多媒体序列对应的输出多媒体序列；

根据所述输出多媒体序列和所述标准多媒体序列，调整初始全局向量，将调整后的初始全局向量确定为所述多媒体数据对应的全局嵌入式表示，所述全局嵌入式表示用于对多媒体数据进行内容类型分类。