[发明专利]多媒体信息的处理方法、装置、存储介质和处理器在审
申请号: | 202011204579.5 | 申请日: | 2020-11-02 |
公开(公告)号: | CN114443938A | 公开(公告)日: | 2022-05-06 |
发明(设计)人: | 张严浩;谢晨伟;熊雄;李党伟;郑赟;潘攀;徐盈辉 | 申请(专利权)人: | 阿里巴巴集团控股有限公司 |
主分类号: | G06F16/9535 | 分类号: | G06F16/9535;G06K9/62;G06N3/04;G06N3/08;G06V10/764;G06V10/82;G06V10/80 |
代理公司: | 北京博浩百睿知识产权代理有限责任公司 11134 | 代理人: | 谢湘宁;张文华 |
地址: | 英属开曼群岛大开*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 多媒体信息 处理 方法 装置 存储 介质 处理器 | ||
1.一种多媒体信息的处理方法,其特征在于,包括:
播放视频,获取所述视频中的多媒体信息,其中,所述多媒体信息包括:图像信息和音频信息;
从所述多媒体信息中识别出目标对象在不同模态下的信息,其中,所述目标对象为所述视频中推荐的产品;
将所述目标对象在不同模态下的信息进行多模态融合,生成用于表征所述目标对象的推荐内容。
2.根据权利要求1所述的方法,其特征在于,从所述多媒体信息中识别出目标对象在不同模态下的信息,包括:
对播放的所述视频进行图像采样,获取图像信息,其中,所述图像信息包括由图像帧构成的视频帧序列;
采用检测器检测所述视频帧序列,获取所述视频在播放过程中视觉轨迹上的视觉特征信息,其中,所述视觉特征信息包括所述目标对象在不同维度上的图像维度信息。
3.根据权利要求2所述的方法,其特征在于,采用检测器检测所述视频帧序列,获取所述视频在播放过程中视觉轨迹上的视觉特征信息,包括:
检测所述视频帧序列,获取所述视频中至少一个包围盒的包围盒信息;
基于所述包围盒的包围盒信息,识别所述视频中播放的目标对象的图像维度信息,其中,所述图像维度信息包括如下至少之一:目标对象在所述视频帧序列中显示的轨迹信息、所述目标对象在每张视频帧中的位置坐标和所述目标对象的特征信息。
4.根据权利要求2或3所述的方法,其特征在于,从所述多媒体信息中识别出目标对象在不同模态下的信息,包括:
对播放的所述视频进行音频采样,获取音频信息,其中,所述音频信息包括由音频帧构成的音频帧序列;
将所述音频信息转换成文本信息,其中,所述文本信息描述了所述视频中播放的目标对象的文字特征信息。
5.根据权利要求4所述的方法,其特征在于,在将所述音频信息转换成文本信息之后,所述方法还包括:
对所述文本信息进行分词处理,得到用于描述所述目标对象的至少一个关键词;
确定所述关键词的内容和词性。
6.根据权利要求4所述的方法,其特征在于,将所述目标对象在不同模态下的信息进行多模态融合,生成用于表征所述目标对象的推荐内容,包括:
基于所述目标对象的视觉特征信息,生成图像模态下的特征集合;
基于所述目标对象的文字特征信息,生成文本模态下的特征集合;
基于所述图像模态下的特征集合和所述文本模态下的特征集合,生成所述目标对象的推荐内容。
7.根据权利要求6所述的方法,其特征在于,通过神经网络模型处理所述视觉特征信息,得到所述图像模态下的特征集合。
8.根据权利要求6所述的方法,其特征在于,通过BERT编码对所述视觉特征信息进行编码,得到所述文本模态下的特征集合。
9.根据权利要求6所述的方法,其特征在于,将所述图像模态下的特征集合和所述文本模态的特征集合进行融合,生成所述目标对象的推荐内容。
10.根据权利要求9所述的方法,其特征在于,所述视频为主播讲解所述目标对象的过程,则在融合过程中,通过判断所述图像模态下的特征集合和所述文本模态下的特征集合是否具有对应关系,确定播放的所述目标对象是否为主播讲解的对象。
11.一种多媒体信息的处理方法,其特征在于,包括:
在操作界面的录入界面中录入播放的视频中的多媒体信息,其中,所述多媒体信息包括:图像信息和音频信息;
在所述操作界面内感应到推荐内容生成指令,从所述多媒体信息中识别出目标对象在不同模态下的信息,其中,所述目标对象为所述视频中推荐的产品;
在所述操作界面上显示用于表征所述目标对象的推荐内容,其中,所述目标对象的推荐内容通过将所述目标对象在不同模态下的信息进行多模态融合而生成。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011204579.5/1.html,转载请声明来源钻瓜专利网。