[发明专利]数据处理方法、装置、计算机设备和存储介质有效
申请号: | 202010166124.2 | 申请日: | 2020-03-11 |
公开(公告)号: | CN111400513B | 公开(公告)日: | 2023-04-25 |
发明(设计)人: | 张宁静 | 申请(专利权)人: | 北京字节跳动网络技术有限公司 |
主分类号: | G06F16/435 | 分类号: | G06F16/435;G06F16/44;G06F16/45 |
代理公司: | 北京中知法苑知识产权代理有限公司 11226 | 代理人: | 李明;赵吉阳 |
地址: | 100041 北京市石景山区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 数据处理 方法 装置 计算机 设备 存储 介质 | ||
1.一种数据处理方法,其特征在于,所述方法包括:
从至少两个维度,提取多媒体内容对应的多个文本信息;
基于所述多媒体内容对应的文本信息,确定多个所述多媒体内容之间的相似度;
根据所述多媒体内容之间的相似度,以及预设相似度阈值,生成至少一个多媒体内容集合;其中,同一多媒体内容集合中的不同多媒体内容之间的相似度大于所述预设相似度阈值;
将所述至少一个多媒体内容集合分别与对应的关键信息进行关联存储,所述关键信息为基于多媒体内容集合中的多媒体内容对应的文本信息确定的;
其中,生成至少一个多媒体内容集合之后,还包括:根据所述相似度,对各个所述多媒体内容集合中的多媒体内容进行排序。
2.如权利要求1所述的方法,其特征在于,基于所述多媒体内容对应的文本信息,确定多个所述多媒体内容之间的相似度,包括:
根据所述多媒体内容对应的文本信息,确定所述多媒体内容的核心信息;
根据所述多媒体内容的核心信息,对所述多个多媒体内容进行聚类,得到聚类后的至少一个多媒体群体;
基于每个所述多媒体群体中的多个多媒体内容对应的文本信息,确定该多媒体群体中的不同多媒体内容之间的相似度。
3.如权利要求1所述的方法,其特征在于,从至少两个维度,提取多媒体内容对应的多个文本信息,包括:
基于音频识别技术,将所述多媒体内容对应的音频内容转换为第一文本信息;
基于视频识别技术,将所述多媒体内容对应的视频内容转换为第二文本信息;
基于所述多媒体内容对应的描述信息确定第三文本信息;
将所述第一文本信息、所述第二文本信息和所述第三文本信息中至少两个,作为所述多媒体内容对应的多个文本信息。
4.如权利要求1所述的方法,其特征在于,基于所述多媒体内容对应的文本信息,确定多个所述多媒体内容之间的相似度,包括:
针对每个多媒体内容,基于该多媒体内容对应的每个文本信息,生成与该文本信息对应的特征向量;
对该多媒体内容对应的多个特征向量进行拼接处理,得到该多媒体内容对应的拼接特征向量;
基于每个多媒体内容对应的拼接特征向量,计算多个多媒体内容中不同多媒体内容之间的相似度。
5.如权利要求1所述的方法,其特征在于,生成至少一个多媒体内容集合之后,还包括:
针对生成的任一多媒体内容集合,若该任一多媒体内容集合中的多媒体内容的数目大于预设阈值,则根据各所述多媒体内容的用户标识,从该任一多媒体内容集合中,确定多个多媒体内容子集;
将所述任一多媒体内容集合对应的关键信息、所述多个多媒体内容子集以及每个多媒体内容子集对应的用户标识进行关联存储。
6.如权利要求1所述的方法,其特征在于,将所述至少一个多媒体内容集合分别与对应的关键信息进行关联存储之后,还包括:
在接收到用户端发起的与所述关键信息相关的搜索请求时,将与所述关键信息关联存储的多媒体内容集合推送给所述用户端。
7.如权利要求1所述的方法,其特征在于,将所述至少一个多媒体内容集合分别与对应的关键信息进行关联存储之后,还包括:
当检测到目标用户在推荐流页面浏览多媒体内容时,获取目标用户的浏览数据;
基于所述浏览数据,确定所述目标用户当前浏览的多媒体内容对应的关键信息;
将与确定的关键信息对应的多媒体内容集合推送给所述目标用户的用户端。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京字节跳动网络技术有限公司,未经北京字节跳动网络技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010166124.2/1.html,转载请声明来源钻瓜专利网。