[发明专利]数据处理方法、装置、计算机设备和存储介质有效
申请号: | 202010166124.2 | 申请日: | 2020-03-11 |
公开(公告)号: | CN111400513B | 公开(公告)日: | 2023-04-25 |
发明(设计)人: | 张宁静 | 申请(专利权)人: | 北京字节跳动网络技术有限公司 |
主分类号: | G06F16/435 | 分类号: | G06F16/435;G06F16/44;G06F16/45 |
代理公司: | 北京中知法苑知识产权代理有限公司 11226 | 代理人: | 李明;赵吉阳 |
地址: | 100041 北京市石景山区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 数据处理 方法 装置 计算机 设备 存储 介质 | ||
本公开提供了一种数据处理方法、装置、计算机设备和存储介质,该方法包括:从至少两个维度,提取多媒体内容对应的多个文本信息;基于所述多媒体内容对应的文本信息,确定多个所述多媒体内容之间的相似度;根据所述多媒体内容之间的相似度,以及预设相似度阈值,生成至少一个多媒体内容集合;其中,同一多媒体内容集合中的不同多媒体内容之间的相似度大于所述预设相似度阈值;将所述至少一个多媒体内容集合分别与对应的关键信息进行关联存储,所述关键信息为基于多媒体内容集合中的多媒体内容对应的文本信息确定的。本公开实施例能够提高存储的多媒体内容之间的关联度。
技术领域
本公开涉及数据处理技术领域,具体而言,涉及一种数据处理方法、装置、计算机设备和存储介质。
背景技术
多媒体视频观看应用可用于观看多媒体内容,但是,多媒体视频观看应用为用户呈现的多媒体内容之间的关联性比较差,比如,用户当前正在观看A主题的多媒体内容,下个观看的视频可能是B主题的多媒体内容,又如,用户在多媒体视频观看应用中输入搜索主题后,搜索结果显示的多媒体内容可能仅包括与搜索主题相关的字眼,多媒体内容之间的关联性比较差。
发明内容
本公开实施例至少提供一种数据处理方法、装置、计算机设备和存储介质,以提高存储的多媒体内容之间的关联度。
第一方面,本公开实施例提供了一种数据处理方法,所述方法包括:
从至少两个维度,提取多媒体内容对应的多个文本信息;
基于所述多媒体内容对应的文本信息,确定多个所述多媒体内容之间的相似度;
根据所述多媒体内容之间的相似度,以及预设相似度阈值,生成至少一个多媒体内容集合;其中,同一多媒体内容集合中的不同多媒体内容之间的相似度大于所述预设相似度阈值;
将所述至少一个多媒体内容集合分别与对应的关键信息进行关联存储,所述关键信息为基于多媒体内容集合中的多媒体内容对应的文本信息确定的。
在一种实施方式中,基于所述多媒体内容对应的文本信息,确定多个所述多媒体内容之间的相似度,包括:
根据所述多媒体内容对应的文本信息,确定所述多媒体内容的核心信息;
根据所述多媒体内容的核心信息,对所述多个多媒体内容进行聚类,得到聚类后的至少一个多媒体群体;
基于每个所述多媒体群体中的多个多媒体内容对应的文本信息,确定该多媒体群体中的不同多媒体内容之间的相似度。
在一种实施方式中,从至少两个维度,提取多媒体内容对应的多个文本信息,包括:
基于音频识别技术,将所述多媒体内容对应的音频内容转换为第一文本信息;
基于视频识别技术,将所述多媒体内容对应的视频内容转换为第二文本信息;
基于所述多媒体内容对应的描述信息确定第三文本信息;
将所述第一文本信息、所述第二文本信息和所述第三文本信息中至少两个,作为所述多媒体内容对应的多个文本信息。
在一种实施方式中,基于所述多媒体内容对应的文本信息,确定多个所述多媒体内容之间的相似度,包括:
针对每个多媒体内容,基于该多媒体内容对应的每个文本信息,生成与该文本信息对应的特征向量;
对该多媒体内容对应的多个特征向量进行拼接处理,得到该多媒体内容对应的拼接特征向量;
基于每个多媒体内容对应的拼接特征向量,计算多个多媒体内容中不同多媒体内容之间的相似度。
在一种实施方式中,生成至少一个多媒体内容集合之后,还包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京字节跳动网络技术有限公司,未经北京字节跳动网络技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010166124.2/2.html,转载请声明来源钻瓜专利网。