[发明专利]一种媒体检索方法及装置在审
申请号: | 201810272795.X | 申请日: | 2018-03-29 |
公开(公告)号: | CN110555114A | 公开(公告)日: | 2019-12-10 |
发明(设计)人: | 李根;何轶;李磊;李亦锬 | 申请(专利权)人: | 北京字节跳动网络技术有限公司 |
主分类号: | G06F16/43 | 分类号: | G06F16/43;G06F16/41 |
代理公司: | 11019 北京中原华和知识产权代理有限责任公司 | 代理人: | 寿宁;张华辉 |
地址: | 100041 北京市石景山区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 媒体特征 媒体集合 正整数 取出 检索结果 检索媒体 检索 | ||
1.一种媒体检索方法,所述方法包括:
获取待检索媒体的媒体特征作为第一媒体特征,所述第一媒体特征包含多个第一媒体特征单体;
根据每个单独的所述第一媒体特征单体对多个已知媒体进行第一排名,根据所述第一排名的结果,取出前k个所述已知媒体作为第一候选媒体集合,其中k为正整数;
根据多个顺序排列的所述第一媒体特征单体对所述第一候选媒体集合进行第二排名,根据所述第二排名的结果,取出前n个所述第一候选媒体作为检索结果,其中n为正整数。
2.根据权利要求1所述的媒体检索方法,还包括:
预先获取所述已知媒体的媒体特征作为第二媒体特征,所述第二媒体特征包含多个第二媒体特征单体;
对所述第二媒体特征进行索引,以预先得到所述已知媒体的特征索引。
3.根据权利要求2所述的媒体检索方法,其中,所述根据每个单独的所述第一媒体特征单体对多个已知媒体进行第一排名包括:根据每个单独的所述第一媒体特征单体对多个已知媒体进行词频-逆向文件频率TF-IDF排名。
4.根据权利要求3所述的媒体检索方法,其中,所述根据每个单独的所述第一媒体特征单体对多个已知媒体进行词频-逆向文件频率TF-IDF排名包括:
将所述已知媒体的特征索引与所述第一媒体特征单体进行匹配,以对所述已知媒体进行所述TF-IDF排名。
5.根据权利要求4所述的媒体检索方法,其中,所述预先得到所述已知媒体的特征索引,包括:
预先得到所述已知媒体的正排特征索引和/或倒排特征索引。
6.根据权利要求4所述的媒体检索方法,其中,所述将所述已知媒体的特征索引与所述第一媒体特征单体进行匹配包括:
将所述媒体的特征索引与所述第一媒体特征单体进行绝对匹配。
7.根据权利要求2所述的媒体检索方法,其中,所述根据多个顺序排列的所述第一媒体特征单体对所述第一候选媒体集合中的媒体进行第二排名包括:
根据所述已知媒体的特征索引与所述第一媒体特征得到所述第一候选媒体集合中的媒体的相似度矩阵,根据所述相似度矩阵中的直线对所述第一候选媒体集合中的媒体进行排名。
8.根据权利要求7所述的媒体检索方法,其中,
所述的获取待检索媒体的媒体特征作为第一媒体特征包括,获取所述待检索媒体的多种类型的第一媒体特征;
所述的预先获取所述已知媒体的媒体特征作为第二媒体特征包括,获取所述已知媒体的多种类型的第二媒体特征;
所述的根据所述已知媒体的特征索引与所述第一媒体特征得到所述第一候选媒体集合中的媒体的相似度矩阵包括,根据所述多种类型的第二媒体特征以及所述多种类型的第一媒体特征来确定所述相似度矩阵。
9.根据权利要求8所述的媒体检索方法,其中,
每种类型的所述第一媒体特征包含多个第一媒体特征单体,每种类型的所述第二媒体特征包含多个第二媒体特征单体;
所述的根据所述多种类型的第二媒体特征以及所述多种类型的第一媒体特征来确定所述相似度矩阵包括:
分别确定同种类型的所述第二媒体特征单体与所述第一媒体特征单体之间的单体相似度,以得到多种所述单体相似度;确定所述多种单体相似度的平均值或最小值,根据所述的多种单体相似度的平均值或最小值确定所述相似度矩阵。
10.根据权利要求2所述的媒体检索方法,还包括:
预先对待检索媒体和已知媒体按照预设的时间长度切片,得到多段待检索子媒体和多段已知子媒体,对所述多段待检索子媒体和所述多段已知子媒体分别提取媒体特征,以得到长度相同的多个第一子媒体特征和多个第二子媒体特征。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京字节跳动网络技术有限公司,未经北京字节跳动网络技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810272795.X/1.html,转载请声明来源钻瓜专利网。