[发明专利]用于对视频进行聚类的方法和装置在审
申请号: | 202010657875.4 | 申请日: | 2020-07-09 |
公开(公告)号: | CN111666452A | 公开(公告)日: | 2020-09-15 |
发明(设计)人: | 康战辉 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | G06F16/75 | 分类号: | G06F16/75;G06F16/78;G06K9/62;G06F40/289 |
代理公司: | 北京市柳沈律师事务所 11105 | 代理人: | 王娟;孙宛晨 |
地址: | 518057 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 视频 进行 方法 装置 | ||
1.一种用于对视频进行聚类的方法,包括:
确定所述视频的标题文本;
基于与所述视频相关联的搜索点击数据,确定用于所述标题文本的扩展文本;
基于所述标题文本和所述扩展文本确定用于聚类所述视频的至少两个标签文本;
对所述至少两个标签文本进行聚类,以得到用于所述视频的聚类结果。
2.如权利要求1所述的方法,其中所述扩展文本包括扩展查询串、扩展搜索文本和扩展标题文本中的至少一个,
其中所述扩展查询串是用于搜索所述视频的,所述扩展搜索文本是利用所述扩展查询串进行文本搜索得到的,所述扩展标题文本是利用所述标题文本进行文本搜索得到的。
3.如权利要求2所述的方法,其中,所述扩展文本包括所述扩展查询串,
基于与所述视频相关联的搜索点击数据,确定用于所述标题文本的扩展文本包括:
基于所述搜索点击数据确定至少一个候选查询串,其中在所述至少一个候选查询串中的每个候选查询串的搜索结果中包括所述视频,
利用所述至少一个候选查询串中的至少一部分确定所述扩展查询串。
4.如权利要求3所述的方法,其中,利用所述至少一个候选查询串中的至少一部分确定所述扩展查询串包括:
对于所述至少一个候选查询串中的每个候选查询串,
确定该候选查询串的搜索结果中所述视频的点击率;
在所述视频的点击率大于第一点击率阈值的情况下,利用该候选查询串确定所述扩展查询串。
5.如权利要求2或3所述的方法,其中,所述扩展文本包括所述扩展搜索文本,
基于与所述视频相关联的搜索点击数据,确定用于所述标题文本的扩展文本还包括:
基于所述扩展查询串的文本搜索结果确定至少一个候选扩展搜索文本;
利用所述至少一个候选扩展搜索文本中的至少一部分确定所述扩展搜索文本。
6.如权利要求5所述的方法,其中,利用所述至少一个候选扩展搜索文本中的至少一部分确定所述扩展搜索文本包括:
针对所述至少一个候选扩展搜索文本中的每个候选扩展搜索文本,
确定该候选扩展搜索文本的点击率,
在所述候选扩展搜索文本的点击率大于第二点击率阈值的情况下,利用该候选扩展搜索文本确定所述扩展搜索文本。
7.如权利要求5所述的方法,其中,利用该候选扩展搜索文本确定所述扩展搜索文本包括:利用所述候选扩展搜索文本的文本标题、文本摘要、文本正文中的至少一个确定所述扩展搜索文本。
8.如权利要求2所述的方法,其中,所述扩展文本包括所述扩展标题文本,
基于与所述视频相关联的搜索点击数据,确定用于所述标题文本的扩展文本包括:
基于所述视频的标题文本的文本搜索结果确定至少一个候选扩展标题文本;
利用所述至少一个候选扩展标题文本中的至少一部分确定所述扩展标题文本。
9.如权利要求8所述的方法,其中利用所述至少一个候选扩展标题文本中的至少一部分确定所述扩展标题文本包括:
针对所述至少一个候选扩展标题文本中的每个候选扩展标题文本,
确定该候选扩展标题文本与所述视频的标题文本之间的匹配度,
在所述匹配度大于匹配度阈值的情况下,利用该候选扩展标题文本确定所述扩展标题文本。
10.如权利要求1所述的方法,其中,对所述至少两个标签文本进行聚类,以得到用于所述视频的聚类结果包括:
对所述至少两个标签文本进行数值化处理,以确定分别对应于所述标签文本的至少两个文本向量;
基于所述至少两个文本向量中的文本向量之间的距离对所述至少两个文本向量进行聚类,以得到所述至少一个类别;
基于所述至少一个类别确定用于所述视频的聚类结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010657875.4/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种便于锻炼的运动服
- 下一篇:一种自动上下钻杆的钻杆箱及应用该钻杆箱的钻机