[发明专利]一种基于用户日志的视频搜索排序训练集构建方法及装置在审

专利信息
申请号: 201810052822.2 申请日: 2018-01-19
公开(公告)号: CN108460085A 公开(公告)日: 2018-08-28
发明(设计)人: 赵晓萌;胡军 申请(专利权)人: 北京奇艺世纪科技有限公司
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 北京柏杉松知识产权代理事务所(普通合伙) 11413 代理人: 项京;马敬
地址: 100080 北京市海淀区*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 训练样本 用户搜索 训练集 日志 构建 视频播放 视频搜索 用户日志 采样 时长 排序 视频 人力成本 自动构建 预设 搜索
【说明书】:

发明实施例提供了一种基于用户日志的视频搜索排序训练集构建方法及装置,其中,所述方法包括:获取用户搜索日志,所述获取的用户搜索日志中包含被搜索到的视频对应的视频相关特征;对获取的用户搜索日志进行采样,获得采样后的用户搜索日志作为训练样本;获得每条训练样本的视频播放时长,按照预设的得分与视频播放时长的对应关系,获得每条训练样本的得分;将所有训练样本及对应的得分构建为训练集。本发明实施例可实现自动构建训练集,节省人力成本。

技术领域

本发明涉及视频检索技术领域,特别是涉及一种基于用户日志的视频搜索排序训练集构建方法及装置。

背景技术

随着机器学习排序模型(Learning to Rank)的兴起,搜索引擎领域内各大公司纷纷尝试使用Learning to Rank替换已有的基于规则的排序模型。而机器学习排序模型在实现排序的过程中,需要以训练集数据为基础进行训练,那么在使用机器学习排序模型实现排序之前就需要先构建训练集。

现有的Learning to Rank训练集,例如,微软的LETOR,MSLR-WEB30K,以及雅虎的Learning to Rank Challenge训练集,均是针对网页搜索引擎的训练集。并且,这些针对网页搜索引擎的训练集是通过对查询词进行搜索,然后针对搜索结果,根据查询词与文档对,采用人工评价的方式来评价该查询词下的文档对是否与该查询词相关,判断相关之后进行人工分档给出这些搜索结果一定的分数构建训练集。其中,文档对是一个查询词下搜索到的文档。现有针对网页搜索引擎的训练集构建方法,在给定查询词的情况下,进行人工评价给出搜索结果一定的分数构建训练集,其构建过程简单易实现。

然而,发明人在实现本发明的过程中发现,现有技术至少存在如下问题:

现有的针对网页搜索引擎的训练集对查询词进行搜索,采用人工评价的方式对搜索结果进行人工分档给出一定的分数构建训练集,这种训练集的构建需要耗费大量的人力成本,且因人的主观性导致的人为影响因素很大。

发明内容

本发明实施例的目的在于提供一种基于用户日志的视频搜索排序训练集构建方法及装置,以实现自动构建训练集,节省人力成本。具体技术方案如下:

为达到上述目的,本发明实施例公开了一种基于用户日志的视频搜索排序训练集构建方法,所述方法包括:

获取用户搜索日志,所述获取的用户搜索日志中包含被搜索到的视频对应的视频相关特征;所述视频相关特征中至少包含:视频播放时长;

对获取的用户搜索日志进行采样,获得采样后的用户搜索日志作为训练样本;

获得每条训练样本的视频播放时长,按照预设的得分与视频播放时长的对应关系,获得每条训练样本的得分;

将所有训练样本及对应的得分构建为训练集。

可选地,所述获取用户搜索日志的步骤,为:每次用户根据搜索词进行搜索时,获取根据用户搜索生成的搜索日志。

可选地,所述视频相关特征还包括:视频本身特征、视频文本相关性特征和用户维度特征;

所述获取用户搜索日志的步骤,包括:

当用户根据搜索词进行搜索时,生成针对搜索词检索的原始用户搜索日志,原始用户搜索日志中包含:视频本身特征中的视频时长、视频数据类型特征及各特征对应的特征值;

计算视频本身特征中的视频新鲜度特征值,搜索词与搜索结果的视频文本相关性特征值,和用户点击、历史点击率、搜索时间对应的用户维度特征值;

将包含所述视频本身特征的特征值、视频文本相关性特征值及用户维度特征值的全部特征添加入所述原始用户搜索日志,生成最终用户搜索日志并保存。

可选地,所述训练样本包括正样本和负样本;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京奇艺世纪科技有限公司,未经北京奇艺世纪科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201810052822.2/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top