[发明专利]一种构建音视频标准数据集的方法和装置有效

专利信息
申请号: 201510377910.6 申请日: 2015-06-30
公开(公告)号: CN104994424B 公开(公告)日: 2018-03-20
发明(设计)人: 胡军;陈英傑;王天畅 申请(专利权)人: 北京奇艺世纪科技有限公司
主分类号: H04N21/44 分类号: H04N21/44;H04N21/439
代理公司: 北京润泽恒知识产权代理有限公司11319 代理人: 苏培华
地址: 100080 北京市海淀*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 构建 视频 标准 数据 方法 装置
【说明书】:

技术领域

发明涉及音视频排序技术领域,特别是涉及一种构建音视频标准数据集的方法和一种构建音视频标准数据集的装置。

背景技术

传统的视频搜索排序模型,一般通过人工的方法设定或者调整模型参数。但是,目前影响视频排序的特征已达百种之多,采用人工方式调整参数越来越困难。最近几年兴起的排序学习算法(learning to rank)将搜索排序问题转换为传统的机器学习问题,该算法能够自动学习视频搜索排序模型的参数,优化搜索结果的排序。其中,标准数据集的质量是影响排序学习算法性能的关键因素。

现有技术中,绝大多数的标准数据集(包括微软和雅虎公开的数据集)都是通过人工标注的方式进行构建。而人工标注的过程需要耗费大量人力、物力和财力;另外,随着时间的推移,标准标注也会发生变化。因此,自动地获得标准数据集对于排序学习算法至关重要,该课题已成为学术界和工业界的一个热点和难点。

发明内容

本发明实施例所要解决的技术问题是提供一种构建音视频标准数据集的方法,该方法能够自动准确的构建标准数据集,极大地降低了人力成本、时间成本和经济成本。

相应的,本发明实施例还提供了一种构建音视频标准数据集的装置,用以保证上述方法的实现及应用。

为了解决上述问题,本发明公开了一种构建音视频标准数据集的方法,包括以下步骤:记录用户搜索的至少一个查询词、每个所述查询词下用户点击的音视频以及每个所述查询词下用户浏览的音视频至搜索点击日志;根据所述搜索点击日志统计每个所述查询词在预设时间内的搜索次数,并输出所述搜索次数大于预设次数的所述查询词;接收所述查询词,根据所述搜索点击日志对所述查询词下每个音视频进行标注打分,并以第一预设格式输出所述查询词下每个所述音视频的标注分数;以第二预设格式保存所述查询词下每个所述音视频对应的所述标注分数和至少一个排序特征分数。

优选地,所述根据所述搜索点击日志对所述查询词下每个音视频进行标注打分,具体包括以下步骤:S11,统计在所述预设时间内,所述查询词下所述当前音视频的点击数;S12,统计在所述预设时间内,所述查询词下所述当前音视频的浏览次数;S13,根据所述查询词下所述当前音视频的点击数和所述查询词下所述当前音视频的浏览次数计算所述查询词下所述当前音视频的真实点击率;S14,根据所述当前音视频的真实点击率和当前音视频排序位置处的点击偏置值计算所述当前音视频的标注分数;S15,调整所述当前音视频为下一个音视频;S16,重复执行S11-S15,直至完成对所述查询词下每个音视频进行标注打分。

优选地,根据以下公式计算所述查询词下所述当前音视频的真实点击率:

real_ctr=video_click/video_impression

其中,video_click为所述查询词下所述当前音视频的点击数,video_impression为所述查询词下所述当前音视频的浏览次数。

优选地,根据以下公式计算所述当前音视频的标注分数:

label_score=real_ctr-click_bias(i)

其中,real_ctr为所述当前音视频的真实点击率,i为所述当前音视频排序位置,click_bias(i)为所述当前音视频排序位置处的点击偏置值。

优选地,所述当前音视频排序位置处的点击偏置值根据以下步骤获取:随机打乱搜索引擎返回结果的排序;统计当前音视频排序位置处的位置点击率;根据所述当前音视频排序位置处的位置点击率计算所述当前音视频排序位置处的点击偏置值。

优选地,根据以下公式计算所述当前音视频排序位置处的点击偏置值:

click_bias(i)=α×pos_ctr_bias(i)

其中,i为所述当前音视频排序位置,α为经验偏置系数,pos_ctr_bias(i)为所述当前音视频排序位置处的位置点击率,所述当前音视频排序位置处的位置点击率为所述当前音视频排序位置处的音视频在所述查询词下的点击数与所述查询词在所述预设时间内的搜索次数的比值。

与现有技术相比,本发明实施例包括以下优点:

第一,基于用户的搜索点击日志自动构建用于排序学习算法的标准数据集,极大地降低了人力成本、时间成本和经济成本;

第二,将预设时间内音视频的真实点击率作为音视频的标注分数的一个重要参考,因此,相对于人工标注的方式,数据更加准确;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京奇艺世纪科技有限公司,未经北京奇艺世纪科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201510377910.6/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top