[发明专利]一种构建音视频标准数据集的方法和装置有效
申请号: | 201510377910.6 | 申请日: | 2015-06-30 |
公开(公告)号: | CN104994424B | 公开(公告)日: | 2018-03-20 |
发明(设计)人: | 胡军;陈英傑;王天畅 | 申请(专利权)人: | 北京奇艺世纪科技有限公司 |
主分类号: | H04N21/44 | 分类号: | H04N21/44;H04N21/439 |
代理公司: | 北京润泽恒知识产权代理有限公司11319 | 代理人: | 苏培华 |
地址: | 100080 北京市海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 构建 视频 标准 数据 方法 装置 | ||
技术领域
本发明涉及音视频排序技术领域,特别是涉及一种构建音视频标准数据集的方法和一种构建音视频标准数据集的装置。
背景技术
传统的视频搜索排序模型,一般通过人工的方法设定或者调整模型参数。但是,目前影响视频排序的特征已达百种之多,采用人工方式调整参数越来越困难。最近几年兴起的排序学习算法(learning to rank)将搜索排序问题转换为传统的机器学习问题,该算法能够自动学习视频搜索排序模型的参数,优化搜索结果的排序。其中,标准数据集的质量是影响排序学习算法性能的关键因素。
现有技术中,绝大多数的标准数据集(包括微软和雅虎公开的数据集)都是通过人工标注的方式进行构建。而人工标注的过程需要耗费大量人力、物力和财力;另外,随着时间的推移,标准标注也会发生变化。因此,自动地获得标准数据集对于排序学习算法至关重要,该课题已成为学术界和工业界的一个热点和难点。
发明内容
本发明实施例所要解决的技术问题是提供一种构建音视频标准数据集的方法,该方法能够自动准确的构建标准数据集,极大地降低了人力成本、时间成本和经济成本。
相应的,本发明实施例还提供了一种构建音视频标准数据集的装置,用以保证上述方法的实现及应用。
为了解决上述问题,本发明公开了一种构建音视频标准数据集的方法,包括以下步骤:记录用户搜索的至少一个查询词、每个所述查询词下用户点击的音视频以及每个所述查询词下用户浏览的音视频至搜索点击日志;根据所述搜索点击日志统计每个所述查询词在预设时间内的搜索次数,并输出所述搜索次数大于预设次数的所述查询词;接收所述查询词,根据所述搜索点击日志对所述查询词下每个音视频进行标注打分,并以第一预设格式输出所述查询词下每个所述音视频的标注分数;以第二预设格式保存所述查询词下每个所述音视频对应的所述标注分数和至少一个排序特征分数。
优选地,所述根据所述搜索点击日志对所述查询词下每个音视频进行标注打分,具体包括以下步骤:S11,统计在所述预设时间内,所述查询词下所述当前音视频的点击数;S12,统计在所述预设时间内,所述查询词下所述当前音视频的浏览次数;S13,根据所述查询词下所述当前音视频的点击数和所述查询词下所述当前音视频的浏览次数计算所述查询词下所述当前音视频的真实点击率;S14,根据所述当前音视频的真实点击率和当前音视频排序位置处的点击偏置值计算所述当前音视频的标注分数;S15,调整所述当前音视频为下一个音视频;S16,重复执行S11-S15,直至完成对所述查询词下每个音视频进行标注打分。
优选地,根据以下公式计算所述查询词下所述当前音视频的真实点击率:
real_ctr=video_click/video_impression
其中,video_click为所述查询词下所述当前音视频的点击数,video_impression为所述查询词下所述当前音视频的浏览次数。
优选地,根据以下公式计算所述当前音视频的标注分数:
label_score=real_ctr-click_bias(i)
其中,real_ctr为所述当前音视频的真实点击率,i为所述当前音视频排序位置,click_bias(i)为所述当前音视频排序位置处的点击偏置值。
优选地,所述当前音视频排序位置处的点击偏置值根据以下步骤获取:随机打乱搜索引擎返回结果的排序;统计当前音视频排序位置处的位置点击率;根据所述当前音视频排序位置处的位置点击率计算所述当前音视频排序位置处的点击偏置值。
优选地,根据以下公式计算所述当前音视频排序位置处的点击偏置值:
click_bias(i)=α×pos_ctr_bias(i)
其中,i为所述当前音视频排序位置,α为经验偏置系数,pos_ctr_bias(i)为所述当前音视频排序位置处的位置点击率,所述当前音视频排序位置处的位置点击率为所述当前音视频排序位置处的音视频在所述查询词下的点击数与所述查询词在所述预设时间内的搜索次数的比值。
与现有技术相比,本发明实施例包括以下优点:
第一,基于用户的搜索点击日志自动构建用于排序学习算法的标准数据集,极大地降低了人力成本、时间成本和经济成本;
第二,将预设时间内音视频的真实点击率作为音视频的标注分数的一个重要参考,因此,相对于人工标注的方式,数据更加准确;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京奇艺世纪科技有限公司,未经北京奇艺世纪科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510377910.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种施工电梯专用行走平台装置
- 下一篇:电梯管理系统
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置