[发明专利]一种视频热度预测方法和装置有效
申请号: | 201610682908.4 | 申请日: | 2016-08-17 |
公开(公告)号: | CN107766360B | 公开(公告)日: | 2021-01-29 |
发明(设计)人: | 王磊 | 申请(专利权)人: | 北京神州泰岳软件股份有限公司 |
主分类号: | G06F16/735 | 分类号: | G06F16/735;G06F16/783;G06F16/75;G06F16/9535 |
代理公司: | 北京市隆安律师事务所 11323 | 代理人: | 权鲜枝 |
地址: | 100080 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 视频 热度 预测 方法 装置 | ||
本发明公开了一种视频热度预测方法和装置,该方法包括:选取多个视频样本;对于每个视频样本,获取该视频样本对应的特征向量,获取该视频样本对应的热度类别;根据各视频样本对应的特征向量和热度类别生成分类模型;对于每个待预测的视频,获取该视频对应的特征向量,将该特征向量输入到所述分类模型中,根据所述分类模型的输出确定该视频的热度类别。本方案以视频样本对应的特征向量和热度类别作为训练数据,训练生成分类模型,该分类模型实质能够反映出视频的属性信息与视频的热门程度的关联,利用此分类模型即可以对视频热度进行预测,进而可以以该预测结果为依据,对视频进行适配性地管理和运营,符合当前互联网视频平台快速发展的需求。
技术领域
本发明涉及自然语言处理技术领域,具体涉及一种视频热度预测方法和装置。
背景技术
随着视频技术的快速发展,互联网上已出现大量的视频相关业务,如现在的视频点播类服务,涉及到大量片源需要存储在集群机器上、CDN或云上等硬件资源上。
实际情况中,硬件资源也有存取效率的高低之分,如果能将热门程度较高的热门视频放在效率比较高的存储资源上、增加片源备份,将热门程度较低的冷门视频放在效率相对低的存储资源上、并控制片源备份数量,无疑是对系统(硬件)资源的一种合理、有效的利用。
根据视频的热门程度对不同的视频进行不同的运营管理,是建立在预先获知视频的热度的基础上的,因此,如何对视频热度进行预测,是当前亟待解决的问题。
发明内容
鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的视频热度预测方法和装置。
依据本发明的一个方面,提供了一种视频热度预测方法,该方法包括:
选取多个视频样本;
对于每个视频样本,获取该视频样本对应的特征向量,获取该视频样本对应的热度类别;
根据各视频样本对应的特征向量和热度类别生成分类模型;
对于每个待预测的视频,获取该视频对应的特征向量,将该特征向量输入到所述分类模型中,根据所述分类模型的输出确定该视频的热度类别。
可选地,所述获取该视频样本对应的特征向量包括:
采集该视频样本的视频属性信息,所述视频属性信息包括:片源属性信息和片源描述信息;
从所述片源属性信息中拆分出指示指定属性信息的字段,去重后得到M个字段,分别获取所述M个字段对应的权重,将所述M个字段对应的权重的集合作为第一特征向量;
对所述片源描述信息进行分词处理,去重后得到N个分词,分别获取所述N个分词对应的权重,将所述N个分词对应的权重的集合作为第二特征向量;
合并所述第一特征向量和所述第二特征向量,得到该视频样本对应的特征向量。
可选地,所述合并所述第一特征向量和所述第二特征向量包括:为所述第一特征向量设置第一权重因子,为所述第二特征向量设置第二权重因子,将带有第一权重因子的第一特征向量和带有第二权重因子的第二特征向量进行合并;
所述分别获取所述M个字段对应的权重包括:通过词频-反文档频率统计算法分别计算每个字段在所述片源属性信息中所占的权重;
所述对所述片源描述信息进行分词处理包括:采用维特比算法对所述片源描述信息进行分词处理;
和/或,
所述分别获取所述N个分词对应的权重包括:通过词频-反文档频率统计算法分别计算每个分词在所述片源描述信息中所占的权重。
可选地,在所述获取该视频样本对应的热度类别之前,该方法进一步包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京神州泰岳软件股份有限公司,未经北京神州泰岳软件股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610682908.4/2.html,转载请声明来源钻瓜专利网。