[发明专利]一种基于历史访问记录的网络视频分类方法有效

专利信息
申请号: 201310743880.7 申请日: 2013-12-30
公开(公告)号: CN103744928B 公开(公告)日: 2017-10-03
发明(设计)人: 宿红毅;朱叶;王彩群;闫波;郑宏 申请(专利权)人: 北京理工大学
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 暂无信息 代理人: 暂无信息
地址: 100081 *** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明涉及一种基于历史访问记录的网络视频分类方法,属于计算机网络数据挖掘技术领域。首先通过对视频的历史访问记录数据集进行自动分析,抽取出有意义的特征后对其生成待用数据文件,通过所述数据文件将历史访问记录转化为可用于训练的结构化文档,然后用逻辑回归对所结构化文档进行机器学习得到预测模型。使用预测模型,根据待预测视频历史访问记录信息的完整程度,对其选用相应的方法进行分类预测。本发明对比现有技术,在减少人工代价的同时,使参与计算的参数更为精简,预测效果更为准确、花费的时间更少。同时,由于可以根据待预测视频历史访问记录信息的完整程度对其选择聚类与否的操作,使其模型的应用更为广泛。
搜索关键词: 一种 基于 历史 访问 记录 网络 视频 分类 方法
【主权项】:
一种基于历史访问记录的网络视频分类方法,其特征在于,包括以下步骤:步骤一、对视频历史访问记录数据集进行分析,抽取出属性特征并生成待用数据文件,通过所述待用数据文件将视频历史访问记录转化为待训练结构化文档;具体过程如下:首先,对视频历史访问记录数据集,利用值分析方法去掉取值不正常的数据和属性,包括取值无变化的属性、缺失的或者噪音的数据以及去除播放次数小于某一阀值的视频记录,得到数据集U;然后,利用基于互信息增益率的启发式属性约简算法,训练对数据集U的属性集进行约简;约简由核开始,逐步选择Z(c,R,D)达到最大的属性加入,直到所选择的属性子集分类能力与整个属性集的分类能力相同时结束,具体步骤如下:第一步,将预测系统S定义为一个四元组:S=(U,A,V,f),其中U={u1,u2,…,un}是视频对象集,即论域;A是视频的属性集合;为属性值的集合,Va为属性a的值域;f是U×A→Va的映射,它为U中各视频对象的属性指定唯一值;对于预测系统S,将属性集合A分为条件属性集C和决策属性集D,A=C∪D,且C∩D=φ,其中属性集C中包含的元素有视频ID c1、标题c2、类型c3、时长等级c4、URL c5、URL信誉度c6、播放次数c10、评论次数c12、分享次数c15,收藏次数c16,下载次数c17,分享率c18,收藏率c19,下载率c20,点赞率c21,播放次数增长率c22,好评率c23,时间戳c24,被观看时长c25,被观看时长占的比率c26;决策属性集合D包括受欢迎与否d;将该做了上述变化的预测系统S命名为决策系统L;由于在S中,对于属性集构造对应的二元等价关系,当IG={(x,y)∈U×U;有a(x)=a(y)},称IG为由G构造的不可分辨关系,则对决策系统L=(U,C∪D,V,f),设IR和ID导出的划分分别为X={X1,X2,…Xn}和Y={Y1,Y2,…Yn},则R的熵定义为其中p(Xi)=card(Xi)/card(U);R相对D的条件熵定义为其中p(Yj/Xi)=card(Yj∩Xi)/card(Xi);决策属性集D和条件属性子集R的互信息定义为:W(R;D)=H(D)‑H(D/R),属性重要性的度量方法定义为:Z(c,R,D)=(W(R∪{c};D)‑W(R;D))/H(c),其中pi是属性取值为xi的对象的个数占总对象数N的比例,设属性c有m种取值x1,x2.…,xm,N为总对象数;第二步,计算条件属性集C和决策属性集D的互信息W(C;D)=H(D)‑H(D/C);第三步,计算核R=CORED(C),并计算W(R;D),其中核的计算过程为:设CORED(C)=φ,对于条件属性集C中的所有属性r,如果H({d}/C)<H({d}/C‑{r}),则CORED(C)=CORED(C)∪{r};第四步,令Ccandidate=C‑R,按Z(c,R,D)=(W(R∪{c};D)‑W(R;D))/H(c)计算Ccandidate中各属性的重要性,并选择Z(c,R,D)达到最大的属性ci;第五步,令R=R∪{ci},若W(C;D)=W(R;D),则终止,并将约简后的属性集所对应的数据集用U′表示;否则转第四步继续执行;之后,对数据集U′进行主成分分析,得到彼此不相关的若干个主成分,具体步骤如下:第一步,对数据集U′进行Z标准化,得到数据集U″;第二步,对数据集U″进行主成分分析,得出各主成分的特征值、方差贡献率及累计方差贡献率,其中,对各个主成分的特征值按由大到小的方式进行排序;根据主成分累计方差贡献率大于85%的个数来确定主成分的个数k,根据主成分分析时得到的因子荷载表,写出k个主成分与数据集U″中的各个属性之间的关系式,如下所示,其中Zk代表着第k个主成分,βkm代表着Zk的第m个因子载荷,cm为数据集U″中的第m个属性的值,cm∈{视频ID c1、标题c2、类型c3、时长等级c4、URLc5、URL信誉度c6、播放次数c10、评论次数c12、点赞率c21、分享率c18,收藏率c19,播放次数增长率c22,被观看时长占的比率c26}:步骤二、用逻辑回归方法,对所述结构化文档进行机器学习,得到预测模型,具体过程如下:对步骤二得到的各主成分值进行二元逻辑回归分析,得出逻辑回归模型:其中α1,α2,…,αk为预测模型经过训练后得到的参数,P的值越接近于1,说明待分类视频越受欢迎,P越接近于0,说明待分类视频为越不受欢迎,若p≥0.5,则待分类视频为受欢迎视频;若p<0.5,则待分类视频为不受欢迎视频;步骤三、使用上述预测模型对视频进行欢迎与否的测试,具体过程如下:首先,判断视频历史访问记录的信息完整性,如果待预测视频是新视频,即该视频的历史访问记录不存在,根据视频的特征信息计算tf‑idf值,用tf‑idf矩阵作为聚类模型的输入,得到新视频的最相似视频,并将其历史访问记录信息设为新视频的历史访问记录信息;如果待预测视频不是新视频,直接进行下一步;然后,对待预测视频的历史访问记录数据进行相应的转化,即进行特征抽取;最后,使用预测模型对其进行欢迎与否的分类。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京理工大学,未经北京理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201310743880.7/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top