[发明专利]非均衡IPTV数据集下的用户报障预测方法有效
申请号: | 201610392603.X | 申请日: | 2016-06-06 |
公开(公告)号: | CN106056160B | 公开(公告)日: | 2022-05-17 |
发明(设计)人: | 周亮;吴志峰;黄若尘;魏昕 | 申请(专利权)人: | 南京邮电大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 南京知识律师事务所 32207 | 代理人: | 李湘群 |
地址: | 210003 江苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了非均衡IPTV数据集下的用户报障预测方法,主要步骤:(1)导入IPTV用户观看记录并提取数值型指标;(2)平均每位用户的观看记录;(3)初始化平衡值β;(4)采用均基于马氏距离的ODR和BSMOTE算法删除不报障样本,增加人工报障样本;(5)使用TOMEK算法删除对分类有负面影响的新增样本;(6)将重建后的样本数据集放入自适应变核宽度的SVM分类器中训练;(7)将待预测的IPTV用户数据,输入到训练好的SVM的检测器中。由于采用改进BSMOTE和ODR算法均基于马氏距离,不仅避免变量的多重相关性所带来的信息重叠,还不受样本点属性之间不同量纲的影响,获得更佳的样本数据改造效果,削弱了噪声点和冗余点对报障预测的干扰,大幅度提高了分类器预测准确度。 | ||
搜索关键词: | 均衡 iptv 数据 用户 预测 方法 | ||
【主权项】:
非均衡IPTV数据集下的用户报障预测方法,其特征在于包含以下步骤:步骤1:导入IPTV用户观看记录,提取数值型指标,其变量表示为z;设定导入的IPTV用户总数为N,总记录数为D,其中报障用户有N1个,不报障用户有N2个,第n个用户含有Dn(n=1,..,N)条记录;数值型指标维度均为Q,用z表示数值型指标变量,分别为z1,z2,...,zQ,每个指标zq的取值
步骤2:对于每个用户得到平均后的记录gn(n=1,...,N)具体如下:计算第n个用户的Q个指标各自的均值![]()
![]()
即每个用户经过预处理后仅剩一条记录
且设定由N1个少数类报障用户组成的数据集为
由N2个多数类不报障用户组成的数据集为
总用户组成的数据集为G=Gmin∪Gmaj;步骤3:初始化基于马氏距离ODR算法的平衡值β;步骤4:采用基于马氏距离的BSMOTE算法增加人工报障用户样本集Ybsmote,并确定BSMOTE算法的平衡值α;接着采用基于马氏距离的ODR算法减少不报障用户样本集Yodr,实现均衡数据集Gsmote+odr;(4‑1)采用基于马氏距离的BSMOTE确定增加的人工报障用户样本集Ybsmote:(4‑1‑1)计算每个报障用户数据gi∈Gmin与其他用户数据gj∈G(gj≠gi)之间的马氏距离d(gi,gj);![]()
其中,∑‑1为总用户数据集G的协方差矩阵;(4‑1‑2)根据d(gi,gj)并采用K‑NN算法对第n(n=1,..,N1)个报障用户确定其一系列最近邻样本集Gn‑KNN,并确定所属的样本集;确定K‑NN算法中的奇数K1值,判断报障用户的最近邻样本集中属于不报障的个数;若满足
则将该报障用户样本划分到Border样本集GBorder中;若|Gn‑KNN∩Gmaj|=φ,则将该报障用户样本划分到Safe样本集GSafe中;若|Gn‑KNN∩Gmaj|=K1,则将该报障用户样本划分到Noise样本集GNoise中;(4‑1‑3)统计gp(gp∈GBorder)在Gmin中的随机K2近邻样本集
并计算gp与
的属性差hpk;统计GBorder={g1,..,gp,...,gP}中的每个报障用户样本gp在样本集Gmin中的随机K2个最近邻
其中P为Border样本集里的总数;计算样本gpk与该报障用户样本gp之间的全部属性的差值hpk:hpk=gp‑gpk,(p=1,...,P;k=1,...,K2)(4‑1‑4)对gp(gp∈GBorder)都生成人工报障样本集Yp;若gpk∈GNoise或gpk∈GSafe,那么hpk乘上一个随机数rpk∈(0,0.5);若gpk∈GBorder,那么hpk乘上一个随机数rpk∈(0,1),则为每个gp生成的人工样本ypk:ypk=gk+|rpk×hpk|,(p=1,...,P;k=1,...,K2)最后生成的人工报障用户样本集为:
(4‑1‑5)重复步骤(4‑1‑3)、(4‑1‑4),计算GBorder中每个报障用户的新增样本集Yp(p=1,...,P),确定BSMOTE算法的平衡值α,直至生成的Ybsmote={Y1,...,YP}中包含的新增报障样本总数大于等于(1‑β)N2‑N1;其中平衡值α取大于等于
的最小整数值;(4‑2)采用基于马氏距离的ODR确定减少的不报障用户样本集Yodr:(4‑2‑1)计算每个不报障用户数据gm(gm∈Gmaj)与其他不报障用户数据gl(gl∈G;gl≠gm)之间的马氏距离d(gm,gl);(4‑2‑2)根据d(gm,gl)计算出Gmaj中每个样本gm的关联集
定义关联集Cm是指Gmaj中除gm的其他样本的K3个最近邻中含有gm的样本集;(4‑2‑3)根据有无gm对gmn(gmn∈Cm)的K4‑NN算法判断准确性的影响,对gm分类;确定奇数K4;计算有gm时,K4‑NN算法对gmn(gmn∈Cm)分类正确的个数Nump;再计算无gm时,K4‑NN对gmn(gmn∈Cm)分类正确的个数Numno‑p,比较Nump和Numno‑p大小,按照如下准则将gm分类:满足Nump≤Numno‑p时,说明gm起负作用并划分到Noise样本集SNoise中;满足Nump=Numno‑p时,说明gm可有可无并划分到Safe样本集SSafe中;满足Nump≥Numno‑p时,说明gm有用并划分到Save样本集SSave中;(4‑2‑4)优先删除SNoise,其次删除SSafe中的样本,直至不报障样本集满足条件,最终输出处理后的全部数据集Gsmote+odr;定义Yodr为所删除的不报障样本点集合,删除的样本点优先取自SNoise,其次为SSafe;删除的Yodr总个数大于等于βN2,即处理后的不报障样本集{Gmaj‑Yodr}总个数小于等于(1‑β)N2;经过马氏距离的ODR和BSMOTE算法后,全部数据集Gsmote+odr为:Gsmote+odr={Gmaj‑Yodr}+{Gmin+Ybsmote}步骤5:使用TOMEK算法对数据集Gsmote+odr进行数据清洗,得到清洗后的数据Gsmote+odr+tomek;(5‑1)初始化Gsmote+odr+tomek集合;(5‑2)随机从Gsmote+odr中抽取出样本点gi,并在Gsmote+odr中寻找与之最近邻的点gj(gj≠gi);(5‑3)在Gsmote+odr中寻找与gj最近邻的点gk(gk≠gj);(5‑4)判断gi==gk是否成立,若成立则继续执行(5‑5),否则令gi=gj,gj=gk,然后跳转到步骤(5‑3);(5‑5)判断gi和gk对应用户类别(报障或不报障)是否一致;若一致,则将这两个样本点保存至样本集Gsmote+odr+tomek,然后从Gsmote+odr中删除这两个样本点;若类别不一致,则直接从Gsmote+odr中删除这两个样本点;(5‑6)判断样本集Gsmote+odr中的个数是否为大于0的偶数;若为偶数则重复步骤(5‑2),否则结束退出;步骤6:将Gsmote+odr+tomek中的数据带入到SVM分类器中训练,并用粗细步长结合以自适应调整SVM分类器的核宽度σ,寻找近似最优全局点,并确定对应的σoptimal;(6‑1)确定SVM分类器的核函数为高斯核函数![]()
![]()
其中gx∈Gsmote+odr+tomek,
为gx的均值,σ为高斯核宽度;(6‑2)确定模型准确评判准则几何平均值G‑mean和F‑measure:根据分类样本集的混淆矩阵,用户报障召回率Recall_Min、用户报障查准率Precision_Min、用户不报障召回率Recall_Maj、几何平均值G‑mean和F‑measure数学表达式分别如下:![]()
![]()
![]()
(6‑3)初始化SVM分类器惩罚因子C、核宽度σ、核宽度最大值σmax,粗步长,然后进入SVM分类器运算,获得G‑mean和F‑measure最佳局部点;以粗步长改变σ,在每一次获得更佳的SVM分类结果后,更细最佳局部点,直至满足σ>σmax后结束;此时,选择其中最佳的局部点;(6‑4)从最佳的局部点的左侧,以细步长自适应改变核宽度σ,当G‑mean和F‑measure成为近似最优全局点时,获得所对应的近似最优核宽度σoptimal,并输出分类结果;步骤7:将待预测的IPTV用户数据,输入到训练好的SVM的检测器中,预测用户报障与否,实现对IPTV报障用户的预警。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京邮电大学,未经南京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201610392603.X/,转载请声明来源钻瓜专利网。
- 上一篇:一种检测胆固醇平衡状况的方法
- 下一篇:胆固醇代谢检测标志物及其应用
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置