[发明专利]非均衡IPTV数据集下的用户报障预测方法有效

专利信息
申请号: 201610392603.X 申请日: 2016-06-06
公开(公告)号: CN106056160B 公开(公告)日: 2022-05-17
发明(设计)人: 周亮;吴志峰;黄若尘;魏昕 申请(专利权)人: 南京邮电大学
主分类号: G06K9/62 分类号: G06K9/62
代理公司: 南京知识律师事务所 32207 代理人: 李湘群
地址: 210003 江苏*** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明公开了非均衡IPTV数据集下的用户报障预测方法,主要步骤:(1)导入IPTV用户观看记录并提取数值型指标;(2)平均每位用户的观看记录;(3)初始化平衡值β;(4)采用均基于马氏距离的ODR和BSMOTE算法删除不报障样本,增加人工报障样本;(5)使用TOMEK算法删除对分类有负面影响的新增样本;(6)将重建后的样本数据集放入自适应变核宽度的SVM分类器中训练;(7)将待预测的IPTV用户数据,输入到训练好的SVM的检测器中。由于采用改进BSMOTE和ODR算法均基于马氏距离,不仅避免变量的多重相关性所带来的信息重叠,还不受样本点属性之间不同量纲的影响,获得更佳的样本数据改造效果,削弱了噪声点和冗余点对报障预测的干扰,大幅度提高了分类器预测准确度。
搜索关键词: 均衡 iptv 数据 用户 预测 方法
【主权项】:
非均衡IPTV数据集下的用户报障预测方法,其特征在于包含以下步骤:步骤1:导入IPTV用户观看记录,提取数值型指标,其变量表示为z;设定导入的IPTV用户总数为N,总记录数为D,其中报障用户有N1个,不报障用户有N2个,第n个用户含有Dn(n=1,..,N)条记录;数值型指标维度均为Q,用z表示数值型指标变量,分别为z1,z2,...,zQ,每个指标zq的取值步骤2:对于每个用户得到平均后的记录gn(n=1,...,N)具体如下:计算第n个用户的Q个指标各自的均值<mrow><mover><msub><mi>z</mi><mrow><mi>n</mi><mi>q</mi></mrow></msub><mo>&OverBar;</mo></mover><mo>=</mo><mfrac><mn>1</mn><msub><mi>D</mi><mi>n</mi></msub></mfrac><munderover><mo>&Sigma;</mo><mrow><mi>d</mi><mo>=</mo><mn>1</mn></mrow><msub><mi>D</mi><mi>n</mi></msub></munderover><msub><mi>z</mi><mrow><mi>d</mi><mi>q</mi></mrow></msub><mo>,</mo><mrow><mo>(</mo><mi>n</mi><mo>=</mo><mn>1</mn><mo>,</mo><mn>..</mn><mo>,</mo><mi>N</mi><mo>;</mo><mi>q</mi><mo>=</mo><mn>1</mn><mo>,</mo><mo>...</mo><mo>,</mo><mi>Q</mi><mo>)</mo></mrow></mrow>即每个用户经过预处理后仅剩一条记录且设定由N1个少数类报障用户组成的数据集为由N2个多数类不报障用户组成的数据集为总用户组成的数据集为G=Gmin∪Gmaj;步骤3:初始化基于马氏距离ODR算法的平衡值β;步骤4:采用基于马氏距离的BSMOTE算法增加人工报障用户样本集Ybsmote,并确定BSMOTE算法的平衡值α;接着采用基于马氏距离的ODR算法减少不报障用户样本集Yodr,实现均衡数据集Gsmote+odr;(4‑1)采用基于马氏距离的BSMOTE确定增加的人工报障用户样本集Ybsmote:(4‑1‑1)计算每个报障用户数据gi∈Gmin与其他用户数据gj∈G(gj≠gi)之间的马氏距离d(gi,gj);<mrow><mi>d</mi><mrow><mo>(</mo><msub><mi>g</mi><mi>i</mi></msub><mo>,</mo><msub><mi>g</mi><mi>j</mi></msub><mo>)</mo></mrow><mo>=</mo><msqrt><mrow><msup><mrow><mo>(</mo><msub><mi>g</mi><mi>i</mi></msub><mo>-</mo><msub><mi>g</mi><mi>j</mi></msub><mo>)</mo></mrow><mi>T</mi></msup><msup><mi>&Sigma;</mi><mrow><mo>-</mo><mn>1</mn></mrow></msup><mrow><mo>(</mo><msub><mi>g</mi><mi>i</mi></msub><mo>-</mo><msub><mi>g</mi><mi>j</mi></msub><mo>)</mo></mrow></mrow></msqrt><mo>,</mo><mrow><mo>(</mo><msub><mi>g</mi><mi>i</mi></msub><mo>&NotEqual;</mo><msub><mi>g</mi><mi>j</mi></msub><mo>)</mo></mrow></mrow>其中,∑‑1为总用户数据集G的协方差矩阵;(4‑1‑2)根据d(gi,gj)并采用K‑NN算法对第n(n=1,..,N1)个报障用户确定其一系列最近邻样本集Gn‑KNN,并确定所属的样本集;确定K‑NN算法中的奇数K1值,判断报障用户的最近邻样本集中属于不报障的个数;若满足则将该报障用户样本划分到Border样本集GBorder中;若|Gn‑KNN∩Gmaj|=φ,则将该报障用户样本划分到Safe样本集GSafe中;若|Gn‑KNN∩Gmaj|=K1,则将该报障用户样本划分到Noise样本集GNoise中;(4‑1‑3)统计gp(gp∈GBorder)在Gmin中的随机K2近邻样本集并计算gp的属性差hpk;统计GBorder={g1,..,gp,...,gP}中的每个报障用户样本gp在样本集Gmin中的随机K2个最近邻其中P为Border样本集里的总数;计算样本gpk与该报障用户样本gp之间的全部属性的差值hpk:hpk=gp‑gpk,(p=1,...,P;k=1,...,K2)(4‑1‑4)对gp(gp∈GBorder)都生成人工报障样本集Yp;若gpk∈GNoise或gpk∈GSafe,那么hpk乘上一个随机数rpk∈(0,0.5);若gpk∈GBorder,那么hpk乘上一个随机数rpk∈(0,1),则为每个gp生成的人工样本ypk:ypk=gk+|rpk×hpk|,(p=1,...,P;k=1,...,K2)最后生成的人工报障用户样本集为:(4‑1‑5)重复步骤(4‑1‑3)、(4‑1‑4),计算GBorder中每个报障用户的新增样本集Yp(p=1,...,P),确定BSMOTE算法的平衡值α,直至生成的Ybsmote={Y1,...,YP}中包含的新增报障样本总数大于等于(1‑β)N2‑N1;其中平衡值α取大于等于的最小整数值;(4‑2)采用基于马氏距离的ODR确定减少的不报障用户样本集Yodr:(4‑2‑1)计算每个不报障用户数据gm(gm∈Gmaj)与其他不报障用户数据gl(gl∈G;gl≠gm)之间的马氏距离d(gm,gl);(4‑2‑2)根据d(gm,gl)计算出Gmaj中每个样本gm的关联集定义关联集Cm是指Gmaj中除gm的其他样本的K3个最近邻中含有gm的样本集;(4‑2‑3)根据有无gm对gmn(gmn∈Cm)的K4‑NN算法判断准确性的影响,对gm分类;确定奇数K4;计算有gm时,K4‑NN算法对gmn(gmn∈Cm)分类正确的个数Nump;再计算无gm时,K4‑NN对gmn(gmn∈Cm)分类正确的个数Numno‑p,比较Nump和Numno‑p大小,按照如下准则将gm分类:满足Nump≤Numno‑p时,说明gm起负作用并划分到Noise样本集SNoise中;满足Nump=Numno‑p时,说明gm可有可无并划分到Safe样本集SSafe中;满足Nump≥Numno‑p时,说明gm有用并划分到Save样本集SSave中;(4‑2‑4)优先删除SNoise,其次删除SSafe中的样本,直至不报障样本集满足条件,最终输出处理后的全部数据集Gsmote+odr;定义Yodr为所删除的不报障样本点集合,删除的样本点优先取自SNoise,其次为SSafe;删除的Yodr总个数大于等于βN2,即处理后的不报障样本集{Gmaj‑Yodr}总个数小于等于(1‑β)N2;经过马氏距离的ODR和BSMOTE算法后,全部数据集Gsmote+odr为:Gsmote+odr={Gmaj‑Yodr}+{Gmin+Ybsmote}步骤5:使用TOMEK算法对数据集Gsmote+odr进行数据清洗,得到清洗后的数据Gsmote+odr+tomek;(5‑1)初始化Gsmote+odr+tomek集合;(5‑2)随机从Gsmote+odr中抽取出样本点gi,并在Gsmote+odr中寻找与之最近邻的点gj(gj≠gi);(5‑3)在Gsmote+odr中寻找与gj最近邻的点gk(gk≠gj);(5‑4)判断gi==gk是否成立,若成立则继续执行(5‑5),否则令gi=gj,gj=gk,然后跳转到步骤(5‑3);(5‑5)判断gi和gk对应用户类别(报障或不报障)是否一致;若一致,则将这两个样本点保存至样本集Gsmote+odr+tomek,然后从Gsmote+odr中删除这两个样本点;若类别不一致,则直接从Gsmote+odr中删除这两个样本点;(5‑6)判断样本集Gsmote+odr中的个数是否为大于0的偶数;若为偶数则重复步骤(5‑2),否则结束退出;步骤6:将Gsmote+odr+tomek中的数据带入到SVM分类器中训练,并用粗细步长结合以自适应调整SVM分类器的核宽度σ,寻找近似最优全局点,并确定对应的σoptimal;(6‑1)确定SVM分类器的核函数为高斯核函数<mrow><mi>K</mi><mrow><mo>(</mo><msub><mi>g</mi><mi>x</mi></msub><mo>,</mo><mover><msub><mi>g</mi><mi>x</mi></msub><mo>&OverBar;</mo></mover><mo>)</mo></mrow><mo>=</mo><mi>exp</mi><mrow><mo>(</mo><mo>-</mo><mo>|</mo><mo>|</mo><msub><mi>g</mi><mi>x</mi></msub><mo>-</mo><mover><msub><mi>g</mi><mi>x</mi></msub><mo>&OverBar;</mo></mover><mo>|</mo><msup><mo>|</mo><mn>2</mn></msup><mo>/</mo><mn>2</mn><msup><mi>&sigma;</mi><mn>2</mn></msup><mo>)</mo></mrow></mrow>其中gx∈Gsmote+odr+tomek为gx的均值,σ为高斯核宽度;(6‑2)确定模型准确评判准则几何平均值G‑mean和F‑measure:根据分类样本集的混淆矩阵,用户报障召回率Recall_Min、用户报障查准率Precision_Min、用户不报障召回率Recall_Maj、几何平均值G‑mean和F‑measure数学表达式分别如下:<mrow><mi>Re</mi><mi>c</mi><mi>a</mi><mi>l</mi><mi>l</mi><mo>_</mo><mi>M</mi><mi>i</mi><mi>n</mi><mo>=</mo><mfrac><mrow><mi>T</mi><mi>P</mi></mrow><mrow><mi>T</mi><mi>P</mi><mo>+</mo><mi>F</mi><mi>N</mi></mrow></mfrac><mo>,</mo><mi>Pr</mi><mi>e</mi><mi>c</mi><mi>i</mi><mi>s</mi><mi>i</mi><mi>o</mi><mi>n</mi><mo>_</mo><mi>M</mi><mi>i</mi><mi>n</mi><mo>=</mo><mfrac><mrow><mi>T</mi><mi>P</mi></mrow><mrow><mi>F</mi><mi>P</mi><mo>+</mo><mi>T</mi><mi>P</mi></mrow></mfrac><mo>,</mo><mi>Re</mi><mi>c</mi><mi>a</mi><mi>l</mi><mi>l</mi><mo>_</mo><mi>M</mi><mi>a</mi><mi>j</mi><mo>=</mo><mfrac><mrow><mi>T</mi><mi>N</mi></mrow><mrow><mi>T</mi><mi>N</mi><mo>+</mo><mi>F</mi><mi>P</mi></mrow></mfrac></mrow><mrow><mi>G</mi><mo>-</mo><mi>m</mi><mi>e</mi><mi>a</mi><mi>n</mi><mo>=</mo><msqrt><mrow><mi>Re</mi><mi>c</mi><mi>a</mi><mi>l</mi><mi>l</mi><mo>_</mo><mi>M</mi><mi>i</mi><mi>n</mi><mo>*</mo><mi>Re</mi><mi>c</mi><mi>a</mi><mi>l</mi><mi>l</mi><mo>_</mo><mi>M</mi><mi>a</mi><mi>j</mi></mrow></msqrt></mrow><mrow><mi>F</mi><mo>-</mo><mi>m</mi><mi>e</mi><mi>a</mi><mi>s</mi><mi>u</mi><mi>r</mi><mi>e</mi><mo>=</mo><mfrac><mrow><mn>2</mn><mo>*</mo><mi>Re</mi><mi>c</mi><mi>a</mi><mi>l</mi><mi>l</mi><mo>_</mo><mi>M</mi><mi>i</mi><mi>n</mi><mo>*</mo><mi>Pr</mi><mi>e</mi><mi>c</mi><mi>i</mi><mi>s</mi><mi>i</mi><mi>o</mi><mi>n</mi><mo>_</mo><mi>M</mi><mi>i</mi><mi>n</mi></mrow><mrow><mi>Re</mi><mi>c</mi><mi>a</mi><mi>l</mi><mi>l</mi><mo>_</mo><mi>M</mi><mi>i</mi><mi>n</mi><mo>+</mo><mi>r</mi><mi>e</mi><mi>c</mi><mi>i</mi><mi>s</mi><mi>i</mi><mi>o</mi><mi>n</mi><mo>_</mo><mi>M</mi><mi>i</mi><mi>n</mi></mrow></mfrac></mrow>(6‑3)初始化SVM分类器惩罚因子C、核宽度σ、核宽度最大值σmax,粗步长,然后进入SVM分类器运算,获得G‑mean和F‑measure最佳局部点;以粗步长改变σ,在每一次获得更佳的SVM分类结果后,更细最佳局部点,直至满足σ>σmax后结束;此时,选择其中最佳的局部点;(6‑4)从最佳的局部点的左侧,以细步长自适应改变核宽度σ,当G‑mean和F‑measure成为近似最优全局点时,获得所对应的近似最优核宽度σoptimal,并输出分类结果;步骤7:将待预测的IPTV用户数据,输入到训练好的SVM的检测器中,预测用户报障与否,实现对IPTV报障用户的预警。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京邮电大学,未经南京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201610392603.X/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top