[发明专利]非均衡IPTV数据集下的用户报障预测方法有效

申请号：	201610392603.X	申请日：	2016-06-06
公开（公告）号：	CN106056160B	公开（公告）日：	2022-05-17
发明（设计）人：	周亮;吴志峰;黄若尘;魏昕	申请（专利权）人：	南京邮电大学
主分类号：	G06K9/62	分类号：	G06K9/62
代理公司：	南京知识律师事务所 32207	代理人：	李湘群
地址：	210003 江苏***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明公开了非均衡IPTV数据集下的用户报障预测方法，主要步骤：(1)导入IPTV用户观看记录并提取数值型指标；(2)平均每位用户的观看记录；(3)初始化平衡值β；(4)采用均基于马氏距离的ODR和BSMOTE算法删除不报障样本，增加人工报障样本；(5)使用TOMEK算法删除对分类有负面影响的新增样本；(6)将重建后的样本数据集放入自适应变核宽度的SVM分类器中训练；(7)将待预测的IPTV用户数据，输入到训练好的SVM的检测器中。由于采用改进BSMOTE和ODR算法均基于马氏距离，不仅避免变量的多重相关性所带来的信息重叠，还不受样本点属性之间不同量纲的影响，获得更佳的样本数据改造效果，削弱了噪声点和冗余点对报障预测的干扰，大幅度提高了分类器预测准确度。
搜索关键词：	均衡 iptv 数据用户预测方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

非均衡IPTV数据集下的用户报障预测方法，其特征在于包含以下步骤：步骤1：导入IPTV用户观看记录，提取数值型指标，其变量表示为z；设定导入的IPTV用户总数为N,总记录数为D，其中报障用户有N₁个，不报障用户有N₂个，第n个用户含有D_n(n＝1,..,N)条记录；数值型指标维度均为Q，用z表示数值型指标变量，分别为z₁,z₂,...,z_Q，每个指标z_q的取值步骤2：对于每个用户得到平均后的记录g_n(n＝1,...,N)具体如下：计算第n个用户的Q个指标各自的均值

<mrow><mover><msub><mi>z</mi><mrow><mi>n</mi><mi>q</mi></mrow></msub><mo>&OverBar;</mo></mover><mo>=</mo><mfrac><mn>1</mn><msub><mi>D</mi><mi>n</mi></msub></mfrac><munderover><mo>Σ</mo><mrow><mi>d</mi><mo>=</mo><mn>1</mn></mrow><msub><mi>D</mi><mi>n</mi></msub></munderover><msub><mi>z</mi><mrow><mi>d</mi><mi>q</mi></mrow></msub><mo>,</mo><mrow><mo>(</mo><mi>n</mi><mo>=</mo><mn>1</mn><mo>,</mo><mn>..</mn><mo>,</mo><mi>N</mi><mo>;</mo><mi>q</mi><mo>=</mo><mn>1</mn><mo>,</mo><mo>...</mo><mo>,</mo><mi>Q</mi><mo>)</mo></mrow></mrow>

即每个用户经过预处理后仅剩一条记录且设定由N₁个少数类报障用户组成的数据集为由N₂个多数类不报障用户组成的数据集为总用户组成的数据集为G＝G_min∪G_maj；步骤3：初始化基于马氏距离ODR算法的平衡值β；步骤4：采用基于马氏距离的BSMOTE算法增加人工报障用户样本集Y_bsmote，并确定BSMOTE算法的平衡值α；接着采用基于马氏距离的ODR算法减少不报障用户样本集Y_odr，实现均衡数据集G_smote+odr；(4‑1)采用基于马氏距离的BSMOTE确定增加的人工报障用户样本集Y_bsmote：(4‑1‑1)计算每个报障用户数据g_i∈G_min与其他用户数据g_j∈G(g_j≠g_i)之间的马氏距离d(g_i,g_j)；

<mrow><mi>d</mi><mrow><mo>(</mo><msub><mi>g</mi><mi>i</mi></msub><mo>,</mo><msub><mi>g</mi><mi>j</mi></msub><mo>)</mo></mrow><mo>=</mo><msqrt><mrow><msup><mrow><mo>(</mo><msub><mi>g</mi><mi>i</mi></msub><mo>-</mo><msub><mi>g</mi><mi>j</mi></msub><mo>)</mo></mrow><mi>T</mi></msup><msup><mi>Σ</mi><mrow><mo>-</mo><mn>1</mn></mrow></msup><mrow><mo>(</mo><msub><mi>g</mi><mi>i</mi></msub><mo>-</mo><msub><mi>g</mi><mi>j</mi></msub><mo>)</mo></mrow></mrow></msqrt><mo>,</mo><mrow><mo>(</mo><msub><mi>g</mi><mi>i</mi></msub><mo>&NotEqual;</mo><msub><mi>g</mi><mi>j</mi></msub><mo>)</mo></mrow></mrow>

其中，∑^‑1为总用户数据集G的协方差矩阵；(4‑1‑2)根据d(g_i,g_j)并采用K‑NN算法对第n(n＝1,..,N₁)个报障用户确定其一系列最近邻样本集G_n‑KNN，并确定所属的样本集；确定K‑NN算法中的奇数K₁值，判断报障用户的最近邻样本集中属于不报障的个数；若满足则将该报障用户样本划分到Border样本集G_Border中；若|G_n‑KNN∩G_maj|＝φ，则将该报障用户样本划分到Safe样本集G_Safe中；若|G_n‑KNN∩G_maj|＝K₁，则将该报障用户样本划分到Noise样本集G_Noise中；(4‑1‑3)统计g_p(g_p∈G_Border)在G_min中的随机K₂近邻样本集并计算g_p与的属性差h_pk；统计G_Border＝{g₁,..,g_p,...,g_P}中的每个报障用户样本g_p在样本集G_min中的随机K₂个最近邻其中P为Border样本集里的总数；计算样本g_pk与该报障用户样本g_p之间的全部属性的差值h_pk：h_pk＝g_p‑g_pk,(p＝1,...,P；k＝1,...,K₂)(4‑1‑4)对g_p(g_p∈G_Border)都生成人工报障样本集Y_p；若g_pk∈G_Noise或g_pk∈G_Safe，那么h_pk乘上一个随机数r_pk∈(0,0.5)；若g_pk∈G_Border，那么h_pk乘上一个随机数r_pk∈(0,1)，则为每个g_p生成的人工样本y_pk：y_pk＝g_k+|r_pk×h_pk|,(p＝1,...,P；k＝1,...,K₂)最后生成的人工报障用户样本集为：(4‑1‑5)重复步骤(4‑1‑3)、(4‑1‑4)，计算G_Border中每个报障用户的新增样本集Y_p(p＝1,...,P)，确定BSMOTE算法的平衡值α，直至生成的Y_bsmote＝{Y₁,...,Y_P}中包含的新增报障样本总数大于等于(1‑β)N₂‑N₁；其中平衡值α取大于等于的最小整数值；(4‑2)采用基于马氏距离的ODR确定减少的不报障用户样本集Y_odr：(4‑2‑1)计算每个不报障用户数据g_m(g_m∈G_maj)与其他不报障用户数据g_l(g_l∈G；g_l≠g_m)之间的马氏距离d(g_m,g_l)；(4‑2‑2)根据d(g_m,g_l)计算出G_maj中每个样本g_m的关联集定义关联集C_m是指G_maj中除g_m的其他样本的K₃个最近邻中含有g_m的样本集；(4‑2‑3)根据有无g_m对g_mn(g_mn∈C_m)的K₄‑NN算法判断准确性的影响，对g_m分类；确定奇数K₄；计算有g_m时，K₄‑NN算法对g_mn(g_mn∈C_m)分类正确的个数Num_p；再计算无g_m时，K₄‑NN对g_mn(g_mn∈C_m)分类正确的个数Num_no‑p，比较Num_p和Num_no‑p大小，按照如下准则将g_m分类：满足Num_p≤Num_no‑p时，说明g_m起负作用并划分到Noise样本集S_Noise中；满足Num_p＝Num_no‑p时，说明g_m可有可无并划分到Safe样本集S_Safe中；满足Num_p≥Num_no‑p时，说明g_m有用并划分到Save样本集S_Save中；(4‑2‑4)优先删除S_Noise，其次删除S_Safe中的样本，直至不报障样本集满足条件，最终输出处理后的全部数据集G_smote+odr；定义Y_odr为所删除的不报障样本点集合，删除的样本点优先取自S_Noise，其次为S_Safe；删除的Y_odr总个数大于等于βN₂，即处理后的不报障样本集{G_maj‑Y_odr}总个数小于等于(1‑β)N₂；经过马氏距离的ODR和BSMOTE算法后，全部数据集G_smote+odr为：G_smote+odr＝{G_maj‑Y_odr}+{G_min+Y_bsmote}步骤5：使用TOMEK算法对数据集G_smote+odr进行数据清洗，得到清洗后的数据G_{smote+odr+tomek}；(5‑1)初始化G_{smote+odr+tomek}集合；(5‑2)随机从G_smote+odr中抽取出样本点g_i，并在G_smote+odr中寻找与之最近邻的点g_j(g_j≠g_i)；(5‑3)在G_smote+odr中寻找与g_j最近邻的点g_k(g_k≠g_j)；(5‑4)判断g_i＝＝g_k是否成立，若成立则继续执行(5‑5)，否则令g_i＝g_j,g_j＝g_k，然后跳转到步骤(5‑3)；(5‑5)判断g_i和g_k对应用户类别(报障或不报障)是否一致；若一致，则将这两个样本点保存至样本集G_{smote+odr+tomek}，然后从G_smote+odr中删除这两个样本点；若类别不一致，则直接从G_smote+odr中删除这两个样本点；(5‑6)判断样本集G_smote+odr中的个数是否为大于0的偶数；若为偶数则重复步骤(5‑2)，否则结束退出；步骤6：将G_{smote+odr+tomek}中的数据带入到SVM分类器中训练，并用粗细步长结合以自适应调整SVM分类器的核宽度σ，寻找近似最优全局点，并确定对应的σ_optimal；(6‑1)确定SVM分类器的核函数为高斯核函数

<mrow><mi>K</mi><mrow><mo>(</mo><msub><mi>g</mi><mi>x</mi></msub><mo>,</mo><mover><msub><mi>g</mi><mi>x</mi></msub><mo>&OverBar;</mo></mover><mo>)</mo></mrow><mo>=</mo><mi>exp</mi><mrow><mo>(</mo><mo>-</mo><mo>|</mo><mo>|</mo><msub><mi>g</mi><mi>x</mi></msub><mo>-</mo><mover><msub><mi>g</mi><mi>x</mi></msub><mo>&OverBar;</mo></mover><mo>|</mo><msup><mo>|</mo><mn>2</mn></msup><mo>/</mo><mn>2</mn><msup><mi>σ</mi><mn>2</mn></msup><mo>)</mo></mrow></mrow>

其中g_x∈G_{smote+odr+tomek}，为g_x的均值，σ为高斯核宽度；(6‑2)确定模型准确评判准则几何平均值G‑mean和F‑measure：根据分类样本集的混淆矩阵，用户报障召回率Recall_Min、用户报障查准率Precision_Min、用户不报障召回率Recall_Maj、几何平均值G‑mean和F‑measure数学表达式分别如下：

<mrow><mi>Re</mi><mi>c</mi><mi>a</mi><mi>l</mi><mi>l</mi><mo>_</mo><mi>M</mi><mi>i</mi><mi>n</mi><mo>=</mo><mfrac><mrow><mi>T</mi><mi>P</mi></mrow><mrow><mi>T</mi><mi>P</mi><mo>+</mo><mi>F</mi><mi>N</mi></mrow></mfrac><mo>,</mo><mi>Pr</mi><mi>e</mi><mi>c</mi><mi>i</mi><mi>s</mi><mi>i</mi><mi>o</mi><mi>n</mi><mo>_</mo><mi>M</mi><mi>i</mi><mi>n</mi><mo>=</mo><mfrac><mrow><mi>T</mi><mi>P</mi></mrow><mrow><mi>F</mi><mi>P</mi><mo>+</mo><mi>T</mi><mi>P</mi></mrow></mfrac><mo>,</mo><mi>Re</mi><mi>c</mi><mi>a</mi><mi>l</mi><mi>l</mi><mo>_</mo><mi>M</mi><mi>a</mi><mi>j</mi><mo>=</mo><mfrac><mrow><mi>T</mi><mi>N</mi></mrow><mrow><mi>T</mi><mi>N</mi><mo>+</mo><mi>F</mi><mi>P</mi></mrow></mfrac></mrow>

<mrow><mi>G</mi><mo>-</mo><mi>m</mi><mi>e</mi><mi>a</mi><mi>n</mi><mo>=</mo><msqrt><mrow><mi>Re</mi><mi>c</mi><mi>a</mi><mi>l</mi><mi>l</mi><mo>_</mo><mi>M</mi><mi>i</mi><mi>n</mi><mo>*</mo><mi>Re</mi><mi>c</mi><mi>a</mi><mi>l</mi><mi>l</mi><mo>_</mo><mi>M</mi><mi>a</mi><mi>j</mi></mrow></msqrt></mrow>

<mrow><mi>F</mi><mo>-</mo><mi>m</mi><mi>e</mi><mi>a</mi><mi>s</mi><mi>u</mi><mi>r</mi><mi>e</mi><mo>=</mo><mfrac><mrow><mn>2</mn><mo>*</mo><mi>Re</mi><mi>c</mi><mi>a</mi><mi>l</mi><mi>l</mi><mo>_</mo><mi>M</mi><mi>i</mi><mi>n</mi><mo>*</mo><mi>Pr</mi><mi>e</mi><mi>c</mi><mi>i</mi><mi>s</mi><mi>i</mi><mi>o</mi><mi>n</mi><mo>_</mo><mi>M</mi><mi>i</mi><mi>n</mi></mrow><mrow><mi>Re</mi><mi>c</mi><mi>a</mi><mi>l</mi><mi>l</mi><mo>_</mo><mi>M</mi><mi>i</mi><mi>n</mi><mo>+</mo><mi>r</mi><mi>e</mi><mi>c</mi><mi>i</mi><mi>s</mi><mi>i</mi><mi>o</mi><mi>n</mi><mo>_</mo><mi>M</mi><mi>i</mi><mi>n</mi></mrow></mfrac></mrow>

(6‑3)初始化SVM分类器惩罚因子C、核宽度σ、核宽度最大值σ_max，粗步长，然后进入SVM分类器运算，获得G‑mean和F‑measure最佳局部点；以粗步长改变σ，在每一次获得更佳的SVM分类结果后，更细最佳局部点，直至满足σ＞σ_max后结束；此时，选择其中最佳的局部点；(6‑4)从最佳的局部点的左侧，以细步长自适应改变核宽度σ，当G‑mean和F‑measure成为近似最优全局点时，获得所对应的近似最优核宽度σ_optimal，并输出分类结果；步骤7：将待预测的IPTV用户数据，输入到训练好的SVM的检测器中，预测用户报障与否，实现对IPTV报障用户的预警。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于南京邮电大学，未经南京邮电大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201610392603.X/，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06K 数据识别；数据表示；记录载体；记录载体的处理
G06K9-00 用于阅读或识别印刷或书写字符或者用于识别图形，例如，指纹的方法或装置
G06K9-03 .错误的检测或校正，例如，用重复扫描图形的方法
G06K9-18 .应用具有附加代码标记或含有代码标记的打印字符的，例如，由不同形状的各个笔画组成的，而且每个笔画表示不同的代码值的字符
G06K9-20 .图像捕获
G06K9-36 .图像预处理，即无须判定关于图像的同一性而进行的图像信息处理
G06K9-60 .图像捕获和多种预处理作用的组合

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]非均衡IPTV数据集下的用户报障预测方法有效

专利文献下载