[发明专利]一种基于类与特征分布的多标签数据流中概念漂移检测方法有效

申请号：	201710151295.6	申请日：	2017-03-14
公开（公告）号：	CN106934035B	公开（公告）日：	2019-06-14
发明（设计）人：	李培培;李磊;张玉红;胡学钢;刘俊峰;何路;吴共庆;吴信东	申请（专利权）人：	合肥工业大学
主分类号：	G06F16/9535	分类号：	G06F16/9535;G06K9/62;G06Q30/02
代理公司：	安徽省合肥新安专利代理有限责任公司 34101	代理人：	陆丽莉;何梅生
地址：	230009 安***	国省代码：	安徽;34
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明公开了一种基于类与特征分布的多标签数据流中概念漂移检测方法，包括：1、根据滑动窗口机制将多标签数据流划分成数据块；2、统计数据块的类标签数据分布，并根据余弦相似度函数与海明损失函数计算类标签分布差异度，用于判断数据块是否发生概念漂移；3、统计数据块的特征数据分布，计算特征向量与类标签向量的相关度、特征向量间的冗余度和类标签向量间的相关度，根据最大相关最小冗余的原则进行特征排序；4、选择前K个特征向量作为数据块的特征分布并计算特征分布差异度，用于判断数据块是否发生概念漂移。本发明可用于发现多标签数据流中基于类和特征分布变化引发的概念漂移，并根据类和特征分布的差异度判断漂移类型。
搜索关键词：	一种基于特征分布标签数据流概念漂移检测方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种基于类与特征分布的多标签数据流中概念漂移检测方法，其特征是按如下步骤进行：步骤1：根据滑动窗口机制将一组多标签数据流D＝{e₁,e₂,…,e_i,…,e_n}划分成N个数据块D＝{D₁,D₂,…,D_t,D_t+1,…,D_N}，其中，e_i表示所述多标签数据流D中第i个示例；D_t表示所述多标签数据流D中第t个数据块，D_t+1表示所述多标签数据流D中第t+1个数据块，并有：与与分别表示第t个数据块D_t中的第j个示例以及第t+1个数据块D_t+1中的第j个示例，并有：与分别表示第t个数据块D_t中的第j个示例的特征空间，以及第t+1个数据块D_t+1中的第j个示例的特征空间，表示一个D维的特征空间；与分别表示第t个数据块D_t中的第j个示例的类标签空间，以及第t+1个数据块D_t+1中的第j个示例的类标签空间，并有：L表示类标签空间中类标签的个数，表示所述第t个数据块中的第j个示例的类标签空间中的第l维类标签的取值，表示所述第t+1个数据块中的第j个示例的类标签空间中的第l维类标签的取值，1≤i≤n，1≤j≤m，1≤l≤L，1≤t≤N，步骤2：根据余弦相似度函数与海明损失函数计算类标签分布变化：步骤2.1、统计第t个数据块D_t和第t+1个数据块D_t+1的类标签分布，得到第t个数据块D_t的类标签分布信息和第t+1个数据块D_t+1的类标签分布信息其中，Y_l^t表示第t个数据块D_t的第l维类标签向量，Y_l^t+1表示第t+1个数据块D_t+1的第l维类标签向量，并有：与同时统计得到第t个数据块D_t的第l维类标签向量Y_l^t和第t+1个数据块D_t+1的第l维类标签向量Y_l^t+1的两种类标签取值{0,1}的概率分布分别为与与分别表示第t个数据块D_t的第l维类标签向量Y_l^t的第r个类标签取值的概率，以及第t+1个数据块D_t+1的第l维类标签向量Y_l^t+1的第r个类标签取值的概率，从而得到第t个数据块D_t和第t+1个数据块D_t+1的所有维类标签向量的两种类标签取值{0,1}的概率分布，1≤l≤L，1≤t≤N；步骤2.2、计算第t个数据块D_t的第l维类标签向量Y_l^t和第t+1个数据块D_t+1的第l维类标签向量Y_l^t+1的余弦相似度从而得到第t个数据块D_t和第t+1个数据块D_t+1的所有维类标签向量的余弦相似度均值1≤l≤L；并利用式(1)计算第t+1个数据块D_t+1中的第j个示例与第t个数据块D_t中的所有示例的海明损失式(1)中，表示第t+1个数据块D_t+1中的第j个示例与第t个数据块D_t中的第j个示例的海明损失，并有：式(2)中，XOR(·)表示异或运算，从而得到第t+1个数据块D_t+1中的所有示例与第t个数据块D_t中的所有示例的海明损失均值1≤j≤m；将与的乘积作为第t个数据块D_t和第t+1个数据块D_t+1的类分布差异度distL_t,t+1；步骤2.3、将所述类分布差异度distL_t,t+1与阈值α进行比较，0＜α＜1，若distL_t,t+1＞α，则表示第t+1个数据块D_t+1发生概念漂移，并输出第t+1个数据块D_t+1的概念漂移类型为类分布变化；若distL_t,t+1≤α，表示第t+1个数据块D_t+1未发生概念漂移，并执行步骤3；步骤3：根据最大相关最小冗余的原则进行特征排序：步骤3.1、统计第t个数据块D_t和第t+1个数据块D_t+1的特征分布，得到第t个数据块D_t的特征分布信息和第t+1个数据块D_t+1的特征分布信息其中，表示第t个数据块D_t的第d维特征向量，并有：表示第t+1个数据块D_t+1的第d维特征向量，并有：表示第t个数据块D_t的第d维特征向量的第个特征取值，表示第t+1个数据块D_t+1的第d维特征向量的第个特征取值，与分别表示第t个数据块D_t的第d维特征向量的所有不同特征取值的个数，以及第t+1个数据块D_t+1的第d维特征向量的所有不同特征取值的个数；统计得到第t个数据块D_t的第d维特征向量和第t+1个数据块D_t+1的第d维特征向量的特征取值的概率分布分别表示为与表示第t个数据块D_t的第d维特征向量的第个特征取值的概率，表示第t+1个数据块D_t+1的第d维特征向量的第个特征取值的概率，1≤d≤D；步骤3.2、分别计算第t个数据块D_t的第d维特征向量和第l维类标签向量的互信息以及第t+1个数据块D_t+1的第d维特征向量和第l维类标签向量的互信息从而获得第t个数据块D_t以及第t+1个数据块D_t+1中所有维特征向量和所有类标签向量的互信息，并作为特征向量与类标签向量的相关度；步骤3.3、分别计算第t个数据块D_t的第d维特征向量与其他特征向量的互信息以及第t+1个数据块D_t+1的第d维特征向量与其他特征向量的互信息从而获得第t个数据块D_t以及第t+1个数据块D_t+1中所有特征向量间的互信息，并作为特征向量间的冗余度，d′≠d；步骤3.4、分别计算第t个数据块D_t的第l维类标签向量Y_l^t与其他类标签向量的互信息以及第t+1个数据块D_t+1的第l维类标签向量Y_l^t+1与其他类标签向量的互信息从而获得第t个数据块D_t以及第t+1个数据块D_t+1中所有类标签向量间的互信息，并作为类标签向量间的相关度，l′≠l；步骤3.5、利用式(3)获得第t个数据块D_t的第d维特征向量与第t个数据块D_t的特征分布信息X(D_t)之间的冗余度步骤3.6、利用式(4)获得第t个数据块D_t的第l维类标签向量Y_l^t与第t个数据块D_t的类标签分布信息Y(D_t)之间的相关度作为第l维类标签向量Y_l^t的重要度W(Y_l^t)：步骤3.7、利用Z‑score标准化方法归一化第t个数据块D_t的第l维类标签向量Y_l^t的重要度W(Y_l^t)，可得到归一化后的第t个数据块D_t的第l维类标签向量Y_l^t的重要度W'(Y_l^t)；并利用式(5)获得第t个数据块D_t的第d维特征向量与第t个数据块D_t的类标签分布信息Y(D_t)之间的相关度从而获得第t个数据块D_t中所有维特征向量与第t个数据块D_t的类标签分布信息Y(D_t)之间的相关度：步骤3.8、对所述第t个数据块D_t中所有维特征向量与第t个数据块D_t的类标签分布信息Y(D_t)之间的相关度进行降序排序，得到第t个数据块D_t在k时刻的初始特征向量集合表示第t个数据块D_t在k时刻的初始特征向量集合中第d维特征向量；同理获得第t+1个数据块D_t+1在k时刻的初始特征向量集合表示第t+1个数据块D_t+1在k时刻的初始特征向量集合中第d维特征向量，k＝0；步骤3.9、初始化第t个数据块D_t在k时刻排序后的特征向量集合步骤3.10、利用式(6)计算第t个数据块D_t在k时刻第d维特征向量的重要度从而获得第t个数据块D_t在k时刻所有维特征向量的重要度；步骤3.11、从所述第t个数据块D_t在k时刻所有维特征向量的重要度中选取最大值及其所对应的特征向量存入所述k时刻排序后的特征向量集合X′_k(D_t)中，从而得到更新后的第t个数据块D_t的排序后的特征向量集合X′_k+1(D_t)；并删除所述k时刻初始特征向量集合X_k(D_t)中的特征向量从而得到更新后的第t个数据块D_t的初始特征向量集合X_k+1(D_t)；步骤3.12、将k+1赋值给k，并返回步骤3.10，直到k＝D‑1为止；步骤3.13、重复步骤3.9‑步骤3.12，同理获得更新后的第t+1个数据块D_t+1的排序后的特征向量集合X′_k+1(D_t+1)；步骤4、从所述第t个数据块D_t的排序后的特征向量集合X′_k+1(D_t)和第t+1个数据块D_t+1的排序后的特征向量集合X′_k+1(D_t+1)中分别选择前K个特征向量及其所对应的重要度，作为第t个数据块的特征分布和第t+1个数据块D_t+1的特征分布F(D_t)与F(D_t+1)；并利用余弦相似度函数计算第t个数据块D_t的特征分布集合与第t+1个数据块D_t+1的特征分布集合相似度cos(F(D_t),F(D_t+1))，再将1‑cos(F(D_t),F(D_t+1))作为第t个数据块D_t和第t+1个数据块D_t+1的特征分布差异度distF_t,t+1；将所述特征分布差异度distF_t,t+1与阈值β进行比较，0＜β＜1，若distF_t,t+1＞β，则表示第t+1个数据块D_t+1发生概念漂移，并输出第t+1个数据块D_t+1的概念漂移类型为特征分布变化；若distF_t,t+1≤β，则表示第t+1个数据块D_t+1未发生概念漂移，并输出第t+1个数据块D_t+1的概念漂移类型为无漂移。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于合肥工业大学，未经合肥工业大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201710151295.6/，转载请声明来源钻瓜专利网。

上一篇：分析影视作品发行特征的方法和服务器
下一篇：一种网络学习资源聚合查询的方法和系统

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于类与特征分布的多标签数据流中概念漂移检测方法有效

专利文献下载