[发明专利]面向数据空间的实体分类方法有效
申请号: | 201610348890.4 | 申请日: | 2016-05-24 |
公开(公告)号: | CN106067029B | 公开(公告)日: | 2019-06-18 |
发明(设计)人: | 王念滨;王红滨;周连科;祝官文;何鸣;王瑛琦;宋奎勇 | 申请(专利权)人: | 哈尔滨工程大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 哈尔滨市松花江专利商标事务所 23109 | 代理人: | 杨立超 |
地址: | 150001 黑龙江*** | 国省代码: | 黑龙江;23 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 面向数据空间的实体分类方法,属于自然语言处理领域。演化环境下,存在无法通过假设实体为静止状态,而对实体进行分类的问题。一种面向数据空间的实体分类方法,首先,针对演化的数据空间实体,提出改进的、演化的K‑Means聚类框架,即定义基于轮廓值和KL‑散度的目标代价函数;其次,设计了一种新颖的数据空间实体相似性度量方法;然后,根据启发式规则,提出演化的K‑Means聚类算法。此外,进一步扩展本章提出的演化聚类框架,以处理簇数量随时间发生变化或者快照实体随时间加入或移除的情况。本发明不仅能高质量地捕获当前实体聚类结果,还能健壮地反映历史聚簇情况。 | ||
搜索关键词: | 面向 数据 空间 实体 分类 方法 | ||
【主权项】:
1.一种面向数据空间的实体分类方法,其特征在于:所述方法通过以下步骤实现:步骤一、针对演化的数据空间实体,提出演化的K‑Means聚类框架,即定义基于轮廓值和KL‑散度的目标代价函数;步骤二、设计数据空间实体相似性度量方法;步骤三、基于演化的K‑Means聚类框架,解决初始点选择问题和演化的数据空间实体分类问题;步骤四、在簇数量随时间发生变化或者快照实体随时间加入或移除的情况下,扩展步骤一中演化的K‑Means聚类框架;步骤一所述提出演化的K‑Means聚类框架,即定义基于轮廓值和KL‑散度的目标代价函数的过程为,步骤一一、采用线性组合的方式定义总的目标代价函数:目标代价函数由两部分组成:当前时间步长的快照代价和历史时间步长的历史代价,分别记为Costsnapshot和Costtemporal;采用线性组合的方式定义总的目标代价函数,用于评估演化实体的K‑Means聚类质量,总的目标代价函数包含当前时间步长的快照代价和历史时间步长的历史代价两部分,具体如下公式:式中,0≤α≤1,表示快照代价的权重因子;表示当前时间步长t的快照代价;表示历史时间步长h的历史代价;因子et‑h表明离当前时间步长t越近,其历史代价所占权重越重,其偏离程度越小,即离当前时间步长t越近,历史时间步长h的聚簇结构的时间平滑性越好;步骤一二、进行基于轮廓值的快照代价的度量:设当前时间步长t的快照图为Gt=(Vt,Et,Wt),其中Vt为快照实体集合,Et为快照实体之间的相似性集合,|Vt|=n,Wt为快照实体间的相似性矩阵;基于该快照图得到的实体划分为其中p≠q且采用轮廓值准则度量K‑Means聚簇结果的质量,其中,轮廓值也称为轮廓系数,是一种只参考数据本身而不参考黄金标准的聚类评估方法;该聚类评估方法中每个簇用一个轮廓表示,通过轮廓反映位于簇内的对象和远离簇的对象,利用该聚类评估方法反映内聚度和分离度两种影响因素,且轮廓值越大聚簇效果越好;快照代价定义为:式中,k表示当前时间步长t下簇的个数,表示第p个簇,表示簇的平均轮廓值;平均轮廓值与快照代价成反比关系;步骤一三、根据每个簇中包含一组快照实体则将每个簇平均轮廓值定义为簇中所有快照实体的轮廓值的平均值,具体为:式中,表示簇中快照实体;表示簇中快照实体的个数;表示快照实体的轮廓值,其度量公式表示为:其中,表示快照实体与它所属簇中其它快照实体的平均相似性,表示快照实体与其它簇中所有快照实体的最大平均相似性;的值越大,表明快照实体与簇内快照实体的平均相似性大于它与簇间中快照实体的平均相似性;步骤一四、基于步骤一三所述表示快照实体的轮廓值的度量公式(4)的物理意义,定义的公式为:定义的公式为:式中,为簇中快照实体,为簇中快照实体,为相同簇中快照实体和之间的相似性,为不同簇中快照实体和之间的相似性;步骤一五、将公式(3)至(6)代入公式(2)中,则快照代价重写为:步骤一六、进行基于KL‑散度的历史代价度量:第一、设快照图G1,G2,…,Gh,…,Gt,在当前时间步长t下,基于对应快照图Gt的实体划分记为在历史时间步长h下,基于对应的历史快照图Gh的实体划分记为第二、定义一种用于比较两种聚类划分的度量,采用二分图表示实体与簇关系,将实体划分Zt问题转化为二分图中联合概率分布问题:令BGt=(Vt,Ct,Ft,Pt)为对应快照图Gt=(Vt,Et,Wt)的一个二分图;其中,为快照实体集合;为簇集合;为边的集合,边的两个顶点分别来自于集合Vt和集合Ct;为n×k联合概率矩阵,对应于二分图的边权重矩阵;采用联合概率公式计算,即确定实体与簇之间的联合概率其中,为簇发生的概率,为在簇发生条件下实体发生的概率;如果实体属于簇那么nj和n分别为簇中快照实体数量和所有快照实体的数量;否则,对于联合概率矩阵Pt中任意行i来说,只存在一个列j使得pij不为0,从而第三、采用KL‑散度法进行度量:给定当前时间步长t的二分图BGt=(Vt,Ct,Ft,Pt)和历史时间步长h的二分图BGh=(Vh,Ch,Fh,Ph),当前时间步长t的实体划分和历史时间步长h的实体划分其中,BGt对应于Zt,BGh对应于Zh,则两个时间步长h和t的历史代价定义如下:其中,n为快照实体的数量,k表示当前时间步长t下簇的个数,为在时间步长t下快照实体与簇之间的联合概率矩阵Pt中元素,为在历史时间步长h下快照实体与簇之间的联合概率矩阵Ph中元素;第四,联合概率矩阵Pt或者Ph做以下平滑处理:Pt或者Ph中每个元素或者加上常量ε,且ε=e‑12;然后对处理后元素重新正规化,记为或者经过平滑处理后的概率矩阵分别记为和则公式(8)修正为:其中,n为快照实体的数量,k为簇的个数,为在时间步长t下经过平滑处理后的实体与簇之间的联合概率矩阵中元素,为在历史时间步长h下经过平滑处理的实体与簇的联合概率矩阵中元素;第五,将公式(7)和公式(8)代入公式(1)中,则目标总代价函数等价为:其中,0≤α≤1是快照代价的权重因子,k表示当前时间步长t下簇的个数,表示实体划分Zt中第p个元素,wtii′或者wtij表示快照图Gt=(Vt,Et,Wt)的Wt中元素,或表示Gt中快照实体,n表示二分图BGt=(Vt,Ct,Ft,Pt)的Vt中快照实体数量,表示平滑处理后联合概率矩阵中元素,表示平滑处理后联合概率矩阵中元素;步骤二所述设计数据空间实体相似性度量方法的过程为,数据空间实体即快照实体,根据实体的自身信息和实体的历史出现模式信息来度量快照实体的相似性,即快照实体的相似性函数由自身相似性和历史相似性两部分组成,表达式定义为:其中,0≤β≤1为自身相似性的权重,为当前时间步长t下的快照实体,为快照实体和之间的自身相似性,为快照实体和之间的历史相似性;基于快照实体的属性特征信息对应的结构化特征信息,和内容特征信息对应的非结构化特征信息,快照实体之间的自身相似性定义如下:其中,0≤λ≤1为属性特征相似性的权重,和分别为快照实体的属性特征相似性和内容特征相似性,为快照实体的属性特征,为快照实体的内容特征;采用经典皮尔森相关系数度量历史相似性,具体为:其中,为当前时间步长t下的快照实体,和分别为快照实体和在历史时间步长h出现的次数,和分别快照实体和在所有历史时间步长出现次数的平均值;将公式(12)和公式(13)代入公式(11),则快照实体的相似性函数重写为:其中,为当前时间步长t下的快照实体,和分别为快照实体和在历史时间步长h出现的次数,和分别快照实体和在所有历史时间步长出现次数的平均值,和分别为快照实体和的属性特征,和为快照实体和的内容特征;0≤β≤1为自身相似性的权重,0≤λ≤1为属性特征相似性的权重;步骤三所述基于演化的K‑Means聚类框架,解决初始点选择问题和演化的数据空间实体分类问题的过程为,第一、进行以下相关定义:t时刻下的η‑邻居的定义:给定一个快照图Gt=(Vt,Et,Wt)和参数0<η≤1,那么对于任意快照实体来说,t时刻下的η‑邻居形式化定义为:其中,|Vt|为快照图Gt中顶点个数,为Wt中元素;t时刻下的相似性密度的定义:给定一个快照图Gt=(Vt,Et,Wt)和t时刻下的η‑邻居那么对于任意快照实体来说,t时刻下的相似性密度形式化定义为:式中wtij为不同簇中快照实体和之间的相似值;第二、确定第一个初始中心点的选择原则为相似性密度最大的快照实体;确定除第一个初始中心点以外的初始中心点的选择原则:除去已选的初始中心点的η‑邻居的快照实体;低于所有已选的初始中心点的平均相似性;高于当前中心点的相似性密度;该原则可形式化为如下公式:其中,1≤l≤j‑1为已选初始中心点的顺序号,为所有已选初始中心点的η‑邻居的并集,为快照实体与已选初始中心点的相似性,为快照实体在t时刻下的相似性密度,加上系数1目的是防止分母为零的情况;第三、执行演化的K‑Means聚类算法的基本思想如下:在到当前时间步长为止的所有时间步长中,循环执行K‑Means聚类算法;其中,每一个时间步长执行K‑Means聚类算法的过程是,基于相似性密度和公式(15)选择初始中心点,然后迭代地执行以下操作:1)将快照实体指派给相似性最高的簇中心点,2)更新簇中心点,直至达到公式(10)中目标代价最小的收敛条件;演化的K‑Means聚类算法具体过程如下:输入:一系列不同时间步长的快照实体集合O={O1,O2,…,Oh,…,Ot},不同时间步长对应的簇个数集合K={k1,k2,…,kh,…,kt};输出:所有时间步长的聚类结果集合C={C1,C2,…,Ch,…,Ct};其中,h表示时间步长,h=1,2,...,t;(1)、对每个时间步长h,循环执行:(2)、利用公式(14)计算当前时间步长h下快照实体集合Oh对应的相似性矩阵Wh,并构建相应的快照图Gh=(Vh,Eh,Wh);(3)、将簇中心点集合初始化为空;(4)、进行选择初始中心点的过程:先选择相似性密度最高的快照实体作为第一个初始中心点然后根据公式(15)计算得到选择剩余的初始中心点其中,j按照从1到k的升序顺序,上标h表示时间步长;(5)、循环执行:将快照实体集合Oh中每个快照实体指派给与它最相似的簇中心所在的簇;更新每个簇的中心点并且记录聚类结果Ch;直至满足公式(10)中目标代价函数最小的收敛条件;累计更新不同时间步长的聚类结果;并返回所有时间步长的聚类结果C;步骤四所述在簇数量随时间发生变化或者快照实体随时间加入或移除的情况下,扩展步骤一中演化的K‑Means聚类框架的过程为,第一、当簇数量随时间发生变化时:当历史时间步长h的聚簇数量kh小于当前时间步长t的聚簇数量kt时,只需增加相应的列到联合概率矩阵Ph中,从而扩展成其中此时,扩展后,和Pt均是n×kt的联合概率矩阵,因此,公式(10)修改为:当历史时间步长h的聚簇数量kh大于当前时间步长t的聚簇数量kt时,增加相应的列到联合概率矩阵Pt中,扩展成其中,此时,扩展后,Ph和均是n×kh的联合概率矩阵,因此,公式(10)修改为:第二、当快照实体随时间加入或移除时:假定在历史时间步长h时,Ph是一个nh×k的联合概率矩阵,在当前时间步长t时,Pt是一个nt×k的联合概率矩阵,n0个快照实体同时在时间步长h和t中出现;当在历史时间步长h的快照实体被移除时,对于时间步长t来说,被移除的那些快照实体与当前簇的联合发生概率为0,在Pt中增加对应的行,从而得到Pt,其中,而当在当前时间步长t的快照实体新加入时,对于历史时间步长h来说,新加入的那些快照实体与历史簇的联合发生概率为0,在Ph中增加对应的行,从而得到Ph,其中,此时,扩展后,Ph和Pt均是(nh+nt‑n0)×k的联合概率矩阵,因此,公式(10)修改为:式中,符号表示矩阵X按照公式(9)中平滑处理方法处理后的矩阵,是矩阵中元素。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨工程大学,未经哈尔滨工程大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201610348890.4/,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置