[发明专利]一种基于簇语义特征分析的反馈式聚类方法有效
申请号: | 201810255690.3 | 申请日: | 2018-03-27 |
公开(公告)号: | CN108399267B | 公开(公告)日: | 2020-04-14 |
发明(设计)人: | 杨雷;代钰;刘星雨;范侨迪;张斌 | 申请(专利权)人: | 东北大学 |
主分类号: | G06F16/28 | 分类号: | G06F16/28;G06F16/35;G06F40/30 |
代理公司: | 沈阳东大知识产权代理有限公司 21109 | 代理人: | 李运萍 |
地址: | 110819 辽宁*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明属于数据分析与挖掘技术领域,具体涉及一种基于簇语义特征分析的反馈式聚类方法,包括以下步骤:1)根据反馈式属性加权K‑means聚类以获得最优属性权重;2)根据簇语义特征分析以获得最优聚类结果。本发明通过属性权值反应用户对属性的关注度,利用簇语义特征分析方法将聚类结果中具有代表性、区分性和可理解性的属性项选择出来并展示以解决用户对聚类结果难以理解的问题,在此基础上融入用户的领域知识、经验及业务分析目标,采用基于改进粒子群算法的权值调整来优化属性权值,同时优化聚类个数,使优化的权值和聚类个数重新聚类以得出满足用户分析目标的聚类结果。 | ||
搜索关键词: | 一种 基于 语义 特征 分析 反馈 式聚类 方法 | ||
【主权项】:
1.一种基于簇语义特征分析的反馈式聚类方法,其特征在于,包括以下步骤:步骤1,根据反馈式属性加权K‑means聚类以获得最优属性权重,包括以下步骤:步骤1.1,设置初始属性权重:记X={x1,x2,…,xn}是具有n个元素的数据集,所述数据集X中的任意一个元素xi表示具有m个分类属性的数据点,可以表示为xi=,所述数据点xi中的任意一个元素xip表示所述数据点xi的分类属性p的值;计算并得出所述分类属性p的初始属性权重Wp;步骤1.2,利用属性加权K‑Means聚类算法进行初始聚类;设置初始聚类个数nn,根据所述数据集X和初始属性权重Wp,调用属性加权K‑Means聚类算法得到初始聚类结果,并将该结果可视化,得到初始聚类的可视化结果;步骤1.3,根据用户点击行为,通过粒子群算法获得最优属性权重,具体方法为:步骤1.3.1,获取用户点击行为并记录于点击行为日志中;将所述初始聚类的可视化结果呈现给用户,获取用户对该结果的点击行为,并记录于点击行为日志中;所述点击行为日志的内容包括:点击时刻、点击用户和点击类型;所述点击类型包括点击启动重聚类按钮行为,点击移动数据点行为和点击重聚类按钮行为;所述点击启动重聚类按钮行为,即用户准备开始对所述初始属性权重进行调整操作,并准备开始进行所述移动数据点行为;所述点击移动数据点行为,即用户将某个数据点x从其所在的簇sclx移动到新簇sclx’中,并将此内容记录在点击行为日志中的过程;所述点击重聚类按钮行为,即用户完成数据点移动行为后,开始执行调用属性加权K‑Means聚类算法;步骤1.3.2,根据所述点击行为日志,建立用户的属性权重调整需求函数;所述点击行为日志的内容反应了用户的属性权重调整需求,获取所述属性权重调整需求的方法为:在点击行为日志的内容中,当所述点击重聚类按钮行为发生后,将与此次点击重聚类按钮行为相邻的所述点击移动数据点行为在所述点击行为日志中的记录输出,从而获得符合用户属性权重调整需求的数据点集合X’;建立属性权重调整需求的集合Y={y1,y2,...,yn},对于其中的任意元素y,y=<x,sclx,sclx’>,其中,x为集合X中的数据点,为所述初始聚类结果中所述数据点x所在簇的簇中心,为通过所述点击移动数据点行为进行移动后的所述数据点x所在簇的簇中心;如果所述数据点x不在所述X’中,则所述sclx与sclx’相同;如果数据点x在所述X’中,则所述sclx与sclx’不同;所述用户在所述点击移动数据点行为中的问题目标是要找到调整属性权重W',使得移动后的所述数据点x与所述sclx’的距离之和相比移动后的所述数据点x与所述sclx的距离之和最小;根据这一问题目标,建立优化目标函数,即属性权重调整要求函数:其中,xi为所述X中的任意一个数据点,为使用调整后属性权重W',利用加权欧式距离公式计算的移动后的所述数据点xi与移动后的所述数据点xi所在簇的簇中心的欧式距离;为使用调整后属性权重W',利用加权欧式距离公式计算的移动后的所述数据点xi与移动前的所述数据点xi所在簇的簇中心的欧式距离;步骤1.3.3,根据所述属性权重调整要求函数,通过粒子群算法得出最优属性权重W”;步骤2,根据簇语义特征分析以获得最优聚类结果,所述簇语义特征分析方法为:步骤2.1,根据所述初始聚类个数nn,将所述数据集X以及所述最优属性权重W”,调用属性加权K‑Means聚类算法得到优化聚类结果;步骤2.2,计算所述优化聚类结果的簇内凝聚度SSE和簇间分离度SSB,计算方法为;其中,n为所述数据集X中的数据点xi的个数;根据预先设定的阈值ξ调整所述初始聚类的个数,如果SSE大于ξ,则调整后的聚类个数nn’=nn+1;如果SSB小于ζ,则调整后的聚类个数nn’=nn‑1;步骤2.3,根据所述调整后的聚类个数nn’,将所述数据集X以及所述最优属性权重W”,调用属性加权K‑Means聚类算法得到优化聚类结果并进行可视化展示;如果用户不满意则返回步骤1.3;如果满意则输出所述优化聚类结果作为最优聚类结果。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东北大学,未经东北大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201810255690.3/,转载请声明来源钻瓜专利网。