[发明专利]一种共享近邻优化的密度峰值聚类中心选取方法和系统有效
申请号: | 201810432085.9 | 申请日: | 2018-05-08 |
公开(公告)号: | CN108647297B | 公开(公告)日: | 2020-11-20 |
发明(设计)人: | 王红;狄瑞彤;房有丽;周莹;王露潼;刘海燕;王倩;宋永强 | 申请(专利权)人: | 山东师范大学 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06K9/62 |
代理公司: | 济南圣达知识产权代理有限公司 37221 | 代理人: | 黄海丽 |
地址: | 250014 山*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 共享 近邻 优化 密度 峰值 中心 选取 方法 系统 | ||
本发明公开了一种共享近邻优化的密度峰值聚类中心选取方法和系统,所述方法包括:获取电子商务评论数据;计算评论数据两两之间的距离,得到距离矩阵;根据所述距离矩阵计算共享近邻相似度;根据所述共享近邻相似度,计算每条评论数据的局部密度;根据所述距离矩阵和局部密度,获取每条评论数据的最近较大密度点距离;根据评论数据的局部密度和最近较大密度点距离选择聚类中心。本发明对于交叉缠绕、变密度和高维的电子商务评论数据集能够快速、正确的选择聚类中心,提高聚类效果。
技术领域
本发明属于电子商务评论挖掘的技术领域,尤其涉及面向电子商务评论数据的共享近邻优化的密度峰值聚类中心选取方法和系统。
背景技术
随着网上购物的不断发展,产生了海量的消费者购买评论。面对海量的购物评论,消费者难以一一翻阅,且评论中对于商品的褒贬不一,并且可能会掺杂来自商家竞争对手的恶意的评论,影响了消费者的选择,因此,对于消费者和商家而言,对评论进行分析整理以及区分评论的真假是亟待解决的技术问题。聚类分析作为研究其他问题的重要基础,在众多领域中扮演着重要角色。在电子商务评论领域中,可以通过聚类得到两个不同类别的评论,进而识别出真实评论和虚假评论,以给潜在的客户提供更加可信的评论参考。在电子商务评论聚类中聚类中心的选取具有重要意义,是对后续非聚类中心进行分配前最重要的准备工作。
电子商务评论数据具有不同类别数据在空间分布上非相互独立分离、数据空间密度分布不均匀,和数据的维度较高,即具有交叉缠绕、变密度和高维的特点。在2014年6月Rodriguez等人在著名科学杂志《Science》发表了密度峰值聚类算法DPC(clustering byfast search and find of density peaks)。这是一种新的基于密度和距离的聚类算法。与传统的聚类算法相比,DPC算法简单高效,无需迭代即可快速发现簇中心,适用于大规模数据的聚类分析等。但传统DPC算法样本距离和密度的度量准则过于简单,其距离是欧式距离,样本密度是截断密度或高斯核密度,二者均没有考虑样本周围邻域的影响。这种距离和密度的度量方法不能很好地反映数据之间的复杂关系,致使算法无法正确发现交叉缠绕、变密度和高维的复杂数据的聚类中心。因此,针对复杂的电子商务评论数据,如何正确的选择聚类中心,从而提高聚类精度,是本领域技术人员目前迫切解决的技术问题。
发明内容
为克服上述现有技术的不足,针对电子商务评论数据的特点,本发明提供了一种共享近邻优化的密度峰值聚类中心选取方法和系统,所述方法根据评论数据之间的距离进行共享近邻相似度的计算,得到评论的局部密度。还提出最近较大密度点距离的概念来衡量评论的密度分布,综合考虑局部密度和最近较大密度点距离,能够选取更具类别代表性的评论作为聚类中心。
为实现上述目的,本发明采用如下技术方案:
一种共享近邻优化的密度峰值聚类中心选取方法,包括以下步骤:
获取电子商务评论数据;
计算评论数据两两之间的距离,得到距离矩阵;
根据所述距离矩阵计算共享近邻相似度;
根据所述共享近邻相似度,计算每条评论数据的局部密度;
根据所述距离矩阵和局部密度,获取每条评论数据的最近较大密度点距离;
根据评论数据的局部密度和最近较大密度点距离选择聚类中心。
进一步地,所述获取电子商务评论数据后,还对所述评论数据进行归一化和降维预处理。
进一步地,对于电子商务评论集X中的任意评论i,j,如果他们都在对方的K近邻集合中,则共享近邻相似度为评论i与评论j的共享近邻数的平方与二者分别到其所有共享近邻距离和的比值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山东师范大学,未经山东师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810432085.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种护理实习生用的智能教学管理方法及系统
- 下一篇:一种三七数据的处理系统