[发明专利]一种基于聚类算法的网络信息处理方法在审
申请号: | 202110201619.9 | 申请日: | 2021-02-23 |
公开(公告)号: | CN114970649A | 公开(公告)日: | 2022-08-30 |
发明(设计)人: | 许飞月;李青海;简宋全;邹立斌;巫泽鑫;秦于钦;王平;张清瑞 | 申请(专利权)人: | 广东精点数据科技股份有限公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 广州恒成智道知识产权代理有限公司 44575 | 代理人: | 刘挺 |
地址: | 510630 广东省广州市天河*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 算法 网络 信息处理 方法 | ||
1.一种基于聚类算法的网络信息处理方法,其特征在于,包括
获取初始数据,设定所述初始数据的中心点,根据所述中心点将初始数据划分成至少两个初始簇;
计算各初始簇中的数据与该初始簇的中心点之间的距离并形成距离矩阵,根据该距离矩阵获取数据相似性的权重;
根据数据相似性的权重对参数进行调整和数据更新并生成新的簇。
2.如权利要求1所述的基于聚类算法的网络信息处理方法,其特征在于,获取初始数据时还包括判断所述初始数据是否包括类型标签,当所述初始数据包括类型标签时,对应获取与所述类型标签相对应聚类模式对初始出具进行初始簇划分。
3.如权利要求2所述的基于聚类算法的网络信息处理方法,其特征在于,当所述初始数据不包括类型标签时,获取初始数据中至少两个任意对象并根据选取的对象类型获取对应的聚类模式对初始数据进行初始簇划分。
4.如权利要求1所述的基于聚类算法的网络信息处理方法,其特征在于,计算各初始簇中的数据与该初始簇的中心点之间的距离公式为:
其中,nk为簇Rk中数据对象数量,nj为簇Rj中数据对象数量,v表示初始数据中存在的数据形态,为第v个数据形态中的第k个中心点,为第v个数据形态中的第i个对象。
5.如权利要求4所述的基于聚类算法的网络信息处理方法,其特征在于,数据相似性权重的计算公式为:
其中,为中间变量,exp:为指数函数。
6.如权利要求1所述的基于聚类算法的网络信息处理方法,其特征在于,对数据更新包括:
获取各个簇中数据对象与中心点之间的最小距离,其中最小距离minD(x)的计算公式为:
其中,为第v个数据形态中第i个对象;并在距离矩阵中取选中心点最大和最小的距离,根据各个簇中数据对象与中心点之间的最小距离以及在距离矩阵中取选中心点最大和最小的距离对中心点进行调整和数据更新。
7.如权利要求6所述的基于聚类算法的网络信息处理方法,其特征在于,数据更新的步骤包括:
定义DM为距离矩阵,距离矩阵中最大距离为max(DM),距离矩阵中最小距离为min(DM),X为新数据;
当minD(x)max(DM)时,生成只含有x的新簇,x即为新簇的中心点;
当minD(x)max(DM)且minD(x)mix(DM),x被划分到距离其最近的簇中。
8.如权利要求1所述的基于聚类算法的网络信息处理方法,其特征在于,还包括判断信息的处理方法的纯度值或熵值是否满足预设条件,当数据增量更新的纯度值或熵满足预设条件时,保存结果。
9.如权利要求1所述的基于聚类算法的网络信息处理方法,其特征在于,信息的处理方法的纯度值Purity计算公式为:
其中,ωk代表第k个聚类簇,N代表数据形态信息总数,Cj代表第j个初始数据。
10.如权利要求1所述的基于聚类算法的网络信息处理方法,其特征在于,信息的处理方法的熵值Entropy计算公式为:
其中,mi是簇i中所有的成员数量,mij是簇i中的成员属于类j的个数,m是表示数据形态信息的对象总数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广东精点数据科技股份有限公司,未经广东精点数据科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110201619.9/1.html,转载请声明来源钻瓜专利网。