[发明专利]一种用于脉冲星搜寻中候选体信号挖掘的并行的混合聚类方法在审
申请号: | 202210036692.X | 申请日: | 2022-01-13 |
公开(公告)号: | CN114386466A | 公开(公告)日: | 2022-04-22 |
发明(设计)人: | 游子毅;刘莹;马智;李思瑶;王培;童超 | 申请(专利权)人: | 贵州师范大学 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06K9/62;G06F17/16 |
代理公司: | 贵阳东圣专利商标事务有限公司 52002 | 代理人: | 袁庆云 |
地址: | 550025 贵*** | 国省代码: | 贵州;52 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 用于 脉冲 搜寻 候选 信号 挖掘 并行 混合 方法 | ||
1.一种用于脉冲星搜寻中候选体信号挖掘的并行的混合聚类方法,包括步骤如下:
(1)脉冲星候选体信号的聚类分析:
采用K近邻的多项式核函数计算数据点密度,筛出密度值小于阈值0.01的样本,这些样本将进一步通过候选体诊断图判断是噪声还是新天文现象,排除密度过小的离群点干扰;
结合密度峰值及层次的聚类过程特点,用于数据集中多密度簇类层次的划分,合并同一区域内部分密度相近、距离邻近的微簇群,确定初始聚类中心点;
运用基于高斯径向基核距离的k-means迭代对所有数据点的进行分配与簇中心优化,采用核函数计算样本数据点之间相似度计算可实现测度距离对高维空间的转换;
(2)基于滑动窗口的分组策略对数据集进行分组,按照特定的窗口值Batchsize=1160进行划分,设置滑动窗口尺寸为w=2;拟通过从真实样本中挑选较完备的各类脉冲星候选体特征数据1600颗作为一组样本,并分别加入到每轮滑动窗口所对应的待检测数据形成1个数据块,将数据集分为多个大小相同的并行数据块;
(3)用基于MapReduce/Spark计算模型的数据块并行化实现该聚类。
2.如权利要求1所述一种用于脉冲星搜寻中候选体信号挖掘的并行的混合聚类方法,其中步骤(1)中所述的聚类分析方法为:
①进行数据预处理,通过特征提取方法和主成分分析方法(PCA)对在基于PRESTO软件的脉冲星搜索流程中的脉冲星候选体数据进行特征选择和降维,从而得到特征向量为b的新特征空间输入数据集;可选的候选体物理特征值包括有脉冲辐射(单峰、双峰和多峰)、周期、色散值、信噪比、噪声信号、信号斜波、非相干功率之和、相干功率;
②根据式(1)计算数据点i和j之间的马氏距离为
其中,S是多维随机变量的协方差矩阵;再根据式(2)计算各数据点基于K近邻的局部Polynomial核密度,Polynomial核函数拥有的全局特性,使其泛化性能强;
其中,c为偏置系数,d为多项式的阶;为消除数据变异大小和数值大小的影响,对dij和ρi均采用离差标准化处理如下;
其中,mind和minρ分别代表dij和ρi的最小值,maxd和maxρ分别代表dij和ρi的最大值;
③根据式(5)剔除离群点,再由式(6)计算非离群点之间的距离δi,剔除离群点有助于簇类中心点的选择;另外,密度过小的数据点数量少且分布边缘化;由于其稀缺性及低密度化,在数据分布中呈异常,而异常现象可能是纯噪声或天文新现象(比如特殊脉冲星);这部分数据后续将通过对应的候选体诊断图作进一步的确定;
inlier={ρi>ρthrehold},ρthrehold=0.01 (5)
④所有距离δ大于阈值λ的数据点可生成1个二维决策图;其中,横轴用密度ρ表示,纵轴用距离δ表示;在二维决策图上进行密度层次微簇群的合并,方法为:若在ρ轴或δ轴划分区域上包含两个或两个以上的无数据点存在区域,则称该空隙区域为空区;空区把所有的数据点划分为两个密度区域,将最右的密度区域称作最大密度区域,其余为低密度区域;
(A)在低密度区域,由于区分度不高,将该区域相应的微簇均合并成一个簇类;
(B)在最大密度区域,若所有的代表点都在同一个δ区,则将这些代表点均选作独立的簇类中心;若不在同一个δ区,则这些代表点间距离区分度不高,可能属于同一个簇类,因此需要将相应的微簇合并成一个大簇;
⑤确定簇类数k以及对应集群Ci(1≤i≤k)的中心centeri;
⑥根据就近原则将各个数据点xj分配给距离最近的centeri所在的簇类,相似性测度方式采用RBF核距离,如式(7)所示;RBF核函数拥有局部特性且学习能力强,通过RBF核距离可实现测度距离对高维空间的转换;
其中,η代表核函数宽度;按照式(8)计算新簇Ci'内所有数据点的均值作为新的中心centeri',ni表示属于Ci'的数据点总数;
⑦计算数据集所有对象的误差平方和SSE:
直到SSE值不再发生变化,算法停止,否则回到步骤⑥。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于贵州师范大学,未经贵州师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210036692.X/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种莓茶咖啡的生产方法
- 下一篇:一种放射介入用动脉灌注装置