[发明专利]病理数据分析方法、装置、设备及存储介质在审
申请号: | 202010005182.7 | 申请日: | 2020-01-03 |
公开(公告)号: | CN111223570A | 公开(公告)日: | 2020-06-02 |
发明(设计)人: | 蔡金成 | 申请(专利权)人: | 平安科技(深圳)有限公司 |
主分类号: | G16H50/70 | 分类号: | G16H50/70;G06K9/62 |
代理公司: | 深圳众鼎专利商标代理事务所(普通合伙) 44325 | 代理人: | 吴英铭 |
地址: | 518000 广东省深圳市福田区福*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 病理 数据 分析 方法 装置 设备 存储 介质 | ||
本发明涉及机器学习领域,公开了一种病理数据分析方法、装置、设备及存储介质,其方法包括:获取病理数据样本集的聚类结果;根据聚类结果计算调整轮廓系数;根据聚类结果的调整轮廓系数确定聚类结果的优劣;在聚类结果为优时,获取待处理的病理数据样本;根据聚类结果对待处理的病理数据样本进行分类,并生成与待处理的病理数据样本对应的病理分析数据。本发明解决了聚类结果评估计算过程中时间复杂度过高的问题,大大减少了评估计算过程中的数据计算量,大大提高聚类结果评估的效率,可以加速对病理数据聚类结果的判定,以快速确定最佳的病理数据聚类结果。
技术领域
本发明涉及机器学习领域,尤其涉及一种病理数据分析方法、装置、设备及存储介质。
背景技术
在医学领域,随着技术的发展,医院的管理系统收集了大量病人的病理数据。这些病理数据可以结合聚类算法,将病理数据划分为多个集合,每个集合对应一种病情。这样可帮助医生实现对属于疑难杂症的病人进行确诊。
而聚类算法是一种涉及对数据进行无监督分组的一种算法。聚类算法又称聚类分析,是研究数据分类问题的一种统计分析方法,同时也是数据挖掘的一种重要的手段。
在给定的数据集中,通过聚类算法将数据集划分成不同的组后,需要对聚类结果进行评价,以评估聚类结果的好坏。轮廓系数(Silhouette Coefficient)是一种聚类结果评价方法,用于评估无监督聚类算法的效果,以便在聚类过程中用于簇(即分组)的个数的确定。轮廓系数结合聚类的凝聚度(Cohesion)和分离度(Separation)对聚类效果进行评价。轮廓系数的取值范围为[-1,1],值越大,说明聚类效果越好。
然而,轮廓系数的时间复杂度非常高,其时间复杂度为n的平方,即O(n2),其中n为样本数。在大规模数据集的处理过程中,聚类结果的轮廓系数计算量非常大,很难在短时间内计算出结果。特别是利用轮廓系数来确定簇的个数时,需要计算多个聚类结果的轮廓系数,整个过程消耗时间更长。
在病理数据进行聚类计算后,通常会计算出多个不同的聚类结果。由于病理数据的数量十分庞大,检测指标也有很多,导致用现有的轮廓系数评估病理数据聚类结果常常出现不可预见的错误,或者计算耗时过长,无法及时得到需要的评估结果。
发明内容
基于此,有必要针对上述技术问题,提供一种病理数据分析方法,以解决聚类结果评估计算过程中时间复杂度过高的问题,提高聚类结果评估的计算速度,可以快速确定聚类结果的优劣,进而根据聚类结果对病理数据样本进行分类,获得所需要得到的病理分析数据。
一种病理数据分析方法,包括:
获取病理数据样本集的聚类结果,所述聚类结果将所述病理数据样本集划分为若干个簇,所述簇由多个病理样本点i组成,所述病理数据样本集的病理样本点i的数量大于预设数量阈值;
根据所述聚类结果计算各个所述簇的中心点;
计算病理样本点i与各个所述簇的中心点的距离;
根据所述病理样本点i与各个所述簇的中心点的距离计算所述病理样本点i的调整轮廓系数,计算公式如下:
上式中,sc(i)表示病理样本点i的调整轮廓系数;ac(i)表示病理样本点i与其所在簇的中心点的距离;bc(i)表示与病理样本点i最近的簇的中心点与病理样本点i的距离;
计算所有所述病理样本点i的调整轮廓系数的平均数,获得所述聚类结果的调整轮廓系数;
根据所述聚类结果的调整轮廓系数确定所述聚类结果的优劣;
在所述聚类结果为优时,获取待处理的病理数据样本;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安科技(深圳)有限公司,未经平安科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010005182.7/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置