[发明专利]一种基于节点相似度的Kmeans中药材功效聚类方法在审
申请号: | 202010140751.9 | 申请日: | 2020-03-03 |
公开(公告)号: | CN111370140A | 公开(公告)日: | 2020-07-03 |
发明(设计)人: | 谭露露;周银座;吴晨程 | 申请(专利权)人: | 杭州师范大学 |
主分类号: | G16H70/40 | 分类号: | G16H70/40;G16H50/70;G06K9/62 |
代理公司: | 杭州君度专利代理事务所(特殊普通合伙) 33240 | 代理人: | 朱月芬 |
地址: | 311121 浙江省杭*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 节点 相似 kmeans 中药材 功效 方法 | ||
本发明公开了一种基于节点相似度的Kmeans中药材功效聚类方法。本发明步骤:采集相关中医药数据,数据处理后形成方剂组成库、药材功效库、药材性味归经二值表;根据23大类功效表,将中药材功效总结归类,构建药材功效矩阵;基于方剂组成库构建方剂‑药材二分网络;计算基于度分布的药材对期望值,将药材对期望值作为中药材相似度;建立基于中药材相似度的Kmeans聚类模型;基于所述聚类模型对中药材进行聚类,得到中药材可能具有的潜在功效。本发明利用一种药材相似度矩阵进行Kmeans聚类的准确度可达0.728。同时使用Kmeans对传统药材的性味归经数据聚类,得到最终结果为0.646,高出约0.08,可见本发明提出的方法使得聚类结果更加精准。
技术领域
本发明涉及计算机辅助药物设计领域,特别涉及一种基于节点相似度的Kmeans中药材功效聚类方法。
背景技术
本发明中针对方剂、药材信息将功效相似或相同的药材聚为一类。该聚类问题是一个典型的基于划分的问题,基于划分的聚类算法中较为简单且常用的算法为Kmeans聚类算法。Kmeans是无监督学习算法,是一种分组观察的方法,可调参数少,聚类速度快,方法简单。但传统的Kmeans算法具有两个明显的缺点:一是聚类个数K值很难把控,如中药材功效繁多,每种药材可能具有几十甚至上百种功效,这样聚类质量会很难保证;二是样本间距离计算并不能确保是其真实的相似程度,特别是针对中药这种特殊数据。
因此,本发明针对Kmeans上述两个缺点,利用方剂组成构建的二分网络,基于中药材相关特性提出了一种基于度分布的药材对相似度计算方法,并对比23大类功效表将药材的散乱功效归类,以获得聚类个数k以及结果对照。
发明内容
本发明的目的是针对现有技术的不足,提供一种基于节点相似度的Kmeans中药材功效聚类方法。
本发明解决其技术问题所采用的技术方案包括如下步骤:
步骤1、采集相关中医药数据,数据处理后形成方剂组成库、药材功效库、药材性味归经二值表;
步骤2、根据23大类功效表,将中药材功效总结归类,构建药材功效矩阵;
步骤3、基于方剂组成库构建方剂-药材二分网络;
步骤4、计算基于度分布的药材对期望值,将药材对期望值作为中药材相似度;
步骤5、建立基于中药材相似度的Kmeans聚类模型;
步骤6、基于所述聚类模型对中药材进行聚类,得到中药材可能具有的潜在功效。
所述步骤1是通过文献、数据库和其他网络资源的途径,基于人工、网络爬虫的方法采集中医药相关数据,整合形成方剂组成库、药材功效库以及药材性味归经二值表;方剂组成库中包括了方剂名以及对应的药材组成信息;药材功效库包含药材所具有的各类功效;药材性味归经二值表是基于药材所具有的性味归经的数据构建的二值表。所述步骤2中的23大类功效表由医学专业人员提供,通过对采集到的药材功效库进行匹配,得到药材大类功效矩阵。
所述步骤3基于方剂与药材之间的关系构建了方剂药材关联二分网络,其中包括22570种方剂,1249味药材。
所述步骤4通过对网络的分析提出的一种基于度分布的药材对期望值计算方法,定义为药材对期望值:即药材m1和药材m2同时存在于方剂i中的期望值,记为Pi。
Pi=A·B
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州师范大学,未经杭州师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010140751.9/2.html,转载请声明来源钻瓜专利网。