[发明专利]一种中药方剂核心药物的发现方法在审
申请号: | 201510183745.0 | 申请日: | 2015-04-17 |
公开(公告)号: | CN104820775A | 公开(公告)日: | 2015-08-05 |
发明(设计)人: | 张雷;刘焕锐;资帅;王强;吴和生;谢俊元 | 申请(专利权)人: | 南京大学 |
主分类号: | G06F19/00 | 分类号: | G06F19/00 |
代理公司: | 南京瑞弘专利商标事务所(普通合伙) 32249 | 代理人: | 陈建和 |
地址: | 210093 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 一种中药方剂核心药物的发现方法,由改进聚类算法和加权TF-IDF算法两部分组成,聚类算法包括方剂数据的预处理、聚类距离函数的选择和聚类挖掘算法三部分,其中方剂数据的预测理将方剂数据处理成适合聚类算法的模型;聚类距离的选择用于选择合理的聚类距离函数;距离挖掘算法用于将相似的方剂聚类成一个簇;加权TF-IDF算法用于计算药物的权重,发明的权重计算公式结合聚类结果、药物顺序重要度、TF-IDF算法三部分;算法具有较高的准确性。 | ||
搜索关键词: | 一种 中药 方剂 核心 药物 发现 方法 | ||
【主权项】:
一种中药方剂核心药物的发现方法,其特征在于,由改进聚类算法和加权TF‑IDF算法两部分组成,聚类算法包括方剂数据的预处理、聚类距离函数的选择和聚类挖掘算法三部分,其中方剂数据的预测理将方剂数据处理成适合聚类算法的模型;聚类距离的选择用于选择合理的聚类距离函数;距离挖掘算法用于将相似的方剂聚类成一个簇;加权TF‑IDF算法用于计算药物的权重,发明的权重计算公式结合聚类结果、药物顺序重要度、TF‑IDF算法三部分;所述的方剂数据的预处理,其采用的是向量空间模型。每首方剂抽象成一个向量,方剂中的药物表示为向量的某一维。如果方剂包含某种药物,则其对应的维为1,否则为0;所述的聚类距离函数的选择,采用的是余弦距离函数,其距离为:能够合理度量两个方剂的相似性;这里αi,βi分别是方剂向量;所述的聚类挖掘算法,其采用的是改进的基于节点部分分配的K‑Means算法;算法预先设置一个阈值α,在将节点分配到中心点的时候,对于到所有中心点的距离都超过α的节点,暂时不把它分配到任何中心节点所表示的聚类;这样在一轮分配结束的时候可能会存在一些未被分配的节点。在下一轮分配的时候,从这些节点中在随机选取一些种子节点作为中心点;这样通过不断的迭代,最终数据集中的每个节点都会被分配到合适的分类中;所述的药物顺序重要度,其指的是方剂组成中某一药物的重要程度;其定义为:这里hi是方剂中的第i味药物,I(hi)为药物hi的顺序重要度;药物h在所有方剂中的总重要度定义为: 所述的TF‑IDF算法,指的是信息学中的词频‑逆文档频率算法;一个词的权重定义为:这里ni,j是词频,表示单词ti在文件dj出现次数。|D|表示语料库中的文件总数,|{j:ti∈dj}|表示包含单词ti的文件的数目;根据下式计算药物h的权重W(h,x),用于计算药物h在治疗某种病x的权重指数,定义为: 公式前半部分 为药物在治疗某种病的方剂的词频,后半部分表示整个方剂数据库聚类数除以药物h在整个方剂数据库中出现的权重的商的对数,为药物在方剂数据总库的“逆文档频率”;公式中的count(h∈cj)定义为I(h∈ci)定义为两个子公式中,h表示具体的药物,ci表示方剂的聚类i,f表示某首方剂,||ci||表示方剂聚类ci中包含的方剂的数目,bool(h∈f)表示药物h是否出现在方剂f中,出现为1,不出现为0;count(h∈ci)表示药物h在方剂聚类ci中出现的次数除以方剂聚类的方剂数,值域是[0,1];If(h)为药物h在方剂f中的顺序重要度,定义这里i表示药物h是方剂f的第i味药物;I(h∈ci)表示药物h在方剂聚类ci中的总顺序重要度除以聚类方剂数;set(x)表示治疗病x的所有方剂,all_set表示整个方剂数据库;表示药物h在治疗病x的方剂聚类中出现的权重,为药物“加权词频”。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京大学,未经南京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201510183745.0/,转载请声明来源钻瓜专利网。
- 上一篇:一种试卷自动阅卷方法
- 下一篇:一种基于判别分析的结构可靠度动态响应面方法
- 同类专利
- 专利分类
G06 计算;推算;计数
G06F 电数字数据处理
G06F19-00 专门适用于特定应用的数字计算或数据处理的设备或方法
G06F19-10 .生物信息学,即计算分子生物学中的遗传或蛋白质相关的数据处理方法或系统
G06F19-12 ..用于系统生物学的建模或仿真,例如:概率模型或动态模型,遗传基因管理网络,蛋白质交互作用网络或新陈代谢作用网络
G06F19-14 ..用于发展或进化的,例如:进化的保存区域决定或进化树结构
G06F19-16 ..用于分子结构的,例如:结构排序,结构或功能关系,蛋白质折叠,结构域拓扑,用结构数据的药靶,涉及二维或三维结构的
G06F19-18 ..用于功能性基因组学或蛋白质组学的,例如:基因型–表型关联,不均衡连接,种群遗传学,结合位置鉴定,变异发生,基因型或染色体组的注释,蛋白质相互作用或蛋白质核酸的相互作用
G06F 电数字数据处理
G06F19-00 专门适用于特定应用的数字计算或数据处理的设备或方法
G06F19-10 .生物信息学,即计算分子生物学中的遗传或蛋白质相关的数据处理方法或系统
G06F19-12 ..用于系统生物学的建模或仿真,例如:概率模型或动态模型,遗传基因管理网络,蛋白质交互作用网络或新陈代谢作用网络
G06F19-14 ..用于发展或进化的,例如:进化的保存区域决定或进化树结构
G06F19-16 ..用于分子结构的,例如:结构排序,结构或功能关系,蛋白质折叠,结构域拓扑,用结构数据的药靶,涉及二维或三维结构的
G06F19-18 ..用于功能性基因组学或蛋白质组学的,例如:基因型–表型关联,不均衡连接,种群遗传学,结合位置鉴定,变异发生,基因型或染色体组的注释,蛋白质相互作用或蛋白质核酸的相互作用