[发明专利]一种中药方剂核心药物的发现方法在审

专利信息
申请号: 201510183745.0 申请日: 2015-04-17
公开(公告)号: CN104820775A 公开(公告)日: 2015-08-05
发明(设计)人: 张雷;刘焕锐;资帅;王强;吴和生;谢俊元 申请(专利权)人: 南京大学
主分类号: G06F19/00 分类号: G06F19/00
代理公司: 南京瑞弘专利商标事务所(普通合伙) 32249 代理人: 陈建和
地址: 210093 江*** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要: 一种中药方剂核心药物的发现方法,由改进聚类算法和加权TF-IDF算法两部分组成,聚类算法包括方剂数据的预处理、聚类距离函数的选择和聚类挖掘算法三部分,其中方剂数据的预测理将方剂数据处理成适合聚类算法的模型;聚类距离的选择用于选择合理的聚类距离函数;距离挖掘算法用于将相似的方剂聚类成一个簇;加权TF-IDF算法用于计算药物的权重,发明的权重计算公式结合聚类结果、药物顺序重要度、TF-IDF算法三部分;算法具有较高的准确性。
搜索关键词: 一种 中药 方剂 核心 药物 发现 方法
【主权项】:
一种中药方剂核心药物的发现方法,其特征在于,由改进聚类算法和加权TF‑IDF算法两部分组成,聚类算法包括方剂数据的预处理、聚类距离函数的选择和聚类挖掘算法三部分,其中方剂数据的预测理将方剂数据处理成适合聚类算法的模型;聚类距离的选择用于选择合理的聚类距离函数;距离挖掘算法用于将相似的方剂聚类成一个簇;加权TF‑IDF算法用于计算药物的权重,发明的权重计算公式结合聚类结果、药物顺序重要度、TF‑IDF算法三部分;所述的方剂数据的预处理,其采用的是向量空间模型。每首方剂抽象成一个向量,方剂中的药物表示为向量的某一维。如果方剂包含某种药物,则其对应的维为1,否则为0;所述的聚类距离函数的选择,采用的是余弦距离函数,其距离为:能够合理度量两个方剂的相似性;这里αi,βi分别是方剂向量;所述的聚类挖掘算法,其采用的是改进的基于节点部分分配的K‑Means算法;算法预先设置一个阈值α,在将节点分配到中心点的时候,对于到所有中心点的距离都超过α的节点,暂时不把它分配到任何中心节点所表示的聚类;这样在一轮分配结束的时候可能会存在一些未被分配的节点。在下一轮分配的时候,从这些节点中在随机选取一些种子节点作为中心点;这样通过不断的迭代,最终数据集中的每个节点都会被分配到合适的分类中;所述的药物顺序重要度,其指的是方剂组成中某一药物的重要程度;其定义为:这里hi是方剂中的第i味药物,I(hi)为药物hi的顺序重要度;药物h在所有方剂中的总重要度定义为:<mrow><mi>I</mi><mrow><mo>(</mo><mi>h</mi><mo>)</mo></mrow><mo>=</mo><munderover><mi>&Sigma;</mi><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><mi>m</mi></munderover><msub><mi>I</mi><mi>i</mi></msub><mrow><mo>(</mo><mi>h</mi><mo>)</mo></mrow><mo>;</mo></mrow>所述的TF‑IDF算法,指的是信息学中的词频‑逆文档频率算法;一个词的权重定义为:这里ni,j是词频,表示单词ti在文件dj出现次数。|D|表示语料库中的文件总数,|{j:ti∈dj}|表示包含单词ti的文件的数目;根据下式计算药物h的权重W(h,x),用于计算药物h在治疗某种病x的权重指数,定义为:<mrow><mi>W</mi><mrow><mo>(</mo><mi>h</mi><mo>,</mo><mi>x</mi><mo>)</mo></mrow><mo>=</mo><mrow><mo>(</mo><msub><mi>&Sigma;</mi><mrow><msub><mi>c</mi><mi>i</mi></msub><mo>&Element;</mo><mi>set</mi><mrow><mo>(</mo><mi>x</mi><mo>)</mo></mrow></mrow></msub><mi>I</mi><mrow><mo>(</mo><mi>h</mi><mo>&Element;</mo><msub><mi>c</mi><mi>i</mi></msub><mo>)</mo></mrow><mo>)</mo></mrow><mo>&times;</mo><mi>log</mi><mrow><mo>(</mo><mfrac><mrow><mo>|</mo><mo>|</mo><mi>all</mi><mo>_</mo><mi>set</mi><mo>|</mo><mo>|</mo></mrow><mrow><msub><mi>&Sigma;</mi><mrow><msub><mi>c</mi><mi>j</mi></msub><mo>&Element;</mo><mi>all</mi><mo>_</mo><mi>set</mi></mrow></msub><mi>count</mi><mrow><mo>(</mo><mi>h</mi><mo>&Element;</mo><msub><mi>c</mi><mi>j</mi></msub><mo>)</mo></mrow></mrow></mfrac><mo>)</mo></mrow><mo>,</mo></mrow>公式前半部分<mrow><mo>(</mo><msub><mi>&Sigma;</mi><mrow><msub><mi>c</mi><mi>i</mi></msub><mo>&Element;</mo><mi>set</mi><mrow><mo>(</mo><mi>x</mi><mo>)</mo></mrow></mrow></msub><mi>I</mi><mrow><mo>(</mo><mi>h</mi><mo>&Element;</mo><msub><mi>c</mi><mtext>i</mtext></msub><mo>)</mo></mrow><mo>)</mo></mrow>为药物在治疗某种病的方剂的词频,后半部分表示整个方剂数据库聚类数除以药物h在整个方剂数据库中出现的权重的商的对数,为药物在方剂数据总库的“逆文档频率”;公式中的count(h∈cj)定义为I(h∈ci)定义为两个子公式中,h表示具体的药物,ci表示方剂的聚类i,f表示某首方剂,||ci||表示方剂聚类ci中包含的方剂的数目,bool(h∈f)表示药物h是否出现在方剂f中,出现为1,不出现为0;count(h∈ci)表示药物h在方剂聚类ci中出现的次数除以方剂聚类的方剂数,值域是[0,1];If(h)为药物h在方剂f中的顺序重要度,定义这里i表示药物h是方剂f的第i味药物;I(h∈ci)表示药物h在方剂聚类ci中的总顺序重要度除以聚类方剂数;set(x)表示治疗病x的所有方剂,all_set表示整个方剂数据库;表示药物h在治疗病x的方剂聚类中出现的权重,为药物“加权词频”。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京大学,未经南京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201510183745.0/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top