[发明专利]基于复杂网络模型并行化标签传播算法的药物社团发现方法有效

专利信息
申请号: 201210111171.2 申请日: 2012-04-16
公开(公告)号: CN102663108A 公开(公告)日: 2012-09-12
发明(设计)人: 王崇骏;刘正;杨鸿超;孙道平;谢俊元 申请(专利权)人: 南京大学
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 南京天翼专利代理有限责任公司 32112 代理人: 汤志武
地址: 210093 江*** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 复杂 网络 模型 并行 标签 传播 算法 药物 社团 发现 方法
【权利要求书】:

1.一种基于复杂网络模型并行化标签传播算法的药物社团发现方法,其特征在于,包括如下步骤:

1)组网阶段:

a预处理以生成中药数据集,格式化为初始文本数据;

b将初始文本数据部署至Hadoop平台;

c并行化组建中药药物网络,该网络以药物为节点,将SCAB大于给定阈值的节点连边;

d结束。

2)挖掘阶段:

a获取步骤1)-c处理生成的中药药物网络文本文件;

b将上述中药药物网络文本文件部署至Hadoop平台;

c实施并行化标签传播算法,即采用MapReduce框架并行化的标签传播算法,利用节点邻居信息迭代更新自身标签,以发现药物社团;

d)结束。

2.根据权利要求1所述的基于复杂网络模型并行化标签传播算法的药物社团发现方法,其特征在于,其中步骤1)-a中所说的预处理为抽取中药复方数据中所有复方的药物组成。

3.根据权利要求1所述的基于复杂网络模型并行化标签传播算法的药物社团发现方法,其特征在于,其中步骤1)-b中所说的部署为将步骤1)-a生成的初始文本数据上传至Hadoop平台的分布式文件系统。

4.根据权利要求1所述的基于复杂网络模型并行化标签传播算法的药物社团发现方法,其特征在于,其中步骤1)-c的具体过程如下:

1)为每个中药复方,即一行文本数据,设定一个唯一标识ID

2)建立从药物到复方标识ID之间的倒排索引;

3)为每个药物设定唯一药物标识id,其中包含该药物在复方中出现的频次;

4)对倒排索引进行还原,即再次实行倒排索引算法,每行复方读入此次任务的某个Map函数中,还原中药复方文本数据;

5)每个Map函数读取一行文本,解析出药物节点信息;

6)判断该Map函数中的复方所含药物还能否两两组建联合键值<Key,Value>,是则执行7),否则执行8);

7)组建联合键值<Key,Value>;

8)<Key,Value>经过shuffle&&sort发送到Reduce中,Reduce接收相同Key下组成的[Value]数组,按照下式计算两两药物间度量,将大于设定阈值的药对写入文件并保存至分布式文件系统中

其中|FA∩FB|表示药物A、B一起组方的次数,min{|FA|,|FB|}表示药物A、B中组方次数较少的药物的出现次数,而SCAB表示药物A、B共现次数与最少出现药物次数的比率;

9)读取6)中生成的药对文件,即药物复杂网络的边集,格式化为邻接表形式保存中药网络拓扑结构;

10)结束。

5.根据权利要求1所述的基于复杂网络模型并行化标签传播算法的药物社团发现方法,其特征在于,步骤2)-c中并行化标签传播算法总过程是基于迭代式的,迭代终止条件是各节点标签基本稳定,其中并行化标签传播算法的一次迭代过程具体如下:

1)为每个药物节点设置唯一的初始标签id;

2)每个Map函数从HDFS读取一行文本,存入Value变量中;

3)解析Value变量中的数据,用临时数组Tmp[0]保存节点id,Tmp[1]保存邻接表AdjList及Label;

4)发送节点数据结构;

5)判断Label中是否只含有一个标签,即首次迭代,执行6),否则执行7);

6)令变量V=标签1;

7)令变量V=标签1&&标签2,其中标签1表示t-1次迭代的标签和标签2表示t-2次迭代的标签;

8)令变量i=0;

9)判断i是否小于AdjList.1ength,是则执行步骤10,否则执行步骤12

10)发送<AdjList.get(i),V>

11)i自增1,执行8);

12)Map过程结束,Hadoop执行shuffle&&sort;

13)Reduce解析[Value]数组,分别用数据结构AdjLabelPA保存节点结构,临时链表ls1,ls2分别保存每个传递过来的l1、l2的值(如果有两个标签,否则ls2为空)

14)根据下式找出新的节点标签;

Cx(t)=f(Cx1(t-1),...,Cxk(t-1),w*Cx1(t-2),...,w*Cxk(t-2))]]>

15)其中表示t-1次迭代xk节点的标签,f函数返回的是邻居节点传递过来频次最多的标记;

16)更新AdjLabel中的t-1标签和t标签分别为Cx(t-1)与Cx(t);

17)保存此次迭代的结果至分布式文件系统中;

18)结束。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京大学,未经南京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201210111171.2/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top