[发明专利]基于复杂网络模型并行化标签传播算法的药物社团发现方法有效

申请号：	201210111171.2	申请日：	2012-04-16
公开（公告）号：	CN102663108A	公开（公告）日：	2012-09-12
发明（设计）人：	王崇骏;刘正;杨鸿超;孙道平;谢俊元	申请（专利权）人：	南京大学
主分类号：	G06F17/30	分类号：	G06F17/30
代理公司：	南京天翼专利代理有限责任公司 32112	代理人：	汤志武
地址：	210093 江***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于复杂网络模型并行标签传播算法药物社团发现方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于复杂网络模型并行化标签传播算法的药物社团发现方法，其特征在于，包括如下步骤：

1)组网阶段：

a预处理以生成中药数据集，格式化为初始文本数据；

b将初始文本数据部署至Hadoop平台；

c并行化组建中药药物网络，该网络以药物为节点，将SC_AB大于给定阈值的节点连边；

d结束。

2)挖掘阶段：

a获取步骤1)-c处理生成的中药药物网络文本文件；

b将上述中药药物网络文本文件部署至Hadoop平台；

c实施并行化标签传播算法，即采用MapReduce框架并行化的标签传播算法，利用节点邻居信息迭代更新自身标签，以发现药物社团；

d)结束。

2.根据权利要求1所述的基于复杂网络模型并行化标签传播算法的药物社团发现方法，其特征在于，其中步骤1)-a中所说的预处理为抽取中药复方数据中所有复方的药物组成。

3.根据权利要求1所述的基于复杂网络模型并行化标签传播算法的药物社团发现方法，其特征在于，其中步骤1)-b中所说的部署为将步骤1)-a生成的初始文本数据上传至Hadoop平台的分布式文件系统。

4.根据权利要求1所述的基于复杂网络模型并行化标签传播算法的药物社团发现方法，其特征在于，其中步骤1)-c的具体过程如下：

1)为每个中药复方，即一行文本数据，设定一个唯一标识ID

2)建立从药物到复方标识ID之间的倒排索引；

3)为每个药物设定唯一药物标识id，其中包含该药物在复方中出现的频次；

4)对倒排索引进行还原，即再次实行倒排索引算法，每行复方读入此次任务的某个Map函数中，还原中药复方文本数据；

5)每个Map函数读取一行文本，解析出药物节点信息；

6)判断该Map函数中的复方所含药物还能否两两组建联合键值<Key，Value>，是则执行7)，否则执行8)；

7)组建联合键值<Key，Value>；

8)<Key，Value>经过shuffle&&sort发送到Reduce中，Reduce接收相同Key下组成的[Value]数组，按照下式计算两两药物间度量，将大于设定阈值的药对写入文件并保存至分布式文件系统中

其中|F_A∩F_B|表示药物A、B一起组方的次数，min{|F_A|，|F_B|}表示药物A、B中组方次数较少的药物的出现次数，而SC_AB表示药物A、B共现次数与最少出现药物次数的比率；

9)读取6)中生成的药对文件，即药物复杂网络的边集，格式化为邻接表形式保存中药网络拓扑结构；

10)结束。

5.根据权利要求1所述的基于复杂网络模型并行化标签传播算法的药物社团发现方法，其特征在于，步骤2)-c中并行化标签传播算法总过程是基于迭代式的，迭代终止条件是各节点标签基本稳定，其中并行化标签传播算法的一次迭代过程具体如下：

1)为每个药物节点设置唯一的初始标签id；

2)每个Map函数从HDFS读取一行文本，存入Value变量中；

3)解析Value变量中的数据，用临时数组Tmp[0]保存节点id，Tmp[1]保存邻接表AdjList及Label；

4)发送节点数据结构；

5)判断Label中是否只含有一个标签，即首次迭代，执行6)，否则执行7)；

6)令变量V＝标签1；

7)令变量V＝标签1&&标签2，其中标签1表示t-1次迭代的标签和标签2表示t-2次迭代的标签；

8)令变量i＝0；

9)判断i是否小于AdjList.1ength，是则执行步骤10，否则执行步骤12

10)发送<AdjList.get(i)，V>

11)i自增1，执行8)；

12)Map过程结束，Hadoop执行shuffle&&sort；

13)Reduce解析[Value]数组，分别用数据结构AdjLabelPA保存节点结构，临时链表ls₁，ls₂分别保存每个传递过来的l₁、l₂的值(如果有两个标签，否则ls₂为空)

14)根据下式找出新的节点标签；

Cx(t)=f(Cx1(t-1),...,Cxk(t-1),w*Cx1(t-2),...,w*Cxk(t-2))]]>

15)其中表示t-1次迭代x_k节点的标签，f函数返回的是邻居节点传递过来频次最多的标记；

16)更新AdjLabel中的t-1标签和t标签分别为C_x(t-1)与C_x(t)；

17)保存此次迭代的结果至分布式文件系统中；

18)结束。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于南京大学，未经南京大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201210111171.2/1.html，转载请声明来源钻瓜专利网。

上一篇：数显拉力传感式的孔洞率测试仪及其检测方法
下一篇：弯扭组合实验机

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F17-00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法
G06F17-10 .复杂数学运算的
G06F17-20 .处理自然语言数据的
G06F17-30 .信息检索；及其数据库结构
G06F17-40 .数据的获取和记录
G06F17-50 .计算机辅助设计

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于复杂网络模型并行化标签传播算法的药物社团发现方法有效

专利文献下载