[发明专利]一种构建基因相互作用网络的方法无效
申请号: | 201010214005.6 | 申请日: | 2010-06-29 |
公开(公告)号: | CN102270208A | 公开(公告)日: | 2011-12-07 |
发明(设计)人: | 曾华宗 | 申请(专利权)人: | 上海聚类生物科技有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06Q50/00 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 200333 上海市*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 构建 基因 相互作用 网络 方法 | ||
技术领域
本发明属于生物技术领域,涉及一种基于文献挖掘技术进行基因之间相互作用关系研究的方法。
背景技术
Gene(基因)是编码蛋白质或RNA(核糖核酸)等具有特定功能产物的遗传信息的基本单位,是染色体或基因组的一段DNA(脱氧核糖核酸)序列,对以RNA作为遗传信息载体的RNA病毒而言,基因则是RNA序列。包括编码序列(外显子)、编码区前后对于基因表达具有调控功能的序列和单个编码序列间的间隔序列(内含子)。从生物进化的角度来讲,基因又称为遗传因子,它是生物遗传变异的物质基础,是DNA(或RNA)分子上具有遗传信息的特定核苷酸序列的总称,是具有遗传效应的DNA(或RNA)分子片段。基因通过复制把遗传信息传递给下一代,使后代出现与亲代相似的性状。人类大约有几万个基因,储存着生命孕育生长、凋亡过程的全部信息,通过复制、表达、修复,完成生命繁衍、细胞分裂和蛋白质合成等重要生理过程。基因是生命的密码,记录和传递着遗传信息。生物体的生、长、病、老、死等一切生命现象都与基因有关。它同时也决定着人体健康的内在因素,与人类的健康密切相关。
基因存在于生物体内的功能之一便是翻译蛋白质,通过蛋白质活性的表现,决定生物体的表型。换而言之,生物的各种性状几乎都是基因之间相互作用、调控各个基因表达的结果。所谓基因之间的相互作用,是指不同基因之间存在的表达调控关系,一般都是一个基因的表达产物作用于另一个基因,影响另一个基因的转录、翻译等过程。
为研究基因之间相互作用关系,本发明所述方法引入了一项NLP(自然语言处理)的计算机技术。NLP(Natural Language Processing)是人工智能的一项新型技术,也是很困难的一项。它依赖于高效率的计算机,通过不断的机器学习,实现对海量自然语言文档的高效处理,从中提取我们需要的信息。在生物学研究中引入NLP技术研究基因之间的相互作用,可通过检索海量已经报道的文献的关键词、摘要等信息,提取出我们需要的文献信息,以节省大量重复实验所耗费的经费与时间。
发明内容
本发明所述的方法的一大特点便是将NLP技术用于研究基因之间的相互作用关系,并以此构建基因相互作用网络,该方法实施的基本流程为:
步骤1、文档搜索及格式化。
步骤2、将文档分离成单个句子,作为后续分析基本单位。
步骤3、基因描述的定位
步骤4、统一基因描述中使用的基因符号。
步骤5、建立基因互作动词词典
步骤6、生成需要研究基因的同义词字典,并从上述句子中提取出基因的描述。
步骤7、统计分析基因名、基因互作动词和需要研究的基因同时出现的句子,整理成列表。
步骤8、构建相互作用关系网络。
附图说明
图1、本发明所述方法的实施流程图
实施方式
本发明将以MAPK(促分裂素原活化蛋白激酶)基因的相互作用关系网络的构建为例,介绍本发明所述方法的具体实施步骤。
步骤1、利用关键词MAPK从Pubmed数据库
(http://www.ncbi.nlm.nih.gov/pubmed)中搜索相关文献,下载到本地,并整理成XML格式。
步骤2、下载基于java环境的Lingpipe工具包(http://alias-i.com/lingpipe/),利用它的Sentence tokenlization工具将搜索到的摘要文本分离成单个句子,整理成文档保存,作为后续分析的基本单位。
步骤3、应用ABNER软件进行人类基因的描述的定位,并提取出基因,对于提取的基因的描述中,多个基因缩写到一起的将被分离,如“STAT3/5 gene”将被解析成STAT3 gene和STAT5 gene。
步骤4、因为搜索到的文献中对于基因名字的书写格式大多不同,为了分析的方便和准确,需要将文献中的基因符号统一为官方的基因符号,这里我们以NCBI(www.ncbi.nlm.nih.gov/)的Entrez gene数据库为准。
步骤5、建立一个基因互作的动词词典,包含如repress,regulate,inhibit,interact,phosphorylate,downregulate,upregulate等所有动词及其变型。词典取材自BioNLP项目(http://bionlp.sourceforge.net/),然后利用Lingpipe工具包分离句子中基因互作的动词。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海聚类生物科技有限公司,未经上海聚类生物科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201010214005.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:光学式位置检测装置、机械手及机械臂
- 下一篇:夹头