[发明专利]基因本体项名称生成方法、装置及存储介质有效
申请号: | 202011135040.9 | 申请日: | 2020-10-22 |
公开(公告)号: | CN112509640B | 公开(公告)日: | 2022-08-19 |
发明(设计)人: | 魏忠钰;张言健;陈琴 | 申请(专利权)人: | 复旦大学 |
主分类号: | G16B50/10 | 分类号: | G16B50/10;G16B40/00;G06N3/04 |
代理公司: | 苏州隆恒知识产权代理事务所(普通合伙) 32366 | 代理人: | 周子轶 |
地址: | 200433 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基因 本体 名称 生成 方法 装置 存储 介质 | ||
本发明的目的是提供一种基因本体项名称生成方法方法、装置及存储介质,所述基因本体项名称生成方法,所述方法包括:获取基因文本信息,所述基因文本信息至少包括目标基因本体项关联的至少一组基因信息,每组所述基因信息至少包括基因简称、基因别名、基因描述;至少根据所述基因信息中的单词、所述基因别名和描述、所述目标基因本体项的关联特性,确定所述目标基因本体项名称,避免人为命名造成的低效和不一致问题。
技术领域
本发明涉及生物学领域,尤其涉及一种基因本体项名称生成方法、装置及存储介质。
背景技术
一种数据集,基因本体(Gene Ontology,GO),中包含的基因本体项有很多广泛应用于生物学和生物医学。基因本体(Gene Ontology,GO)是一种应用广泛的生物本体论,包含了大量描述基因功能的基因本体项,可以进行分子功能、生物过程和细胞成分三个方面的描述。所述基因本体项像树形结构一样按照层次结构组织,可以用于注释基因。由于基因本体在蛋白质功能分析和疾病关联预测等诸多应用领域的巨大价值,基因本体在生物医学和生物学研究领域得到了广泛的研究。
基因本体的一个主要关注点是基因本体的构建,包括所述基因本体项发现、命名和组织等。通常,所述基因本体项命名是由特定生物学领域的专家手工定义和组织的,鉴于每年出版的大量生物学文献,比较费时和低效的。此外,不同的专家可能会使用不同的表达来描述相同的生物学概念,从而造成所述基因本体项命名的不一致问题。
发明内容
本说明书实施方式的目的是提供一种基因本体项名称生成方法、装置及存储介质,能够根据目标基因本体项对应的基因,通过获取所述基因文本信息,生成所述目标基因本体项名称,避免人为命名造成的低效和不一致问题。
为实现上述目的,本说明书实施方式提供了一种基因本体项名称生成方法,所述方法包括:获取基因文本信息,所述基因文本信息至少包括目标基因本体项关联的至少一组基因信息,每组所述基因信息至少包括基因简称、基因别名、基因描述;至少根据所述基因信息中的单词、所述基因简称、所述目标基因本体项的关联特性,确定所述目标基因本体项名称。
在一个实施方式中,在至少根据所述基因信息中的单词、所述基因简称、所述目标基因本体项的关联特性,确定所述目标基因本体项名称的步骤中,包括:构建异构图;其中,所述异构图的节点用于表示所述基因信息中的单词、或所述基因简称、或所述目标基因本体项;所述异构图的边表示所述基因信息中的单词、所述基因简称、所述目标基因本体项之间的关联特性。
在一个实施方式中,在至少根据基因信息中的单词、所述基因简称、所述目标基因本体项的关联特性,确定所述基因本体项名称的步骤中,包括:基于图卷积网络(GraphConvolutional Network,GCN),进行编码,以更新所述节点。
在一个实施方式中,在至少根据所述基因信息中的单词、所述基因简称、所述目标基因本体项的关联特性,确定所述目标基因本体项名称的步骤中,包括:基于解码器,逐个生成目标词,以形成所述目标基因本体项名称。
在一个实施方式中,所述异构图的边的至少包括以下之一:所述单词与所述基因别名和描述的边;或,所述基因简称与所述目标基因本体项的边。
在一个实施方式中,确定所述目标基因本体项名称的步骤中还包括:获取样本数据集;其中,所述样本数据集包括至少一个样本基因本体项名称,以及所述样本基因本体项名称对应的至少一组基因信息;根据所述样本数据集,以及根据所述基因信息中的单词、所述基因简称、所述目标基因本体项的关联特性,确定所述目标基因本体项名称。
在一个实施方式中,所述样本数据集至少包括:训练集、验证集和测试集;其中,所述训练集、所述验证集和所述测试集的词汇量比例为8:1:1。
在一个实施方式中,确定所述目标基因本体项名称的步骤中还包括:根据预设阈值,在所述基因信息中的单词组成的二元组或三元组出现次数大于等于所述阈值时,将该二元组或三元组作为新词。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于复旦大学,未经复旦大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011135040.9/2.html,转载请声明来源钻瓜专利网。