[发明专利]生物医疗知识图谱的构建装置、方法、系统及存储器在审
申请号: | 202010503855.1 | 申请日: | 2020-06-05 |
公开(公告)号: | CN111782818A | 公开(公告)日: | 2020-10-16 |
发明(设计)人: | 郑双佳;牛张明;饶家华 | 申请(专利权)人: | 牛张明;韦德·门佩斯-史密斯 |
主分类号: | G06F16/36 | 分类号: | G06F16/36;G16B40/00;G16C20/70;G16H50/70 |
代理公司: | 上海智晟知识产权代理事务所(特殊普通合伙) 31313 | 代理人: | 张东梅 |
地址: | 浙江省杭州市钱塘*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 生物 医疗 知识 图谱 构建 装置 方法 系统 存储器 | ||
1.一种生物医疗知识图谱的构建方法,包括:
从知识图谱中提取所有疾病、药物与基因实体;
为所提取的实体获取特征属性;以及
将得到的特征属性加载到知识图谱中。
2.如权利要求1所述的生物医疗知识图谱的构建方法,其特征在于,从知识图谱中提取所有疾病、药物与基因实体包括:
对于疾病实体,根据知识图谱中疾病名称与词库进行匹配提取出所有符合标准的疾病实体,并且为疾病实体提供标准化的疾病名称、疾病类别;
对于药物实体,获取对应药物的名称、SMILES序列;
对于基因实体,以Connectivity Map和BioGPS数据库存在表达量的基因为词库,提取图中所有符合标准的基因实体。
3.如权利要求1所述的生物医疗知识图谱的构建方法,其特征在于,为所提取的实体获取特征属性包括:
对于疾病实体,提取出具有语义特征的疾病特征属性;
对于药物实体,提取出具有药物特性的药物特征属性;以及
对于基因实体,提取出具有描述表达情况的基因特征属性。
4.如权利要求3所述的生物医疗知识图谱的构建方法,其特征在于,对于药物实体,通过药物所对应的SMILES序列,利用化学开源工具包RDKit,得到该药物的化学性质、物理性质、化学描述符以及分子指纹,作为该药物实体的特征属性。
5.如权利要求1所述的生物医疗知识图谱的构建方法,其特征在于,将得到的特征属性加载到知识图谱中包括:通过主成分分析PCA技术对不同实体的特征属性矩阵分别做降维处理,得到统一维度为的特征属性矩阵。
6.如权利要求1所述的生物医疗知识图谱的构建方法,其特征在于,将得到的特征属性加载到知识图谱中包括:
疾病特征属性矩阵为XD;药物特征属性矩阵为XC;基因实体的特征属性矩阵为XG;对于这些不同实体的特征属性矩阵XD,XC,XG,首先分别进行去均值化得到X′D,X′C,X′G,并计算协方差矩阵CD,CC,CG;
计算协方差矩阵的特征值λ及对应的特征向量
将特征值按照从大到小的顺序排序,选择其中最大的k个,将其对应的k个特征向量分别作为列向量组成特征向量矩阵P,作为输入的特征属性矩阵YD,YC,YG,将实体特征属性投影到选取的特征向量上,得到统一维度为N×K的特征属性矩阵YD,YC,YG,以作为输入加载到知识图谱中。
7.一种生物医疗知识图谱的构建装置,所述装置包括:
处理器;
用于存储所述处理器的可执行指令的存储器;
其中,所述处理器被配置为执行如权利要求1至6任一项所述方法的步骤。
8.一种非临时性计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至6任一项所述方法的步骤。
9.一种利用权利要求1-6中任一项所述方法构建的生物医疗知识图谱进行实体间链接预测任务的方法,包括:
接收知识图谱中所有实体的特征属性矩阵;
应用多头注意力机制的GAT公式从邻居实体收集信息,并学习实体间关系的特征;
根据学习到的实体间关系的特征得到相对注意力值;
根据实体间关系的特征和相对注意力值,得到多头注意力更新之后的实体的嵌入表示,从而得到更新后的结点、关系的嵌入表示。
10.一种生物医疗知识图谱的构建系统,包括:
实体提取单元,所述实体提取单元从知识图谱中提取所有疾病、药物与基因实体;
特征属性获取单元,所述特征属性获取单元为所提取的实体获取特征属性;以及
特征属性加载单元,所述特征属性加载单元将得到的特征属性加载到知识图谱中。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于牛张明;韦德·门佩斯-史密斯,未经牛张明;韦德·门佩斯-史密斯许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010503855.1/1.html,转载请声明来源钻瓜专利网。