[发明专利]一种基于知识表示的生物医学实体链接方法有效

专利信息
申请号: 201910297065.X 申请日: 2019-04-15
公开(公告)号: CN110110324B 公开(公告)日: 2022-12-02
发明(设计)人: 周惠巍;宁时贤;刘壮;郎成堃;刘喆;雷弼尊 申请(专利权)人: 大连理工大学
主分类号: G06F40/30 分类号: G06F40/30;G06F40/295;G06F16/36;G06F16/33;G06N3/04;G06N3/08
代理公司: 大连理工大学专利中心 21200 代理人: 梅洪玉;刘秋彤
地址: 116024 辽*** 国省代码: 辽宁;21
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 知识 表示 生物医学 实体 链接 方法
【说明书】:

发明提供一种基于知识表示的生物医学实体链接方法,属于自然语言处理领域。本发明包括三个步骤:文本预处理、基于生物医学知识库的实体表示学习、基于知识表示的生物医学实体链接。本发明将生物医学知识库中实体间的同一实体多种变体和不同实体同名的结构信息作为向量空间上的约束,采用自动编码机,通过最小化重构误差学习实体标识符ID的向量表示,将生物医学知识库中的实体结构信息转化为知识表示。同时,本发明基于知识表示构建了一个生物医学实体链接模型,融合文本语义表示和实体ID表示实现对实体提及的消歧,提升生物医学实体链接的准确性和可靠性。

技术领域

本发明属于自然语言处理领域,涉及到一种对生物医学文本进行实体链接的方法,特别涉及到基于知识表示和深度神经网络融合的生物医学实体链接。

背景技术

随着计算机技术和生物技术的高速发展,生物医学领域的文献正在以指数方式增长。面对快速增长的海量数据,研究人员迫切希望揭示蕴含于海量的生物医学文献中的生物医学知识,推动生物医学的发展。这一需求推动了生物医学文本挖掘技术的产生与发展。生物医学命名实体链接(Biomedical Named Entity Linking,BioNEL)作为其中的一项重要研究,目的是促进数据的集成(Data integration)和重用(Re-use)。BioNEL是指将文本中的生物医学实体(如蛋白质、基因、疾病和药物等)通过知识库映射为唯一标识符(ID),方便于将文本中的非结构化信息转换为结构化数据。它的本质其实是建立文本中实体提及与知识库中实体之间的映射关系,通过建立文本与知识之间的联系,来帮助生物医学知识库自动填充和实体关系抽取等技术的研究。

生物医学命名实体具有如下特点:1)一词多义(多义词),即相同的词或短语可以表示不同的生物命名实体或概念,如:作为生物实体的CAP就有多种意义如胱氨酸氨基肽酶(cystine aminopeptidase)、衣壳蛋白(capsid)、环化酶相关蛋白(cyclase-associatedprotein)和钙激活蛋白(calcium activated protease-Q9UQC9)等;2)多词一义(同义词),即同一生物医学实体具有多种变体。如:PTGS2,cyclooxygenase-2,prostaglandin-endoperoxide synthase 2,COX2均表示前列腺素过氧化物合成酶。除此之外,生物医学命名实体的缩写被大量使用且不规范,命名方式复杂多样没有统一标准,这都使得生物医学命名实体链接变得困难。

目前,解决BioNEL的方法主要有基于词典的方法,基于向量的方法,基于传统机器学习的方法,以及基于深度学习的方法。

基于词典的方法是通过字符匹配和一些启发式规则从文本中识别词典中的生物医学实体ID。简单的字符匹配方法可以获得较高的精确率,但是召回率极低。这种情况大多跟上述生物医学命名实体的特点有关。同时,此方法严重依赖词典的完整性和规则的设计,难以被应用于新的领域。

基于向量的方法是将实体提及(Entity Mention)和所有候选实体映射到公共向量空间,然后对每个候选实体定义一个评分度量进行排序(如余弦相似度、欧氏距离、编辑距离、主题相似度、实体流行度等),选取排序第一的候选作为实体提及的链接结果。Leaman等人(DNorm:disease name normalization with pairwise learning to rank,2013,Bioinformatics,29(22):2909-2917)提出DNorm系统,采用向量空间模型来表示医学实体,并使用相似性矩阵来衡量实体提及和候选实体的相似程度。他们在NCBI疾病数据集上取得了0.782的F值,高于基于词典的方法。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于大连理工大学,未经大连理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201910297065.X/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top