[发明专利]联合attention机制与神经网络的生物医学实体关系分类方法在审
申请号: | 201810554915.5 | 申请日: | 2018-06-01 |
公开(公告)号: | CN108875809A | 公开(公告)日: | 2018-11-23 |
发明(设计)人: | 林鸿飞;郑巍 | 申请(专利权)人: | 大连理工大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 大连智高专利事务所(特殊普通合伙) 21235 | 代理人: | 刘斌 |
地址: | 116023 辽*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 生物医学 实体关系 分类 神经网络 构建 向量 单词 句子 解析 数据挖掘技术 分类模型 分类问题 关系分类 候选实体 基本单位 模型输入 文本处理 重要影响 权重 加权 嵌入 联合 清晰 | ||
一种联合attention机制与神经网络的生物医学实体关系分类方法,属于生物医学和数据挖掘技术领域,用以解决生物医学实体关系分类问题,要点是包括S1、基于指代解析的文本处理;S2、构建基于attention机制的模型输入向量;S3、构建基于双向LSTM的生物医学实体关系分类模型;S4、利用关系分类模型进行生物医学实体关系分类。本发明针对生物文献中的句子设计了基于following的指代解析,然后从构成句子的基本单位单词出发,利用attention机制加权于单词的嵌入向量,突出对生物医学实体关系分类有重要影响的关键词的权重,使候选实体间的关系更清晰明了,进行生物医学实体关系分类。
技术领域
本发明涉及生物医学和数据挖掘技术领域,尤其是一种联合attention机制与神经网络的生物医学实体关系分类方法。
背景技术
随着数据驱动的生物信息学的发展,通过计算方法发现和预测生物医学实体间的关系成为一种趋势。基于计算的文本挖掘方法能从大量可用的生物数据库和非结构化文本中发现模式和知识。目前,海量的最新的非结构化数据隐藏在专业数据库或科学文献里。于是,利用文本挖掘技术从文献和数据库中检测和预测生物医学实体关系是一条有效且可行的途径。此外,这也能自动化实现由手工完成的数据库标注过程,还有助于生物医学图谱的构建。
传统的从文本中挖掘生物医学实体关系研究主要利用统计机器学习理论中的机器学习方法如支持向量机SVM。这些方法依赖于精心设计的核或者仔细设计的特征。特征的设计需要领域专家,而且还是一个以反复实验为基础的劳动密集型的技巧性工作。此外,这些方法对未遇见词的泛化能力有限。当前,基于神经网络的方法能够通过构建简单的非线性模型自动地学习非结构化文本的多级别表示,在自然语言处理领域的各项任务里已经显示了它的潜力。目前有两个主要的神经网络架构即卷积神经网络和循环神经网络。前者更适用于学习连续的局部模式。后者虽然可学习不连续的全局模式,但其具有偏置特性,即后输入的信息对目标更占优势。
然而,由于生物医学文献文本一般长句且复杂丛句居多,而且具有科学语言的特性。而且,对最终关系重要的词却并不一定出现在句子的后部。虽然上述的不同文本挖掘方法探索了各种方法分类生物医学实体间的交互关系,但是在长复杂句居多的生物医学实体交互分类性能上还不是很令人满意。
发明内容
本发明的目的是提供一种基于attention机制的神经网络架构对生物医学文献中已标注实体间的关系进行更为准确且有效地关系分类方法。
本发明解决现有技术问题所采用的技术方案:一种联合attention机制与神经网络的生物医学实体关系分类方法,包括以下步骤:
S1、基于指代解析的文本处理:采集公开已标注的数据集,利用文本处理技术、指代解析和剪枝技术对句子进行处理,其处理方法如下:
A1、初始处理:一个特殊的符号代替不属于生物医学实体子串的数字子串。删除不包含候选实体的括号;为了方法的泛化,所有的生物医学实体用entity*代替,其中*表示0,1,2,…;删除仅仅包含一个实体的句子或者两个实体具有同样符号的句子;
A2、基于following的指代处理解析:对于生物文献文本中带有冒号“:”的包含“following[指代词]”的句子模式,如果候选对中的两个实体分别位于冒号“:”的两边,利用如下的规则进行替换,其中[w]*表示一个或多个单词符号:
句型1:entity1[w]*following[cataphora word]:[w]*entity2[w]*.
规则1:entity1[w]*following entity2.
句型2:[w]*following[cataphora word][w]*entity2:[w]*entity1[w]*.
规则2:[w]*following entity1[w]*entity2.
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于大连理工大学,未经大连理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810554915.5/2.html,转载请声明来源钻瓜专利网。