[发明专利]基于神经网络和自注意力机制的医学实体关系抽取方法在审
申请号: | 202110316876.7 | 申请日: | 2021-03-23 |
公开(公告)号: | CN112883738A | 公开(公告)日: | 2021-06-01 |
发明(设计)人: | 李天瑞;张世豪;贾真;杜圣东;滕飞 | 申请(专利权)人: | 西南交通大学 |
主分类号: | G06F40/295 | 分类号: | G06F40/295;G06F16/35;G06F16/36;G06N3/04 |
代理公司: | 成都盈信专利代理事务所(普通合伙) 51245 | 代理人: | 崔建中 |
地址: | 611756 四川省成都市高*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 神经网络 注意力 机制 医学 实体 关系 抽取 方法 | ||
本发明公开了一种基于神经网络和自注意力机制的医学实体关系抽取方法,该方法包括:利用向量表示技术将医学文本语句向量化;利用双向长短期记忆网络学习医学文本语句的上下文信息和浅层语义特征;利用多通道自注意力机制学习医学文本语句的深层次全局语义特征;利用卷积神经网络学习医学文本语句的局部短语特征;将全局信息和局部信息进行拼接,用其进行关系判定,得到预测标签。本发明在“recurrent+CNN”网络框架的基础上引入多通道自注意力机制,可以同时捕获语句的上下文信息、局部信息和全局信息,从而对医学文本的语义特征进行深入挖掘,从多个方面深度、完整地表示语句的语义特征,从而提高关系抽取的效果。
技术领域
本发明属于自然语言处理技术领域,特别是一种基于神经网络和自注意力机制的医学实体关系抽取方法。
背景技术
随着医学信息化的推进,医学领域已经积累了海量的非结构化文本数据,这其中包含了大量有价值的信息。如何从这些医学文本中挖掘出有效的信息并加以存储管理,以构建大规模、高质量的医学知识图谱,对医学信息化的发展具有重大意义,也是自然语言处理领域的研究热点。实体关系抽取作为医学文本结构化信息抽取的核心任务之一,旨在从非结构化文本中自动地抽取出实体对之间的语义关系,从而提取出有效的语义信息。
传统的医学实体关系抽取方法包括基于规则的方法、基于特征向量的方法和基于核函数的方法。基于规则的方法使用句子分析工具来识别文本中的句法元素,然后根据这些元素构建模式规则,并根据规则进行关系抽取。基于特征向量的方法主要是根据特征向量的相似度训练支持向量机、最大熵、条件随机场等机器学习模型进行关系抽取。基于核函数的方法通过设计特定核函数来计算句子之间的相似度,根据相似度进行关系的分类。这些方法虽然都取得了一定的效果,但需要依赖人工设计的规则或特征,从而使得模型的性能取决于人工手动设计的规则或特征的质量。近年来,随着深度学习的发展,以神经网络为主的方法被应用到关系抽取任务中,并取得了很多研究成果。该方法不依赖人工设计特征,完全由神经网络自动学习相关的所有特征。
目前,以卷积神经网络和循环神经网络为代表的深度学习方法在医学实体关系抽取任务上取得了突破。卷积神经网络能够捕获语句中的局部信息,但忽略了全局信息的作用。循环神经网络可以有效学习文本序列的上下文依赖关系,但无法挖掘句法和语义层面的特征。以循环神经网络和卷积神经网络相结合的“recurrent+CNN”网络框架是医学实体关系抽取任务中的主流基准模型,可以同时捕获语句的上下文信息和局部信息。因医学领域的特殊性,医学文本存在实体分布密度较高、语句长度分布不均等现象,使得“recurrent+CNN”网络框架无法深入挖掘医学文本语句的语义特征,并且不能处理过长的医学语句的长距离依赖问题。基于此,本发明采用一种基于神经网络和自注意力机制的关系抽取模型BLSTM-MCatt-CNN,该模型采用“recurrent+CNN”网络框架,其中的recurrent利用BLSTM来捕获医学文本语句的上下文信息和浅层语义特征,利用CNN捕获医学文本语句的局部短语特征,并结合多通道自注意力机制捕获医学文本语句的全局信息,对医学文本的语义特征进行深入挖掘,同时能有效地捕获长距离依赖。
发明内容
为了解决医学文本存在实体分布密度较高、语句长度分布不均等导致的抽取效果不佳的问题,本发明提出了一种基于神经网络和自注意力机制的关系抽取模型。该模型利用BLSTM来捕获医学文本语句的上下文信息和浅层语义特征,利用CNN捕获医学文本语句的局部短语特征,并结合多通道自注意力机制捕获医学文本语句的全局信息,对医学文本的语义特征进行深入挖掘,同时处理长距离依赖。
基于神经网络和自注意力机制的医学实体关系抽取方法,包括以下步骤:
步骤1:将含有两个实体的医学文本语句序列X向量化,得到输入特征向量W,具体为:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西南交通大学,未经西南交通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110316876.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种高效环保型工业刷轮机构
- 下一篇:多功能采样鼓自动涂胶装置