[发明专利]一种基于候选事件元素注意力机制的生物事件抽取方法有效
申请号: | 201810572450.6 | 申请日: | 2018-06-06 |
公开(公告)号: | CN108897989B | 公开(公告)日: | 2020-05-19 |
发明(设计)人: | 王健;王安然;林鸿飞 | 申请(专利权)人: | 大连理工大学 |
主分类号: | G16B40/00 | 分类号: | G16B40/00;G06F16/36;G06N3/04;G06N3/08 |
代理公司: | 大连星海专利事务所有限公司 21208 | 代理人: | 王树本;徐雪莲 |
地址: | 116024 辽*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 候选 事件 元素 注意力 机制 生物 抽取 方法 | ||
本发明涉及一种生物事件抽取方法,一种基于候选事件元素注意力机制的生物事件抽取方法,包括以下步骤:(1)训练语料预处理,(2)使用PubMed数据库语料进行词向量训练,(3)构建序列的分布式表示方式,(4)构造基于BiLSTM‑Attention的特征表示方式,(5)使用CRF学习、获取当前文档序列的最优序列标注结果,(6)生物事件抽取。本发明方法具有以下优点:一是采用序列标注的方式进行针对触发词的事件元素识别,可以对一个触发词识别多个事件元素,二是构建了针对候选事件元素的Attention层,相比于传统的序列标注方法可以增加对候选事件元素的注意力权重,三是简化了生成事件的步骤。
技术领域
本发明涉及一种生物事件抽取方法,更具体的说,涉及一种基于候选事件元素注意力机制的生物事件抽取方法。
背景技术
在生物信息领域上,事件是指一个或多个生物医学实体(如:蛋白质,细胞和化学物质)状态的改变。而这些改变对于理解生物学的过程和功能,以及对生理和发病机制的深入理解有着重要意义。自动创建这些文本描述的结构化表示不仅可以在信息检索和问答系统中构造由此类事件组成的生物网络,还可以用于知识发现,找到生物实体之间新的关联。
生物事件抽取任务旨在从文本中获取生物事件信息并结构化表示。通过确定文本中语段的事件类型,然后找到该事件对应的事件元素。由于事件元素仅可以是文本中的实体,所以生物事件抽取主要包括三个步骤,第一步识别文本中的实体,第二步确定事件触发词来获取事件的类型,第三步根据触发词找到其对应事件的事件元素。生物事件抽取训练语料一般为每个文档提供两类标注信息:实体标注信息和事件标注信息。其中实体信息包括文档中的实体对应的偏移量和类别;事件标注信息包含两个部分,触发词信息和事件信息。触发词标注形式与实体标注形式相同;事件信息包含:事件类别以及对应的触发词,事件元素的类别以及对应的实体或事件。
以往进行生物事件抽取的方法主要是基于分类模型,将同一句子中的触发词和实体构建二元关系对(如果用触发词来代表事件的话,还要构建触发词-触发词关系),然后对关系进行分类,从而确定实体或触发词是否属于该触发词触发的事件,以及该实体的事件元素类型。
这样的方法存在着几个弊端。首先,因为生物语料中存在大量的生物实体和事件嵌套的情况,这种构建二元关系对的方式会产生大量的负样本,造成正负样本比例失衡的问题,不利于分类器学习。另一方面,生物领域的事件相比于通用领域来说,事件粒度更小,而且存在复杂的事件嵌套关系。事件元素之间并不是孤立的。对于含有多个元素以及嵌套的事件(如调控和绑定事件),事件元素之间往往存在关联,单独考虑二元关系对的方式不能有效利用事件元素之间的相互信息。最后,对于多元素的事件,基于二元关系分类的方式还要进行后处理才能生成多元素的事件,不同的后处理方法也会对事件抽取的结果造成影响。
发明内容
为克服现有技术针对二元分类实现事件元素识别方法存在的问题,本发明提供一种基于候选事件元素注意力机制的生物事件抽取方法。采用该方法可实现事件元素检测,最后将触发词与识别到的对应事件元素构造成生物事件通过格式化来表示,实现生物事件的抽取。不同于二元分类的方法,本发明提出的方法重点在于针对某一个触发词,识别其所在序列所有单词对应的事件元素标签序列,从而构造事件。
为了实现上述发明目的,解决现有技术中所存在的问题,本发明采取的技术方案是:一种基于候选事件元素注意力机制的生物事件抽取方法,包括以下步骤:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于大连理工大学,未经大连理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810572450.6/2.html,转载请声明来源钻瓜专利网。