[发明专利]一种基于特征自动学习的生物医学事件触发词识别方法有效
申请号: | 201510848996.6 | 申请日: | 2015-11-28 |
公开(公告)号: | CN105512209B | 公开(公告)日: | 2018-06-19 |
发明(设计)人: | 王健;李虹磊;林鸿飞;杨志豪;张益嘉 | 申请(专利权)人: | 大连理工大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F19/24 |
代理公司: | 大连星海专利事务所有限公司 21208 | 代理人: | 王树本 |
地址: | 116024 辽*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 事件触发 自动学习 卷积神经网络 生物医学 词识别 触发 构建 语料 预处理 神经网络模型 生物医学技术 数据预处理 繁琐步骤 局部特征 句子级别 领域知识 模型学习 全局特征 人工干预 特征设计 外部资源 词分类 有效地 隐含 标注 融合 挖掘 检测 引入 探索 发现 | ||
本发明涉及生物医学技术领域,一种基于特征自动学习的生物医学事件触发词识别方法,包括以下步骤:1、数据预处理,2、构建事件触发词词典,3、构建候选触发词实例,4、卷积神经网络模型学习特征,5、神经网络模型训练,6、事件触发词分类。本发明方法具有以下优点:一是,简化了对数据的复杂预处理,省去了人工进行特征设计的繁琐步骤;二是,引入了领域知识,有效地利用了大量未标注语料等外部资源;三是,使用卷积神经网络进行特征的自动学习,不仅减少了人工干预,而且能够挖掘和探索到更深层次的句子级别特征,并通过融合局部特征,发现了隐含的全局特征,有助于识别触发词类别;四是,本发明方法在MLEE语料上得到了较好的实验结果,事件触发词检测的整体性能有所提高。
技术领域
本发明涉及一种基于特征自动学习的生物医学事件触发词识别方法,属于生物医学文本挖掘技术领域。
背景技术
在生物医学领域,如何从蕴含大量文本的数据库中抽取出有用的信息,对于人类医学和生命科学的发展有着重要指导意义。鉴于此,越来越多的科学研究者投入到了生物医学文本的知识挖掘研究中,例如生物领域的命名实体识别、蛋白质与蛋白质之间的关系抽取以及药物与药物之间的关系抽取等研究方向。但是这对于挖掘生物医学文本中隐藏的多元关系仍是不够的,因此专注于蛋白质、基因等生物实体之间的动态作用或关系抽取的生物医学事件抽取任务引起了人们的广泛关注。
生物医学文本的事件抽取实质上就是信息抽取在生物医学领域的一个重要应用,已经成为信息抽取技术的一个有力工具,正在日益影响着生物医学自然语言处理的发展方向。生物医学领域内的事件指的是生物分子之间的交互作用以及作用后产生的结果,事件抽取目的在于从海量的生物医学文献中抽取出如事件主题、事件类型和事件触发词等生物事件的语义与角色信息。例如,给定语料中的一个句子,“LIF induced a dose-dependentincrease in p24 antigen production in the chronically infectedpromonocytic...”,该句包含两个事件,一个是基因表达事件,触发词为“production”,对应事件元素为“antigen”;另一个为正向调控事件,触发词为“increase”,对应两个事件元素主体和客体,主体为上述的基因表达事件,客体为蛋白质“LIF”。
生物医学领域中,生物通路是在细胞和分子水平的一个重要模型,是我们至今较为理解的一个生活系统,这些通路有助于人们确定生物功能,帮助人们深刻认识生物疾病以至于发现新的药物,而生物医学事件抽取技术所具有的广泛应用价值正是在构建通路、丰富数据库等领域。由此可以看出,对生物医学事件抽取技术的学习与研究,对有效地自动识别出生物医学家所需要的信息以及发现被大量的可获得信息掩盖的关系,已经成为了一个必然的趋势。
近年来,事件抽取的步骤大多是分为事件触发词分类与事件元素检测,处于核心地位的事件元素的抽取通常需要在触发词抽取完成后才能进行。那么,事件触发词的检测处于至关重要的位置,它的性能的好坏直接决定了事件元素检测的准确性,所以对于事件触发词识别的研究意义同样十分重大。
由于生物医学事件触发词抽取存在的大量难点(如歧义性、特征选取等问题),寻找到行之有效的方法来进行生物医学事件触发词抽取是非常有必要的。近年来,国内外学者都已经展开了对生物医学事件触发词抽取技术的研究,提出了很多相对比较成熟的理论,一些生物医学事件触发词抽取的原型系统也应运而生。综合来看,生物医学事件触发词抽取的方法主要分为两大类:基于模式匹配方法和基于机器学习方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于大连理工大学,未经大连理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510848996.6/2.html,转载请声明来源钻瓜专利网。