[发明专利]一种基于新标记模式的生物医学事件联合抽取方法有效
申请号: | 201810375882.8 | 申请日: | 2018-04-17 |
公开(公告)号: | CN108628970B | 公开(公告)日: | 2021-06-18 |
发明(设计)人: | 李丽双;马玉柯;刘阳;钱爽 | 申请(专利权)人: | 大连理工大学 |
主分类号: | G06F16/332 | 分类号: | G06F16/332;G06F40/284;G06F16/36;G06K9/62;G16H15/00 |
代理公司: | 大连理工大学专利中心 21200 | 代理人: | 温福雪;侯明远 |
地址: | 116024 辽*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 标记 模式 生物医学 事件 联合 抽取 方法 | ||
本发明属于自然语言处理技术领域,涉及一种基于新标记模式的生物医学事件联合抽取方法。本发明包括生物医学事件联合抽取过程中触发词和要素的新标记方法、基于LSTM深度学习网络进行触发词和要素的同时识别、以及基于SVM分类器处理生成事件的生物医学事件联合抽取方法。使本发明可以从原始的生物医学语料中抽取出已定义的9类生物医学事件,抽取过程结合深度学习的方法,减少了人工进行特征选取的工作;本发明为生物医学事件联合抽取提供一种新的触发词和要素的标记方法。
技术领域
本发明属于自然语言处理技术领域,涉及一种基于新标记模式的生物医学事件联合抽取方法。
背景技术
生物医学事件抽取(BioNLP Shared Task)中的GE(Genia event extraction)任务是由日本东京大学的Tsujii实验室于2009年发起的一个致力于细粒度生物实体关系抽取的生物文本挖掘共享评测任务。
自2009年BioNLP-ST GE推出生物事件抽取任务以来,目前已经有许多基于BioNLP-ST数据集的生物事件抽取方法的研究。
从事件抽取流程的整体框架来看,基本上可以分为两大类。一类是分阶段抽取方法:这类方法将生物事件抽取过程分成几个相互独立的步骤,先抽取生物事件的触发词,后抽取要素,最终生成事件。第二类通常采用联合抽取的方法:这种方法将分阶段抽取方法中的两个步骤合二为一,同时进行触发词和要素的识别。这种方法更多的考虑整个语句中触发词和其要素之间的语义关系。
大多数生物事件抽取系统都采用分阶段方法,即先识别出触发词,再识别相关要素。从相关文献来看,主要分为三种:基于统计/词典的方法、基于规则的方法和基于机器学习方法。较之于前两种方法,机器学习方法引进了自动化模式,大大节省了人力物力的投入。一般的基于机器学习方法如采用支持向量机、条件随机场或是最大熵模型都需要设计比较复杂的特征。Bjorne(J,Heimonen,J,Ginter,F,et al.Extracting ComplexBiological Events with Rich Graph-Based Feature Sets.in The Workshop onCurrent Trends in Biomedical Natural Language Processing:Shared Task.2009.)等人使用支持向量机多分类器SVMmulticlass进行分类,抽取了触发词的形态学特征、句子特征、词性、词干特征以及依存链上的信息等,在BioNLP’09Shared Task取得了最好的结果。Pyysalo等(Pyysalo S,Ohta T,Miwa M,et al.Event extraction across multiplelevels of biological organization.Bioinformatics,2012.28(18):p.i575-i581.)总结了上下文、依存关系等丰富特征,并通过SVM进行分类,在生物医学领域通用事件抽取MLEE语料上的触发词识别F值为75.84%,事件抽取F-值为55.20%。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于大连理工大学,未经大连理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810375882.8/2.html,转载请声明来源钻瓜专利网。