[发明专利]一种基于特征自动学习的生物医学事件触发词识别方法有效
申请号: | 201510848996.6 | 申请日: | 2015-11-28 |
公开(公告)号: | CN105512209B | 公开(公告)日: | 2018-06-19 |
发明(设计)人: | 王健;李虹磊;林鸿飞;杨志豪;张益嘉 | 申请(专利权)人: | 大连理工大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F19/24 |
代理公司: | 大连星海专利事务所有限公司 21208 | 代理人: | 王树本 |
地址: | 116024 辽*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明涉及生物医学技术领域,一种基于特征自动学习的生物医学事件触发词识别方法,包括以下步骤:1、数据预处理,2、构建事件触发词词典,3、构建候选触发词实例,4、卷积神经网络模型学习特征,5、神经网络模型训练,6、事件触发词分类。本发明方法具有以下优点:一是,简化了对数据的复杂预处理,省去了人工进行特征设计的繁琐步骤;二是,引入了领域知识,有效地利用了大量未标注语料等外部资源;三是,使用卷积神经网络进行特征的自动学习,不仅减少了人工干预,而且能够挖掘和探索到更深层次的句子级别特征,并通过融合局部特征,发现了隐含的全局特征,有助于识别触发词类别;四是,本发明方法在MLEE语料上得到了较好的实验结果,事件触发词检测的整体性能有所提高。 1 | ||
搜索关键词: | 事件触发 自动学习 卷积神经网络 生物医学 词识别 触发 构建 语料 预处理 神经网络模型 生物医学技术 数据预处理 繁琐步骤 局部特征 句子级别 领域知识 模型学习 全局特征 人工干预 特征设计 外部资源 词分类 有效地 隐含 标注 融合 挖掘 检测 引入 探索 发现 | ||
【主权项】:
1.一种基于特征自动学习的生物医学事件触发词识别方法,其特征在于包括以下步骤:步骤1、数据预处理,包括对原始语料的处理以及外部数据资源的引入,具体包括以下子步骤:(a)由于语料中跨句子的生物医学事件仅占总事件数量的3.5%,对生物医学事件触发词的检测是以句子为单位,使用生物医学领域分句工具Genia Sentence Splitter对实验语料中所有txt文件的数据进行句子切分;(b)为了更好地挖掘生物医学事件触发词的语义和语法信息,引入了由领域知识训练得到的词向量查找表,该查找表将单词映射成一个向量,这种向量表示的单词便捷地度量单词之间的相似度及其隐含的语义和语法信息,获取的词向量,是在Pubmed上训练所得到的词向量,每个词向量维度为200维;步骤2、构建事件触发词词典,采用基于统计的方法构建事件触发词词典,词典中所有单词都来源于训练集中标注为触发词的单词,经过统计分析,发现在训练集已标注的触发词中,90%以上的触发词是单个单词,而多个单词组成的触发词数量还不够10%,对于单个单词形成的触发词,不做任何处理直接纳入到候选触发词词典中;而对于多个单词组成的触发词,考虑到其不利于后期扩展以及增大了方法复杂度的原因,不直接将其纳入到候选触发词词典中,而是经过拆分成单个单词后,再纳入到候选触发词词典中;步骤3、构建候选触发词实例,设计的候选触发词实例主要包括以下两部分内容:(a)邻居特征,遍历每个句子,如果句中的某个单词为候选触发词词典中的单词,抽取其在句中固定窗口内的单词作为候选触发词实例,这里,选取的窗口大小为9,包括候选触发词本身以及其前4个单词和后四个单词;(b)蛋白质特征,同时考虑到事件候选触发词和蛋白质会成对出现,两者之间有密不可分的联系,所以在构建候选触发词实例时,会将句中蛋白质信息作为人工设计的一个词语表示并加入到构建候选触发词实例中;所设计的蛋白质信息包括三类:一是,候选触发词的前s个单词和后s个单词内是否出现蛋白质,二是,出现的所有蛋白质的名称,三是,出现的所有蛋白质的类型;根据语言表达的习惯,当有两个蛋白质A与B,如果蛋白质A与事件触发词的距离小于蛋白质B与触发词的距离时,那么蛋白质A与触发词构成事件的可能性会更大,所以选取的s等于4,即距离候选触发词小于4个单词的范围内的蛋白质信息,能够更好地描述触发词隐含的类别信息,从而达到提升事件触发词检测整体性能的目的;步骤4、卷积神经网络模型学习特征,为了学习到候选触发词实例隐含的高层次特征,利用卷积神经网络来自动训练和学习特征,具体包括以下子步骤:(a)对于每个单句里出现在候选触发词词典中的单词,都能得到一个由若干个单词组成的序列,称之为一个候选触发词实例;再利用所获得的词向量查找表将候选触发词实例中的每个单词映射成向量,对于在词向量查找表中没有找到对应词向量的单词,采用随机初始化的方式,从而得到候选触发词实例矩阵
其中词向量的维度k为200维;n表示一个候选触发词实例中所含有的单词数量,即为一个候选触发词实例的长度;(b)将所得候选触发词实例矩阵输入到含有多个并行卷积层和池化层的卷积神经网络进行更高层特征的学习,卷积神经网络主要涉及到卷积层、池化层和输出层;卷积层,利用卷积层中的卷积操作来融合候选触发词实例的邻居特征和蛋白质特征,从而学习到全局特征,在输入候选触发词实例上使用滑动窗口的思想,窗口内的w个词向量构成矩阵
使用共享权重矩阵W进行卷积操作,从而生成一个新特征Ai:Ai=f{W*Xi+b} (1)式(1)中,W表示共享权重矩阵,X表示词向量矩阵,b表示偏置项bias,f表示非线性激活函数,当滑动窗口w个词向量以1为步长,在长度为n的候选触发词实例序列上滑动时,得到n‑w+1个词向量矩阵,采取如上所述同样的操作,便可产生一个特征向量A:A={A1,A2,…,An‑w+1} (2)式(2)中,A1、A2、An‑w+1都是通过公式(1)计算得到的新特征,需要注意的是,该特征向量每一维度的数值都是由同一个共享权重矩阵W操作所得到的,大大减少了模型训练所需的参数个数;池化层,为了确定上述得到的特征向量A中在哪个维度上的数值是最有用的特征,本步骤使用的池化操作是最大化池化操作,选取该特征向量A的最大数值代表这种特征,即:aj=max{A1,A2,…,An‑w+1} (3)式(3)中,aj表示这种最有代表性的特征,为了获取多种不同的特征,采用多个不同的共享权重矩阵进行卷积操作,给定m个不同的共享权重矩阵W,得到一组特征M:M=[a1,a2,…,aj,…,am] (4)式(4)中,a1、aj、am是采用公式(3)求得第1、第j和第m个不同共享权重矩阵所得到的最有代表性特征;输出层,采用多个卷积层和池化层并行进行特征学习,这里给出并行度p的定义,即为卷积层和池化层并行操作的数量,通过给定并行度p,求得输出层输出所学习到的特征集F:F=[M1,M2,…,Mj,…,Mp] (5)式(5)中,M1、Mj、Mp是通过公式(4)求得,总共有p组,共同构成最后学习到的特征集;步骤5、神经网络模型训练,将卷积神经网络学习到的特征集F输入到含有输入层、隐含层和输出层的三层神经网络模型,使用实验语料中的训练集进行分类模型的训练;步骤6、事件触发词分类,使用步骤5中训练得到的模型,在实验语料中的测试集上进行事件触发词的检测。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于大连理工大学,未经大连理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201510848996.6/,转载请声明来源钻瓜专利网。