[发明专利]一种基于特征融合的医疗实体关系抽取方法在审
申请号: | 201811575826.5 | 申请日: | 2018-12-22 |
公开(公告)号: | CN109710932A | 公开(公告)日: | 2019-05-03 |
发明(设计)人: | 李月;李娟;李建强;王全增 | 申请(专利权)人: | 北京工业大学 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06K9/62;G06N3/04 |
代理公司: | 北京思海天达知识产权代理有限公司 11203 | 代理人: | 沈波 |
地址: | 100124 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 实体关系 句子 整体特征 抽取 医疗 句法特征 特征融合 融合 知识库 卷积神经网络 循环神经网络 关系抽取 句法结构 句子集合 实体类型 位置特征 向量编码 向量表示 语义关系 远程监督 噪音数据 对齐 构建 语料 拼接 引入 学习 | ||
1.一种基于特征融合的医疗实体关系抽取方法,其特征在于,包括:
步骤一:获取初始已标注医疗关系抽取数据集构建实体关系知识库,将关系实体及其关系以三元组的形式存入关系知识库中;
步骤二:利用预处理后的未标注关系抽取数据集及知识库中的实体对,通过远程监督结合规则的方法将知识库中的实体对齐到未标注医疗关系抽取数据集,构建实体对句子组合;
步骤三:借助于自然语言处理工具LTP对关系数据集中的每个句子进行依存句法分析,并从依存路径上提取句子的最短依存路径;
步骤四:通过同义词林等来构建词语的同义词库、上位词库,针对最短依存路径上的词获取其上位词,同时基于同义词库对医疗实体进行消歧;
步骤五:对分词后的句子获取其词语本身特征、词性特征、实体类别和位置特征;
步骤六:将句子中每个词映射为实值向量,并通过向量拼接的方式获得词语本身的词向量、位置向量、实体类别向量的融合向量;
步骤七:网络模型分为基于卷积神经网络的句子整体特征提取部分和基于循环神经网络的句子依存特征提取部分;分别使用卷积神经网络和循环神经网络提取句子的整体特征和最短依存路径特征,并将两个特征进行融合;
步骤八:将融合后的特征输入到分类器中对关系进行分类。
2.根据权利要求1所述的一种基于特征融合的医疗实体关系抽取方法,其特征在于,所述步骤四中通过查找WordNet、HowNet字典库获取关系实体特征词的同义词库和上位词词库,标识出关系实体特征词,并对实体的歧义进行消除。
3.根据权利要求1所述的一种基于特征融合的医疗实体关系抽取方法,其特征在于,所述步骤五中使用分词后的大量医疗数据集训练词向量,除Word2vec训练的词向量之外,其余特征受类别数量影响,向量表述过于稀疏,所以对这些特征采用随机初始化来表示。
4.根据权利要求1所述的一种基于特征融合的医疗实体关系抽取方法,其特征在于,所述步骤六中距离向量的获取,使用dist(l)进行初始化dist(l)=tanl(l/S),距离向量与词向量使用相同的维度,其中dist是相对距离为l时的距离向量,S是指句子中所有相对距离的最大值,dist1与dist2分别表示当前词与目标实体e1和e2的距离,则当前词的距离向量dist(i)是这两个向量的拼接。
5.根据权利要求1所述的一种基于特征融合的医疗实体关系抽取方法,其特征在于,所述步骤七中对于句子整体特征的获取,使用卷积神经网络获取;对给定的标注了实体的句子S=x1,x2,x3,…,xn,实体词为xe1,xe2,其中e1,e2∈[1,n]且e1≠e2,将句子中的每个词xi映射为d维实值向量wi,最后通过向量拼接的方式获得xi的词向量、位置向量、实体类别向量的融合向量,ri=[(wi)T,(widist1)T,(widist2)T,(witype)T]T,模型的输入在输入层和特征映射层被映射为一个二维矩阵[r1,r2,r3,…,r4],作为卷积层的输入,分别经过卷积和池化操作,获取句子的粗粒度特征。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京工业大学,未经北京工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811575826.5/1.html,转载请声明来源钻瓜专利网。