[发明专利]一种医学实体关系联合抽取方法有效
申请号: | 202110142037.8 | 申请日: | 2021-02-02 |
公开(公告)号: | CN112818676B | 公开(公告)日: | 2023-09-26 |
发明(设计)人: | 杨晓春;郑婷月;李雨繁;王斌 | 申请(专利权)人: | 东北大学 |
主分类号: | G06F40/279 | 分类号: | G06F40/279;G06F40/284;G06N3/0442;G06N3/08 |
代理公司: | 沈阳东大知识产权代理有限公司 21109 | 代理人: | 梁焱 |
地址: | 110819 辽宁*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 医学 实体 关系 联合 抽取 方法 | ||
1.一种医学实体关系联合抽取方法,其特征在于,包括:
步骤1:获取训练实例以及面向医疗领域的中文预训练模型ChineseMedBert;
步骤2:利用获得的训练实例对ChineseMedBert进行微调,并通过微调后的ChineseMedBert获取给定医学文本的词向量表示;
步骤3:根据给定医学文本的词向量表示,获取给定医学文本的特征向量表示;
步骤4:获取给定医学文本的增强语义向量表征;
步骤5:利用文本的增强语义向量表征,预测给定医学文本的标签序列;
步骤6:根据预测的标签序列,抽取出给定医学文本的关系三元组;
获取面向医疗领域的中文预训练模型ChineseMedBert的方法为:使用若干中文医学文献对Bert中文预训练模型进行再训练,得到面向医疗领域的中文预训练模型ChineseMedBert;
序列标注的模式为:基于BIO标注模式,一方面按照标注顺序依次增加头实体类型、尾实体类型、关系类型以及实体位置的标注,且采取自定义不同的标签分别对头实体类型、尾实体类型、关系类型以及实体位置进行标注;另一方面,对于待标注当前字所属实体对应两个以上头实体、待标注当前字所属实体对应两个以上尾实体、待标注当前字所属实体参与两个以上不同类型的关系、以及待标注当前字处于重叠关系中的不同位置这四种情况分别使用自定义的特定标签分别对应地对当前字的头实体类型标注位置处、尾实体类型标注位置处、关系类型标注位置处和实体位置标注处进行标注;
所述步骤4具体包括如下步骤:根据文本特征向量表示,利用Self-Attention机制获取文本在一个表示子空间中的特征向量表示;使用Multi-Head Attention机制学习文本在多个表示子空间中的特征向量表示,获取文本最终的增强语义向量表征;
所述步骤5具体包括如下步骤:所述预测给定医学文本的标签序列的方法为:采用CRF进行全局标签优化,预测标签序列;
步骤6的具体内容为:根据预测的标签序列,遵循最近距离匹配的原则进行关系三元组抽取,对于每个实体,查找与其距离最近的头实体类型、尾实体类型、关系类型及实体位置可匹配的实体,组成一个关系三元组;可匹配实体的查找方向有如下要求:实体位置标注为表示当前字所属实体为头实体标签的实体只能向后查找,实体位置标注为表示当前字所属实体为尾实体标签的实体只能向前查找,实体位置标注为表示当前字处于重叠关系中的不同位置的特定标签的实体需要沿前后两个方向进行查找;
表示当前字所属实体对应两个以上头实体的特定标签可与任何头实体类型标签匹配;表示当前字所属实体对应两个以上尾实体的特定标签可与任何尾实体类型标签匹配;表示当前字所属实体参与两个以上不同类型的关系的特定标签可与任何关系类型标签匹配。
2.根据权利要求1所述的医学实体关系联合抽取方法,其特征在于,所述获取训练实例的方法为:获取现有中文医学领域的实体关系联合抽取数据集,并对数据集中的文本进行序列标注,得到与文本对应的标签序列作为训练实例。
3.根据权利要求2所述的医学实体关系联合抽取方法,其特征在于,所述现有中文医学领域的实体关系联合抽取数据集为中文医学信息抽取数据集CMeIE。
4.根据权利要求1所述的医学实体关系联合抽取方法,其特征在于,步骤3中所述获取文本的特征向量表示的方法为:将文本的词向量表示传入至Bi-LSTM层进行编码,抽取每个词的上下文语义信息表征,学习文本的序列特征,最终得到文本的特征向量表示。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东北大学,未经东北大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110142037.8/1.html,转载请声明来源钻瓜专利网。
- 上一篇:电机
- 下一篇:一种便于快速架设的电子通信杆及架设方法