[发明专利]药物关系分类模型构建方法、药物关系分类方法及系统在审
申请号: | 202110987573.8 | 申请日: | 2021-08-26 |
公开(公告)号: | CN113806531A | 公开(公告)日: | 2021-12-17 |
发明(设计)人: | 孙霞;陈嘉诚;金鑫;邓瑶;张梦延 | 申请(专利权)人: | 西北大学 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/36;G06F40/289;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 西安恒泰知识产权代理事务所 61216 | 代理人: | 史玫 |
地址: | 710069 *** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 药物 关系 分类 模型 构建 方法 系统 | ||
本发明公开了一种药物关系分类模型构建方法、药物关系分类方法及系统。本发明利用BioBERT中提取出与药物名相关的知识和使用关键语义子句代替全部句子,丢弃无关紧要词构建预训练数据集,对包括依次设置的语义和药物知识抽取层;药物知识增强层;语义和药物知识融合层和分类层的神经网络进行训练构建分类模型。本发明分类准确率提高,且减缓了标记噪声样本对模型训练时造成的负面影响。
技术领域
本发明涉及药物关系分类模型构建及分类方法,具体涉及一种基于 BioBERT和GHM loss的药物关系分类模型构建及分类方法。
背景技术
药物关系是指同时或在一段时间内服用两种或更多种药物所产生的综合效应。这种效应可分为协同效应,拮抗效应和非相互作用。药物之间的相互拮抗效应会对患者造成严重的健康风险。药物关系抽取(DDIE)任务是自然语言处理领域的典型的关系提取任务,旨在检测和识别药物对的语义关系,对减少药物安全事故,促进生物医学技术的发展具有重要意义。
近年来,随着深度学习的发展和应用,有越来越多基于神经网络的方法应用在药物关系抽取任务上,这类方法的创新集中在设计独特的注意力机制,堆叠更深的网络层数,依赖语法信息等方面。但是随着如BERT等预训练语言模型的出现,导致模型结构逐渐统一,性能也逐渐达到瓶颈。于是,有研究者开始使用与药物实体相关的知识去增加药物关系抽取的表现。但目前主流的利用药物知识的方法首先利用爬虫从药物数据库或维基百科上爬取与药物名相关的外部知识,然后通过神经网络将外部知识转为为计算机可以理解的语义向量,最后与药物文本结合去抽取药物关系。
现有的药物关系分类方法存在依赖外部知识和受标注噪声影响,导致药物关系分类的准确率不高的问题。
发明内容
针对现有技术的缺陷或不足,本发明提供了一种药物关系分类模型构建方法。
为此,本发明所提供的方法包括
步骤1,构建原始药物文本集并进行预处理
1.1构建原始药物文本集,所构建原始药物文本集由多个原始句子构成,每个原始句子中包含至少两个药物名称,所述至少两个药物名称中包含有两个目标药物名称;对每个原始句子中的两个目标药物名称的药物关系进行标注,得到药物关系标签集;
1.2采用BioBERT分词词典对每个原始句子进行分词处理;得到分词处理后的药物文本集;
1.3对每个分词处理后的句子中的两个目标药物名称中的其中一个目标药物名称前后均添加$符号,另一个目标药物名称前后均添加#符号;得到标记后的药物文本集;
1.4对步骤1.3处理后的集合中的每个token映射为该token在BioBERT 分词词典中的对应索引值;得到预处理后的药物文本集;
1.5选取每个原始句子中的关键词和非关键词;
1.6将步骤1.3处理后的每个句子中的关键词的token标记为1,非关键词和$符号及#符号的token标记为0,得到每个句子的关键语义子句标记向量;得到关键语义子句标记向量集合;
步骤2,将所述的预处理后的药物文本集和关键语义子句标记向量集合作为输入,将所述的药物关系标签集作为输出,训练神经网络,获得药物关系分类模型;
所述的神经网络包括依次设置的语义和药物知识抽取层;药物知识增强层;语义和药物知识融合层;和分类层;
所述的语义和药物知识抽取层为经过预训练的语言模型BioBERT,所述语义和药物知识抽取层对预处理后的药物文本集进行处理,得到每个句子的表示矩阵;
所述药物知识增强层的输入为每个句子的表示矩阵和关键语义子句标记向量,将每个句子的表示矩阵中的非关键词对应的向量及$符号和#符号对应的向量删除,得到每个句子的关键句子表示矩阵;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西北大学,未经西北大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110987573.8/2.html,转载请声明来源钻瓜专利网。