[发明专利]药物关系分类模型构建方法、药物关系分类方法及系统在审
申请号: | 202110987573.8 | 申请日: | 2021-08-26 |
公开(公告)号: | CN113806531A | 公开(公告)日: | 2021-12-17 |
发明(设计)人: | 孙霞;陈嘉诚;金鑫;邓瑶;张梦延 | 申请(专利权)人: | 西北大学 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/36;G06F40/289;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 西安恒泰知识产权代理事务所 61216 | 代理人: | 史玫 |
地址: | 710069 *** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 药物 关系 分类 模型 构建 方法 系统 | ||
1.一种药物关系分类模型构建方法,其特征在于,所述方法包括
步骤1,构建原始药物文本集并进行预处理
1.1构建原始药物文本集,所构建原始药物文本集由多个原始句子构成,每个原始句子中包含至少两个药物名称,所述至少两个药物名称中包含有两个目标药物名称;对每个原始句子中的两个目标药物名称的药物关系进行标注,得到药物关系标签集;
1.2采用BioBERT分词词典对每个原始句子进行分词处理;得到分词处理后的药物文本集;
1.3对每个分词处理后的句子中的两个目标药物名称中的其中一个目标药物名称前后均添加$符号,另一个目标药物名称前后均添加#符号;得到标记后的药物文本集;
1.4对步骤1.3处理后的集合中的每个token映射为该token在BioBERT分词词典中的对应索引值;得到预处理后的药物文本集;
1.5选取每个原始句子中的关键词和非关键词;
1.6将步骤1.3处理后的每个句子中的关键词的token标记为1,非关键词和$符号及#符号的token标记为0,得到每个句子的关键语义子句标记向量;得到关键语义子句标记向量集合;
步骤2,将所述的预处理后的药物文本集和关键语义子句标记向量集合作为输入,将所述的药物关系标签集作为输出,训练神经网络,获得药物关系分类模型;
所述的神经网络包括依次设置的语义和药物知识抽取层;药物知识增强层;语义和药物知识融合层;和分类层;
所述的语义和药物知识抽取层为经过预训练的语言模型BioBERT,所述语义和药物知识抽取层对预处理后的药物文本集进行处理,得到每个句子的表示矩阵;
所述药物知识增强层的输入为每个句子的表示矩阵和关键语义子句标记向量,将每个句子的表示矩阵中的非关键词对应的向量及$符号和#符号对应的向量删除,得到每个句子的关键句子表示矩阵;
所述语义和药物知识融合层对每个关键句子表示矩阵中所包含的药物名称的向量和非药物名称的向量进行融合,得到每个原始句子对应的句子表示向量,该句子表示向量作为分类层的输入。
2.如权利要求1所述的药物关系分类模型构建方法,其特征在于,所述语义和药物知识融合层是由依次连接的双向长短期记忆神经网络和全连接层块构成,将关键句子表示矩阵输入双向长短期记忆神经网络得到正向句子表示向量和反向的句子表示向量,全连接层块对正向句子表示向量和反向的句子表示向量进行融合,得到融合了正、反向语义的句子表示向量。
3.如权利要求1所述的药物关系分类模型构建方法,其特征在于,所述步骤1.5中采用基于语法依赖信息的方法选取每个原始句子中的关键词和非关键词。
4.如权利要求1所述的药物关系分类模型构建方法,其特征在于,所述的分类层包括全连接层和softmax函数层。
5.如权利要求1所述的药物关系分类模型构建方法,其特征在于,所述训练过程中使用GHM损失函数。
6.一种药物关系分类方法,其特征在于,所述方法包括:
步骤一,识别待分类句子中所包含的药物名称,如待分类句子中包含有两个药物名称时,将所含有的两个药物名称作为目标药物名称直接执行步骤二;如待分类句子中包含三个以上药物名称时,遍历其中的所有两个药物名称组合作为目标药物名称,分别执行步骤二;
步骤二,采用权利要求1步骤1.2-1.6对待分类句子进行处理,得到待分类句子的预处理后的药物文本和关键语义子句标记向量;
步骤三,将所得预处理后的药物文本和关键语义子句标记向量输入权利要求1构建的模型中,输出待分类句子中任意两个药物名称之间的药物关系类别。
7.一种药物关系分类系统,其特征在于,所述系统包括数据预处理模块和分类模块,所述数据预处理模块用于执行权利要求5所述步骤一和二;所述分类模块用于执行权利要求5所述步骤三。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西北大学,未经西北大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110987573.8/1.html,转载请声明来源钻瓜专利网。