[发明专利]基于异构图神经网络的医疗术语规范化系统及方法有效
申请号: | 202111213727.4 | 申请日: | 2021-10-19 |
公开(公告)号: | CN113656604B | 公开(公告)日: | 2022-02-22 |
发明(设计)人: | 李劲松;杨宗峰;辛然;田雨;周天舒 | 申请(专利权)人: | 之江实验室 |
主分类号: | G06F16/36 | 分类号: | G06F16/36;G06F40/194;G06F40/30;G16H50/70;G06N3/04;G06N3/08 |
代理公司: | 杭州求是专利事务所有限公司 33200 | 代理人: | 刘静 |
地址: | 310023 浙江省杭州市余*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 构图 神经网络 医疗 术语 规范化 系统 方法 | ||
1.一种基于异构图神经网络的医疗术语规范化系统,其特征在于,该系统包括:
(1)信息单元构建模块:对每种类型的医疗术语定义关键的信息单元;所述信息单元包括一级信息单元和二级信息单元,以及两级信息单元之间的包含关系;利用序列标注模型对所有医疗术语在字符级别上识别其中包含的信息单元,构建信息单元库;
(2)医疗术语知识图谱模块:基于医疗术语和信息单元的关系,构建医疗术语知识图谱,知识图谱的节点包括医疗术语节点和信息单元节点,边为有向边,边包括两种关系:医疗术语和信息单元之间的包含关系、一级信息单元和二级信息单元之间的包含关系,边的方向为从包含方指向被包含方;
(3)异构图神经网络模块:基于医疗术语知识图谱的临近节点分布和节点内容编码,训练异构图神经网络;所述临近节点为从一个节点出发,沿医疗术语知识图谱边的方向跳转两级经过的所有节点;所述节点内容编码具体为:
对于节点内容为数值型的节点,其内容编码等于节点本身的数值与异构图神经网络训练得到的单位向量的乘积;
对于节点内容为计量单位的节点,其内容编码的计算过程为:通过异构图神经网络训练得到每种基础单位和运算符号的语义向量,将该节点包含的所有基础单位和运算符号的语义向量拼接后,经过非线性转换得到内容编码;
对于节点内容为文本型的节点,其内容编码通过预训练的语言模型得到;
训练的第一个阶段:将临近节点分布和节点内容编码作为输入,训练的目标是最大化每个节点的临近节点对它的条件概率,得到每个节点的向量表示;
训练的第二个阶段:将节点的向量表示作为输入,计算任意两个医疗术语节点的相似度,训练的目标是最大化含义相同的医疗术语节点的相似度;
(4)预测结果输出模块:将待规范的医疗术语节点输入训练好的异构图神经网络中,得到待规范的医疗术语节点与医疗术语知识图谱中其它医疗术语节点的相似度排序,输出医疗术语规范化结果。
2.根据权利要求1所述的系统,其特征在于,所述医疗术语的类型包括药物术语、疾病术语、手术术语、检验术语和检查术语。
3.根据权利要求1所述的系统,其特征在于,所述信息单元构建模块中,序列标注模型为BiLSTM-CRF模型;在作为训练数据的医疗术语上标注出每个信息单元的区间,同时标明非信息单元的字符,使得序列标注模型能够丢弃对医疗术语整体含义无影响的多余字符。
4.根据权利要求1所述的系统,其特征在于,所述信息单元构建模块中,对数值和计量单位做初步的规范化,将原始计量单位规范化为单个基础单位或多个基础单位通过不同的运算符号组合在一起,并且对数值做相应换算。
5.根据权利要求1所述的系统,其特征在于,所述异构图神经网络模块中,用表示医疗术语知识图谱中的所有节点的集合,对于,记为其节点内容,为其内容编码;对于节点内容为数值型的节点,其内容编码为:
其中为节点本身的数值;表示单位向量,随机初始化并通过异构图神经网络训练得到;
对于节点内容为计量单位的节点,其节点内容是由基础单位和运算符号组成的序列,设,其中为基础单位或运算符号,为的序列长度,则内容编码为:
其中为异构图神经网络训练得到的参数矩阵;为每种基础单位或运算符号的语义向量,随机初始化并通过异构图神经网络训练得到;为向量拼接运算符;
对于节点内容为文本型的节点,使用预训练的语言模型计算的语义向量作为的初始化的内容编码,并通过后续的异构图神经网络继续训练内容编码。
6.根据权利要求5所述的系统,其特征在于,对于节点内容为文本型的节点,预训练的语言模型采用BERT模型,计算方式为:
其中为BERT模型第层的隐藏状态,为第层的输入值:,其中和均为训练得到的参数,为的维度,为BERT模型第
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于之江实验室,未经之江实验室许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111213727.4/1.html,转载请声明来源钻瓜专利网。