[发明专利]一种基于深度学习的中医诊疗知识图谱自动构建方法在审
申请号: | 201910518050.1 | 申请日: | 2019-06-14 |
公开(公告)号: | CN110334211A | 公开(公告)日: | 2019-10-15 |
发明(设计)人: | 李巧勤;郑子强;朱嘉静;巩小强;刘勇国;杨尚明 | 申请(专利权)人: | 电子科技大学 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/36;G06F17/27;G16H20/90 |
代理公司: | 北京众合诚成知识产权代理有限公司 11246 | 代理人: | 马超前 |
地址: | 610054 *** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 病案 中医诊疗 图谱 构建 中医诊疗知识 自动抽取 自动构建 预定义 聚类 学习 中医 命名实体 初始化 多对多 三元组 实体组 语料库 分词 分句 预测 转化 | ||
1.一种基于深度学习的中医诊疗知识图谱自动构建方法,其特征在于,具体步骤包括:
步骤1,构建初始化文献病案语料库,对病案进行分句、分词,并对病案中的“理-法-方-药”实体进行标记:
步骤2,通过双向LSTM对实体进行预测,通过深度学习模型从中医文献病案自动抽取实体:
步骤3,将同一病案中出现的同类实体进行聚类形成实体组,然后根据预定义的实体之间的关系形成三元组,构建知识图谱。
2.根据权利要求1所述的基于深度学习的中医诊疗知识图谱自动构建方法,其特征在于,步骤1中构建以下数据结构:
语料库:从中国知网CNKI下载中医文献,从中抽取病案,取75%作为训练集,25%作为测试集,分别用于训练模型参数和测试模型效果;
训练语料库中对“理-法-方-药”实体进行标记,使用“中药-med”、“方剂-pres”、“治法-treat”、“证候-syn”、“症状-sym”一一对应的标记方法,其余不相关的文本使用“O”标记;
词嵌入矩阵:用one-hot向量对分词后的语料库进行词嵌入表示,构建词嵌入矩阵,行为词数量,列为词嵌入维度。
3.根据权利要求2所述的基于深度学习的中医诊疗知识图谱自动构建方法,其特征在于,步骤2,通过双向LSTM对实体进行预测,通过深度学习模型从中医文献病案自动抽取实体,具体为:
使用双向LSTM(Bi-LSTM)对病案进行编码,以句子为单位输入Bi-LSTM,设输入句子为S=w1,w2,...,wm,wm表示句子第m个单词,通过查找词嵌入矩阵,得到输入句子的词向量序列X=x1,x2,...,xm;
将词向量序列输入Bi-LSTM,LSTM的每个单元都由输入门i、遗忘门f、输出门o、记忆单元c组成,各门控单元和记忆单元更新公式为:
it=σ(Wxixt+Whiht-1+bi) (1)
ft=σ(Wxfxt+Whfht-1+bf) (2)
ot=σ(Wxoxt+Whoht-1+bo) (5)
ht=ottanh(ct) (6)
其中,xt表示t时刻输入的字符向量,ht-1为t-1时刻的隐藏状态,ct-1和ct分别表示t-1时刻和t时刻的记忆单元状态,it、ft、ot分别为t时刻输入门、遗忘门和输出门的状态向量,σ为sigmoid函数,tanh为双曲正切函数,Wxi表示输入门i对应输入x的参数矩阵,bi表示输入门i的偏置项,由于参数矩阵和偏置项较多,用*表示下标,此处所有的W*和b*均表示参数矩阵和偏置项,具体含义以*具体表示的内容为准;表示t时刻的实际输入:
前向LSTM的输出表示为后向LSTM的输出为则最终Bi-LSTM的输出表示为[;]表示向量级联操作;
将Bi-LSTM输出的隐藏单元状态ht传递至CRF层作为输入,进行实体标签预测,给定输入句子x=(x1,x2,...,xn)和预测的序列标记y=(y1,y2,...,yn),句子x对应于序列标记y的预测得分表示为s(x,y),定义为:
表示xi的标签yi得分,Pi定义为:
为特定于yi的模型参数矩阵,hi表示Bi-LSTM在第i个单元输出的隐藏单元状态,是特定于yi到yi-1的偏置参数,则句子x标记为序列y的得分为:
e为自然对数的底数,Yx表示句子x存在的所有可能标记序列,表示其中一种标记序列。
模型训练时,使用最大似然估计来最大化真实序列值,即为单词序列x的真实标签序列,在测试的时候,将序列得分最高的作为预测序列,即:
给定一个人工标记的训练数据集使用L2正则对数似然损失来训练模型,计算公式为:
λ是L2正则化参数,Θ是参数集,使用随机梯度下降(SGD)训练模型。
4.根据权利要求1-3任一项所述的基于深度学习的中医诊疗知识图谱自动构建方法,其特征在于,步骤3,将同一病案中出现的同类实体进行聚类形成实体组,然后根据预定义的实体之间的关系形成三元组,构建知识图谱,具体为:
将同一病案中出现的同类实体进行聚类形成实体组,如病案中的多个症状,构成症状组,多个证候构成证候组,以预定义的症候与症状之间的关系,将症状组和证候组进行连接得到<证候组,表现,症状组>三元组,将其他实体也同样进行聚类,然后根据预定义的实体之间的关系形成三元组,构建知识图谱。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于电子科技大学,未经电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910518050.1/1.html,转载请声明来源钻瓜专利网。