[发明专利]一种基于深度学习和集成分类的智能辅助诊断方法有效
申请号: | 201911353290.7 | 申请日: | 2019-12-25 |
公开(公告)号: | CN111192680B | 公开(公告)日: | 2021-06-01 |
发明(设计)人: | 樊昭磊;吴军;杨万春;张伯政;孙钊 | 申请(专利权)人: | 山东众阳健康科技集团有限公司 |
主分类号: | G16H50/20 | 分类号: | G16H50/20;G16H50/70;G06F16/33;G06F16/35;G06F40/295;G06F40/30;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 济南泉城专利商标事务所 37218 | 代理人: | 李桂存 |
地址: | 250001 山东省济南市市辖区*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 深度 学习 集成 分类 智能 辅助 诊断 方法 | ||
1.一种深度学习和集成分类的智能辅助诊断方法,其特征在于包括模型学习与模型使用两部分,具体的模型学习采用以下步骤:
(1.1)获取住院记录中的入院记录数据,入院记录中包含了年龄、性别、主诉、现病史、既往史、主诊断信息;利用命名实体识别和关系抽取技术提取相应实体和实体的属性;构建字向量的高维语义表示,采用双向Transformer作为编码器,基于注意力机制来对一段文本进行建模;采用图神经网络得到实体关系,采用BIOES方案来进行实体标注,其中B标签表示标注实体最开始的一个字符,I标签表示标注实体的中间部分的字符,E标签表示标注实体最后一个字符,S标签表示一个字符单独构成一个标注实体,O标签表示非标注实体字符;标注实体类型标签主要有:身体部位B、症状体征Z、体格指标T、方位W、疾病D、样本Y、变化描述C、属性形状S、诱因R、时间Ti、程度Dg,其中症状或体征的标注实体类型前面可以加–号,以表示患者不具有该症状或体征,实体之间的关系采用有序对的方式来表示;
在主诉和现病史中获取症状和属性的方法步骤如下:
步骤1:采用命名实体和关系抽取技术,提取出主诉和现病史中的实体,标记出否定症状;
步骤2:以身体部位、症状体征、体格指标、样本作为枢轴实体,确定枢轴实体的属性;
步骤2.1围绕身体部位实体,提取身体部位的方位,症状属性;
步骤2.2围绕症状体征实体,提取时间、样本、程度、变化描述及诱因属性;
步骤2.3围绕体格指标实体,提取变化描述及诱因属性;
步骤2.4围绕样本实体,提取属性形状及诱因属性;
步骤3:对于提取的实体及属性,进行合并和去重处理;
(1.2)利用知识库对医生的输入诊断和症状进行标准化
对输入的诊断数据和症状数据进行标准化输出,包含诊断标准知识库和症状标准知识库,其中诊断标准知识库采用ICD-10编码;医学领域概念节点与其他的医学领域概念节点连接,每个医学领域概念节点又与自身的病种概念表现形成节点连接;知识库中主要包括等价关系和上下位关系;
(1.3)利用带标签的主题模型进行分类,预测疾病
疾病诊断可看作样本的主题;在主题模型LDA的基础上,增加了一层标签集,将主题与类别标签一一映射,可以利用人工在文档上的标签标记,将其应用于病历文本多分类;标签主题模型在训练过程中,主题会偏向在文本中出现频数高的词,通过对病历文本分析发现,主诉中描述了患者的主要症状,现病史是对症状表达内容的进一步补充;根据特征词在文本中的位置,特征词对类别贡献度构造权值;该模型中的符号定义如下:
D是m篇样本文档组成的矩阵D={d1,d2,...,dm},dm表示第m篇文档;
文档d是由n个词组成的向量d={w1d,w2d,...,wnd},元素wnd表示文档d中的第n个词;
类别C是文档集合类别向量C={1,2,...,c},表示文档分为c组类别;
W是目标文档的词向量空间;
模型参数α是文档主题分布的狄利克雷参数,按类别分为C组,α={α1,α2,...,αc},向量αc的元素αcj表示类别c的第j个主题的先验概率;模型参数β是主题词语分布相关的狄利克雷超参数,按类别分为C组,β={β1,β2,...,βc},向量βc的元素βcji表示类别c的第j个主题生成词i的概率;模型参数θ是目标文档在主题上的分布,也按照类别分为c组;
(1.4)标签主题模型的训练步骤:
步骤1对训练集文本进行处理,初始化主题和词变量矩阵,对于主题向量K∈{1,2,...,k},生成狄利克雷先验概率矩阵β={βk,1,βk,2,...,βk,v};
主诉中的特征词权重为log0.5θ,θ∈(0.5,1),现病史中的特征词权重为(1-log0.5θ),且主诉中的特征词权重高于现病史中的特征词权重,特征词的权重根据其在主诉和现病史中的分布来调整;
步骤2对于每一个样本,初始化样本主题变量α,生成向量α(d)和θ(d),其中α(d)=L(d)*α,矩阵L(d)是文档标签矩阵;
使用带特征词权重的Gibbs抽样方法来采集词的主题;
其中表示主题j中在主诉z中的特征词i的数量,表示主题j中在现病史x中的特征词i的数量,αcj表示类别的主题先验概率,βcji表示类别的生成词概率;
步骤3对上述步骤进行迭代,直到Gibbs抽样收敛;
步骤4统计样本集中标签主题的分布和主题词矩阵,根据Gibbs抽样矩阵选取主题下权重系数超过阈值的词作为主题特征;
标签主题模型的分类步骤:
在分类过程中对词在文本中的位置进行权重处理,突出位置的重要性,提升分类的准确性;
具体分类过程如下:
步骤1采用命名实体识别模块处理样本,对提取的症状实体做加权,得到特征词权重;
步骤2把处理好的样本d放入训练模型中,将特征词权重与Gibbs抽样相结合;
初始化测试文档的标签主题,标签主题的参数分布均为超参数的狄利克雷分布;
步骤3在模型上使用带特征词权重的Gibbs抽样进行更新采样,其中主题词的后验估计p已经训练完毕,只需挖掘待测文本标签主题分布q;
步骤4重复步骤3,直到抽样算法收敛;
步骤5统计待测样本中主题、标签的分布,获取被分配最大份额的标签样本类别作为待测样本的标签;
(1.5)利用多层感知机分类进行分类,预测疾病多层感知机的左侧单元是输入层,在这一层,有多少个输入就有多少个神经元;中间单元是隐藏层,可设置多层;隐藏层在输入层和输出层之间,将输入映射到输出,输出层对应不同疾病的分类;
步骤1初始化各个权重值,计算每个样本实例的输出;计算每一层每个神经元的触值;触值是通过计算连接这个神经元的前一层的所有神经元的值与相应的权重的乘积之和得到;
步骤2利用反向传播算法更新MLP网络权值;反向传递算法使用梯度下降更新规则;具体过程如下:
步骤2.1创建多层感知机神经网络,包括nin个输入,nhidden个隐藏层单元以及nout个输出单元,η是学习速率;设定xji是单元i到单元j的输出,wji是相应的权值;
步骤2.2初始化所有连接的权值;
步骤2.3在满足终止条件前,对于训练集中的样本x,t;
把实例x输入网络,并计算网络中每个单元u的输出ou;
对于网络中的每个输出单元k,计算其误差项δk,t是预期的输出;对于网络中的每个隐藏单元h,计算其误差项δh,其误差来自所有与其相连的输出单元;
更新每个网络连接的权值wji,其中第n次迭代的权值更新依赖于第n-1次迭代的更新;在计算梯度下降的损失值时,考虑样本分布不均匀造成的问题,采用来计算损失值;其中βt是类别t样本在所有样本中占的比例,k是样本的分类数,pt是预测值,值γ=2;
(1.6)将上述两个分类器的分类结果进行集成,构建集成分类器;
采用堆叠集成方法对模型进行集成;
该方法并行地学习异质学习器,并通过训练一个元模型将它们组合起来,根据不同模型的预测结果输出一个最终的预测结果;
步骤1将训练集分为2部分,分别用于让2个分类器即标签主题模型与多层感知机进行学习和拟合;
步骤2将2个分类器预测得到的结果作为下一层分类器即元分类器的输入;
步骤3将下一层分类器即元分类器得到的结果作为最终的预测结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山东众阳健康科技集团有限公司,未经山东众阳健康科技集团有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911353290.7/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种设计变更控制方法
- 下一篇:一种考虑限制条件的签派可靠度预计方法及装置