[发明专利]糖尿病并发症分析方法及装置有效
申请号: | 201810844798.6 | 申请日: | 2018-07-27 |
公开(公告)号: | CN109036577B | 公开(公告)日: | 2021-10-22 |
发明(设计)人: | 丁帅;杨善林;金行;俞尧 | 申请(专利权)人: | 合肥工业大学 |
主分类号: | G16H50/70 | 分类号: | G16H50/70 |
代理公司: | 北京旭路知识产权代理有限公司 11567 | 代理人: | 董媛;王莹 |
地址: | 230009 安*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 糖尿病 并发症 分析 方法 装置 | ||
1.一种糖尿病并发症分析方法,其特征在于,所述方法包括:
获取病历文档集;所述病历文档集包括第一数量份病历文档;每份病历文档包括至少一个病程记录;
获取所述至少一个病程记录的病程记录-主题分布,得到每份病历文档的病程记录向量;
获取所述病程记录向量的分类标签;
利用每份病历记录的多个分类标签对疾病发现模型进行训练,得到最终的疾病发现模型;
获取所述至少一个病程记录的病程记录-主题分布,得到每份病历文档的病程记录向量包括:
计算所述病历文档集任意两个病历文档之间的相似度,得到所述相似度大于或等于相似度阈值的多个病历文档构成的相似性约束病历集合;
将所述相似性约束病历集合中各病历文档依次输入到预设LDA模型,通过所述预设LDA模型推导各病历文档的文档-主题分布和主题-单词分布;
根据所述文档-主题分布和主题-单词分布构建每份病历文档的病程记录向量;
所述预设LDA模型通过改变Gibbs抽样收敛条件策略来获得,具体包括:
任意两个病历文档相似性约束采用主题分布距离dis(θrm,θrn)表示,公式为:
其中,θrm={θm,1,θm,2,…,θm,Lm}表示编号m的病例文档的病程记录的主题集合,病历文档包括Lm个病程记录;θm,Lm表示第Lm个病程记录的主题;θrn表示编号n的病例文档的病程记录的主题集合,病历文档包括Ln个病程记录;d(θm,Lm,θn,Ln)表示为两个病程的主题向量之间的欧式距离;
采用Gibbs-EM迭代方法进行LDA模型推导,将文档-主题分布αm修改为正态分布μm,得到预设LDA模型:
其中,αmk表示主题k的文档-主题分布;μmk代表病历文档m属于主题k的概率,当认为μm服从标准正态分布,则最大目标函数如下表达:
在采样过程中先固定文档-主题分布αm,那么Gibbs-EM迭代函数表达式为:
其中,代表相似性约束病历集合中主题为k的单词i的数量;由于采用正态分布来代替原来的α,则上式可以用随机梯度下降方法进行推导;p(Z,W|μ,β)表示最大化词语出现概率;表示单词分布为k的概率;i为一个数据对。
2.根据权利要求1所述的方法,其特征在于,获取所述至少一个病程记录的病程记录-主题分布,得到每份病历文档的病程记录向量包括:
根据至少一个病程记录的病程记录-主题分布获取所述病历文档的多维时间序列主题;
利用奇异值分解对所述多维时间序列主题进行特征抽取,得到对角线位置的奇异值参数为所述病历文档的病程记录向量。
3.根据权利要求1所述的方法,其特征在于,获取所述病程记录向量的分类标签包括:
获取病历文档集对应的疾病集;所述疾病集中包括多种疾病标签;
从所述疾病集中任选一个疾病标签,利用BP二元分类方法将所述疾病标签添加到包括所述疾病的病程记录向量。
4.根据权利要求1所述的方法,其特征在于,计算初始病历中任意两个病历文档之间的相似度包括:
获取病历的多个相似性计算因素及各相似性计算因素的权重值;
分别计算任意两个病历文档关于各相似性计算因素的数值;所述相似性计算因素包括:性别属性的距离、年龄所属分段的距离、诊断结果的距离;
根据各相似性计算因素的数值和各相似性计算因素的权重值计算所述任意两个病历文档的相似度。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于合肥工业大学,未经合肥工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810844798.6/1.html,转载请声明来源钻瓜专利网。