[发明专利]基于健康预测模型的健康预测方法和装置有效
申请号: | 201810036412.9 | 申请日: | 2018-01-15 |
公开(公告)号: | CN108122613B | 公开(公告)日: | 2022-04-01 |
发明(设计)人: | 不公告发明人 | 申请(专利权)人: | 北京颐圣智能科技有限公司 |
主分类号: | G16H50/30 | 分类号: | G16H50/30;G16H70/00 |
代理公司: | 北京万思博知识产权代理有限公司 11694 | 代理人: | 姜楠楠 |
地址: | 100190 北京市海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 健康 预测 模型 方法 装置 | ||
本申请公开了一种健康预测方法和装置,其中方法包括以下步骤:S1对所有病历进行结构化处理,得到特征名称;S2基于所述特征名称构建独热数据,基于所述独热数据,对所有病历的每一个进行独热编码,得到独热编码数据;S3基于所述独热编码数据,将所述独热编码数据对应的独热数据转化为格式数据,所述格式数据包括特征值;S4利用所述格式数据对健康预测模型进行训练,得到所述健康预测模型;以及S5利用S4得到的所述健康预测模型对健康进行预测。本方法应用了二次特征和三次特征;针对二次特征和三次特征的参数学习进行了优化,从而在面对特征稀疏的数据情况时仍能表现很好。
技术领域
本申请涉及医学信息处理技术,特别是涉及一种基于健康预测模型的健康预测方法和装置。
背景技术
随着人工智能技术在各行业应用的扩展,越来越多的人开始关注其在医学数据上的应用。医院拥有大量的非结构化的电子病历,蕴含了丰富的医疗信息,可以挖掘出宝贵的医疗价值,并应用于不同的医疗场景,健康预测就是其中一个重要的应用场景。
目前被广泛应用的病历形式仍然是文本病历,文本病历存在着丰富的信息,但是由于不同医院及其医生的风格不同,所以文本病历的格式以及描述疾病的方式也不同,使得这些医学数据无法得到广泛应用。
另外,医务人员面对众多的医学数据往往要依靠足够的经验进行判断。由于医务人员本身的知识储备和经验等方面的差异,不同的医务人员对于同样的疾病或者症状的诊断方式和诊断结果不尽相同,这无疑降低了对症状判断的效率和准确率。因此,健康预测模型的建立至关重要。所以,如何从海量的医学数据中抽象和整理出医学经验,从而为医务人员提供快速准确的辅助参考信息显得尤为重要。
发明内容
本申请的目的在于克服上述问题或者至少部分地解决或缓减解决上述问题。
根据本申请的一个方面,提供了一种健康预测方法,包括以下步骤:
步骤S1,对所有病历进行结构化处理,得到特征名称;
步骤S2,基于所述特征名称构建独热数据,基于所述独热数据,对所有病历的每一个进行独热编码,得到独热编码数据;
步骤S3,基于所述独热编码数据,将所述独热编码数据对应的独热数据转化为格式数据,所述格式数据包括特征值;
步骤S4,利用所述格式数据对健康预测模型进行训练,得到所述健康预测模型;以及
步骤S5,利用S4得到的所述健康预测模型对健康进行预测。
通过本申请的方法,能够对海量的病历文本进行分析总结,得到统一的模型,进而对健康进行预测,从而给医生提供参考数据。
进一步地,步骤S1包括:
步骤S11,对病历进行分词,得到分词后的文本数据;
步骤S12,对所述分词后的文本数据进行命名实体识别,得到实体数据;
步骤S13,识别所述实体数据中的医学术语,对所述医学术语进行标记,得到标记后的医学术语;以及
步骤S14,对所述得到标记后的医学术语进行结构化处理,得到特征名称。
进一步地,在步骤S2中,所述独热数据的形式是:特征名称_描述:特征名称;诱因:特征名称;转归:特征名称;部位:特征名称。
进一步地,在步骤S3中,所述格式数据的格式为:领域编号:特征编号:特征值;其中,每个特征名称具有一特征编号,属于同一医学术语转化来的特征名称具有相同的所述领域编号。
进一步地,每个特征值对应所述健康预测中的多个隐向量,所述隐向量的个数根据领域编号确定。
进一步地,将所述格式数据代入下面的所述健康预测模型的变形形式,如公式(1):
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京颐圣智能科技有限公司,未经北京颐圣智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810036412.9/2.html,转载请声明来源钻瓜专利网。