[发明专利]基于半监督学习的疾病预测模型建立方法及装置有效

申请号：	201711135644.1	申请日：	2017-11-16
公开（公告）号：	CN107944479B	公开（公告）日：	2020-10-30
发明（设计）人：	王宏志;宋扬	申请（专利权）人：	哈尔滨工业大学
主分类号：	G06K9/62	分类号：	G06K9/62;G06N3/08;G16H50/50
代理公司：	北京格允知识产权代理有限公司 11609	代理人：	周娇娇;谭辉
地址：	150001 黑龙***	国省代码：	黑龙江;23
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于监督学习疾病预测模型建立方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明涉及一种基于半监督学习的疾病预测模型建立方法及装置，包括以下步骤：将有标签数据进行分类，得到有标签数据的基础分类模型；选取部分无标签数据；将选取的部分无标签数据通过聚类方法进行分类，并且利用所述基础分类模型对选取的部分无标签数据进行标记，根据所述无标签数据的聚类结果和预测结果得到无标签数据的标记结果，再与有标签数据合并起来进行分类，得到更新的基础分类模型，从剩下的无标签数据中继续选取部分无标签数据重新建模，如此迭代直至所有无标签数据处理完毕，得到最终分类模型。本发明对无标签数据进行建模，具体结合了有标签的分类方法和无标签的聚类方法，并通过迭代方式提升预测精度，更好地提升模型预测精度。

技术领域

本发明涉及数据处理领域，尤其涉及一种基于半监督学习的疾病预测模型建立方法及装置，以及基于半监督学习的疾病预测方法及装置。

背景技术

疾病预测是目前一个非常重要的课题，通过对医疗数据进行分析，得出预测模型，可以更好的对疾病数据进行利用，帮助医生和个人进行疾病判断。目前采用的数据建模方法主要为有监督学习方法，即根据已知的用例进行数据建模，并利用模型对未标记的数据进行标记。然而，有监督学习方法一般对有标签数据进行数据建模，但现在有效数据量非常有限，而海量的无标签数据数目庞大，造成许多的数据模型并未很好的拟合数据甚至过拟合数据。

发明内容

本发明要解决的技术问题在于，针对现有技术中的上述缺陷，提供一种基于半监督学习的疾病预测模型建立方法及装置，利用半监督学习方法对无标签数据进行建模，其结合了有标签的分类方法和无标签的聚类方法，根据数据分类结果进行调整，并通过迭代方式提升预测精度。

为了解决上述技术问题，本发明第一方面，提供了一种基于半监督学习的疾病预测模型建立方法，包括以下步骤：

S1、将有标签数据进行分类，得到有标签数据的基础分类模型；

S2、从无标签数据中选取部分无标签数据；

S3、将步骤S2选取的部分无标签数据通过聚类方法进行分类，得到无标签数据的聚类结果M₁，并且利用所述基础分类模型对步骤S2选取的部分无标签数据进行标记，得到预测结果T₁；根据所述无标签数据的聚类结果M₁和预测结果T₁得到无标签数据的标记结果C；

S4、将无标签数据的标记结果C和有标签数据合并起来进行分类，得到更新的基础分类模型，转步骤S2从剩下的无标签数据中继续选取部分无标签数据执行步骤S3和S4，如此迭代直至所有无标签数据处理完毕，得到最终分类模型。

优选地，所述步骤S2中，若q₂远大于q₁，其中q₁为有标签数据的数据总量，q₂为无标签数据的数据总量，则选取的所述部分无标签数据的数量为a×q₂，且15％≤a≤25％，否则选取的所述部分无标签数据的数量为b×q₁，且45％≤b≤55％。

优选地，所述步骤S2中，若q₂＞10q₁，则选取的所述部分无标签数据的数量为a×q₂，其中a＝20％；若q₁≤q₂≤10q₁，则选取的所述部分无标签数据的数量为b×q₁，且b＝50％。

优选地，所述步骤S3中利用以下线性公式计算无标签数据的标记结果C：

C＝αT₁+βM₁；

其中α,β为分类系数；α＝50％q₁/(q₁+q₂)，β＝q₁/(q₁+q₂)。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于哈尔滨工业大学，未经哈尔滨工业大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201711135644.1/2.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06K 数据识别；数据表示；记录载体；记录载体的处理
G06K9-00 用于阅读或识别印刷或书写字符或者用于识别图形，例如，指纹的方法或装置
G06K9-03 .错误的检测或校正，例如，用重复扫描图形的方法
G06K9-18 .应用具有附加代码标记或含有代码标记的打印字符的，例如，由不同形状的各个笔画组成的，而且每个笔画表示不同的代码值的字符
G06K9-20 .图像捕获
G06K9-36 .图像预处理，即无须判定关于图像的同一性而进行的图像信息处理
G06K9-60 .图像捕获和多种预处理作用的组合

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于半监督学习的疾病预测模型建立方法及装置有效

专利文献下载