[发明专利]基于迁移学习的新冠危险阶段评估方法和系统在审
申请号: | 202110492146.2 | 申请日: | 2021-05-06 |
公开(公告)号: | CN113192640A | 公开(公告)日: | 2021-07-30 |
发明(设计)人: | 沈国江;李宁;郦鹏飞;孔祥杰 | 申请(专利权)人: | 浙江工业大学 |
主分类号: | G16H50/30 | 分类号: | G16H50/30;G16H50/80;G06K9/62 |
代理公司: | 杭州天正专利事务所有限公司 33201 | 代理人: | 王兵 |
地址: | 310014 浙*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 迁移 学习 危险 阶段 评估 方法 系统 | ||
1.基于迁移学习的新冠危险阶段评估方法,包括如下步骤:
(1)提出新冠危险阶段,具体包括:
目前,各国还没有统一的评估新冠肺炎风险阶段的标准;现有评估标准一般以确诊病例数为依据;但这种以数量为基础的风险阶段评估方法存在诸多问题,一是尚不清楚疫情未来发展趋势,二是无法从一个完整的确诊周期来评估疫情的风险阶段;我们的评估标准是以完整的确诊周期为基础,结合未来疫情发展趋势;
定义具体评价标准如下:
定义:新冠危险阶段;需要引入一个标准—recent_to_max,用来描述一个国家所处的感染状态;
rdc代表最近三天感染量的平均值;mdc表示整个感染周期中最大每日确诊量,为尽可能消除误差,取整个COVID-19感染周期中最大三天确诊数的平均值;casen表示某天的确诊数量;具体COVID-19阶段确定见表1;
rtm范围 COVID-19危险阶段 [0,0.2) 低分险 [0.2,0.5) 中风险 [0.5,0.8) 高风险 [0.8,+∞) 严重
表1
(2)设计解码器,具体包括:
LSTM能捕获输入的定量特征和趋势;编码器由LSTM加一层全连层在经过argmax函数组成;输入为历史4天的COVID-19感染量和未来一天的COVID-19确诊数据,输出为当前COVID-19所处的阶段;具体公式如下:
取经过LSTM的最后一个最为输出;
Ylable就是所需要的危险阶段评估结果;
损失函数用如下公式所示;前半部分最小化真实值与预测值之间的错误;后半部分Lreg为L2正则化项用来避免函数的过拟合,λ是一个超参数;
(3)预训练解码器,以获得标准特征空间映射方法,具体包括:
31.数据预处理;
从全球的COVID-19确诊数据集的187个国家中选择出recent_to_max小于等于0.1且总确诊人数大于3000的国家,这些国家被认为已经处于一个完整周期的末尾或已经超过了这个周期;提前排除有明显数据错误国家,再按照前面的规则,给已选择的国家数据打上相应的标签;
32.正式预训练;
依次使用一个国家的新冠确诊数据进行训练,一般选择训练后的解码器能够100%解码出所训练的国家作为停止标志;
(4)通过解码器,对国家新冠疫情数据按照相似程度分类;
具体的分类过程如下:每次随机把一个国家新冠疫情数据作为基准训练解码器,用该解码器解码所有国家,得到其与每个国家的相似程度们选择相似程度大于一定标准的数据作为一类;一直循环,直到所有的数据都分好类;
(5)定量分析每一类别数据的特征;
不同类别数据的差异主要体现在确诊病例数上;同一类别的国家具有类似的COVID-19周期变化和最大分布;同一类别国家的平均确诊病例数大致相同;因此,应该在每个类别的数据中找到特征趋势,对未知类别的数据进行分类;通过对数据的统计分析,得到这些特征;
(6)待评估国家根据数据特征匹配相应国家类别;
(7)基于实例的迁移学习评估;
对于同一类数据,可以直接迁移数据,解决数据缺乏的问题;直接迁移统一类别数据来训练解码器,然后使用该解码器解码出所需要评估国家的当前新冠危险阶段;
(8)标准化后基于实例的迁移学习评估;
所有国家的数据都根据自己国家数据的最大值进行标准化处理,都标准化值[0,1],即映射到同一分布空间;然后这一部分数据作为源数据去训练解码器;而需要评估的国家,因为不知该国家的新冠确诊的最大值,所以根据该国家特征匹配到国家类别的标准化规则去标准化该国家;标准化后的数据输入解码器得到该国家的新冠危险阶段。
2.实施权利要求1所述的基于迁移学习的新冠危险阶段评估方法的系统,其特征在于:包括依次连接的新冠危险阶段评价标准模块、解码器、解码器预训练模块、国家新冠疫情数据分类模块、数据分析模块、国家类别匹配模块、迁移学习评估模块、标准化后迁移学习评估模块;
其中,新冠危险阶段评价标准模块具体包括:
定义具体评价标准如下:
定义:新冠危险阶段;我们需要引入一个标准—recent_to_max,用来描述一个国家所处的感染状态;
rdc代表最近三天感染量的平均值,天数太短会对每日上下波动太敏感,天数太长会导致早期比率高的国家差别不大;三天比较合理,且能赶上最新的增长趋势;mdc表示整个感染周期中最大每日确诊量,为尽可能消除误差,取整个COVID-19感染周期中最大三天确诊数的平均值;casen表示某天的确诊数量;具体COVID-19阶段确定见表1;
rtm范围 COVID-19危险阶段 [0,0.2) 低分险 [0.2,0.5) 中风险 [0.5,0.8) 高风险 [0.8,+∞) 严重
表1
其中,解码器具体包括:
LSTM能捕获输入的定量特征和趋势;编码器由LSTM加一层全连层在经过argmax函数组成;输入为历史4天的COVID-19感染量和未来一天的COVID-19确诊数据,输出为当前COVID-19所处的阶段;具体公式如下:
取经过LSTM的最后一个最为输出;
Ylable就是所需要的危险阶段评估结果;
损失函数用如下公式所示;前半部分最小化真实值与预测值之间的错误;后半部分Lreg为L2正则化项用来避免函数的过拟合,λ是一个超参数;
其中,解码器预训练模块具体包括:数据预处理子模块和正式预训练子模块;
数据预处理子模块:从全球的COVID-19确诊数据集的187个国家中选择出recent_to_max小于等于0.1且总确诊人数大于3000的国家,这些国家被认为已经处于一个完整周期的末尾或已经超过了这个周期;提前排除有明显数据错误国家,再按照前面的规则,给已选择的国家数据打上相应的标签;
正式预训练子模块:依次使用一个国家的新冠确诊数据进行训练,选择训练后的解码器能够100%解码出所训练的国家作为停止标志;
其中,国家新冠疫情数据分类模块的具体的分类过程如下:每次随机吧一个国家疫情数据作为基准训练解码器,用该解码器解码所有国家,得到其与每个国家的相似程度,选择相似程度大于一定标准的数据作为一类;一直循环,直到所有的数据都分好类;
其中,数据分析模块具体包括:不同类别数据的差异主要体现在确诊病例数上;同一类别的国家具有类似的COVID-19周期变化和最大分布;同一类别国家的平均确诊病例数大致相同;因此,应该在每个类别的数据中找到特征趋势,这反过来可以帮助我们对未知类别的数据进行分类;通过对数据的统计分析,我们得到这些特征;
其中,国家类别匹配模块根据特征确定所需要评估的国家处于哪一类别;
其中,迁移学习评估模块包括:对于同一类数据,直接迁移数据,解决数据缺乏的问题;直接迁移统一类别数据来训练解码器,然后使用该解码器解码出所需要评估国家的当前新冠危险阶段;
其中,标准化后迁移学习评估模块具体包括:标准化后基于实例的评估,所有国家的数据都根据自己国家数据的最大值进行标准化处理,都标准化值[0,1],即映射到同一分布空间;然后这一部分数据作为源数据去训练解码器;而需要评估的国家,因为不知该国家的新冠确诊的最大值,所以根据该国家特征匹配到国家类别的标准化规则去标准化该国家;标准化后的数据输入解码器得到该国家的新冠危险阶段。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江工业大学,未经浙江工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110492146.2/1.html,转载请声明来源钻瓜专利网。