[发明专利]一种基于ɑ-RIPPER分类器的国民体质健康分析方法在审
申请号: | 201910632232.1 | 申请日: | 2019-07-13 |
公开(公告)号: | CN110335680A | 公开(公告)日: | 2019-10-15 |
发明(设计)人: | 朱容波 | 申请(专利权)人: | 朱容波;丹阳市远波医疗科技有限公司 |
主分类号: | G16H50/30 | 分类号: | G16H50/30;G06K9/62 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 212300 江苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 国民体质 冲突率 分类器 算法 分类模型 规则冲突 计算规则 评价指标 生长阶段 生长状况 数学问题 分析 比特位 成长期 剪枝 健康 综合分析 构建 前件 体质 分类 引入 转换 优化 | ||
1.一种基于ɑ-RIPPER分类器的国民体质健康分析方法,其特征在于:将国民体质健康分析转换为数学问题,利用优化的RIPPER算法,构建ɑ-RIPPER分类模型,实现对以地域划分的成长期儿童或青少年不同生长阶段各项重要体质评价指标的归类并结合评价结果综合分析儿童或青少年的生长状况。
2.根据权利要求1所述的基于ɑ-RIPPER分类器的国民体质健康分析方法,构建一种基于ɑ-RIPPER分类器的国民健康分析方法,其特征在于:将儿童青少年体质健康分析转换为数学问题,构建ɑ-RIPPER分类模型,实现对以地域划分的成长期儿童或青少年不同生长阶段各项重要体质评价指标的归类并结合评价结果综合分析儿童或青少年的生长状况。
请见图1,通过对入库的青少年儿童的相关基本信息进行整理,提取成长期青少年儿童的健康信息包括年龄、性别、所在地域、身高体重、父亲身高、母亲身高、立定跳远、引体向上、俯卧撑、仰卧起坐、肺活量、体前屈、折返跑、实心球、握力、体脂、血压、视力、听力等生长期关键信息作为模型的输入X,即X={x1,x2,x3,x4,...,xi};对成长期儿童青少年不同年龄阶段各项指标的检测并结合特定地域内儿童青少年男女生生长指标等级进行划分,其中地域内成长的各项指标包括身高、体重等发育指标,且上述指标通常根据当地饮食气候、遗传等因素进行综合评估,最终得到成长期儿童青少年当前各项重要生长指标的等级Y,且Y={y1,y2,y3,...,ym};将其作为模型输出,构分析预测模型。
3.根据权利要求2所述的构建一种基于ɑ-RIPPER分类器的国民健康分析方法,其特征在于,步骤2的具体实现见图2,包括以下子步骤:
步骤3.1:通过α-IREP*算法获得输入数据集D的规则集Rule,执行α-IREP*算法:
请见图3,具体实现包括以下子步骤:
步骤3.1.1:对输入数据集合Dataset进行分割,得到正例集Pos和反例集Neg;
步骤3.1.2:初始化集合Rule、nR,其中Rule存放剪枝后的规则,nR存放单条规则;
步骤3.1.3:判断Pos集合是否为空,若是执行步骤3.1.10,否则执行步骤3.1.4;
步骤3.1.4:将数据集正反例按比例分割成训练集Grow和剪枝集Prune,初始化集合nR;
步骤3.1.5:调用FindLiteral寻找合适的逻辑字加入集合nR,并更新训练集Grow;
在IREP*算法中PruneR遵循的策略是“准而短”,即生成一条规则后,不断减少规则前件直到ɑ最大,即覆盖的真正例率最高为止。对于FindLiteral算法,具体做法为:首先依据输入数据元组的属性生成候选文字集P,将P中文字分别与已生成的规则前件进行组合析取,分别计算信息增益Gain(表达式见式1),选择信息增益较高的逻辑文字加入其中。
Gain(pi)=Cover·(log2t′-log2t) (1)
Cover(pi)表示添加pi后该条规则覆盖的正例数,t、t'分别为加入pi前后规则覆盖数据中正例的比例。
步骤3.1.6:判断训练集中反例是否为空,若是执行步骤3.1.7,否则跳转到步骤3.1.5;
步骤3.1.7:对生成的单条规则nR进行Prune剪枝;
步骤3.1.8:判断加入nR后的规则集描述长度是否比目前获得的最小规则集描述长度大d(默认64bit)bit,若是则执行步骤3.1.9,否则执行步骤3.1.12,更新规则集的最大长度。
步骤3.1.9:计算新生成规则nR与Rule规则集中各规则间的冲率Cr;
步骤3.1.10:判断Cr是否大于阈值ɑ,若是则执行步骤3.1.11,否则执行步骤3.1.12;
步骤3.1.11:对冲突率大于阈值的规则进行剪枝,执行步骤3.1.10;
步骤3.1.12:将Pos与Neg中被nR覆盖的元组删除,更新Pos、Neg,将nR加入到Rule,返回3.1.3;
步骤3.2:初始化循环次数i=0;
步骤3.3:对Rule进行后处理优化PostOpt,获得最优规则集RuleSet;
PostOpt具体实现包括以下子步骤:
步骤2.3.1:针对规则集Rule中的每一条规则ri利用α-IREP*产生两个候选规则r'、r:(1)在r'生成过程中,以规则ri覆盖的样例集作为α-IREP*的剪枝集Pos',剪枝时在整个剪枝集Pos进行覆盖准确率度量;(2)r生成时,以规则ri覆盖的样例集作为α-IREP*的增长集Grow',对ri增加逻辑文字,直至不能增加为止,然后进行剪枝,得到规则集r。
步骤2.3.2:将规则集R中的ri分别用r'、r替换形成R'、R,通过比较规则集R、R'、R三者在数据集D上的覆盖准确率选择其中质量最高的规则集作为后处理优化后的Ruleset。
步骤3.4:将数据集D中未被规则集RuleSet覆盖的数据Di作为输入,通过α-IREP*算法获得规则集Ri
步骤3.5:将Ri加入到RuleSet,更新i=i+1,Rule=Ruleset;
步骤3.6:判断i是否等于设定值,若是执行步骤3.7,否则执行步骤3.3;
步骤3.7:输出规则集Rule。
4.根据权利要求3所述的改进的RIPPER分类器分析方法,其特征在于:步骤3.1.9-3.1.11中,在RIPPER算法规则集增长阶段,设置一个冲突率阈值α,每增加一条规则对规则集在训练数据上各项规则间的冲突率δi进行计算并将其与α比较,当δi>α时,对产生冲突的规则进行剪枝操作直至低于阈值。上述操作从控制冲突率的角度进行冲突消解同时依照MDL原则对规则集描述长度进行控制,使规则的描述更加精练、准确,同时在一定程度上增强了算法泛化能力。其中冲突率阈值α的确定方法如下:
当完成一条规则的生成及初步剪枝后,在加入规则集前对该条规则与其他规则的冲率进行计算得到δ={δ1,δ2,…,δn},n为当前规则集中规则的条数,取冲突率的平均值作为α的值,表达式如下所示。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于朱容波;丹阳市远波医疗科技有限公司,未经朱容波;丹阳市远波医疗科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910632232.1/1.html,转载请声明来源钻瓜专利网。