[发明专利]一种不均衡数据下最优化学习样本合成算法选择及参数确定方法有效
申请号: | 201910187920.1 | 申请日: | 2019-03-13 |
公开(公告)号: | CN110021426B | 公开(公告)日: | 2021-10-15 |
发明(设计)人: | 许金山;卢炎培 | 申请(专利权)人: | 浙江工业大学 |
主分类号: | G16H50/20 | 分类号: | G16H50/20;A61B5/00 |
代理公司: | 杭州斯可睿专利事务所有限公司 33241 | 代理人: | 王利强 |
地址: | 310014 浙江省*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 均衡 数据 优化 学习 样本 合成 算法 选择 参数 确定 方法 | ||
一种不均衡数据下最优化学习样本合成算法选择及参数确定方法,以数据特征对诊断结果的贡献能力为出发点,分析样本均衡度对其区分能力的影响,提出以最大化特征区分能力为指标来选择样本合成采样算法。同时,构建激活函数来描述样本数量对分类能力的影响。在此基础上,提出有效特征区分度指标,并通过对该指标的最大化来获得最优样本均衡度。本发明所涉及的过程均以特征对样本的正确分类为目标,且仅需要对原始数据进行操作,可以在不增加样本采集及引入新特征的情况下获得更高的诊断效果。另外,没有特征数量方面要求,不会因为数据特征数量多少影响最终计算的最优样本均衡度的准确率。
技术领域
本发明涉及基于机器学习的疾病检测领域,通过确定最优的样本合成采样方法及其采样率,解决机器在学习分类器由于疾病类样本数据匮乏而导致的检测精度低下问题。
背景技术
近年来,以机器学习算法为基础的人工智能(Artificial Intelligence,AI)越来越受人们关注,特别是伴随着大数据时代的到来,其应用范围也越来越广,基于机器学习的应用更是层出不穷。应用机器学习方法进行疾病筛查其中的热点研究问题之一,特别是对于那些目前还没有有效诊断方法的疾病。早产(Preterm Birth, 怀孕小于37周的新生儿)作为全球范围的公共健康问题之一,即使在欧洲和其他一些发达国家,早产也约占新生儿7%左右。据统计每年全球约有1500万早产儿出生,占全部新生儿的6%~10%,其中约100万早产儿死于早产并发症。此外,早产可导致严重的不良围产儿预后,比如生长发育迟缓、视力损害、听力障碍、慢性肺部疾病、脑瘫以及运动受限等,都已经对社会和家庭造成了巨大的负担。虽然围产监护水平取得了长足进步,但常归的检测手段如子宫分娩力计(TOCO),宫内压力计(Intra-uterine Pressure Catheter),胎儿纤连蛋白(fetal Fibronectin),宫颈长度测量(Cervical length measurement)都无法提供可靠的检测结果。
应用机器学习方法进行早产检测是目前的一个研究热点,其实质是通过分析样本病例的特征,学习这些特别在不同类之间的分布特性,然后利用这些分布特性判断未知病例归类于早产还是正常病例。因此,从本质上来说基于机器学习的早产检测是一个分类问题。类似于其他的应用,高效的早产诊断方法离不开学习样本量的充裕性及样本特征的有效性。
早产的发生从本质上来说是持续且强有力的宫缩过早地产生。生理学实验表明,宫缩是伴随着子宫肌细胞动作电位活动及其传播产生的,而子宫肌细胞的动作电位又可以通过置于孕妇腹部的电极采集并记录,形成子宫肌电 EHG(eletrohysterogram)信号。正因如此,EHG信号为早产诊断方法研究指明了新方向。目前世界上已经建立起了多个关于关于孕期子宫EHG信号的数据库: EPEHG数据库(THE TERM-PRETERM EHG DATABASE)和冰岛16电极EHG数据库(ICELANDIC 16-ELECTRODE ELECTOHYSTEROGRAM DATABASE)。
虽然这些开源的数据库为分类器训练提供了数据支撑,但由于EHG信号采集还没有普及,EHG数据资源极为有限。数据量最大的TPEHG库也只有300个有效样本,并且样本在类间的分布极不均匀:38个早产病例,262个正常分娩病例。虽然不段有新的特征被用于训练分类器,类似于大多数的医疗数据,患病样本数相对于非患病样本数较少,用这些这些类间分布不均衡的样本数据训练分类器,容易造成分类器对于少数类(患病样本)不敏感,分类精度无法满足要求。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江工业大学,未经浙江工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910187920.1/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置