[发明专利]一种基于贝叶斯网络的健康大数据抽验系统及方法在审

专利信息
申请号: 202110213684.3 申请日: 2021-02-23
公开(公告)号: CN112818373A 公开(公告)日: 2021-05-18
发明(设计)人: 杨矫云;任振宇;王俊达;李廉 申请(专利权)人: 合肥工业大学
主分类号: G06F21/60 分类号: G06F21/60;G06F21/62;G06F21/64;G06N7/00
代理公司: 北京海虹嘉诚知识产权代理有限公司 11129 代理人: 何志欣
地址: 230009 *** 国省代码: 安徽;34
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 贝叶斯 网络 健康 数据 抽验 系统 方法
【说明书】:

本发明涉及一种基于贝叶斯网络的健康大数据抽验系统及方法,所述系统至少包括抽验模块,所述抽样模块基于卡方检验来检测从原始数据集抽取的至少一个子数据集,并且基于卡方检验结果和与其连接的终端的预设条件来向所述终端发送匹配的子数据集,其中,所述子数据集是由所述抽样模块以启发式抽样的方式从原始数据集中抽取的。本发明基于两个评分函数,使用卡方检验保证抽取出的子数据集与原始数据集的条件概率分布无显著差异,进而保证两者的联合概率分布无显著差异。同时,可以大幅降低数据集的样本量。

技术领域

本发明涉及健康数据管理技术领域,尤其涉及一种基于贝叶斯网络的健康大数据抽验系统及方法。

背景技术

抽样是数据科学中的一种基本方法。它利用某种方法生成规模较小的子数据集,用于替代整个数据集,从而降低数据规模和计算复杂性。典型的抽样方法有随机抽样、系统抽样、分层抽样等。

在如今的大数据时代,各种各样的传感器产生了大量的数据,而且它们之间存在着大量冗余。在数据共享时,通过匿名化等手段隐藏隐私后,数据持有者会通过抽样等方法开放部分数据,减少开放的数据规模,从而降低数据开放与分析的代价。在数据中心,数据销售商或者供应商通常利用数据集的子集显示数据特征。

虽然抽样可以降低数据规模,但是可能造成数据信息的损失,从而影响数据分析准确性,降低数据价值,因此在抽样基础上保证数据的可用性显得尤为重要。数据集的联合概率分布往往可以反映出数据集的一些重要特征,而且许多机器学习模型都是基于概率分布的。此外,很多在医疗和生物领域的研究者都会注重于数据集的分布。所以,可以用数据集的联合概率分布作为数据可用性的重要指标。目前为止,有大量的抽样方法被提出,但是保持分布不变的抽样方法却很少。

例如,专利文献CN104915779B公开了一种基于贝叶斯网络的抽样试验设计方法,属于生产验收技术领域。所述方法包括确定产品生产过程中影响变更风险的因素,多层次分析,建立贝叶斯网络;基于贝叶斯网络量化变更风险指数;根据历史数据确定产品可靠性参数的先验分布;利用变更风险指数修正产品可靠性参数的先验分布;基于贝叶斯抽样试验设计方法设计动态抽样方案。但是,该抽样方法仅能够提取原始数据的关键信息,不能够保持提取出的子数据集与原始数据集的同一性分布不变,也无法隐藏和保护原始数据。

此外,一方面由于对本领域技术人员的理解存在差异;另一方面由于发明人做出本发明时研究了大量文献和专利,但篇幅所限并未详细罗列所有的细节与内容,然而这绝非本发明不具备这些现有技术的特征,相反本发明已经具备现有技术的所有特征,而且申请人保留在背景技术中增加相关现有技术之权利。

发明内容

针对现有技术之不足,本发明提供一种基于贝叶斯网络的健康大数据抽验系统,所述系统至少包括抽验模块,所述抽样模块基于卡方检验来检测从原始数据集抽取的至少一个子数据集,并且基于卡方检验结果和与其连接的终端的预设条件来向所述终端发送匹配的子数据集,其中,所述子数据集是由所述抽样模块以启发式抽样的方式从原始数据集中抽取的。

优选地,所述抽验模块基于卡方检验来检测所述子数据集至少一个属性的条件概率分布。

优选地,在终端向抽验模块请求与原始数据集的联合概率分布具有同一性的至少一个子数据集的情况下,

所述抽验模块以启发式抽样的方式抽取满足联合概率分布的至少一个子数据集。

优选地,在终端向抽验模块请求与原始数据集的联合概率分布不具有同一性的至少一个子数据集的情况下,

所述抽验模块随机抽取不满足联合概率分布的至少一个子数据集。

优选地,所述抽验数据系统还包括存储原始数据集的原始数据库和贝叶斯网络模型模块,

所述抽样模块从原始数据集抽取子数据集的方式包括:

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于合肥工业大学,未经合肥工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110213684.3/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top