[发明专利]医疗大数据多中心整合平台及方法在审

申请号：	201710946758.8	申请日：	2017-10-12
公开（公告）号：	CN107833595A	公开（公告）日：	2018-03-23
发明（设计）人：	薛付忠;季晓康;王永超;高琦;徐聪;王晓鹤;阿力木·达依木;曹瑾;许艺博;蒋正;卞伟玮;李敏;孙苑潆;韩君铭;马官慧	申请（专利权）人：	山东大学;康评健康医疗大数据科技有限公司
主分类号：	G16H10/00	分类号：	G16H10/00;G06F17/30
代理公司：	济南圣达知识产权代理有限公司37221	代理人：	黄海丽
地址：	250101 山***	国省代码：	山东;37
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	医疗数据中心整合平台方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明涉及一种医疗大数据多中心整合平台及方法。

背景技术

现有技术存在如下问题需要解决：

第一，数据量巨大且样式繁杂；所述数据包括数十家体检中心的体检数据、多个地区基本公共卫生服务、育龄妇女等政府数据、多家三甲医院的临床数据，以及多个专科专病数据，例如：精神病数据、胶质瘤等重大疾病数据库，每一个数据源都存储大量的数据，并且每一个数据源数据格式千差万别；

第二，传统数据整理的弊端，传统数据整理都是针对单一数据库，消耗大量的人力物力来整理数据，统计分析，发现有价值的科研成果。但是，随着大数据时代的到来，穿戴设备的加入，医疗卫生领域的数据量正在成指数型的增长，显然传统的数据整理方式已经不能适应目前的数据处理需求，并且成为科研工作者利用数据的一个重大障碍，特别是如何把多中心、多样化的数据在一个数据整理平台上统筹管理，统筹挖掘，互相补充，更是传统数据整理方式无法解决的问题。举例：传统处理方式无法解决同一个人在不同医院诊疗或体检，如何分辨同一个人的问题。

第三，数据展示方式：生物统计所研究的数据量都是巨大的，所述的数据库，每一个都是千万级及以上的数据量。现有技术无法直观的看到这些数据。我们必须采用大数据可视化的手段，用更直观的图像方式来展示数据，如直方图、折线图、散点图等等，使得数据使用者以及决策者对数据有一个初步直观的了解，以便于做下一步的科研及决策。

第四，数据的标准化：各医疗机构，各个数据方，由于并不存在一个统一的行业标准，在各自信息化发展的过程中，所采集存储的数据，存在很大的差异，例如，相同疾病、药物、手术在不同机构存在不同的叫法；相同的检测指标，由于检测仪器的不同，检测试剂的差异，其参考范围、单位相差甚大，作为一个数据整合平台，必须建立一套标准，对指标的名称，指标的结果值，通过有效的处理工具进行整理，标准化操作。

第五，非结构化数据的处理：非结构化数据处理指对检查描述、检查结论等文本信息的处理，整段的文字描述，必须要抽取其中的关键信息，否则无法进行有效的科研利用，并且这些大量的文本数据，包含的信息量是巨大的，在提取关键、有效信息的同时，必须要保证信息提取的全面性，任何有用信息的丢失，都是一个数据完整性的巨大损失。

第六，科研与整理的关系：众所周知数据整理是科研统计的前提，但是存在一个尴尬的问题，很有可能科研所需求的研究指标在整理的数据库中并不能得到满足，例如，我们科研需要研究的指标“非酒精性脂肪肝”，在一般的数据整理的过程中，体检指标有是否饮酒和超声诊断是否脂肪肝，对脂肪肝的类型，需要研究者自己定义，需要再次整理原始数据。

发明内容

本发明的目的就是为了解决上述问题，提供一种医疗大数据多中心整合平台及方法，它具有接入方便，分布式挖掘，工具丰富，直观可视化，智能整理等优点。

为了实现上述目的，本发明采用如下技术方案：

一种医疗大数据多中心整合平台，包括：

数据中心服务器，建立并维护标准变量和标准字典；

数据分中心服务器，采集各数据源原始数据，将原始数据存储到对应的数据库中，每个数据库中均包括：变量索引表、人员信息表、检查结果表；对变量索引表、人员基本信息表、检查结果表中的数据进行预处理操作；每个数据库对应唯一编码；

数据应用服务器，用于对数据分中心服务器预处理操作后的数据进行数据利用。

所述标准变量，包括：项目代码、项目名称、所属科室、指标解读、数据类型、数据标签、参考范围；

项目代码，例如：1001、1002；项目名称，例如：平均红细胞血红蛋白浓度、平均红细胞血红蛋白含量；所属科室，例如：检验科、妇科；指标解读，对项目名称的介绍；数据类，例如：数值型、文本型；数据标签，例如：血常规、尿常规；参考范围，例如：各个检测结果的参考范围；

所述标准字典，包括：《疾病和有关健康问题的国际统计分类》ICD10、《中国药典》或阳性体征；

所述标准变量维护，包括：标准项目名称、编码和分类。

所述标准字典维护，根据《疾病和有关健康问题的国际统计分类》ICD10或《中国药典》，对原始数据进行标准化处理和文本结构化处理。