[发明专利]一种基于大数据平台的多源数据融合共享实现方法及系统在审
申请号: | 201811426832.4 | 申请日: | 2018-11-27 |
公开(公告)号: | CN109710667A | 公开(公告)日: | 2019-05-03 |
发明(设计)人: | 张帅;谢莹莹;郭庆;宋怀明;蒋丹东 | 申请(专利权)人: | 中科曙光国际信息产业有限公司 |
主分类号: | G06F16/25 | 分类号: | G06F16/25;G06F16/22;G06K9/62 |
代理公司: | 北京兰亭信通知识产权代理有限公司 11667 | 代理人: | 赵永刚 |
地址: | 266101 山东省青岛市*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 大数据 定时规则 多源数据 数据接入 数据融合 存储库 配置的 构建 数据交换接口 互联网数据 数据源信息 抽取数据 二级索引 上层应用 上线部署 数据共享 转换数据 共享 融合 灵活的 数据源 分层 配置 检索 装载 存储 采集 场景 开发 统一 | ||
本发明提供一种基于大数据平台的多源数据融合共享实现方法及系统,所述方法包括配置至少一个数据源信息和定时规则,并按照所配置的定时规则执行数据接入作业,数据接入作业为从所获取的至少一个数据源中抽取数据、或互联网数据采集、或转换数据、或装载数据至大数据平台;对数据接入作业中所接入的数据按照所配置的定时规则进行数据融合作业;对经数据融合作业后的数据进行分层分库存储形成存储库,并在所述存储库上构建二级索引库;通过在所构建的大数据平台中设置统一的数据交换接口进行数据共享。本发明能够面对不同场景和多源数据只需通过灵活的配置无需再次进行开发,极大提高项目上线部署效率,极大简化上层应用对大数据平台上数据的检索。
技术领域
本发明涉及大数据技术领域,尤其涉及一种基于大数据平台的多源数据融合共享实现方法及系统。
背景技术
近年来,随着互联网、社交网络、云计算、搜索引擎等IT与通信技术的迅速发展,数以亿级的用户每天都在产生大量的数据。大规模数据的涌现给许多行业带来了宝贵的机遇,但同时这些数据所伴随的典型特性,如大规模、多来源(多源)、类型和模式多样(异构)、高维度以及质量良莠不齐等,使得数据的表示、理解、计算和运用等多个环节都面临着极大的挑战。数据的质量是制约数据使用的“瓶颈”,作为提高数据质量的重要解决技术,数据清洗和数据融合是多源异构数据处理中的热点研究领域,具有重要的价值与意义。但是传统数据清洗方法借助硬编码方法实现业务逻辑,导致系统的可重用性、可扩展性与灵活性较差。另外,现实中的许多应用经常需要集成来自不同途径的异构数据,如何确保这些数据的一致性正逐渐成为一个必须要解决的问题,即实体识别技术。
目前在用交通业务系统31个,交通信号控制路口194个、治安测速卡口66个断面、闯红灯抓拍系统192个路口、交通诱导系统86套、流量监测系统369套、道路视频652个、高空高清视频32套、车载3G视频45套、事件监测系统248套、移动执法终端273台等
交通管理领域的“大数据”从数据来源上主要包括行政采集的机动车、驾驶人、道路等档案数据,路面执法人员采集的车辆和驾驶员信息、查处的交通违法信息、处理的交通事故、道路、交通数据信息等数据,道路电子监控设备自动采集的视频、图片、车流量、GPS轨迹等数据,社会公众服务所产生的各类交通管理相关的碎片化数据,以及同人口、保险、税务、规划等相关部门的信息交换数据。这些数据从类型上,包括图片的、视频的、二维表的、结构化、半结构化、非结构化的数据;从渠道上包括传统业务窗口、互联网、移动互联网等数据应用场景。
因此,需要一种根据实际业务需求、数据积累,利用先进的大数据技术,构建高效稳定高性能的大数据基础平台,汇集多源异构数据,应用统一的大数据存储处理架构提供相应的数据接入、数据融合、数据存储、数据计算、数据共享等,为各类大数据应用的提供有力的支撑和保障。
在企业信息化建设过程中,由于各业务系统建设和实施数据管理系统的阶段性、技术性以及其它经济和人为因素等因素影响,导致企业在发展过程中积累了大量采用不同存储方式的业务数据,包括采用的数据管理系统也大不相同,从简单的文件数据库到复杂的网络数据库,它们构成了企业的异构数据源。
现有解决方案通常伴随高昂的时间开销,其运行时间会随着数据集中属性维度的增加而呈指数增长;在大数据环境下,由于数据的结构差异大、数据来源广、价值密度较低、更新实时等特点,给多源数据融合技术带来了巨大挑战,而多源异构数据的融合为研究者在大数据环境下进行知识获取、知识组织和利用提供了非常有效的手段和方法。但是,目前的知识融合方法从理论到实践还有很多不足。
发明内容
本发明提供的基于大数据平台的多源数据融合共享实现方法及系统,能够面对不同场景和多源数据,只需通过灵活的配置无需再次进行开发,极大提高了项目上线部署效率,极大简化了上层应用对大数据平台上数据的检索。
第一方面,本发明提供一种基于大数据平台的多源数据融合共享实现方法,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中科曙光国际信息产业有限公司,未经中科曙光国际信息产业有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811426832.4/2.html,转载请声明来源钻瓜专利网。