[发明专利]一种多源科创资源数据融合方法有效
申请号: | 202010812168.8 | 申请日: | 2020-08-13 |
公开(公告)号: | CN111708773B | 公开(公告)日: | 2020-12-08 |
发明(设计)人: | 刘啸;龚晓阳 | 申请(专利权)人: | 江苏宝和数据股份有限公司 |
主分类号: | G06F16/215 | 分类号: | G06F16/215;G06F16/2458;G06F16/335;G06F16/36;G06F40/289;G06F40/30 |
代理公司: | 南京知识律师事务所 32207 | 代理人: | 徐航天 |
地址: | 210028 江苏省南京*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 多源科创 资源 数据 融合 方法 | ||
本发明公开了一种多源科创资源数据融合方法,步骤包括:数据源特征分析;配置规则采集科创资源;解析与预处理;合并去重;关联指派;主题识别与数据融合。本发明实现不同来源、类型以及信息描述等非结构化的特征数据的标准化处理与关联融合,解决多种类型的科创资源难以共融互通的问题。
技术领域
本发明涉及多源数据处理技术领域,特别是一种多源科创资源数据融合方法。
背景技术
随着国家对科学发展与科技服务的政策扶持力度的加深(随着新一代信息和网络技术的纵深发展),科技创新的高效协同与科创资源的共享共用已逐渐形成技术产业融合发展与双创服务项目落地的宏观战略方向。为了更好聚焦产业优势,服务企业需求,助推地域间科创合作与产学研用,如何对科创资源的有效利用成为了关键点。然而,在实践中发现,科创资源涵盖了科技文献、专利成果、全球人才、上市企业、技术研报、金融数据等多种类型,而这些数据种类多样、来源散杂、分类各异,且数据结构复杂、底层特征差异较大,因此针对多源异构特征的数据资源要实现跨平台汇聚、规范化处理、结构化融合的难度较大,所以造成了资源利用效率不高,科研价值发现度不够。
在科技创新促进经济转型的背景下,科创资源对于促进产学研深度融合、推动科技成果转化以实现区域经济的创新发展具有重要意义。然而,科创资源分布具有多源异构特点,其数据结构化程度不统一、主题融合度低、时空分布不一致等问题,造成数据交换共享与价值挖掘的难度较大。因此,对于科创资源数据的处理要解决非结构化科技成果、半结构化科创实例与结构化科创对象的信息描述正确性与一致性,实现异构数据结构化处理后的关联分析、动态集成与跨领域数据融合。
现有技术中对于多源异构数据融合的主要处理方法:一方面是采用ETL框架与工具(周宏广,周继承,彭银桥,龙思锐.数据ETL工具通用框架设计[J].计算机应用,2003(12):96-98.),针对分散、零乱、标准不统一的数据进行抽取、清洗转换与加载,常应用于企业业务场景下多个业务系统的数据转换,缺少针对多领域、多来源的科创资源数据的采集方法,难以完成复杂字段的数据清洗与关联指派,更无法实现内容标签与知识融合;另一方面是通过多源异构数据获取、缓存、标准化处理的方法实现(一种多源异构数据融合平台及融合方法,公开号CN107633075A,公开日2018.01.26),公开了融合平台包括数据采集单元、数据存储单元、数据标准化单元、用户画像构建单元、知识图谱构建单元和可视化单元;数据采集单元用于采集多源异构数据;数据存储单元用于对多源异构数据进行缓存;数据标准化单元对多源异构数据进行词法、语法和/或语义分析,得到标准化文本数据;用户画像构建单元利用量化出的学生标签构建学生的用户画像;知识图谱构建单元构建学生的知识图谱、老师的知识图谱和课程的知识图谱,并将课程的知识图谱、学生的知识图谱和老师的知识图谱进行关联,得到以学生为中心的课程联系、社交关系和师生关系;可视化单元对以学生为中心的课程联系、社交关系和师生关系进行显示。虽然处理方向与本发明看似相近,但其数据采集的范围、标准化处理的具体程序与本发明的方法存在本质上不同,且本发明在数据结构化处理与数据关联融合等方面提出了更为详细的方法,以提高资源结构化转换的准确度与异构数据的融合度。鉴于此,现有技术中缺乏一种基于科创资源数据特征的数据融合处理方法。
发明内容
针对现有技术中存在的问题,本发明提供了一种实现不同来源、类型以及信息描述等非结构化的特征数据的标准化处理与关联融合,解决多种类型的科创资源难以共融互通的问题的多源科创资源数据融合方法。
本发明的目的通过以下技术方案实现。
一种多源科创资源数据融合方法,步骤包括:
数据源特征分析用于分析数据种类及其来源特征,所述来源特征包括来源地址、数据分布、存储格式、数据字段、更新机制、信息维度、数据质量;
配置规则采集科创资源,所述配置规则包含配置采集范围、配置采集规则、时间设定、别名扩展、对象监测规则;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于江苏宝和数据股份有限公司,未经江苏宝和数据股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010812168.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:无酒精类青蒿蜡油免洗抑菌洗手液及制备方法
- 下一篇:一种锁紧装置及其压力锅
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置