[发明专利]一种多源异构数据采集方法有效
申请号: | 202010713819.8 | 申请日: | 2020-07-23 |
公开(公告)号: | CN111737529B | 公开(公告)日: | 2020-12-18 |
发明(设计)人: | 张春林;李利军;李春青;常江波;尚雪松 | 申请(专利权)人: | 北京东方通科技股份有限公司;北京东方通软件有限公司;北京微智信业科技有限公司;北京泰策科技有限公司 |
主分类号: | G06F16/90 | 分类号: | G06F16/90;G06F40/253 |
代理公司: | 北京冠和权律师事务所 11399 | 代理人: | 安琪 |
地址: | 100000 北京市丰台*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 多源异构 数据 采集 方法 | ||
本发明提供了一种多源异构数据采集方法。包括:建立关键词表;获取各数据源采集内容,并创建对应的采集语法;根据所述采集语法,建立数据采集规则;将所述数据采集规则关联到所述关键词表对应关键词上。本发明有益效果为:通过构建数据源的关键词表,提高了数据采集的全面性。通过构建采集语法,本发明基于抽象语法树,并通过自定义反射规则进行确定采集语法,因此,采集语法灵活多变,因为是自定义的反射规则,因此符合数据采集的要求。本发明根据采集语法构建数据的采集规则,使得数据采集能够动态采集。本发明通过将数据采集规则关联到关键词表的关键词上,使得数据采集更加全面、动态更新的方式使得规则漏洞更好,采集的数据更加准确。
技术领域
本发明涉及数据采集技术领域,特别涉及一种多源异构数据采集方法。
背景技术
目前,随着互联网技术的快速发展,企业、政府、各种组织和团体从自身数据采集的需求出发,需要采集各种不同数据源的数据。例如:在制造领域,采集生产、采购、销售订单、服务、财务数据,在政府领域,采集工商、税务、人力资源、民政数据;在电信领域,采集网络服务、话费系统、客户服务系统数据,通过采集各个生产环节的数据形成数据资产供分析使用。
但是,现有技术中通过综合数据处理和分析的系统进行数据调取、采集时,因为对接的数据源比较多,数据源的区分辨别技术比较低,因为采集数据多需要人工辅助,导致数据采集费时费力,而且数据采集的智能化低,数据采集的准确性和全面性较低。
发明内容
本发明提供种多源异构数据采集方法,用以解决数据采集费时费力的情况。
一种多源异构数据采集方法,其特征在于,包括:
建立关键词表;
获取各数据源采集内容,并创建对应的采集语法;
根据所述采集语法,建立数据采集规则;
将所述数据采集规则关联到所述关键词表对应的关键词上进行多源异构的数据采集。
作为本发明的一种实施例:所述建立关键词表,包括:
获取所述多源异构数据的数据源,确定数据源关键词;
获取所述多源异构数据的数据内容的类型特征,确定类型特征关键词;
根据所述数据源关键词和类型特征关键词,确定所述数据源关键词和类型特征关键词的邻近词,将所述邻近词作为补充词;
根据所述数据源关键词、类型特征关键词和补充词,建立三维异构的关键词表。
作为本发明的一种实施例:所述建立关键词表,还包括:
所述建立关键词表,还包括:
对所述关键词表中的关键词进行预处理;
根据所述预处理,确定所述关键词的词性;
基于所述词性对所述关键词进行划分,确定划分字符;
基于关键词预设长度筛选算法对划分字符后的关键词进行计算,确定划分字符后的关键词的长度;
将所述划分字符后的关键词的长度与预设的理想长度进行比较,确定所述划分字符后的关键词的长度和理想长度的差异度;
基于所述差异度,通过预设的差异度阀值删除差异较大的关键词,并在删除差异较大的关键词后,确定关键词表。
作为本发明的一种实施例:所述基于关键词预设长度筛选算法对所述划分字符进行计算,确定所述关键词的长度,包括:
所述基于关键词预设长度筛选算法对划分字符后的关键词进行计算,确定所述划分字符后的关键词的长度,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京东方通科技股份有限公司;北京东方通软件有限公司;北京微智信业科技有限公司;北京泰策科技有限公司,未经北京东方通科技股份有限公司;北京东方通软件有限公司;北京微智信业科技有限公司;北京泰策科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010713819.8/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置