[发明专利]一种多源异构数据采集方法有效

专利信息
申请号: 202010713819.8 申请日: 2020-07-23
公开(公告)号: CN111737529B 公开(公告)日: 2020-12-18
发明(设计)人: 张春林;李利军;李春青;常江波;尚雪松 申请(专利权)人: 北京东方通科技股份有限公司;北京东方通软件有限公司;北京微智信业科技有限公司;北京泰策科技有限公司
主分类号: G06F16/90 分类号: G06F16/90;G06F40/253
代理公司: 北京冠和权律师事务所 11399 代理人: 安琪
地址: 100000 北京市丰台*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 多源异构 数据 采集 方法
【说明书】:

发明提供了一种多源异构数据采集方法。包括:建立关键词表;获取各数据源采集内容,并创建对应的采集语法;根据所述采集语法,建立数据采集规则;将所述数据采集规则关联到所述关键词表对应关键词上。本发明有益效果为:通过构建数据源的关键词表,提高了数据采集的全面性。通过构建采集语法,本发明基于抽象语法树,并通过自定义反射规则进行确定采集语法,因此,采集语法灵活多变,因为是自定义的反射规则,因此符合数据采集的要求。本发明根据采集语法构建数据的采集规则,使得数据采集能够动态采集。本发明通过将数据采集规则关联到关键词表的关键词上,使得数据采集更加全面、动态更新的方式使得规则漏洞更好,采集的数据更加准确。

技术领域

本发明涉及数据采集技术领域,特别涉及一种多源异构数据采集方法。

背景技术

目前,随着互联网技术的快速发展,企业、政府、各种组织和团体从自身数据采集的需求出发,需要采集各种不同数据源的数据。例如:在制造领域,采集生产、采购、销售订单、服务、财务数据,在政府领域,采集工商、税务、人力资源、民政数据;在电信领域,采集网络服务、话费系统、客户服务系统数据,通过采集各个生产环节的数据形成数据资产供分析使用。

但是,现有技术中通过综合数据处理和分析的系统进行数据调取、采集时,因为对接的数据源比较多,数据源的区分辨别技术比较低,因为采集数据多需要人工辅助,导致数据采集费时费力,而且数据采集的智能化低,数据采集的准确性和全面性较低。

发明内容

本发明提供种多源异构数据采集方法,用以解决数据采集费时费力的情况。

一种多源异构数据采集方法,其特征在于,包括:

建立关键词表;

获取各数据源采集内容,并创建对应的采集语法;

根据所述采集语法,建立数据采集规则;

将所述数据采集规则关联到所述关键词表对应的关键词上进行多源异构的数据采集。

作为本发明的一种实施例:所述建立关键词表,包括:

获取所述多源异构数据的数据源,确定数据源关键词;

获取所述多源异构数据的数据内容的类型特征,确定类型特征关键词;

根据所述数据源关键词和类型特征关键词,确定所述数据源关键词和类型特征关键词的邻近词,将所述邻近词作为补充词;

根据所述数据源关键词、类型特征关键词和补充词,建立三维异构的关键词表。

作为本发明的一种实施例:所述建立关键词表,还包括:

所述建立关键词表,还包括:

对所述关键词表中的关键词进行预处理;

根据所述预处理,确定所述关键词的词性;

基于所述词性对所述关键词进行划分,确定划分字符;

基于关键词预设长度筛选算法对划分字符后的关键词进行计算,确定划分字符后的关键词的长度;

将所述划分字符后的关键词的长度与预设的理想长度进行比较,确定所述划分字符后的关键词的长度和理想长度的差异度;

基于所述差异度,通过预设的差异度阀值删除差异较大的关键词,并在删除差异较大的关键词后,确定关键词表。

作为本发明的一种实施例:所述基于关键词预设长度筛选算法对所述划分字符进行计算,确定所述关键词的长度,包括:

所述基于关键词预设长度筛选算法对划分字符后的关键词进行计算,确定所述划分字符后的关键词的长度,包括:

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京东方通科技股份有限公司;北京东方通软件有限公司;北京微智信业科技有限公司;北京泰策科技有限公司,未经北京东方通科技股份有限公司;北京东方通软件有限公司;北京微智信业科技有限公司;北京泰策科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202010713819.8/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top