[发明专利]一种企业外部数据采集与分析系统在审
申请号: | 202110372832.6 | 申请日: | 2021-04-07 |
公开(公告)号: | CN112950293A | 公开(公告)日: | 2021-06-11 |
发明(设计)人: | 胡杨;刘军恺;李玮;戴萍 | 申请(专利权)人: | 华能四川水电有限公司 |
主分类号: | G06Q30/02 | 分类号: | G06Q30/02;G06F16/25;G06F16/215;G06F16/9035 |
代理公司: | 北京天奇智新知识产权代理有限公司 11340 | 代理人: | 叶明博 |
地址: | 610041 四川省成*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 企业 外部 数据 采集 分析 系统 | ||
本发明公开了一种企业外部数据采集与分析系统,包括:用户界面、抓取模块、解析模块、分析模块与存储模块;用户界面接收输入参数,通过设置诸如抓取范围、关键词等参数,进行一次过滤;抓取模块按照参数要求从外部数据源采集数据,并将采集到的数据送解析模块处理,解析模块将解析后的结果送分析模块进行比对并传回用户界面显示。本发明能够针对数据源进行配置,依用户所需调整字段、排列、结构提取信息,具有更好的灵活性、全面性;不依赖第三方数据服务;能够针对不同数据源配置不同的解析方式,解决了人工监测耗时耗力、覆盖片面、能处理的信息量非常有限且难以跟踪数据动态变化问题;大幅节约了用户寻找新信息的时间。
技术领域
本发明属于信息管理技术领域,尤其涉及一种企业外部数据采集与分析系统。
背景技术
在信息技术飞速发展的今天,互联网的迅速普及已使其成为各种信息快速传播的重要载体,数据的收集、整合与分析已经成为企业发展必不可少的助力。当前企业数据分析大多还局限在内部数据,分析的范围与基础受限,只有将内外部数据整合分析才能给经营决策带来更大的价值。对于企业而言,为了保障企业的生产经营工作平稳持续开展,维护企业公众形象和口碑,及时应对可能出现的紧急事态,需要密切关注网络舆情;为了获取客户信息,洞察客户需求,发现和把握销售机会,需要及时获取行业资讯;为了保证企业经营合法合规,规避风险,需要监测最新的政策法规、时事动态等等。
传统上,对外部数据较为关注和敏感的企业往往通过以下方式获取所需的外部数据:
1.长期安排专人以人工方式关注外部资讯,人工监测效率低下,耗时耗力,覆盖片面;
2.从数据提供商购买数据或租用数据接口,传统技术方案所使用的第三方数据服务由于提供的数据及其格式由服务提供者确定,用户仅能针对所获得的数据进行解析,其配置的灵活性有限,如原始数据源的某个字段已被服务提供商丢弃,则用户无法再对其进行解析;
3.传统技术方案使用的第三方数据服务通常只提供固定的数据源,且其数据采集策略往往由服务提供者确定,难以依用户需求而调整;
4.传统技术方案能处理的信息量非常有限,而且难以跟踪数据的动态变化;
5.从数据提供商购买数据或租用数据接口,企业无法掌握数据来源及采集规则,不能保证数据完全满足企业需求,也难以随需求的变化自主进行灵活调整,数据来源、更新频次、数据格式均受限于提供商,难以根据企业需求灵活调整。
发明内容
本发明的目的就在于为了解决上述问题而提供一种企业外部数据采集与分析系统,包括:
用户界面,用于用户与系统间交互,包括设置系统参数、控制抓取操作、展示和分析结果、导出结果;
抓取模块,用于从数据源按照配置参数抓取原始数据,并将抓取到的原始数据发送至解析模块处理;
解析模块,用于为不同的数据源配置不同的解析方式,从抓取到的原始数据中解析出目标信息,获得结构化数据,以可序列化的类的实例进行表达,同时存储原始数据与配置参数;
分析模块,用于将当前解析结果与历史解析结果进行比对,生成第一结果列表与第二结果列表,以可序列化的类的实例进行表达,对第一结果列表与第二结果列表过滤,将过滤的结果去重后存储在过滤列表;系统在收到第一结果列表、第二结果列表与过滤结果条目请求时,调用浏览器打开其对应的原始数据来源网页;
存储模块,用于:
系统状态的自动存储:系统状态包括抓取模块、解析模块、分析模块的状态,将系统状态表示为类的实例,并将该实例序列化后通过状态文件存储到文件系统;系统启动时,检测该状态文件是否存在,如状态文件不存在,系统以默认配置启动;如状态文件存在,系统读取状态文件并进行反序列化,恢复上次退出时的系统状态;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华能四川水电有限公司,未经华能四川水电有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110372832.6/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置