[发明专利]基于大数据技术的行业对标实现方法在审
申请号: | 201811563234.1 | 申请日: | 2018-12-20 |
公开(公告)号: | CN109670098A | 公开(公告)日: | 2019-04-23 |
发明(设计)人: | 黄红亮;龚佳鑫;钟虎 | 申请(专利权)人: | 安徽经邦软件技术有限公司 |
主分类号: | G06F16/951 | 分类号: | G06F16/951;G06F16/955;G06Q10/06 |
代理公司: | 上海精晟知识产权代理有限公司 31253 | 代理人: | 冯子玲 |
地址: | 230000 安徽省合肥市包河工业区花园*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 大数据 标杆 爬虫技术 数据比较 数据获取 数据展现 可视化 有效地 清晰 展示 分析 | ||
本发明公开了基于大数据技术的行业对标实现方法,包括一下步骤:1)对标数据获取;2)对标数据比较;3)对标数据展现,通过大数据爬虫技术能够更加全面的分析业界的标杆,对比标杆找差距,通过echarts可视化图表,更加清晰的展示出自身与业界最佳的差距,从而指明了工作的总体方向。还可以将企业自身最好水平作为内部标杆,通过与自身相比较,可以增强自信,不断超越自我,从而能更有效地推动企业向业界最好水平靠齐。
技术领域:
本发明涉及大数据处理技术领域,具体涉及基于大数据技术的行业对标实现方法。
背景技术:
在大数据时代,数据挖掘是主要关键工作。大数据的挖掘是从海量、不完全的、有噪声的、模糊的、随机的大型数据库中发现隐含在其中有价值的、潜在有用的信息和知识的过程,也是一种决策支持过程。其主要基于人工智能,机器学习,模式学习,统计学等。通过对大数据高度自动化地分析,做出归纳性的推理,从中挖掘出潜在的模式。
而所谓“对标”就是对比标杆找差距。推行对标管理,就是要把企业的目光紧紧盯住业界最好水平,明确自身与业界最佳的差距,从而指明了工作的总体方向。
传统的行业对标指标体系缺乏针对性、对标指导性差、指标没有进一步向下分解和细化,对指标的形成过程不能有效控制。
发明内容:
现有技术难以满足人们的需要,为了解决上述存在的问题,本发明提出了基于大数据技术的行业对标实现方法。
为实现上述目的,本发明提供如下技术方案:基于大数据技术的行业对标实现方法,其特征在于:包括以下步骤:
(1)对标数据获取;
(2)对标数据比较;
(3)对标数据展现。
优选的,所述步骤1中的对标数据获取包括以下步骤:
(1)通过聚集爬虫技术,保留与主题有关的链接,建立索引,以便以后检索与查询;并将其放入等待抓取的URL队列中;然后根据一定的搜索策略从队列中选折下一步要抓取的网页URL,直到达到系统想要的结果停止;另外,被抓取的数据将会进一步描述、分析、过滤最后进行存储,从而获取国家统计局的行业数据,包括行业指标数据,经济运行数据等;
(2)获取沪深两市所有上市公司的财务数据及新三板公司的财务数据,对财务数据进行指标计算得出行业指标数据;
(3)获取国务院国资委行业指标数据;
(4)获取同行业的指标数据,一般企业自行提供。
进一步的,对于上述步骤1中的所述建立索引,包括用ClouderaSearch全文索引,实时查询和针对CDH和你的企业级数据中心的扩展、灵活性的索引服务;基于MapReduce实现批量索引;通过GO-LIVE对动态索(Dynamic index)引进行更新;针对实时查询,集成了Flume和Lily HBase indexer;无模式(Schema-less)和动态字段的支持,使schema管理更简单;多文件(Multi-file)格式的支持和集成能力;通过HDFS,实现扩展性和容错性索引存储和访问;与Apache Sentry的集成,实现了基于角色,细粒度的权限控制;通过使用IndexAliasing和Oozie workflows,使用数据迁移和服务更简单。
进一步的,对于上述步骤1中的所述搜索策略包括以下步骤:
(1)根据所属网站进行分类,对于待下载页面较多的网站,优先下载;
(2)然后对于下载页面较多的网站按照树的层次进行检索,如果此层次没有检索完成,则不会进入下一个层次;
(3)只有等待上一个层次检索完成才进行下一个层次的检索;因为会检索整张图,可以尽可能的覆盖更多的网页;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于安徽经邦软件技术有限公司,未经安徽经邦软件技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811563234.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:招投标相关网页爬取任务调度方法及系统
- 下一篇:基于教育网络信息主题采集方法