[发明专利]一种基于互联网大数据的宏观经济分析方法及系统在审
申请号: | 201810013720.X | 申请日: | 2018-01-08 |
公开(公告)号: | CN108170826A | 公开(公告)日: | 2018-06-15 |
发明(设计)人: | 李亮涛;丁荣荣;彭翔;张炎红 | 申请(专利权)人: | 北京国信宏数科技有限责任公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京恒都律师事务所 11395 | 代理人: | 王清亮 |
地址: | 100080 北京市海*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本申请提供了一种基于互联网大数据的宏观经济分析方法及系统,所述方法包括:接收用户根据待分析的宏观经济业务选择的数据源及其查询条件;从所述数据源中获取符合查询条件的数据并保存在本地数据库中;根据所述数据源对应的预置去重字段,对保存在本地数据库中的数据进行去重处理;根据所述宏观经济业务的预置类别情绪关键词,从去重处理后的数据的预置字段中抽取对应的量化数据信息;根据用户配置的统计维度,对抽取出的量化数据信息中的各分析指标进行统计;以预设图表形式展现各分析指标的统计结果。本申请通过上述手段,有效解决了现有技术不能基于互联网大数据对宏观经济进行实时分析的问题。 1 | ||
搜索关键词: | 大数据 数据源 预置 分析方法及系统 查询条件 量化数据 去重 互联网 数据库 情绪关键词 接收用户 实时分析 统计结果 统计维度 图表形式 业务选择 用户配置 有效解决 分析 预设 字段 申请 抽取 取出 保存 统计 | ||
接收用户根据待分析的宏观经济业务选择的数据源及其查询条件;
从所述数据源中获取符合查询条件的数据并保存在本地数据库中;
根据所述数据源对应的预置去重字段,对保存在本地数据库中的数据进行去重处理;
根据所述宏观经济业务的预置类别情绪关键词,从去重处理后的数据的预置字段中抽取对应的量化数据信息;
根据用户配置的统计维度,对抽取出的量化数据信息中的各分析指标进行统计;
以预设图表形式展现各分析指标的统计结果。
2.根据权利要求1所述的一种基于互联网大数据的宏观经济分析方法,其特征在于,执行所述方法的系统配置有任务管理程序;所述从所述数据源中获取符合查询条件的数据并保存在本地数据库中,具体包括:根据数据源的来源渠道将数据获取任务切分为多个子任务,并将所述子任务添加到任务队列;
任务管理程序从所述任务队列调度子任务,由所述子任务执行从相应数据源获取对应的满足查询条件的数据并储存到本地数据库中的过程。
3.根据权利要求2所述的一种基于互联网大数据的宏观经济分析方法,其特征在于,查询条件为所述数据源的标题和/或正文中包括有用户设置的检索关键词;切分数据获取任务的参数还包括预设的日期范围;在将数据获取任务切分为多个子任务之前还包括:依据所述查询条件预览每个数据源中符合条件的数据;
根据所述数据源中符合查询条件的数据量生成数据获取预估时间。
4.根据权利要求1所述的一种基于互联网大数据的宏观经济分析方法,其特征在于,执行所述方法的系统配置有任务提交引擎和Spark集群;根据所述数据源对应的预置去重字段,对保存在本地数据库中的数据进行去重处理,具体包括:生成数据去重处理任务并添加至任务队列;
所述任务提交引擎从任务队列拖出数据去重处理任务并发送至Spark集群;
所述Spark集群解析出数据去重处理任务中的预置去重字段,以预置去重字段为主键,调用去重函数对保存在本地数据库中的数据执行去重处理。
5.根据权利要求1所述的一种基于互联网大数据的宏观经济分析方法,其特征在于,执行所述方法的系统配置有任务提交引擎和Spark集群;根据所述宏观经济业务的预置类别情绪关键词,从去重处理后的数据的预置字段中抽取对应的量化数据信息,具体包括:生成量化数据抽取任务并添加至任务队列;
所述任务提交引擎从任务队列拖出量化数据抽取任务并发送至Spark集群;
所述Spark集群解析出量化数据抽取任务中的预置类别情绪关键词,执行根据所述预置类别情绪关键词从去重处理后的数据的预置字段中抽取对应的量化数据信息的处理过程。
6.根据权利要求1或5所述的一种基于互联网大数据的宏观经济分析方法,其特征在于,所述从去重处理后的数据的预置字段中抽取对应的量化数据信息,具体包括:将第一条数据记录作为当前数据记录;
对当前数据记录中的预置字段的文本内容使用正则表达式进行切分,生成一条或多条句子;
对上述生成的每一条句子,遍历所有的预置类别情绪关键词,对所述句子进行正则匹配判断;若命中则计算该句子的情感得分;其中正面情感的情感得分为1,中立情感的情感得分为0,负面情感的情感得分为‑1;
将下一条数据记录作为当前数据记录,重复上述对当前数据记录的处理过程,直至所有数据记录处理完毕。
7.根据权利要求6所述的一种基于互联网大数据的宏观经济分析方法,其特征在于,所述预置字段包括多个;在所述从去重处理后的数据的预置字段中抽取对应的量化数据信息之前,还包括:将每条数据记录的预置字段合并为一个新的预置字段,作为后续切分的预置字段。
8.一种基于互联网大数据的宏观经济分析系统,其特征在于,包括:用户接口模块,用于接收用户根据待分析的宏观经济业务选择的数据源及其查询条件;
数据获取模块,用于从所述数据源中获取符合查询条件的数据并保存在本地数据库中;
数据清洗模块,用于根据所述数据源对应的预置过滤参数对保存在本地数据库中的数据进行去重处理;
数据抽取模块,用于根据所述宏观经济业务的预置类别情绪关键词从去重处理后的数据的预置字段中抽取对应的量化数据信息;
指标统计模块,用于根据用户配置的统计维度对抽取出的量化数据信息中的各分析指标进行统计;
结果展现模块,用于以预设图表形式展现各分析指标的统计结果。
9.根据权利要求8所述的一种基于互联网大数据的宏观经济分析系统,其特征在于,所述系统配置有任务管理程序和/或任务提交引擎和Spark集群,其中:所述数据获取模块根据数据源的来源渠道将数据获取任务切分为多个子任务,并将所述子任务添加到任务队列;所述任务管理程序从所述任务队列调度子任务,由所述子任务执行从相应数据源获取对应的满足查询条件的数据并储存到本地数据库中的过程;
所述数据清洗模块生成数据去重处理任务并添加至任务队列;所述任务提交引擎从任务队列拖出数据去重处理任务并发送至Spark集群;所述Spark集群解析出数据去重处理任务中的预置去重字段,以预置去重字段为主键,调用去重函数对保存在本地数据库中的数据执行去重处理;
所述数据抽取模块生成量化数据抽取任务并添加至任务队列;所述任务提交引擎从任务队列拖出量化数据抽取任务并发送至Spark集群;所述Spark集群解析出量化数据抽取任务中的预置类别情绪关键词,执行根据所述预置类别情绪关键词从去重处理后的数据的预置字段中抽取对应的量化数据信息的处理过程。
10.一种存储介质,其特征在于,所述存储介质存储有用于执行权利要求1~7任一所述的方法的程序。该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京国信宏数科技有限责任公司,未经北京国信宏数科技有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201810013720.X/,转载请声明来源钻瓜专利网。