[发明专利]一种基于大数据的公开信息关联方法及挖掘引擎在审

专利信息
申请号: 201510017418.8 申请日: 2015-01-14
公开(公告)号: CN104679827A 公开(公告)日: 2015-06-03
发明(设计)人: 不公告发明人 申请(专利权)人: 北京得大信息技术有限公司
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 代理人:
地址: 100084 北京市海淀区*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 数据 公开 信息 关联 方法 挖掘 引擎
【说明书】:

技术领域

发明涉及基于大数据的公开信息关联方法及挖掘引擎的技术领域,具体地说是一种对指定非自然人客体发展过程中的全周期数据进行的关联分析方法及挖掘引擎的实现技术。

背景技术

互联网时代,数据、信息成为重要的企业资源,在日新月异的海量数据里迅速提取有价值信息,同时互联网上的信息庞杂且分散,通用搜索引擎已经成为人们获取信息的必要工具,能够主动搜索信息并能自动索引、提供查询服务,当用户输入关键字查询时,该网站会返回用户包含该关键字信息的所有网址,并提供通向该信息的链接。目前,互联网上已经存在很多搜索引擎系统,但是在功能上和性能上都存在一些缺陷,尤其是在查询公开信息方面,缺乏关联性和准确性。

Hadoop是一个分布式系统基础架构,是一个可以更容易开发和运行处理大规模数据的软件平台。

NoSQL,泛指非关系型的数据库,具有易扩展、大数据量、高性能、数据模型灵活、高可用性等特点。

微博是一个基于用户关系信息分享、传播以及获取的平台,注重时效性和随意性,微博客更能表达出每时每刻的思想和最新动态。

微信公众平台,给个人、企业和组织提供业务服务与用户管理能力的全新服务平台。

通过深度挖掘网站、微博、微信等平台中流动的公开信息以及关联关系,真实全面客观的了解非自然人客体的全周期数据已经成为一种实际的需求;同时,大数据生态系统提供的分布式存储、计算、NoSQL数据库、数据关联分析工具以及数据挖掘算法等的日趋成熟,也为公开信的大数据挖掘提供了技术支撑。目前,还没有成熟的处理基于大数据的公开信息关联方法及挖掘引擎。

发明内容

为了克服上述技术方案的局限性和不足,本发明提供了一种基于大数据的公开信息关联方法及挖掘引擎。

本发明所采用的技术方案是按以下方式实现的,具体步骤如下:

(1)采集互联网公开信息,采用直接采集和认证采集的方式获得海量公开信息的数据源;

该引擎采集互联网所有的公开信息,涵盖商业、专有和公共数据集,在遵守数据集原有访问规则的前提下,通过直接采集和认证采集两种方式最大化获得公开信息的延伸域及其数据源。

(2)多来源匹配系统,根据信息来源的不同(网站、微博、微信、移动应用),进行信息相应样式的匹配;信息来源的不同,其相应的数据源模型也不同,网站、微博、微信和移动应用客户端的信息样式也是不同的的,开发适应多来源的样式匹配系统。

(3)多格式信息抽取系统,根据信息载体的不同格式,抽取指定的数据及要素;平台整合多来源数据,将信息样式不同的信息集置于一个统一的定量分析环境中。通过构建多重模型,简单的抽取模型成为复杂模型的组成要素,从而构建一个流线型、模块化的信息抽取流系统。

格式建模,是数据抽取进行的基础。格式模型负责对关键信息的识别与转化,其中还包括了对源数据的描述信息。这些对象代表的是非自然人客体的社会属性信息,一个模型可以代表一个机构、一个公司、一个企业人,任何现实中的自然人客体信息不在此数据范围。

(4)多维关联整析系统,依据公开信息模型的关联指标,通过去重、去噪、去伪、聚类等操作,对汇总后的数据进行整合分析;包含多套的关联分析工具,以满足多维度分析和复杂关联的需要。

系统对数据进行复合、汇总、转换、比较和聚类等深度学习操作,包括绝对变量和相对变量,时间序列和各类数据维度。将众多孤立的数据汇集到特定的环境,再经由时间序列以及其他深入的分析推论出有价值的结果,同时具有实时分析的特性。

(5)专家修正系统,基于得到的各项指标和数据质量模型,修正深度学习的相关算法;

快速迭代结合微调分析不断提升数据价值,整个系统因此变得更加聪明,不断循环。

(6)可视化展示系统,依据时间序列原则,将非自然人客体的公开信息予以可视化集成展示。系统将多源数据整合为一个统一展示的多维度模型,通过丰富的可视化展现形式将抽象变为直观,为用户提供一个所关注客体关联数据的全盘审视角度。可视化展示随着源数据实时更新,用户在任何时间都能看到最精确最及时的信息。

同时,对外提供扩展性、可定制性和应用程序接口,从底层数据整合、自定义模型到用户交互界面来实现特定信息流,被设计成一个开放平台。这种特定信息可以分享、链接、重组,并不是不可更改的产品,而是一种灵活的可以加入到新工作流中的材料,既可以被迭代,也可以作为材料加入新的分析模型中。

与现有技术相比,本发明具有以下优点:

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京得大信息技术有限公司;,未经北京得大信息技术有限公司;许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201510017418.8/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top