[发明专利]事件预测方法在审
申请号: | 201511024596.X | 申请日: | 2015-12-30 |
公开(公告)号: | CN105574350A | 公开(公告)日: | 2016-05-11 |
发明(设计)人: | 刘畅;李波 | 申请(专利权)人: | 北京锐安科技有限公司 |
主分类号: | G06F19/00 | 分类号: | G06F19/00 |
代理公司: | 北京品源专利代理有限公司 11332 | 代理人: | 胡彬;孟金喆 |
地址: | 100044 北京市海淀区西小口*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 事件 预测 方法 | ||
技术领域
本发明实施例涉及情报分析技术领域,尤其涉及一种事件预测方法。
背景技术
一般来说,数据挖掘的任务按功能划分可分为两类:1、预测性任务:因子属 性的值需要依据其他属性的值来预测。被预测的属性称为目标变量,而用来做 预测的属性则称为说明变量(explanatoryvariable)或自变量(independentvariable)。 2、描述性任务:是导出一种模式(相关、聚类、轨迹、趋势和异常)能归纳隐含 在数据中某些联系的。实质上,描述性数据挖掘任务一般是探索性的,并且经 常要用后处理技术去验证和解释结果。
数据挖掘的任务按实际作用划分又可分六类:1、分类和预测。分类的目标是 利用分类函数或分类模型(泛称分类器)把数据库里的数据项映射到某一个给定 类别。预测的目标是为了能预测未来数据而从以往数据的纪录里面导出对给定 的数据的描述。2、聚类分析。是将一组数据根据其相似度划归为若干类别。3、 关联规则发现。关联规则是以下的二种规则,“在购买牛奶和面包的顾客中80% 的顾客同一时间也买了黄油”(牛奶+面包(黄油))。4、时序模式。是指通过时间 的序列而搜索出重复发生的概率偏高的一种模式。5、偏差分析。用于偏差检验 的基本办法就是找寻所要观察的结果和参照数据两者之间的区别。很多数据挖 掘采取的方法都把离群点(即数据库中一些异常数据,他们与模型里的数据或一 般行为不一样)看作噪音或是不正常数据而放弃,其实这些异常数据中蕴藏着许 多重要的我们感兴趣的东西。6、数据总结。目标是为了得到紧凑的描述而对大 量的数据进行浓缩。
情报分析是根据因子领域的相关问题和矛盾进行预测和预防,目前,研究 基本是通过对大量领域相关信息进行深层次加工和分析研究,找出其形成的根 本原因,从根本原因入手找出相关的要素,从而形成有助于问题解决的分析过 程。按照分析构成方式可以分成几个要素:①成因要素。②分析方法。③分析 环节。④分析结果。⑤结果应用。按照其内容进行划分:①轨迹信息分析:主 要是根据信息收集,进行加工,建立字典型、事实型和数值型分析数据库,加 上一定的定量和定性分析,该类分析可以分析该领域的发展趋势,了解趋势、 发现问题和提出问题。②比对信息分析:比较事件之间的相同点和不同点,在 对各个事件通过各方面成因和要素进行比较后,找出导致该事件的根本性原因, 从而把握事件之间的内外关系,发现事件的本源。③预测信息分析:根据轨迹 信息分析和比对信息分析,通过改变某些参数的输入,推测出未来可能存在的 风险和问题。
目前,大多的情报分析中的事件预测除了应用数据挖据技术和相关算法, 比如Apriori算法,但其基本数据大都运用网络抓取、搜索引擎、信息碰撞、数 据挖掘、信息融合等技术,实现了对待预测事件的快速预测分析。
存在的缺陷在于:基于现有的统计分析进行事件预测分析,由于难以保证 待预测事件的样本空间的有效性,导致预测分析准确度较低,实战中无法进行 有效的应用。
发明内容
本发明实施例提供一种事件预测方法,以提高对待预测事件的预测分析的 准确度。
本发明实施例提供了一种事件预测方法,包括:
采集待预测事件的业务数据和环境数据;
基于预先建立的数据整合模型,对所述业务数据和所述环境数据进行数据 整合,得到所述待预测事件的打标数据;
根据所述待预测事件的业务应用目标,以及所述待预测事件的打标数据, 调整由所述待预测事件所属领域的多维关键因子组成的环境模板的参数,得到 所述待预测事件的预测业务环境参数;
对所述待预测事件所属领域的多维关键因子进行逐层递归扫描,得到各层 候选频繁项集和对应的频繁频率;根据所述待预测事件与各层候选频繁项集的 包含关系,确定所述待预测事件对应的各层候选频繁项集;根据所述待预测事 件的各层候选频繁项集的频繁频率,建立各因子阀值池,并统计各因子阀值池 的计数;在因子阀值池的计数小于支持度阀值时,删除该因子阀值池;将剩余 的因子阀值池所包含的多维关键因子确定为所述待预测事件的随机样本空间, 采用最小支持度搜寻所述随机样本空间中的频繁项集,并计算随机样本空间中 的频繁项集所包含的多维关键因子的重复度;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京锐安科技有限公司,未经北京锐安科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201511024596.X/2.html,转载请声明来源钻瓜专利网。
- 同类专利
- 专利分类
G06F 电数字数据处理
G06F19-00 专门适用于特定应用的数字计算或数据处理的设备或方法
G06F19-10 .生物信息学,即计算分子生物学中的遗传或蛋白质相关的数据处理方法或系统
G06F19-12 ..用于系统生物学的建模或仿真,例如:概率模型或动态模型,遗传基因管理网络,蛋白质交互作用网络或新陈代谢作用网络
G06F19-14 ..用于发展或进化的,例如:进化的保存区域决定或进化树结构
G06F19-16 ..用于分子结构的,例如:结构排序,结构或功能关系,蛋白质折叠,结构域拓扑,用结构数据的药靶,涉及二维或三维结构的
G06F19-18 ..用于功能性基因组学或蛋白质组学的,例如:基因型–表型关联,不均衡连接,种群遗传学,结合位置鉴定,变异发生,基因型或染色体组的注释,蛋白质相互作用或蛋白质核酸的相互作用