[发明专利]生成用于输入分析模型的分析数据集的方法无效
申请号: | 200880130317.X | 申请日: | 2008-07-09 |
公开(公告)号: | CN102089759A | 公开(公告)日: | 2011-06-08 |
发明(设计)人: | 埃里克·马卡德 | 申请(专利权)人: | 凯森公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 上海天协和诚知识产权代理事务所 31216 | 代理人: | 张恒康 |
地址: | 法国*** | 国省代码: | 法国;FR |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 生成 用于 输入 分析 模型 数据 方法 | ||
技术领域
本发明涉及一种从存储在至少一个数据库中的数据生成数据集的方法,尤其涉及一种自动生成用于输入分析模型的标准数据集的方法。
背景技术
由于现代工业、科学和商务中日益增长的数据容量和复杂度,分析记录数据以提取有用信息的工作逐渐变得困难。对大量数据进行分类整理并生成相关信息的过程(通常称为数据挖掘)可能会异常冗长并浪费时间。使用更复杂和精密的工具以便根据大量存储的数据生成有用信息的自动数据分析变得越来越常见。通过使用精密的算法,分析师能够例如识别商务过程的关键属性,预测客户行为并使用此信息以获取商业机会。这种数学和统计技术的实现被称为高级分析引擎或分析模型,并可根据功能分类为,例如,分类、回归、聚集、分节、属性重要性、相关规则、以及时间序列预测。然而,发展这些模型是一个昂贵以及浪费时间的过程,同时要使这些模型满足保持最新就需要对时间和费用进一步的投资。
由工业和商业生成的数据可存储于数据库中,例如操作型数据库(operational databases)、数据仓库或数据集市。典型地,数据集市可适合于存储适用于特定目的或主题的数据。数据仓库的设计原则通常需要将数据以其最基本的形式存储,即作为“原子”数据,并且通常它们包含大量的由原始数据列构成的数据库表格。
操作型数据库通常通过使用数据库规范进行优化,以保持数据的完整性以及商业交易的记录速度。为了加快数据检索的速度对数据仓库进行优化。采用基于多维度的模型,数据仓库中的数据常常是非规范化的。而且,为了加速数据检索,数据仓库的数据通常需多次存储——以它们最细微颗粒的形式并以称为聚集的总和形式。
操作型数据库和数据仓库一般都遵循实体-关系数据模式并通常基于关系数据库管理系统(RDBMS)。可有大量的工具和技术用于在各个存储库之间提取、转换、以及装载(ETL)数据,并且可有大量技术来执行数据操作,通常使用称为结构化查询语言(SQL)的标准数据和元数据查询语言。
分析所使用的数据可从多个数据源中采集,从由工业或商业记录在操作型数据库和数据仓库中的数据采集,以及从第三方数据提供商采集。第三方数据提供商可提供不同类型的数据,例如人口统计数据,生活方式数据,客户兴趣等等。
为了有效地操作,高级分析模型技术需要将数据以简单的形式填充至模型,例如,称为分析数据集的单表,该分析数据集包括位于指定时间所感兴趣实体的展示。分析数据集可视为虚拟数据表,其各行表示所指定的感兴趣实体,而其各列由属性(还被称为分析变量或注释值)组成,用于描述不同的实体。分析记录是用于描述该实体的属性构成的组。分析数据集有时称为虚拟展平文件。这类表格应当尽可能的完整以用于分析,并通常需要比存储于源数据库中的原始数据属性更为精细的数据属性。属性定义或表达式描述了指定的属性如何从用于分析记录的操作数据中得出,并可能包括基本要素和/或计算表达式。基本要素通常是基本的属性,而计算表达式可包括属性、聚集或其他功能。实体被定义为分析兴趣的目标,并可包括,例如:客户、产品、商店等等。在客户分析中,分析数据集有时表达为客户的‘360’度全景。客户可由数以千计的属性描述,这些属性可从包含于客户数据仓库内的原子数据计算出。有效的分析需要在指定时间为指定数量的客户简单地重建这些属性。
最近的数学发展以及最佳实践方法的传播使分析建模技术的自动化程度得到提高。然而,数学和统计引擎仍需要一种可重复和工业化的过程,以便创建用作其输入的分析数据集并始终保持这些数据集。
美国专利US7047251描述了一种标准化的客户应用,以将客户数据输入分析模型中。美国专利US7272617涉及对分析数据集的创建,以在客户关系管理系统中建模。然而,这些系统并不是以一种自动化的方式运行,也没有描述用户实体的属性,这些属性可能会随着时间而改变。
发明内容
据此,本发明的一个目的就是提供一种改进的方法,用于自动生成分析数据集以输入分析模型中。
一般来说,本发明旨在提供一种通过提供感兴趣实体的标记时间的集群和描述该实体的分析记录的交叉乘积,用于自动生成输入分析模型中的标准化数据集的方法和系统。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于凯森公司,未经凯森公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200880130317.X/2.html,转载请声明来源钻瓜专利网。
- 上一篇:用于合成N-去甲基吗啡烷化合物的方法
- 下一篇:综自系统光纤通信通道