[发明专利]信息处理系统、描述符创建方法和描述符创建程序有效
申请号: | 201680069167.0 | 申请日: | 2016-11-14 |
公开(公告)号: | CN108369584B | 公开(公告)日: | 2022-07-08 |
发明(设计)人: | 楠村幸贵;藤卷辽平 | 申请(专利权)人: | 圆点数据公司 |
主分类号: | G06F16/2458 | 分类号: | G06F16/2458 |
代理公司: | 中国专利代理(香港)有限公司 72001 | 代理人: | 李啸;闫小龙 |
地址: | 美国加利*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 信息处理 系统 描述 创建 方法 程序 | ||
表格存储单元81存储包括目标变量的第一表格和在粒度上与第一表格不同的第二表格。功能创建单元82根据第一表格和第二表格创建特征量生成函数,以用于生成作为可以影响目标变量的变量的特征量。函数创建单元82通过生成对应条件元素和聚合方法元素的组合来创建多个特征量生成函数中的每一个特征量生成函数,对应条件元素指示用于第一表格和第二表中格的行的对应条件,聚合方法元素指示针对每个目标变量用于聚合包含于第二表格中的每列中的数据的聚合方法。
技术领域
本发明涉及信息处理系统、描述符创建方法和描述符创建程序,用以生成学习或预测中使用的特征。
背景技术
数据挖掘是一种从大量信息中发现迄今为止未知的有用知识的技术。将数据挖掘应用于特定示例的过程大致可以分为以下三个阶段。
第一阶段(步骤)是“预处理阶段”。“预处理阶段”是这样的阶段:为了有效运行数据挖掘算法,处理输入到根据数据挖掘算法操作的设备等中的属性(特征)以将属性转换为新属性。
第二阶段是“分析处理阶段”。“分析处理阶段”是这样的阶段:将属性输入到根据数据挖掘算法操作的设备等中,并且获得从根据数据挖掘算法操作的设备等输出的分析结果。
第三阶段是“后处理阶段”。“后处理阶段”是这样的阶段:将分析结果转换为易于查看的图表、待输入到另一设备的控制信号等。
为了通过数据挖掘获得有用的知识,需要适当地执行“预处理阶段”。设计如何执行“预处理阶段”的工作依赖于分析技术的有经验的技术人员(数据科学家)的技能。预处理阶段的设计工作没有得到信息处理技术的全面支持,仍然极大地依赖于有经验的技术人员的手工工作的尝试错误法。
为了找到未知的有用知识,重要的是要生成更多的属性候选。详细地,重要的是为可能影响作为预测对象的变量(目标变量)的属性(解释性变量)生成更多的候选。生成更多的候选会增加在候选中包含有助于预测的属性的可能性。
例如,专利文献(PTL)1描述了生成多个属性的方法。在PTL1中描述的方法从一个数据集中选择多个属性并且生成新的属性,所述数据集使得诸如身高、体重和啤酒的年消耗之类的属性与多个人的标识符相关联。
引文列表
专利文献
PTL1:国际专利申请公开号2015/045318。
发明内容
技术问题
利用PTL1中描述的方法,使用诸如作为示例描述的数据集的一组表格数据生成多个属性候选。然而,本发明人认为,为了生成许多属性候选,优选的是不仅使用一组表格数据而且使用多组表格数据。这是因为使用各种表格数据能够生成更多的属性候选。注意,“属性”也被称为“特征”。
然而,对于一个预测对象,所有组的表格数据很少具有相同的粒度。详细地,由于每组表格数据取决于所收集的数据的性质而在内容上有所不同,因此存在具有用于每个预测对象的多个对应行的表格数据以及其中与预测对象的对应关系不明显的表格数据。
因此,通过简单地使用多组表格数据来生成特征并不容易。还存在一个技术问题,即对于有经验的技术人员来说,要为待生成的每个特征定义处理方法需要巨大的劳力。鉴于这些情况,即使在使用多组表格数据的情况下,也希望能够高效地生成许多特征候选。
因此,本发明的目的是提供一种信息处理系统、描述符创建方法和描述符创建程序,其能够使用多组表格数据有效地生成许多特征候选项。
问题的解决方案
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于圆点数据公司,未经圆点数据公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201680069167.0/2.html,转载请声明来源钻瓜专利网。