[发明专利]特征抽取方法、机器学习方法及其装置在审
申请号: | 201910743847.1 | 申请日: | 2016-01-08 |
公开(公告)号: | CN110442417A | 公开(公告)日: | 2019-11-12 |
发明(设计)人: | 白杨;陈雨强 | 申请(专利权)人: | 第四范式(北京)技术有限公司 |
主分类号: | G06F9/451 | 分类号: | G06F9/451;G06N20/00 |
代理公司: | 北京铭硕知识产权代理有限公司 11286 | 代理人: | 徐璐璐;朱志玲 |
地址: | 100085 北京市海淀区上*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 字段 特征抽取 预定特征 数据记录 配置项 数据处理函数 机器学习 数据处理 抽取 机器学习技术 可执行代码 获取数据 预先编程 装置提供 大数据 重用性 编程 引用 记录 应用 | ||
提供了特征抽取方法、机器学习方法和对应的装置。特征抽取方法包括:获取数据记录;获取用于限定如何从数据记录抽取预定特征的特征抽取配置项,其中,每种预定特征的特征抽取配置项包括来源字段项和处理方法项,来源字段项用于将每种预定特征所涉及的数据记录的字段限定为来源字段,处理方法项用于指定对预先编程为可执行代码的数据处理函数的引用,其中,数据处理函数用于针对由来源字段项限定的来源字段的字段值执行用于抽取所述每种预定特征的数据处理;基于特征抽取配置项对数据记录的字段值执行数据处理以获取所述预定特征的特征值。根据本发明实施例的特征抽取和机器学习技术增强了编程的灵活性和代码的重用性,特别适合于大数据应用。
本申请是申请日为2016年1月8日、申请号为201610011587.5、题为“特征抽取方法、机器学习方法及其装置”的专利申请的分案申请。
技术领域
本发明总体地涉及信息技术领域,更具体地涉及特征抽取方法、机器学习方法以及对应的装置。
背景技术
在数据挖掘、机器学习等信息技术领域,所处理的对象为数据,在对浩瀚的数据进行处理之前,通常都要对数据进行特征抽取。
特征可作为数据处理的原材料,简单说来,每条数据记录可包括多个字段,而特征可指示各字段本身、或字段的局部、或字段的组合、或字段的变换或其它处理结果等,以帮助更好地反映数据分布的内在关联与潜在含义。以数据挖掘领域作为示例,特征是机器学习系统的原材料,对最终模型具有显著的影响,其中,高效、准确地提取特征能够帮助学习过程更好地提炼数据规律,从多个角度透析数据分布中的内在关联与潜在涵义。这个过程在机器学习中称为特征工程。特征工程的产出作为机器学习的素材,其质量好坏直接决定了机器学习问题刻画的准确性,进而影响模型的优劣。
实际上,不限于机器学习领域中的特征工程,在现有的任何数据处理系统中,通常都需要进行特征抽取,而为了从各字段内容中提取出相应的特征,普遍需要程序员针对每一类特征编写可执行的程序代码来进行特征抽取。
例如,当希望获取给定数据(“data”)中每条记录的时间字段中的年份信息时,可以通过执行下面一段python程序来实现
#param:list-data stores records of fields as list of dictionary
#param:string-‘YYYY-MM-DD’formatted date field
#return:list-Year sequence for each record
def getYearOf(data):
timeFields=[rec[‘time’]for rec in data]
years=map(lambda x:x.split(‘-‘)[0],timeFields)
return years
在上述程序中,定义了一段用于从数据源(data)中原样抽取各个数据记录(rec)的年份(year)字段作为年份特征的代码,其中,首先从数据源的记录中提取时间字段,并按照时间字段的特定格式(yyyy-mm-dd)提取出以“-”分割出的yyyy(即,下标为0的部分),将其映射到特征years,并返回提取的年份值。
可见,该段程序对于数据(年份字段)的格式以及特征抽取的输出都做了较强的约束。即,该段特征抽取代码是针对特定格式的数据和特定的输出定制的。因此,一般地,如果给定的数据的数据格式不同,和/或要取得的特征输出不同,那么都需要针对其具体格式、所使用的算法来编写内容迥异的代码。即便仅仅数据记录的字段输入顺序或特征输出顺序不同,都要重新编写一套完全定制化的代码。这不仅给程序员带来繁复的工作负担,而且也将在程序运行上耗费较大的开销。鉴于实际应用场景的多样化、数据规格的多元化,这种蛮力做法很难扩展与复用。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于第四范式(北京)技术有限公司,未经第四范式(北京)技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910743847.1/2.html,转载请声明来源钻瓜专利网。