[发明专利]一种特征数据的生成方法及装置在审
申请号: | 201811294929.4 | 申请日: | 2018-11-01 |
公开(公告)号: | CN109583473A | 公开(公告)日: | 2019-04-05 |
发明(设计)人: | 陈露佳;唐渝洲;王维强;赵闻飙 | 申请(专利权)人: | 阿里巴巴集团控股有限公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 北京三友知识产权代理有限公司 11127 | 代理人: | 李辉 |
地址: | 英属开曼*** | 国省代码: | 开曼群岛;KY |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 特征数据 哈希映射 待处理数据 输入特征 属性特征 属性转换 数据拼接 特征筛选 解释性 完备性 显著性 转换 枚举 拼接 筛选 运营 保证 | ||
1.一种特征数据的生成方法,包括:
将待处理数据转换成属性类变量;
将不同的所述属性类变量进行拼接,获得拼接数据;
利用哈希函数将所述拼接数据进行哈希映射,确定出所述拼接数据对应的第一特征值;
根据所述拼接数据以及所述拼接数据对应的第一特征值,对所述拼接数据进行筛选,筛选出所述待处理数据的特征数据。
2.如权利要求1所述的方法,所述方法还包括:
判断所述特征数据的第一特征值是否唯一,若不唯一,则将所述第一特征值不唯一的特征数据作为待选特征数据;
更新所述哈希函数,利用更新后的哈希函数对所述待选特征数据进行哈希映射,确定出所述待选特征数据对应的第二特征值;
根据所述待选特征数据以及所述待选特征数据对应的第二特征值,对所述待选特征数据进行筛选,获得筛选后特征数据;
将所述筛选后特征数据和所述第一特征值唯一的特征数据作为筛选出的特征数据。
3.如权利要求2所述的方法,所述方法还包括:
判断所述筛选后特征数据的第二特征值是否唯一,若不唯一,则将所述第二特征值不唯一的筛选后特征数据作为待选特征数据;
更新所述哈希函数,利用更新后的哈希函数对所述待选特征数据进行哈希映射和筛选,直至筛选后特征数据对应的第二特征值唯一,将第二特征值唯一的筛选后特征数据、第一特征值唯一的特征数据作为筛选出的特征数据。
4.如权利要求2所述的方法,所述判断所述特征数据的第一特征值是否唯一,包括:
将所述拼接数据与所述第一特征值之间的映射关系保存至映射关系表;
根据所述映射关系表,判断所述特征数据对应的第一特征值是否重复,若存在重复的第一特征值,则确定所述特征数据的第一特征值不唯一。
5.如权利要求2所述的方法,所述第二特征值的确定方法包括:
将哈希映射获得的特征值进行叠加,获得所述第二特征值。
6.如权利要求1所述的方法,所述对所述拼接数据进行筛选,筛选出所述待处理数据的特征数据,包括:
使用L1范数正则化对所述拼接数据进行筛选,筛选出所述特征数据。
7.如权利要求1所述的方法,所述将待处理数据转换成属性类变量,包括:
若所述待处理数据为数值型数据,则将所述待处理数据进行离散化,获得所述待处理数据的属性类变量;
若所述待处理数据为字符型数据,则将所述待处理数据进行正则化处理,获得所述待处理数据的属性类变量。
8.一种特征数据的生成装置,包括:
数据转换模块,用于将待处理数据转换成属性类变量;
数据拼接模块,用于将不同的所述属性类变量进行拼接,获得拼接数据;
哈希映射模块,用于利用哈希函数将所述拼接数据进行哈希映射,确定出所述拼接数据对应的第一特征值;
特征筛选模块,用于根据所述拼接数据以及所述拼接数据对应的第一特征值,对所述拼接数据进行筛选,筛选出所述待处理数据的特征数据。
9.如权利要求8所述的装置,所述装置还包括唯一性检验模块,用于:
判断所述特征数据的第一特征值是否唯一,若不唯一,则将所述第一特征值不唯一的特征数据作为待选特征数据;
更新所述哈希函数,利用更新后的哈希函数对所述待选特征数据进行哈希映射,确定出所述待选特征数据对应的第二特征值;
根据所述待选特征数据以及所述待选特征数据对应的第二特征值,对所述待选特征数据进行筛选,获得筛选后特征数据;
将所述筛选后特征数据和所述第一特征值唯一的特征数据作为筛选出的特征数据。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811294929.4/1.html,转载请声明来源钻瓜专利网。