[发明专利]确定表字段的类型的方法和装置在审
申请号: | 201910043827.3 | 申请日: | 2019-01-17 |
公开(公告)号: | CN109784407A | 公开(公告)日: | 2019-05-21 |
发明(设计)人: | 范叶亮;马云龙;卢周 | 申请(专利权)人: | 京东数字科技控股有限公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06F16/22;G06F21/62 |
代理公司: | 中原信达知识产权代理有限责任公司 11219 | 代理人: | 张一军;张效荣 |
地址: | 100176 北京市北京经济*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 方法和装置 属性特征 原始特征 计算机技术领域 训练神经网络 关键词匹配 传统机器 技术缺陷 技术效果 人工成本 神经网络 特征变换 测试集 训练集 准确率 学习 转化 转换 | ||
本发明公开了确定表字段的类型的方法和装置,涉及计算机技术领域。该方法的一具体实施方式包括:将表字段的原始特征划分为属性特征和值特征;对所述属性特征和值特征分别进行特征变换,确定变换后的转化特征;根据所述转化特征中的训练集训练神经网络;根据所述转换特征中的测试集和完成训练的神经网络进行深度学习,确定表字段的类型。该实施方式解决了现有技术基于关键词匹配和传统机器学习方法的识别准确率和召回率都相对较低、人工成本过高的技术缺陷,进而达到深度学习更有针对性、充分利用表字段的原始特征使得确定的表字段的类型更准确的技术效果。
技术领域
本发明涉及计算机技术领域,尤其涉及一种确定表字段的类型的方法和装置。
背景技术
表字段的类型确定、以及表字段是否敏感的判断在存储到数据库之前非常重要,尤其是关于隐私保护或信息安全方面。故在将表字段加载进入数据库之前,需要对涉及敏感信息(包括但不限于:姓名,身份证号,手机号,银行卡号等)的表字段进行加密处理。
现有技术采用基于关键字(例如:姓名,address,地址等)匹配和传统机器学习,加以人工判断辅助的方法对表字段的类型以及表字段是否为敏感字段进行识别。
在实现本发明过程中,发明人发现现有技术中至少存在如下问题:
1.基于关键词匹配和传统机器学习方法的识别准确率和召回率都相对较低。
2.在识别准确率较低的情况下,加以人工判断辅助识别,人工成本过高。
发明内容
有鉴于此,本发明实施例提供一种确定表字段的类型的方法和装置,能够达到深度学习更有针对性、充分利用表字段的原始特征使得确定的表字段的类型更准确的技术效果。
为实现上述目的,根据本发明实施例的一个方面,提供了一种确定表字段的类型的方法,包括:
将表字段的原始特征划分为属性特征和值特征;
对所述属性特征和值特征分别进行特征变换,确定变换后的转化特征;
根据所述转化特征中的训练集训练神经网络;
根据所述转换特征中的测试集和完成训练的神经网络进行深度学习,确定表字段的类型。
可选地,所述属性特征包括:数值特征、分类特征、文本特征;
所述值特征包括文本特征。
可选地,对所述属性特征和值特征分别进行特征变换,确定变换后的转化特征,包括:
将所述属性特征中的数值特征进行特征变换,得到的转化特征为宽度特征;
和/或,将所述属性特征中的文本特征和值特征进行特征变换,得到的转化特征为深文本特征;
和/或,将所述属性特征中的分类特征进行特征变换,得到的转化特征为深类别特征和/或宽度特征。
可选地,将所述属性特征中的数值特征进行特征变换,得到的转化特征为宽度特征的变换公式为:
其中,wide_feature表示转换后的宽度特征,raw_feature表示原始特征,max_value表示该宽度特征的最大值,min表示所述数值特征与所述宽度特征的最大值中较小的数值。
可选地,将所述属性特征中的分类特征进行特征变换,得到的转化特征为宽度特征,包括:
采用独热编码对所述分类特征进行编码,
将编码后的结果拼接为一个数值为0或1的向量;
拼接后的所述0或1的向量为宽度特征。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于京东数字科技控股有限公司,未经京东数字科技控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910043827.3/2.html,转载请声明来源钻瓜专利网。