[发明专利]数据类型识别方法及装置、数据入库方法及装置有效
申请号: | 201811096054.7 | 申请日: | 2018-09-19 |
公开(公告)号: | CN109408555B | 公开(公告)日: | 2022-11-11 |
发明(设计)人: | 王海波;李晓宇 | 申请(专利权)人: | 智器云南京信息科技有限公司 |
主分类号: | G06F16/2458 | 分类号: | G06F16/2458;G06K9/62 |
代理公司: | 上海硕力知识产权代理事务所(普通合伙) 31251 | 代理人: | 郭桂峰 |
地址: | 210022 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 数据类型 识别 方法 装置 数据 入库 | ||
1.一种数据入库方法,其特征在于,所述数据入库方法中包括:
S1获取待识别的列数据,所述列数据中包括列头和数据内容;
S2提取所述列数据的特征得到特征向量,所述特征向量中包括列头特征及数据内容特征;
S3将特征向量输入预训练的分类模型中对其进行分类,完成对列数据的识别;
S4根据分类模型输出的分类类别得到其所属语义属性,所述分类模型输出的分类类别与其所属的语义属性之间预存有映射关系;
S5将得到的列数据所属的语义属性与数据库字段的语义属性进行匹配,完成对列数据的入库操作,所述分类模型输出的列数据所属的语义属性与数据库字段的语义属性之间预存有映射关系。
2.如权利要求1所述的数据入库方法,其特征在于,在步骤S2中,包括:
S21提取列数据中的列头,得到列头特征;
S22提取数据内容中单条数据的第一预设特征;
S23针对所有数据内容提取第二预设特征;
S24拼接列头特征、第一预设特征及第二预设特征得到所述列数据的特征向量。
3.如权利要求2所述的数据入库方法,其特征在于,
在步骤S21中,使用词嵌入模型将列头转换为预设维度的特征向量;
和/或,在步骤S22中,提取数据内容中单条数据的字符串长度、格式及构成元素特征;
和/或,在步骤S23中,针对所有数据内容提取离散度、连续性及方差特征。
4.如权利要求1-3任意一项所述的数据入库方法,其特征在于,在步骤S1之前,还包括对分类模型进行训练的步骤,包括:
S01选定训练语料,并对其进行预处理操作;
S02选定分类模型;
S03从预处理操作之后的训练语料中提取训练样本;
S04对提取的训练样本标注分类类别;
S05将标注了分类类别的训练样本中输入分类模型,对其进行训练。
5.一种数据入库装置,其特征在于,所述数据入库装置包括:
数据获取模块,用于获取待识别的列数据,所述列数据中包括列头和数据内容;
特征提取模块,用于提取数据获取模块获取的列数据的特征得到特征向量,所述特征向量中包括列头特征及数据内容特征;
数据分类模块,用于将特征提取模块提取的特征向量输入预训练的分类模型中对其进行分类,完成对列数据的识别;
匹配模块,用于根据分类模型输出的分类类别得到其所属语义属性,及用于将数据类型识别装置的识别结果与数据库字段的语义属性进行匹配,完成对列数据的入库操作,其中,所述分类模型输出的分类类别与其所属的语义属性之间预存有映射关系,列数据所属的语义属性与数据库字段的语义属性之间预存有映射关系,均存储在存储模块中。
6.如权利要求5所述的数据入库装置,其特征在于,在特征提取模块中包括:
特征提取单元,用于提取列数据中的列头,得到列头特征;提取数据内容中单条数据的第一预设特征;及针对所有数据内容提取第二预设特征;
特征拼接单元,用于拼接列头特征、第一预设特征及第二预设特征得到所述列数据的特征向量。
7.如权利要求6所述的数据入库装置,其特征在于,
在特征提取单元中,使用词嵌入模型将列头转换为预设维度的特征向量;提取数据内容中单条数据的字符串长度、格式及构成元素特征;及针对所有数据内容提取离散度、连续性及方差特征。
8.如权利要求5-7任意一项所述的数据入库装置,其特征在于,所述识别装置还包括训练模块,用于对分类模型进行训练;所述训练模块中包括:
语料预处理单元,用于选定训练语料,并对其进行预处理操作;
样本提取单元,用于从预处理操作之后的训练语料中提取训练样本;
标注单元,用于对提取的训练样本标注分类类别;
训练单元,用于将标注了分类类别的训练样本中输入选定的分类模型对其进行训练。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于智器云南京信息科技有限公司,未经智器云南京信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811096054.7/1.html,转载请声明来源钻瓜专利网。