[发明专利]一种数据整理的方法、装置、计算机存储介质及终端在审
申请号: | 201811634064.1 | 申请日: | 2018-12-29 |
公开(公告)号: | CN109783483A | 公开(公告)日: | 2019-05-21 |
发明(设计)人: | 张毅然;于阳 | 申请(专利权)人: | 北京明略软件系统有限公司 |
主分类号: | G06F16/215 | 分类号: | G06F16/215;G06F16/22 |
代理公司: | 北京安信方达知识产权代理有限公司 11262 | 代理人: | 王康;栗若木 |
地址: | 102218 北京市昌平区东小*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 原始表 标准表 映射库 计算机存储介质 数据整理 预设 终端 运算量 存储 查询 中文 | ||
1.一种数据整理的方法,其特征在于,包括:
确定预设的映射库中是否包含与需对标的原始表对应的标准表;
预设的映射库中未包含与需对标的原始表对应的标准表时,根据中文表名确定对应于需对标的原始表的标准表;
其中,所述映射库中存储有:在前确定的原始表及对应于原始表的标准表。
2.根据权利要求1所述的方法,其特征在于,所述确定预设的映射库中是否包含与需对标的原始表对应的标准表包括:
查询所述映射库中是否包含第一中文表名与需对标的原始表相同的已存储的原始表;
所述映射库中包含第一中文表名均与需对标的原始表相同的已存储的原始表时,将已存储的第一中文表名与需对标的原始表相同的已存储的原始表所对应的标准表,作为需对标的原始表所对应的标准表。
3.根据权利要求1所述的方法,其特征在于,所述根据中文表名确定对应于需对标的原始表的标准表包括:
获取需对标的原始表的第一中文表名的第一特征向量;
获取各种类标准表的第二中文表名的第二特征向量;
计算获取的第一特征向量与各第二特征向量的相似度分值;
根据计算得到的相似度分值确定与需对标的原始表对应的标准表。
4.根据权利要求3所述的方法,其特征在于,所述获取各种类标准表的第二中文表名的第二特征向量包括:将标准表按照预设的分类策略进行分类后,对各分类中的标准表分别通过以下处理获得对应的第二特征向量:
对当前分类的标准表的第二中文表名进行分词处理,获得当前分类标准表的第二中文表名的关键词;
对分词获得的第二中文表名的关键词分别进行预处理后,构建当前分类标准表的关键词词库;
对当前分类标准表中的各标准表,分别通过词频统计方式确定相应的第二特征向量;
其中,所述预处理包括:去除重复词和/或停用词的处理。
5.根据权利要求4所述的方法,其特征在于,所述根据计算得到的相似度分值确定与需对标的原始表对应的标准表包括:
按照预设策略从相似度分值大于预设的相似度阈值的标准表中确定其中一个标准表,作为与需对标的原始表对应的标准表。
6.根据权利要求1~5任一项所述的方法,其特征在于,所述根据中文表名确定与需对标的原始表对应的标准表后,所述方法还包括:
在所述映射库中添加确定的与所述需对标的原始表对应的标准表的映射信息。
7.一种数据整理的装置,其特征在于,包括:判断单元和确定单元;其中,
判断单元用于:确定预设的映射库中是否包含与需对标的原始表对应的标准表;
确定单元用于:预设的映射库中未包含与需对标的原始表对应的标准表时,根据中文表名确定对应于需对标的原始表的标准表;
其中,所述映射库中存储有:在前确定的原始表及对应于原始表的标准表。
8.根据权利要求7所述的装置,其特征在于,所述判断单元用于:
查询所述映射库中是否包含第一中文表名与需对标的原始表相同的已存储的原始表;
所述映射库中包含第一中文表名与需对标的原始表相同的已存储的原始表时,将已存储的第一中文表名与需对标的原始表相同的已存储的原始表所对应的标准表,作为需对标的原始表所对应的标准表。
9.根据权利要求7所述的装置,其特征在于,所述确定单元具体用于:
获取需对标的原始表的第一中文表名的第一特征向量;
获取各种类标准表的第二中文表名的第二特征向量;
计算获取的第一特征向量与各第二特征向量的相似度分值;
根据计算得到的相似度分值确定与需对标的原始表对应的标准表。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京明略软件系统有限公司,未经北京明略软件系统有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811634064.1/1.html,转载请声明来源钻瓜专利网。