[发明专利]一种归档方法及装置在审
申请号: | 201911406336.7 | 申请日: | 2019-12-31 |
公开(公告)号: | CN113127712A | 公开(公告)日: | 2021-07-16 |
发明(设计)人: | 戴世稳 | 申请(专利权)人: | 深圳云天励飞技术有限公司 |
主分类号: | G06F16/906 | 分类号: | G06F16/906;G06K9/62 |
代理公司: | 深圳中一联合知识产权代理有限公司 44414 | 代理人: | 刘永康 |
地址: | 518000 广东省深圳市龙岗区横岗*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 归档 方法 装置 | ||
本申请适用于数据处理技术领域,提供了一种归档方法及装置,包括:对特征集的特征数据进行数据处理,获得训练后的模型及特征数据的聚类中心;根据训练后的模型对所有档案的封面和聚类中心进行计算,获得所有档案的封面的编码数据;根据封面编码数据对待处理档案进行归档。本申请通过对特征集的特征数据进行数据处理,预先获得特征集特征数据的聚类中心,实现对特征数据进行压缩处理,根据所有档案的封面和聚类中心计算,获得所有档案的封面的编码数据,在归档过程中直接获取待处理档案与档案的封面编码数据之间的距离,即可对待处理档案进行归档,减小了归档过程中的计算量和数据的存储量,提高了对待处理档案归档的处理效率。
技术领域
本申请属于数据处理技术领域,尤其涉及一种归档方法及装置。
背景技术
在大数据时代的环境下,由于数据量庞大且复杂,数据处理的效率和准确率显得非常重要。
目前的归档方法主要是基于暴利搜索的方法来计算档案的相似度,从而对档进行归档,对存储资源和计算资源要求比较高。在档案数据量特别大时,容易造成数据混乱的问题。并且,现有技术中,为了提高归档效率,通常采用多封面进行归档,造成了存储资源和计算资源需求量大,数据处理的效率低的情况。
发明内容
本申请实施例提供了一种归档方法及装置,可以解决现有归档方法存储资源和计算资源需求量大,数据处理的效率低的问题。
第一方面,本申请实施例提供了一种归档方法,包括:
对训练样本数据的特征集的特征数据进行数据处理,以获得该特征集的聚类中心;
获取档案的封面;
将所述档案的封面和所述特征集的聚类中心进行计算,以获得所述档案的封面的封面编码数据;
根据所述封面编码数据对待处理档案进行归档。
第二方面,本申请实施例提供了一种归档装置,包括:
数据处理模块,用于对训练样本数据的特征集的特征数据进行数据处理,以获得该特征集的聚类中心;
获取模块,用于获取档案的封面;
计算模块,用于将所述档案的封面和所述特征集的聚类中心进行计算,以获得所述档案的封面的封面编码数据;
归档模块,用于根据所述封面编码数据对待处理档案进行归档。
第三方面,本申请实施例提供了一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述第一方面中任一项所述的归档方法。
第四方面,本申请实施例提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如上述第一方面中任一项所述的归档方法。
第五方面,本申请实施例提供了一种计算机程序产品,当计算机程序产品在终端设备上运行时,使得终端设备执行上述第一方面中任一项所述的归档方法。
可以理解的是,上述第二方面至第五方面的有益效果可以参见上述第一方面中的相关描述,在此不再赘述。
本申请实施例通过对特征集的特征数据进行数据处理,预先获得特征集特征数据的聚类中心,实现对特征数据进行压缩处理,根据所有档案的封面和聚类中心计算,获得所有档案的封面的编码数据,在归档过程中直接获取待处理档案与档案的封面编码数据之间的距离,即可对待处理档案进行归档,减小了归档过程中的计算量和数据的存储量,提高了对待处理档案归档的处理效率。
附图说明
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳云天励飞技术有限公司,未经深圳云天励飞技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911406336.7/2.html,转载请声明来源钻瓜专利网。