[发明专利]档案归类方法及系统、计算机可读存储介质有效
申请号: | 201910562363.7 | 申请日: | 2019-06-26 |
公开(公告)号: | CN111368867B | 公开(公告)日: | 2023-09-05 |
发明(设计)人: | 梁晨华 | 申请(专利权)人: | 杭州海康威视系统技术有限公司 |
主分类号: | G06V10/74 | 分类号: | G06V10/74;G06F16/55 |
代理公司: | 北京柏杉松知识产权代理事务所(普通合伙) 11413 | 代理人: | 马敬;李欣 |
地址: | 310051 浙江省杭州*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 档案 归类 方法 系统 计算机 可读 存储 介质 | ||
本发明公开了一种档案归类方法及系统、计算机可读存储介质,属于数据分析领域。该方法包括:获取多个档案中的多个图像信息;对多个图像信息进行特征值提取处理,得到与多个图像信息对应的多个图像特征值;对于每个档案,将档案对应的第一图像特征值与其他档案对应的第二图像特征值进行比对;当存在与第一图像特征值匹配的第二图像特征值时,将匹配的第二图像特征值对应的档案和第一图像特征值对应的档案进行关联处理。本发明通过对图像特征值进行比对来形成档案集合,无需人工进行档案归类,有效的提高了对档案进行归类的效率,所形成具有关联性的档案的档案集合的准确性较高。
技术领域
本发明涉及数据分析领域,特别涉及一种档案归类方法及系统、计算机可读存储介质。
背景技术
在一些场景中,需要对档案进行归类,将一个档案分配到一个或者多个类别中,得到多个不同类别的档案集合。举例而言,可以根据档案的主题来进行归类,也可以根据档案的属性信息来进行归类,其中,档案的属性信息可以包括档案的类型、作者、出版、时间等信息。通过对档案的归类,可以从得到的档案集合中获取更多具有系列性、连续性、关联性的信息。
传统方法中通常需要人工对档案数据库中的档案进行归类。然而,由于档案数据库里存储的档案数量极其庞大,人工从档案数据库中查找相关档案的效率较低,导致对档案进行归类的效率较低,并且还可能会遗漏一些相关档案,导致后续形成的档案集合的准确性较低。
发明内容
本申请提供了一种档案归类方法及系统、计算机可读存储介质,可以解决现有的对档案进行归类的效率较低,且后续形成的档案集合的准确性较低的问题。所述技术方案如下:
第一方面,提供了一种档案归类方法,所述方法包括:
获取多个档案中的多个图像信息,每个所述档案包括至少一个图像信息;
对所述多个图像信息进行特征值提取处理,得到与所述多个图像信息对应的多个图像特征值;
基于所述多个图像信息对应的多个图像特征值,以及所述多个档案与所述多个图像信息的对应关系,确定每个所述档案对应的图像特征值;
对于每个所述档案,将所述档案对应的第一图像特征值与其他档案对应的第二图像特征值进行比对;
当存在与所述第一图像特征值匹配的第二图像特征值时,将匹配的第二图像特征值对应的档案和所述第一图像特征值对应的档案进行关联处理。
可选的,将所述档案对应的第一图像特征值与其他档案对应的第二图像特征值进行比对,包括:
对于每个所述第一图像特征值,确定所述第一图像特征值与所述其他档案对应的每个第二图像特征值的相似度值;
检测每个相似度值是否大于相似度阈值;
当某一相似度值大于所述相似度阈值时,确定存在与所述第一图像特征值匹配的第二图像特征值。
可选的,所述图像特征值为数组或向量,
所述确定所述第一图像特征值与所述其他档案对应的每个第二图像特征值的相似度值,包括:
当所述图像特征值为数组时,基于相似度公式,确定所述第一图像特征值a与每个第二图像特征值b的相似度值q,所述相似度公式为:
q=m1/m,其中,m1为所述第一图像特征值a与所述第二图像特征值b数值相同位的个数,m为所述第一图像特征值a与所述第二图像特征值b中长度最长的数组的长度;
当所述图像特征值为向量时,计算所述第一图像特征值与其他档案对应的每个第二图像特征值的距离,基于计算得到的距离确定所述第一图像特征值与其他档案对应的每个第二图像特征值的相似度值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州海康威视系统技术有限公司,未经杭州海康威视系统技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910562363.7/2.html,转载请声明来源钻瓜专利网。