[发明专利]文件检测方法、装置、存储介质及计算设备在审
申请号: | 202010054718.4 | 申请日: | 2020-01-17 |
公开(公告)号: | CN113139201A | 公开(公告)日: | 2021-07-20 |
发明(设计)人: | 卓中流;蔡涛;蒋世建 | 申请(专利权)人: | 华为技术有限公司 |
主分类号: | G06F21/62 | 分类号: | G06F21/62;G06N3/04;G06N3/08 |
代理公司: | 北京三高永信知识产权代理有限责任公司 11138 | 代理人: | 颜晶 |
地址: | 518129 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文件 检测 方法 装置 存储 介质 计算 设备 | ||
本申请公开了一种文件检测方法、装置、存储介质及计算设备,属于AI领域。该方法包括:根据待检测文件的文件内容,生成待检测文件的灰度图,根据文件检测模型,确定待检测文件的灰度图与参考文件之间的相似度,根据相似度,确定待检测文件的检测结果。其中,文件检测模型是通过多个文件样本和每个文件样本的相似文件训练得到,且每个文件样本的相似文件是通过对相应文件样本进行修改得到,因此,通过该文件检测模型可以更为准确的检测出相似文件。
技术领域
本申请涉及人工智能(artificial intelligence,AI)领域,特别涉及一种文件检测方法、装置、存储介质及计算设备。
背景技术
当前,在很多场景下均会涉及到相似文件的检测。例如,在企业内部,可以通过检测某个文件与敏感文件是否相似来防止敏感文件泄露。目前,相似文件的检测方法主要有哈希算法、局部敏感哈希算法等。通过这些算法检测两个文件是否相似时存在检测准确度不高的问题。
发明内容
本申请提供了一种文件检测方法、装置、存储介质及计算设备,可以提高相似文件检测的准确度。所述技术方案如下:
第一方面,本申请提供了一种文件检测方法,该方法可以由检测装置执行,该方法包括:根据待检测文件的文件内容,生成待检测文件的灰度图;根据文件检测模型,确定待检测文件的灰度图与参考文件的灰度图之间的相似度,文件检测模型为通过多个文件样本和多个文件样本的相似文件训练得到的神经网络模型,文件样本的相似文件由文件样本经过修改后得到;根据相似度,确定待检测文件的检测结果,检测结果包括待检测文件与参考文件相似或待检测文件与参考文件不相似。
由于文件检测模型是通过多个文件样本和每个文件样本的相似文件训练得到,且每个文件样本的相似文件是通过对相应的文件样本进行修改得到,因此,过该文件检测模型可以更为准确的检测出经过篡改的与参考文件相似的文件,从而可以提高文件相似性检测的准确度。
可选地,上述方法中根据待检测文件的文件内容,生成待检测文件的灰度图的实现过程可以为:提取待检测文件的文件内容,得到字符串列表,字符串列表包括多行字符串,每行字符串为待检测文件的文件内容中的一行内容;对多行字符串进行编码,得到多个字节数组;根据多个字节数组,生成待检测文件的灰度图。
由于文件的灰度图是通过对文件的原始文本内容进行编码得到,因此,该灰度图可以表征文件的文本内容,同时灰度图还保留了文件的外观特征,所以,通过文件检测模型来检测两个文件的灰度图是否相似,以此来检测两个文件是否相似,使得相似性检测更加准确。
可选地,上述方法中所采用的文件检测模型可以为孪生神经网络模型,孪生神经网络模型包括第一分支、第二分支和输出层,第一分支和第二分支的结构相同。在此基础上,上述方法中根据文件检测模型,确定待检测文件的灰度图与参考文件的灰度图之间的相似度的实现过程可以为:将待检测文件的灰度图作为第一分支的输入,通过第一分支确定待检测文件对应的第一向量;将参考文件的灰度图作为第二分支的输入,通过第二分支确定参考文件对应的第二向量;将第一向量和第二向量作为输出层的输入,通过输出层确定第一向量和第二向量之间的相似度,将第一向量和第二向量之间的相似度作为待检测文件的灰度图与参考文件的灰度图之间的相似度。
在上述方法中,文件检测模型采用孪生神经网络模型,这样,在文件样本即为文件检测时所用到的参考文件的情况下,后续即使有新的文件样本加入来作为参考文件,得益于孪生神经网络在分类数量无法确认场景下的优势,该文件检测模型也无需针对该新加入的文件样本进行重新训练。
可选地,上述的孪生神经网络模型的第一分支和第二分支均包括第一卷积层、第二卷积层、金字塔池化层和全连接层,其中,第一卷积层的卷积核和第二卷积层的卷积核不同。也即,本申请可以采用双卷积核来对灰度图进行特征提取。其中,第一卷积层的卷积核可以用于提取文件的段落特征,第二卷积层的卷积核可以用于提取文件的行内细节特征,如此,即使待检测文件是通过对参考文件进行了部分修改得到的,也仍然能够识别。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华为技术有限公司,未经华为技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010054718.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:天线结构及具有该天线结构的电子设备
- 下一篇:衣物处理设备