[发明专利]文件识别方法和装置以及电子设备在审

申请号：	201811489953.3	申请日：	2018-12-06
公开（公告）号：	CN111291272A	公开（公告）日：	2020-06-16
发明（设计）人：	周笑添;康杨杨;高喆;孙常龙;刘晓钟;司罗	申请（专利权）人：	阿里巴巴集团控股有限公司
主分类号：	G06F16/9536	分类号：	G06F16/9536;G06F16/14
代理公司：	北京市惠诚律师事务所 11353	代理人：	杨娟;杨雪婷
地址：	英属开曼群岛大开***	国省代码：	暂无信息
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	文件识别方法装置以及电子设备
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明实施例提供了一种文件识别方法和装置以及电子设备。该方法包括：将待检测数据与样本库中的样本数据逐一组成数据对，所述样本库包括针对目标内容的样本库；计算各所述数据对中的待检测数据与样本数据的相似度；根据所述待检测数据与所述样本数据的相似度，确定所述待检测数据是否包括目标内容。本发明实施例通过对待检测数据与样本库中的样本数据逐一进行相似度计算来识别待检测数据是否包括目标内容，使得在发现变种样本时能够实时更新样本库，从而能够快速识别出与变种样本相类似的文件，以便做出快速响应。

技术领域

本发明涉及互联网技术领域，尤其涉及一种文件识别方法和装置以及电子设备。

背景技术

随着互联网技术的快速发展，海量的信息通过各种渠道传输，对于网络中传输的各种文件(如，文本、语音、图像等)，基于其内容进行识别显得尤为重要。例如，为了净化网络环境，需要过滤内容涉及色情、违禁等的垃圾文件。

传统的反垃圾系统中，一般根据垃圾文件样本预先训练出分类模型，然后通过分类模型来判断输入模型的文件是否为垃圾文件。

发明人在实现本发明的过程中，发现现有技术至少存在如下问题：传统的方案中，对于变种样本(即，分类模型未能识别出的、但人工判断出的新的垃圾文件)，需要重新收集以进行学习，从而获得新的分类模型。因此，需要耗费较长的时间，使得无法针对变种样本做出快速响应。

发明内容

本发明实施例提供一种文件识别方法和装置以及电子设备，以解决现有技术中训练数据的获取效率低的缺陷。

为达到上述目的，本发明实施例提供了一种文件识别方法，包括：

将待检测数据与样本库中的样本数据逐一组成数据对，所述样本库包括针对目标内容的样本库；

计算各所述数据对中的待检测数据与样本数据的相似度；

根据所述待检测数据与所述样本数据的相似度，确定所述待检测数据是否包括目标内容。