[发明专利]文件识别方法和装置以及电子设备在审
申请号: | 201811489953.3 | 申请日: | 2018-12-06 |
公开(公告)号: | CN111291272A | 公开(公告)日: | 2020-06-16 |
发明(设计)人: | 周笑添;康杨杨;高喆;孙常龙;刘晓钟;司罗 | 申请(专利权)人: | 阿里巴巴集团控股有限公司 |
主分类号: | G06F16/9536 | 分类号: | G06F16/9536;G06F16/14 |
代理公司: | 北京市惠诚律师事务所 11353 | 代理人: | 杨娟;杨雪婷 |
地址: | 英属开曼群岛大开*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文件 识别 方法 装置 以及 电子设备 | ||
本发明实施例提供了一种文件识别方法和装置以及电子设备。该方法包括:将待检测数据与样本库中的样本数据逐一组成数据对,所述样本库包括针对目标内容的样本库;计算各所述数据对中的待检测数据与样本数据的相似度;根据所述待检测数据与所述样本数据的相似度,确定所述待检测数据是否包括目标内容。本发明实施例通过对待检测数据与样本库中的样本数据逐一进行相似度计算来识别待检测数据是否包括目标内容,使得在发现变种样本时能够实时更新样本库,从而能够快速识别出与变种样本相类似的文件,以便做出快速响应。
技术领域
本发明涉及互联网技术领域,尤其涉及一种文件识别方法和装置以及电子设备。
背景技术
随着互联网技术的快速发展,海量的信息通过各种渠道传输,对于网络中传输的各种文件(如,文本、语音、图像等),基于其内容进行识别显得尤为重要。例如,为了净化网络环境,需要过滤内容涉及色情、违禁等的垃圾文件。
传统的反垃圾系统中,一般根据垃圾文件样本预先训练出分类模型,然后通过分类模型来判断输入模型的文件是否为垃圾文件。
发明人在实现本发明的过程中,发现现有技术至少存在如下问题:传统的方案中,对于变种样本(即,分类模型未能识别出的、但人工判断出的新的垃圾文件),需要重新收集以进行学习,从而获得新的分类模型。因此,需要耗费较长的时间,使得无法针对变种样本做出快速响应。
发明内容
本发明实施例提供一种文件识别方法和装置以及电子设备,以解决现有技术中训练数据的获取效率低的缺陷。
为达到上述目的,本发明实施例提供了一种文件识别方法,包括:
将待检测数据与样本库中的样本数据逐一组成数据对,所述样本库包括针对目标内容的样本库;
计算各所述数据对中的待检测数据与样本数据的相似度;
根据所述待检测数据与所述样本数据的相似度,确定所述待检测数据是否包括目标内容。
本发明实施例还提供了一种文件识别装置,包括:
数据处理模块,用于将待检测数据与样本库中的样本数据逐一组成数据对,所述样本库包括针对目标内容的样本库;
相似度计算模块,用于计算各所述数据对中的待检测数据与样本数据的相似度;
文件确定模块,用于根据所述待检测数据与所述样本数据的相似度,确定所述待检测数据是否包括目标内容。
本发明实施例还提供一种电子设备,包括:
存储器,用于存储程序;
处理器,用于运行所述存储器中存储的所述程序,以用于:
将待检测数据与样本库中的样本数据逐一组成数据对,所述样本库包括针对目标内容的样本库;
计算各所述数据对中的待检测数据与样本数据的相似度;
根据所述待检测数据与所述样本数据的相似度,确定所述待检测数据是否包括目标内容。
本发明实施例提供的文件识别方法和装置以及电子设备,通过对待检测数据与样本库中的样本数据逐一进行相似度计算来识别待检测数据是否包括目标内容,使得在发现变种样本时能够实时更新样本库,从而能够快速识别出与变种样本相类似的文件,以便做出快速响应。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811489953.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:交互方法、装置及计算机设备
- 下一篇:压缩机和制冷装置