[发明专利]文件识别方法和装置以及电子设备在审
申请号: | 201811489953.3 | 申请日: | 2018-12-06 |
公开(公告)号: | CN111291272A | 公开(公告)日: | 2020-06-16 |
发明(设计)人: | 周笑添;康杨杨;高喆;孙常龙;刘晓钟;司罗 | 申请(专利权)人: | 阿里巴巴集团控股有限公司 |
主分类号: | G06F16/9536 | 分类号: | G06F16/9536;G06F16/14 |
代理公司: | 北京市惠诚律师事务所 11353 | 代理人: | 杨娟;杨雪婷 |
地址: | 英属开曼群岛大开*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文件 识别 方法 装置 以及 电子设备 | ||
1.一种文件识别方法,其特征在于,包括:
将待检测数据与样本库中的样本数据逐一组成数据对,所述样本库包括针对目标内容的样本库;
计算各所述数据对中的待检测数据与样本数据的相似度;
根据所述待检测数据与所述样本数据的相似度,确定所述待检测数据是否包括目标内容。
2.根据权利要求1所述的文件识别方法,还包括:
在任一所述数据对中,当所述待检测数据与所述样本数据的相似度高于预设相似度阈值时,确定所述待检测数据包括目标内容;
在各所述数据对中,当所述待检测数据与所述样本数据的相似度均不高于预设相似度阈值时,确定所述待检测数据包括的内容为非目标内容。
3.根据权利要求2所述的文件识别方法,其特征在于,还包括:
将内容为非目标内容的所述待检测数据中被标记为错误检测数据的数据添加到所述样本库。
4.根据权利要求1至3中任一权利要求所述的文件识别方法,还包括:
将所述数据对输入到两个神经网络中计算所述待检测数据与所述样本数据的相似度。
5.根据权利要求4所述的文件识别方法,其特征在于,还包括:
将所述数据对输入到孪生神经网络中计算所述待检测数据与所述样本数据的相似度,所述孪生神经网络由两个相同的神经网络组成,且所述两个相同的神经网络之间共享参数。
6.根据权利要求5所述的文件识别方法,其特征在于,还包括:
将所述待检测数据与所述样本数据分别输入到两个双向长短期记忆LSTM模型进行向量化处理,分别得到第一特征向量和第二特征向量,所述两个双向LSTM模型之间共享参数;
将所述第一特征向量和所述第二特征向量分别输入到全连接层进行降维处理,得到第一降维向量和第二降维向量;
计算所述第一降维向量与所述第二降维向量的向量距离;
根据所述向量距离,确定所述待检测数据与所述样本数据的相似度。
7.一种文件识别装置,其特征在于,包括:
数据处理模块,用于将待检测数据与样本库中的样本数据逐一组成数据对,所述样本库包括针对目标内容的样本库;
相似度计算模块,用于计算各所述数据对中的待检测数据与样本数据的相似度;
文件确定模块,用于根据所述待检测数据与所述样本数据的相似度,确定所述待检测数据是否包括目标内容。
8.根据权利要求7所述的文件识别装置,其特征在于,所述文件确定模块包括:
第一确定单元,用于针对任一所述数据对,在所述待检测数据与所述样本数据的相似度高于预设相似度阈值的情况下,确定所述待检测数据包括目标内容;
第二确定单元,用于针对各所述数据对,在所述待检测数据与所述样本数据的相似度均不高于预设相似度阈值的情况下,确定所述待检测数据包括的内容为非目标内容。
9.根据权利要求8所述的文件识别装置,其特征在于,还包括:
样本库更新模块,用于将内容为非目标内容的所述待检测数据中被标记为错误检测数据的数据添加到所述样本库。
10.根据权利要求7至9中任一权利要求所述的文件识别装置,其特征在于,所述相似度计算模块具体用于,将所述数据对输入到两个神经网络中计算所述待检测数据与所述样本数据的相似度。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811489953.3/1.html,转载请声明来源钻瓜专利网。
- 上一篇:交互方法、装置及计算机设备
- 下一篇:压缩机和制冷装置