[发明专利]文档检测方法及装置有效
申请号: | 201110080838.2 | 申请日: | 2011-03-31 |
公开(公告)号: | CN102156689A | 公开(公告)日: | 2011-08-17 |
发明(设计)人: | 周纾;李彦宏;徐兴军;张雯 | 申请(专利权)人: | 百度在线网络技术(北京)有限公司 |
主分类号: | G06F17/22 | 分类号: | G06F17/22 |
代理公司: | 深圳市威世博知识产权代理事务所(普通合伙) 44280 | 代理人: | 何青瓦;李庆波 |
地址: | 100085 北京*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文档 检测 方法 装置 | ||
1.一种文档检测方法,其特征在于,所述文档检测方法包括以下步骤:
S1、获取与文档相应地段落特征信息;
S2、将所述文档的段落特征信息与至少一个已有文档的段落特征信息进行比对;
S3、根据所述比对结果判断是否具有与所述文档相似的已有文档。
2.根据权利要求1所述的文档检测方法,其特征在于,所述段落特征信息为预设特征位的段落签名。
3.根据权利要求2所述的文档检测方法,其特征在于,通过哈希算法得到所述预设特征位的段落签名。
4.根据权利要求3所述的文档检测方法,其特征在于,所述“通过哈希算法得到所述预设特征位的段落签名”,具体包括以下步骤:
S100、对文档中每一个段落进行切词,得到该段落的词和词频的二元组列表;
S101、对所述列表中的二元组进行初始权重向量计算;
S102、将所述二元组通过哈希算法进行计算,得到预设特征位的哈希字符串;
S103、将所述哈希字符串映射至所述权重向量中;
S104、计算权重向量对应位的值,获得预设特征位的段落签名。
5.根据权利要求4所述的文档检测方法,其特征在于,所述S103步骤具体包括:
判断所述哈希字符串中的每一位是0还是1,若是0的话,则在映射至所述权重向量相应位时,对该位进行减权;若是1的话,则在映射至所述权重向量相应位时,对该位进行加权。
6.根据权利要求4或5所述的文档检测方法,其特征在于,所述S104步骤具体包括:
判断所述权重向量对应位的值是否大于0;若大于0,则将所述权重向量对应位的值设为1,若小于等于0,则将该权重向量对应位的值设为0。
7.根据权利要求3所述的文档检测方法,其特征在于,当所述文档与所述已有文档的相似段落数与所述文档的总段落数的比值大于等于设定的第二阈值时,判定所述文档与已有文档相似;当所述文档与所述已有文档的相似段落数与所述文档的总段落数的比值小于设定的第二阈值时,则判定所述文档与已有文档不相似。
8.根据权利要求3所述的文档检测方法,其特征在于,当所述文档与所述已有文档的相似段落数与所述文档的总段落数的比值大于等于设定的第二阈值时,且所述文档的总段落签名与所述已有文档的总段落签名计算结果小于第一阈值,判定所述文档与已有文档相似;当所述文档与所述已有文档的相似段落数与所述文档的总段落数的比值小于设定的第二阈值时,则判定所述文档与已有文档不相似。
9.根据权利要求7或8所述的文档检测方法,其特征在于,所述相似段落是通过以下步骤得到的:
通过算法将所述文档得到预设特征位的段落签名与已有文档的预设特征位的段落签名进行计算,若计算结果大于预定的第一阈值,则所述段落不相似;若计算结果小于等于预定的第一阈值,则所述段落相似。
10.根据权利要求9所述的文档检测方法,其特征在于,所述“通过算法将所述文档得到预设特征位的段落签名与已有文档的预设特征位的段落签名进行计算”是通过汉明码距离计算所述文档的段落签名与所述已有文档的段落签名的距离。
11.根据权利要求7或8所述的文档检测方法,其特征在于,将与已有文档相似的所述文档的版权属性定义为盗版文档。
12.根据权利要求7或8所述的文档检测方法,其特征在于,将与已有文档相似的所述文档的版权属性定义为疑似盗版文档。
13.根据权利要求12所述的文档检测方法,其特征在于,审核所述疑似盗版文档,若审核确认所述疑似盗版文档为盗版文档,则发送反馈信息;若审核确认所述疑似盗版文档为非盗版文档,则在线发布所述非盗版文档。
14.根据权利要去7或8所述的文档检测方法,其特征在于,将与所述文档相似的一个或多个所述已有文档的版权属性定义为盗版文档。
15.根据权利要求7或8所述的文档检测方法,其特征在于,将与所述文档相似的一个或多个所述已有文档的属性定义为疑似盗版文档。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于百度在线网络技术(北京)有限公司,未经百度在线网络技术(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110080838.2/1.html,转载请声明来源钻瓜专利网。
- 上一篇:发电机组后备电源自动切换装置
- 下一篇:一种文字变形特效处理方法及装置