[发明专利]文档检测方法及装置有效

专利信息
申请号: 201110080838.2 申请日: 2011-03-31
公开(公告)号: CN102156689A 公开(公告)日: 2011-08-17
发明(设计)人: 周纾;李彦宏;徐兴军;张雯 申请(专利权)人: 百度在线网络技术(北京)有限公司
主分类号: G06F17/22 分类号: G06F17/22
代理公司: 深圳市威世博知识产权代理事务所(普通合伙) 44280 代理人: 何青瓦;李庆波
地址: 100085 北京*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 文档 检测 方法 装置
【说明书】:

技术领域

发明涉及一种文档检测方法及装置,尤其是指一种用于比对长文档相似度的文档检测方法及装置。

背景技术

通常地,用于文档相似度的文档检测方法是通过文档的标题、作者、字词信息进行确认。然而,这样的做法具有以下缺陷:首先,通过文档的标题、作者、字词信息查询,容易产生遗漏,例如,将该文档的标题、作者信息修改或删除,或者将文档切分为多个部分,以使得通过字词信息无法准确的查询或比对其他文档;其次,如果待查询的文档篇幅较长,如一部长篇小说,则通过字词信息进行查询,查询效率较低、服务器或计算机处理压力较大,影响服务器或计算机的正常工作效率。

发明内容

本发明的目的在于提供一种经过改进的文档检测方法。

本发明的另一目的在于一种经过改进的文档检测装置,所述的装置应用所述的经过改进的文档检测方法。

相应地,本发明的一种实施方式的文档检测方法,包括:

S1、获取与文档相应地段落特征信息;

S2、将所述文档的段落特征信息与至少一个已有文档的段落特征信息进行比对;

S3、根据所述比对结果判断是否具有与所述文档相似的已有文档。

作为本发明的进一步改进,所述段落特征信息为预设特征位的段落签名。

作为本发明的进一步改进,通过哈希算法得到所述预设特征位的段落签名。

作为本发明的进一步改进,所述“通过哈希算法得到所述预设特征位的段落签名”,具体包括以下步骤:

S100、对文档中每一个段落进行切词,得到该段落的词和词频的二元组列表;

S101、对所述列表中的二元组进行初始权重向量计算;

S102、将所述二元组通过哈希算法进行计算,得到预设特征位的哈希字符串;

S103、将所述哈希字符串映射至所述权重向量中;

S104、计算权重向量对应位的值,获得预设特征位的段落签名。

作为本发明的进一步改进,所述S103步骤具体包括:

判断所述哈希字符串中的每一位是0还是1,若是0的话,则在映射至所述权重向量相应位时,对该位进行减权;若是1的话,则在映射至所述权重向量相应位时,对该位进行加权。

作为本发明的进一步改进,所述S104步骤具体包括:

判断所述权重向量对应位的值是否大于0;若大于0,则将所述权重向量对应位的值设为1,若小于等于0,则将该权重向量对应位的值设为0。

作为本发明的进一步改进,当所述文档与所述已有文档的相似段落数与所述文档的总段落数的比值大于等于设定的第二阈值时,判定所述文档与已有文档相似;当所述文档与所述已有文档的相似段落数与所述文档的总段落数的比值小于设定的第二阈值时,则判定所述文档与已有文档不相似。

作为本发明的进一步改进,当所述文档与所述已有文档的相似段落数与所述文档的总段落数的比值大于等于设定的第二阈值时,且所述文档的总段落签名与所述已有文档的总段落签名计算结果小于第一阈值,判定所述文档与已有文档相似;当所述文档与所述已有文档的相似段落数与所述文档的总段落数的比值小于设定的第二阈值时,则判定所述文档与已有文档不相似。

作为本发明的进一步改进,所述相似段落数目是通过以下步骤得到的:

通过算法将所述文档得到预设特征位的段落签名与已有文档的预设特征位的段落签名进行计算,若计算结果大于预定的第一阈值,则所述段落不相似;若计算结果小于等于预定的第一阈值,则所述段落相似。

作为本发明的进一步改进,所述“通过算法将所述文档得到预设特征位的段落签名与已有文档的预设特征位的段落签名进行计算”是通过汉明码距离计算所述文档的段落签名与所述已有文档的段落签名的距离。

作为本发明的进一步改进,将与已有文档相似的所述文档的版权属性定义为盗版文档。

作为本发明的进一步改进,将与已有文档相似的所述文档的版权属性定义为疑似盗版文档。

作为本发明的进一步改进,审核所述疑似盗版文档,若审核确认所述疑似盗版文档为盗版文档,则发送反馈信息;若审核确认所述疑似盗版文档为非盗版文档,则在线发布所述非盗版文档。

作为本发明的进一步改进,将与所述文档相似的一个或多个所述已有文档的版权属性定义为盗版文档。

作为本发明的进一步改进,将与所述文档相似的一个或多个所述已有文档的属性定义为疑似盗版文档。

作为本发明的进一步改进,审核所述疑似盗版文档,若审核确认所述疑似盗版文档为盗版文档,则删除所述盗版文档;若审核确认所述疑似盗版文档为非盗版文档,则保留所述非盗版文档。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于百度在线网络技术(北京)有限公司,未经百度在线网络技术(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201110080838.2/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top