[发明专利]基于内容与位置特征的近似web文档检测方法有效

专利信息
申请号: 201610283628.6 申请日: 2016-04-29
公开(公告)号: CN105975547B 公开(公告)日: 2019-06-25
发明(设计)人: 李石君;吴岳廷;张健;余伟;李宇轩 申请(专利权)人: 武汉大学
主分类号: G06F16/31 分类号: G06F16/31;G06F16/332;G06F16/951;G06K9/62
代理公司: 武汉科皓知识产权代理事务所(特殊普通合伙) 42222 代理人: 张火春
地址: 430072 湖*** 国省代码: 湖北;42
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明提供一种基于内容与位置特征的近似web文档检测方法,本发明在计算网页特征前对页面内噪音信息进行了剔除处理,所以能够有效降低页面内噪音内容对近似web文档检测过程的影响;在对页面文本进行重点分析的基础上,结合关键概念在网页正文中的分布特点与位置特征进行对比,提高了近似页面检测的精度;本发明充分利用了海量数据中索引机制与检索系统的优点,使用倒排索引作为页面中关键词项向量和位置特征向量的存储和访问媒介,提高了方法执行的效率与可行性;本发明将页面内容与位置特征向量作为近似页面判断的依据,较大地降低了对相关语料库与概念语义网的依赖,增强了方法的适用性,并以此拓宽web文档近似检测的范围。
搜索关键词: 基于 内容 位置 特征 近似 web 文档 检测 方法
【主权项】:
1.一种基于内容与位置特征的近似web文档检测方法,其特征在于,包括下列步骤:步骤1:对网页文档WPx进行页面内去噪处理,获取网页经过页面内去噪后的正文文本Ctx;步骤2:对网页正文Ctx进行中文分词操作,逐一计算其正文文本的所有项w的TF‑IDF值:记为TF‑IDF(w);步骤3:基于特定主题与文档的特点,设置阈值TF‑IDFthr,对于词项w而言,如果TF‑IDF(w)>TF‑IDFthr,则选取其作为关键词项;否则,忽略相应词项w并进行归类;从网页文本WP中选出TF‑IDF值排Top N个关键词项w1,w2,…,wN组成关键词项向量步骤4:对于任意两篇文档WPs与WPt,基于键词项向量计算二者之间的相似度TextSim(WPs,WPt).当TextSim(WPs,WPt)>TextSimthr时,所述的TextSimthr是预定的文档相似性阈值;认为文档WPs和WPt是相互近似的网页文本;否则,web文档WPs与WPt不近似;步骤5:在文档WP选取M个概念Cf(1≤f≤M),对关键概念在正文Ctx中的分布位置以及出现次数进行统计,形成位置特征向量Fpx,该向量由M个行向量构成,每个行向量对应相应的关键概念在文档中出现的所有位置;步骤6:为了量化文档间结构方面的差异度,选取文档WPa与WPb,基于二者的位置特征向量Fpa和Fpb构建表示位置特征向量差异度大小的的距离矩阵以此统计两个文档正文中关键概念所处位置的距离分布和差异度;步骤7:为了对文档间各概念所处位置的差异性均值、波动范围以及不同概念在文档间的分布进行对比分析,基于距离矩阵统计两个文档正文中关键概念所处位置的距离分布,并进行差异度计算;步骤8:以关键词项向量Vx和位置特征向量Fpx作为检索参数,查询已建倒排索引库INDB,在与已有索引库记录的文档相似性超出预设阈值,且文档中关键概念的位置距离和差异度均小于设定阈值的情况下,则认定页面是近似网页,否则不是近似网页;步骤9:增量更新索引库INDB,将索引库已有内容与网页WPx对应的正文文本Ctx执行合并更新。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉大学,未经武汉大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201610283628.6/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top