[发明专利]基于内容与位置特征的近似web文档检测方法有效
申请号: | 201610283628.6 | 申请日: | 2016-04-29 |
公开(公告)号: | CN105975547B | 公开(公告)日: | 2019-06-25 |
发明(设计)人: | 李石君;吴岳廷;张健;余伟;李宇轩 | 申请(专利权)人: | 武汉大学 |
主分类号: | G06F16/31 | 分类号: | G06F16/31;G06F16/332;G06F16/951;G06K9/62 |
代理公司: | 武汉科皓知识产权代理事务所(特殊普通合伙) 42222 | 代理人: | 张火春 |
地址: | 430072 湖*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明提供一种基于内容与位置特征的近似web文档检测方法,本发明在计算网页特征前对页面内噪音信息进行了剔除处理,所以能够有效降低页面内噪音内容对近似web文档检测过程的影响;在对页面文本进行重点分析的基础上,结合关键概念在网页正文中的分布特点与位置特征进行对比,提高了近似页面检测的精度;本发明充分利用了海量数据中索引机制与检索系统的优点,使用倒排索引作为页面中关键词项向量和位置特征向量的存储和访问媒介,提高了方法执行的效率与可行性;本发明将页面内容与位置特征向量作为近似页面判断的依据,较大地降低了对相关语料库与概念语义网的依赖,增强了方法的适用性,并以此拓宽web文档近似检测的范围。 | ||
搜索关键词: | 基于 内容 位置 特征 近似 web 文档 检测 方法 | ||
【主权项】:
1.一种基于内容与位置特征的近似web文档检测方法,其特征在于,包括下列步骤:步骤1:对网页文档WPx进行页面内去噪处理,获取网页经过页面内去噪后的正文文本Ctx;步骤2:对网页正文Ctx进行中文分词操作,逐一计算其正文文本的所有项w的TF‑IDF值:记为TF‑IDF(w);步骤3:基于特定主题与文档的特点,设置阈值TF‑IDFthr,对于词项w而言,如果TF‑IDF(w)>TF‑IDFthr,则选取其作为关键词项;否则,忽略相应词项w并进行归类;从网页文本WP中选出TF‑IDF值排Top N个关键词项w1,w2,…,wN组成关键词项向量
步骤4:对于任意两篇文档WPs与WPt,基于键词项向量
计算二者之间的相似度TextSim(WPs,WPt).当TextSim(WPs,WPt)>TextSimthr时,所述的TextSimthr是预定的文档相似性阈值;认为文档WPs和WPt是相互近似的网页文本;否则,web文档WPs与WPt不近似;步骤5:在文档WP选取M个概念Cf(1≤f≤M),对关键概念在正文Ctx中的分布位置以及出现次数进行统计,形成位置特征向量Fpx,该向量由M个行向量构成,每个行向量对应相应的关键概念在文档中出现的所有位置;步骤6:为了量化文档间结构方面的差异度,选取文档WPa与WPb,基于二者的位置特征向量Fpa和Fpb构建表示位置特征向量差异度大小的的距离矩阵
以此统计两个文档正文中关键概念所处位置的距离分布和差异度;步骤7:为了对文档间各概念所处位置的差异性均值、波动范围以及不同概念在文档间的分布进行对比分析,基于距离矩阵
统计两个文档正文中关键概念所处位置的距离分布,并进行差异度计算;步骤8:以关键词项向量Vx和位置特征向量Fpx作为检索参数,查询已建倒排索引库INDB,在与已有索引库记录的文档相似性超出预设阈值,且文档中关键概念的位置距离和差异度均小于设定阈值的情况下,则认定页面是近似网页,否则不是近似网页;步骤9:增量更新索引库INDB,将索引库已有内容与网页WPx对应的正文文本Ctx执行合并更新。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉大学,未经武汉大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201610283628.6/,转载请声明来源钻瓜专利网。
- 内容再现系统、内容提供方法、内容再现装置、内容提供装置、内容再现程序和内容提供程序
- 内容记录系统、内容记录方法、内容记录设备和内容接收设备
- 内容服务系统、内容服务器、内容终端及内容服务方法
- 内容分发系统、内容分发装置、内容再生终端及内容分发方法
- 内容发布、内容获取的方法、内容发布装置及内容传播系统
- 内容提供装置、内容提供方法、内容再现装置、内容再现方法
- 内容传输设备、内容传输方法、内容再现设备、内容再现方法、程序及内容分发系统
- 内容发送设备、内容发送方法、内容再现设备、内容再现方法、程序及内容分发系统
- 内容再现装置、内容再现方法、内容再现程序及内容提供系统
- 内容记录装置、内容编辑装置、内容再生装置、内容记录方法、内容编辑方法、以及内容再生方法