[发明专利]一种平行网页识别方法及装置在审
申请号: | 201510695478.5 | 申请日: | 2015-10-23 |
公开(公告)号: | CN105138517A | 公开(公告)日: | 2015-12-09 |
发明(设计)人: | 不公告发明人 | 申请(专利权)人: | 青岛恒波仪器有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 北京科亿知识产权代理事务所(普通合伙) 11350 | 代理人: | 苏雪雪 |
地址: | 266071 山东省*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 平行 网页 识别 方法 装置 | ||
方法领域
本发明涉及计算机网络技术方法及其装置,特别涉及一种平行网页识别方法及装置。
背景方法
平行网页识别方法有很多,其中有专门针对评论网页或者新闻网页的方法,但是本发明所讨论的是针对大部分通用网页的正文提取方法。总的说来,目前主要的网页正文提取方法有以下几个方向:基于DOM的网页正文提取方法、基于统计的网页正文提取方法、基于分块的网页正文提取方法及其他网页正文提取方法。
文档对象模型(DocumentObjectModel,DOM)是W3C所制定的标准接口规范。因为DOM节点是基于树的层次结构来组织的,因此在建立了树结构之后,就可以将原本对网页的操作转化为通过对树的操作。虽然按照W3C组织所制定的标准,网页结构均可以对应地转换成DOM树的形式,但实际上许多网页并没有遵循该标准。因此在DOM方法使用时通常都需要预处理模块,将网页最终抽象为一棵DOM树。
一、基于DOM的网页正文提取方法
基于DOM的网页正文提取方法是一种基于DOM的网页内容提取方法,其最初目的是完善PDA应用,移除广告内容。DOM方法先将网页内容抽象为对应的对象,转换为节点的形式;然后用父子关系将各节点组织起来,最终形成一棵树型结构。
在互联网中来自同一网站的网页结构大部分都是相同的,例如Yahoo新闻网页<body>标签都是由<iframe>和<div>两个标签组成的,因此可以把这类网页模板聚为一类。聚类相似的DOM树需要计算相似度,计算两棵简单的DOM树相似度的步骤是:第一步判断两棵树的根节点是否相同,若不相同就返回0;若相同,则继续比较两棵树的叶子节点。第二步比较两棵DOM树的叶子节点的名称和属性,返回两棵DOM树中相同节点的数目。
二、基于统计的网页正文提取方法
基于统计的方法主要用于提取新闻类网页的正文。该方法的原理是网页正文信息只能位于网页中的<table>标签节点。方法的基本步骤是:第一步去除页面的噪声,根据网页标签将网页对应表示成一棵树;第二步处理每个<table>节点,去除节点内的HTML标签,然后得到不含任何标签的字符串;第三步比较每个节点的字符数量,通常选取字符数量最大的节点为网页正文。该方法优点是利用了新闻网页的特性,通用性好,实现简单,也不需要针对不同的网页构建不同的模板,不需要样本学习,时间复杂度低。但是缺点是该算法只适用于网页中所有正文信息都被放在一个<table>节点中的情况,对于有多个<table>正文的网页,效果并不好。由于现在微博、轻博客等的兴起,越来越多的复杂格式和短文本网页被产生,这种方法的局限性更加明显。
现有方法中网页正文提取比对效果表:
总的说来,目前在网页正文提取和网页相似性计算的相关算法都还停留在主要针对传统互联网网页阶段,无论是网页正文提取还是网页相似性研究,对移动互联网网页内容的新特点并没有认真考量,主要表现在以下几个缺点:
(1)移动互联网的网页结构越来越复杂,涉及的新兴方法也越来越多,传统的2.2节所介绍的网页正文提取算法的局限性越来越明显。
(2)由于短文本网页内容太多,部分文本相似性研究算法的理论基础不再存在,算法准确率降低,已经不能适应大规模数据使用的需求。
发明内容
本发明所要解决的方法问题在于,提供了一种本基于主题相似分块的平行网页识别方法,结果表明本发明方法在准确率上取得较大提升。
为解决上述方法问题,本发明提供了一种平行网页识别方法,包括以下步骤:
步骤A:基于对于网页特定标签,判断网页是否为正文页;
步骤B:对平行网页的识别;
所述步骤A进一步包括以下子步骤:
步骤一:网页预处理,构造HTML树;
步骤二:对HTML树剪枝;
步骤三:获取网页主题:获取网页Title及其各级标题<h1>~<hg>和标签<meta>的内容;对以上内容进行分词处理,去掉虚词、停用词,最后得到只含有实词的序列Stitle;
步骤四:提取分块内的字符串内容;
步骤五:计算主题S和一个块内内容y的距离;
步骤六:比较编辑距离L和max(p,q)。
所述步骤二可以进一步包括以下子步骤:按照<table>标签进行分块,将不包含文本和链接信息的叶子节点去掉。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于青岛恒波仪器有限公司,未经青岛恒波仪器有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510695478.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:变距式火车车轮自适应输送装置
- 下一篇:杆状型提桶器