[发明专利]一种平行网页识别方法及装置在审
申请号: | 201510695478.5 | 申请日: | 2015-10-23 |
公开(公告)号: | CN105138517A | 公开(公告)日: | 2015-12-09 |
发明(设计)人: | 不公告发明人 | 申请(专利权)人: | 青岛恒波仪器有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 北京科亿知识产权代理事务所(普通合伙) 11350 | 代理人: | 苏雪雪 |
地址: | 266071 山东省*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种平行网页识别方法,包括以下步骤:步骤A:基于对于网页特定标签,判断网页是否为正文页;步骤B:对平行网页的识别。所述步骤A进一步包括以下子步骤:步骤一:网页预处理,构造HTML树;步骤二:对HTML树剪枝;步骤三:获取网页主题;步骤四:提取分块内的字符串内容;步骤五:计算主题S和一个块内内容y的距离;步骤六:比较编辑距离L和max(p,q)。本发明网页正文提取比对方法具有以下优点:能提取正文较短的网页,内容的长短并不会影响选择的正确性。因为无论正文长短都会参与计算,都不会被忽略。对处理<table>嵌套的复杂的网页可以保证每一个<table>标签都能得到一致的处理。 | ||
搜索关键词: | 一种 平行 网页 识别 方法 装置 | ||
【主权项】:
一种平行网页识别方法,其特征在于,包括以下步骤:步骤A:基于对于网页特定标签,判断网页是否为正文页;步骤B:对平行网页的识别;所述步骤A进一步包括以下子步骤:步骤一:网页预处理,构造HTML树;步骤二:对HTML树剪枝;步骤三:获取网页主题:获取网页Title及其各级标题<h1>~<hg>和标签<meta>的内容;对以上内容进行分词处理,去掉虚词、停用词,最后得到只含有实词的序列Stitle;步骤四:提取分块内的字符串内容;步骤五:计算主题S和一个块内内容y的距离;步骤六:比较编辑距离L和max(p,q)。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于青岛恒波仪器有限公司,未经青岛恒波仪器有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201510695478.5/,转载请声明来源钻瓜专利网。
- 上一篇:变距式火车车轮自适应输送装置
- 下一篇:杆状型提桶器