[发明专利]一种网页正文提取比对方法在审
申请号: | 201510793525.X | 申请日: | 2015-11-14 |
公开(公告)号: | CN106528583A | 公开(公告)日: | 2017-03-22 |
发明(设计)人: | 孙燕群 | 申请(专利权)人: | 孙燕群 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 重庆百润洪知识产权代理有限公司50219 | 代理人: | 刘立春 |
地址: | 257000 山东省东营市东营*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种网页正文提取对比方法,包括以下步骤步骤A基于对于网页特定标签,判断网页是否为正文页;步骤B对平行网页的识别。所述步骤A进一步包括以下子步骤步骤一网页预处理,构造HTML树;步骤二对HTML树剪枝;步骤三获取网页主题;步骤四提取分块内的字符串内容;步骤五计算主题S和一个块内内容y的距离;步骤六比较编辑距离L和max(p,q)。本发明网页正文提取比对方法具有以下优点能提取正文较短的网页,内容的长短并不会影响选择的正确性。因为无论正文长短都会参与计算,都不会被忽略。对处理<table>嵌套的复杂的网页可以保证每一个<table>标签都能得到一致的处理。 | ||
搜索关键词: | 一种 网页 正文 提取 方法 | ||
【主权项】:
一种网页正文提取对比方法,其特征在于,包括以下步骤:步骤A:基于对于网页特定标签,判断网页是否为正文页;步骤B:对平行网页的识别;步骤C:对中文网页,设定中文标点的个数阈值;通过所述中文标点的个数阈值来判断网页<p>标签中文字:如果其中中文标点的个数大于设定的阈值,则将其加入正文内。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于孙燕群,未经孙燕群许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201510793525.X/,转载请声明来源钻瓜专利网。
- 上一篇:一种译员翻译能力的评价方法及系统
- 下一篇:一种面向S57海图数据的抽稀方法