[发明专利]一种基于逻辑链接块的网页正文抽取方法有效

专利信息
申请号: 201811632086.4 申请日: 2018-12-29
公开(公告)号: CN109740097B 公开(公告)日: 2020-09-08
发明(设计)人: 王贤明 申请(专利权)人: 温州大学瓯江学院
主分类号: G06F16/958 分类号: G06F16/958
代理公司: 武汉科皓知识产权代理事务所(特殊普通合伙) 42222 代理人: 魏波
地址: 325000 浙江省温州市瓯海*** 国省代码: 浙江;33
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明公开了一种基于逻辑链接块的网页正文抽取方法,本发明在抽取网页模板及正文的过程中,仅仅只依赖于当前网页自身,无需启发式规则支持,这决定了该方法具有良好的通用性;本发明对网页模板的抽取过程,无需人工干预,自动化程度高;且分析过程简单,无需对网页进行标签解析,因而分析速度快,抗干扰性强,能更好的适应设计不规范的Web页面;对于正文内容很短的页面也具有较好的提取效果;最后该方法抽取的模板形式简单,容易使用。这就决定了本发明在Web页面正文抽取方面有着潜在的应用价值,可以用于各类新闻、博客或具有类似结构的网页正文抽取,在其他对链接块精细粒度要求不高的Web信息处理和挖掘领域中也具有广泛的应用前景。
搜索关键词: 一种 基于 逻辑 链接 网页 正文 抽取 方法
【主权项】:
1.一种基于逻辑链接块的网页正文抽取方法,其特征在于,包括以下步骤:步骤1:生成网页正文抽取模板;步骤1.1:输入待生成模板的网址URL0;步骤1.2:获取网址URL0所对应网页的源代码HTML0,并提取其中所有的同域网址,记为URLList;步骤1.3:利用网址相似度规则RuleURL,从URLList中优选与URL0相似度高的前s个网址,并形成相似网址列表URLs;步骤1.4:获取相似网址列表URLs中各网址的源代码,记为HTML1、HTML2、...、HTMLs,构成HTMLList0;步骤1.5:识别并去除HTMLList0中所有源代码的逻辑链接块,形成新的源代码列表,记为HTMLList,同时对其中各网页执行网页元素化操作;若是针对压缩过的网页,则对其执行网页原子化操作;步骤1.6:按模糊正文区域识别规则RuleText识别HTMLList中各网页的模糊正文区域a1、a2、…、as,记为A={a1,a2,…,as};进而获取各模糊正文区域中的文本长度lt1、lt2、…、lts,记为LT={lt1,lt2,…,lts};步骤1.7:利用相似网址计分规则RuleScore完成对相似网址列表URLs进行优选,取其排名前c的c个网址构成候选链接URLc;若c>s,则c取和s相同的值;步骤1.8:根据模糊正文区域A及候选链接URLc中各页面元素化后的结果,分别求解各页面模糊正文之前元素和之后元素的交集Eitrs,First,Eitrs,Last;步骤1.9:根据首元素判别规则RuleFirst确定模板首元素EFirst,根据尾元素判别规则RuleLast确定模板尾元素ELast;步骤1.10:根据需求选用合适的算法,生成URL0的指纹URLFinger,从而确定URL0所对应网页的正文抽取模板(URLFinger,EFirst,ELast),对抽取的模板进行存储;步骤2:利用正文抽取模板,完成对网页正文的抽取。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于温州大学瓯江学院,未经温州大学瓯江学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201811632086.4/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top