[发明专利]一种基于逻辑链接块的网页正文抽取方法有效

申请号：	201811632086.4	申请日：	2018-12-29
公开（公告）号：	CN109740097B	公开（公告）日：	2020-09-08
发明（设计）人：	王贤明	申请（专利权）人：	温州大学瓯江学院
主分类号：	G06F16/958	分类号：	G06F16/958
代理公司：	武汉科皓知识产权代理事务所(特殊普通合伙) 42222	代理人：	魏波
地址：	325000 浙江省温州市瓯海***	国省代码：	浙江;33
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明公开了一种基于逻辑链接块的网页正文抽取方法，本发明在抽取网页模板及正文的过程中，仅仅只依赖于当前网页自身，无需启发式规则支持，这决定了该方法具有良好的通用性；本发明对网页模板的抽取过程，无需人工干预，自动化程度高；且分析过程简单，无需对网页进行标签解析，因而分析速度快，抗干扰性强，能更好的适应设计不规范的Web页面；对于正文内容很短的页面也具有较好的提取效果；最后该方法抽取的模板形式简单，容易使用。这就决定了本发明在Web页面正文抽取方面有着潜在的应用价值，可以用于各类新闻、博客或具有类似结构的网页正文抽取，在其他对链接块精细粒度要求不高的Web信息处理和挖掘领域中也具有广泛的应用前景。
搜索关键词：	一种基于逻辑链接网页正文抽取方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种基于逻辑链接块的网页正文抽取方法，其特征在于，包括以下步骤：步骤1：生成网页正文抽取模板；步骤1.1：输入待生成模板的网址URL₀；步骤1.2：获取网址URL₀所对应网页的源代码HTML₀，并提取其中所有的同域网址，记为URLList；步骤1.3：利用网址相似度规则RuleURL，从URLList中优选与URL₀相似度高的前s个网址，并形成相似网址列表URL_s；步骤1.4：获取相似网址列表URL_s中各网址的源代码，记为HTML₁、HTML₂、...、HTML_s，构成HTMLList₀；步骤1.5：识别并去除HTMLList₀中所有源代码的逻辑链接块，形成新的源代码列表，记为HTMLList，同时对其中各网页执行网页元素化操作；若是针对压缩过的网页，则对其执行网页原子化操作；步骤1.6：按模糊正文区域识别规则RuleText识别HTMLList中各网页的模糊正文区域a₁、a₂、…、a_s，记为A＝{a₁，a₂，…，a_s}；进而获取各模糊正文区域中的文本长度lt₁、lt₂、…、lt_s，记为LT＝{lt₁，lt₂，…，lt_s}；步骤1.7：利用相似网址计分规则RuleScore完成对相似网址列表URL_s进行优选，取其排名前c的c个网址构成候选链接URL_c；若c＞s，则c取和s相同的值；步骤1.8：根据模糊正文区域A及候选链接URL_c中各页面元素化后的结果，分别求解各页面模糊正文之前元素和之后元素的交集E_itrs，First，E_itrs，Last；步骤1.9：根据首元素判别规则RuleFirst确定模板首元素E_First，根据尾元素判别规则RuleLast确定模板尾元素E_Last；步骤1.10：根据需求选用合适的算法，生成URL₀的指纹URLFinger，从而确定URL₀所对应网页的正文抽取模板(URLFinger，E_First，E_Last)，对抽取的模板进行存储；步骤2：利用正文抽取模板，完成对网页正文的抽取。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于温州大学瓯江学院，未经温州大学瓯江学院许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201811632086.4/，转载请声明来源钻瓜专利网。

上一篇：一种实时预览的实现方法、装置、系统及存储介质
下一篇：一种基于多页面窗口的应用处理方法及电子设备

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于逻辑链接块的网页正文抽取方法有效

专利文献下载