[发明专利]一种基于逻辑链接块的网页正文抽取方法有效

申请号：	201811632086.4	申请日：	2018-12-29
公开（公告）号：	CN109740097B	公开（公告）日：	2020-09-08
发明（设计）人：	王贤明	申请（专利权）人：	温州大学瓯江学院
主分类号：	G06F16/958	分类号：	G06F16/958
代理公司：	武汉科皓知识产权代理事务所(特殊普通合伙) 42222	代理人：	魏波
地址：	325000 浙江省温州市瓯海***	国省代码：	浙江;33
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于逻辑链接网页正文抽取方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于逻辑链接块的网页正文抽取方法，其特征在于，包括以下步骤：

步骤1：生成网页正文抽取模板；

步骤1.1：输入待生成模板的网址URL₀；

步骤1.2：获取网址URL₀所对应网页的源代码HTML₀，并提取其中所有的同域网址，记为URLList；

步骤1.3：利用网址相似度规则RuleURL，从URLList中优选与URL₀相似度高的前s个网址，并形成相似网址列表URL_s；

步骤1.4：获取相似网址列表URL_s中各网址的源代码，记为HTML₁、HTML₂、...、HTML_s，构成HTMLList₀；

步骤1.5：识别并去除HTMLList₀中所有源代码的逻辑链接块，形成新的源代码列表，记为HTMLList，同时对其中各网页执行网页元素化操作；若是针对压缩过的网页，则对其执行网页原子化操作；

其中所述对其中各网页执行网页元素化或原子化操作的具体实现过程是：

步骤1.5.1：网页原子化；

将网页代码转换为HTML构件表达：H＝{e₁，e₂，…，e_f}，H表示网页，f＝Card(H)为网页构件集合中构件总数，Card()表示计算集合中元素个数；所述HTML构件是指构成HTML的基本要素，包括标签构件、内容构件，构件也称为原子，记为e_i，e表示构件，i表示构件的序号；

步骤1.5.2：网页元素化；

将网页代码转换为复合构件表达：H＝{E₁，E₂，…，E_m}，H表示网页，m为网页HTML代码按照划分规则划分后的复合构件数；所述复合构件是由若干邻接的构件复合而成，也称为元素，记为E_i＝{e_p，…，e_q}，q≥p；E_i表示网页元素化后的第i个复合构件，当p＝q时，复合构件退化为构件；当p＝1，q＝f时，复合构件即整个网页；

步骤1.6：按模糊正文区域识别规则RuleText识别HTMLList中各网页的模糊正文区域a₁、a₂、…、a_s，记为A＝{a₁，a₂，…，a_s}；进而获取各模糊正文区域中的文本长度lt₁、lt₂、…、lt_s，记为LT＝{lt₁，lt₂，…，lt_s}；

其中所述模糊正文区域识别规则RuleText，模糊正文区域为：

其中，t_i表明由E_i抽取而得到的文本，Len()表示计算字符串长度；模糊正文区域是通过识别包含最长文本的构件行序号来表达的；模糊正文长度即模糊正文区域对应的文本长度，记为lt_i＝Len(a_i)；

步骤1.7：利用相似网址计分规则RuleScore完成对相似网址列表URL_s进行优选，取其排名前c的c个网址构成候选链接URL_c；若c＞s，则c取和s相同的值；

步骤1.8：根据模糊正文区域A及候选链接URL_c中各页面元素化后的结果，分别求解各页面模糊正文之前元素和之后元素的交集E_itrs，First，E_itrs，Last；

步骤1.9：根据首元素判别规则RuleFirst确定模板首元素E_First，根据尾元素判别规则RuleLast确定模板尾元素E_Last；

步骤1.10：根据需求选用合适的算法，生成URL₀的指纹URLFinger，从而确定URL₀所对应网页的正文抽取模板(URLFinger，E_First，E_Last)，对抽取的模板进行存储；

步骤2：利用正文抽取模板，完成对网页正文的抽取。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于温州大学瓯江学院，未经温州大学瓯江学院许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201811632086.4/1.html，转载请声明来源钻瓜专利网。

上一篇：一种实时预览的实现方法、装置、系统及存储介质
下一篇：一种基于多页面窗口的应用处理方法及电子设备

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于逻辑链接块的网页正文抽取方法有效

专利文献下载