[发明专利]一种基于逻辑链接块的网页正文抽取方法有效
申请号: | 201811632086.4 | 申请日: | 2018-12-29 |
公开(公告)号: | CN109740097B | 公开(公告)日: | 2020-09-08 |
发明(设计)人: | 王贤明 | 申请(专利权)人: | 温州大学瓯江学院 |
主分类号: | G06F16/958 | 分类号: | G06F16/958 |
代理公司: | 武汉科皓知识产权代理事务所(特殊普通合伙) 42222 | 代理人: | 魏波 |
地址: | 325000 浙江省温州市瓯海*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 逻辑 链接 网页 正文 抽取 方法 | ||
1.一种基于逻辑链接块的网页正文抽取方法,其特征在于,包括以下步骤:
步骤1:生成网页正文抽取模板;
步骤1.1:输入待生成模板的网址URL0;
步骤1.2:获取网址URL0所对应网页的源代码HTML0,并提取其中所有的同域网址,记为URLList;
步骤1.3:利用网址相似度规则RuleURL,从URLList中优选与URL0相似度高的前s个网址,并形成相似网址列表URLs;
步骤1.4:获取相似网址列表URLs中各网址的源代码,记为HTML1、HTML2、...、HTMLs,构成HTMLList0;
步骤1.5:识别并去除HTMLList0中所有源代码的逻辑链接块,形成新的源代码列表,记为HTMLList,同时对其中各网页执行网页元素化操作;若是针对压缩过的网页,则对其执行网页原子化操作;
其中所述对其中各网页执行网页元素化或原子化操作的具体实现过程是:
步骤1.5.1:网页原子化;
将网页代码转换为HTML构件表达:H={e1,e2,…,ef},H表示网页,f=Card(H)为网页构件集合中构件总数,Card()表示计算集合中元素个数;所述HTML构件是指构成HTML的基本要素,包括标签构件、内容构件,构件也称为原子,记为ei,e表示构件,i表示构件的序号;
步骤1.5.2:网页元素化;
将网页代码转换为复合构件表达:H={E1,E2,…,Em},H表示网页,m为网页HTML代码按照划分规则划分后的复合构件数;所述复合构件是由若干邻接的构件复合而成,也称为元素,记为Ei={ep,…,eq},q≥p;Ei表示网页元素化后的第i个复合构件,当p=q时,复合构件退化为构件;当p=1,q=f时,复合构件即整个网页;
步骤1.6:按模糊正文区域识别规则RuleText识别HTMLList中各网页的模糊正文区域a1、a2、…、as,记为A={a1,a2,…,as};进而获取各模糊正文区域中的文本长度lt1、lt2、…、lts,记为LT={lt1,lt2,…,lts};
其中所述模糊正文区域识别规则RuleText,模糊正文区域为:
其中,ti表明由Ei抽取而得到的文本,Len()表示计算字符串长度;模糊正文区域是通过识别包含最长文本的构件行序号来表达的;模糊正文长度即模糊正文区域对应的文本长度,记为lti=Len(ai);
步骤1.7:利用相似网址计分规则RuleScore完成对相似网址列表URLs进行优选,取其排名前c的c个网址构成候选链接URLc;若c>s,则c取和s相同的值;
步骤1.8:根据模糊正文区域A及候选链接URLc中各页面元素化后的结果,分别求解各页面模糊正文之前元素和之后元素的交集Eitrs,First,Eitrs,Last;
步骤1.9:根据首元素判别规则RuleFirst确定模板首元素EFirst,根据尾元素判别规则RuleLast确定模板尾元素ELast;
步骤1.10:根据需求选用合适的算法,生成URL0的指纹URLFinger,从而确定URL0所对应网页的正文抽取模板(URLFinger,EFirst,ELast),对抽取的模板进行存储;
步骤2:利用正文抽取模板,完成对网页正文的抽取。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于温州大学瓯江学院,未经温州大学瓯江学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811632086.4/1.html,转载请声明来源钻瓜专利网。