[发明专利]一种Web页面逻辑链接块的识别方法有效
申请号: | 201410186981.3 | 申请日: | 2014-05-05 |
公开(公告)号: | CN103942332B | 公开(公告)日: | 2017-02-22 |
发明(设计)人: | 王贤明;谷琼;朱莉 | 申请(专利权)人: | 温州大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 武汉科皓知识产权代理事务所(特殊普通合伙)42222 | 代理人: | 张火春 |
地址: | 325035 浙江省温州市瓯海*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 web 页面 逻辑 链接 识别 方法 | ||
1.一种Web页面逻辑链接块的识别方法,其特征在于,包括下述步骤:
步骤1:输入网页;
步骤2:对网页进行预处理,包括去除脚本代码、去除CSS样式代码、去除空标签;
步骤3:将搜索位置P初始化为0,同时链接数计数器M初始化为0;
步骤4、从搜索位置P开始搜索第一个链接的结束位置,若搜索到第一个链接的</a>标签位置,则进入步骤5;否,则进入步骤11;
步骤5、确定第一个链接的结束位置,将其记为A,并开始搜索下一个链接的正向位置;若搜索到下一个链接的正向位置,则进入步骤6,否,则进入步骤11;
步骤6、找到下一个链接的正向位置<a,将其记为B,并计算AB两个位置之间的链接距离,所述的链接距离是Web页面中相邻两个链接之间的距离;
步骤7、判断AB距离是否小于与所设定的距离阈值dt,若AB距离小于所设定的距离阈值dt,则对初始设置的链接数计数器M增1,即M=M+1,并记录现在的搜索位置P,令P=B+1,返回步骤4;若AB距离不小于所设定的距离阈值,则结束当前逻辑块的搜索工作,将进一步搜索与位置B对应的链接结束位置,并记为C,进入步骤8;
步骤8、判断当前的链接计数器M是否小于所设定的链接数阈值Ct;若当前的链接计数器M小于所设定的链接数阈值Ct,则可确定当前的逻辑块为非链接块,进入步骤9;如果当前的链接计数器M不小于所设定的链接数阈值,则可确定当前的逻辑块是链接块,逻辑链接块发现成功,并将所发现的链接块添加到逻辑链接块列表当中,进入步骤9;
步骤9、将当前链接计数器M清零,并记录当前搜索位置P为C+1,进入步骤4;
步骤10、重复4-9的步骤,直至整个页面扫描处理完毕;
步骤11、结束,获取当前网页的逻辑链接块。
2.根据权利要求1所述的一种Web页面逻辑链接块的识别方法,其特征在于:所述的步骤1中还包括如下步骤:
步骤1.1编码识别:先获取网页编码;
步骤1.2网页读取:通过对待识别的WEB网页的HTML文档进行字符扫描,分别识别出各个链接的起始位置和结束位置;
定义如下概念:
<a href=...>文字</a>
所述的起始位置是以字符“<”开始,以字符“>”为结束,且这两者之间并不存在字符“<”和“>”的字符串;
所述的结束位置是以字符“</”开始,以字符“>”为结束,且这两者之间并不存在字符“<”、“>”和“/”的字符串。
3.根据权利要求1所述的一种Web页面逻辑链接块的识别方法,其特征在于:所述的步骤6中的链接距离可以采用代码距离或文本距离计算。
4.根据权利要求2所述的一种Web页面逻辑链接块的识别方法,其特征在于:所述的代码距离是任意两个标签之间的代码距离即介于前一个标签的标签结束符“>”和后一个标签的标签开始符“<”之间所有内容的长度;在本发明的计算中,将先去除各标签的属性然后才执行代码距离的计算。
5.根据权利要求2所述的一种Web页面逻辑链接块的识别方法,其特征在于:所述的文本距离是任意两个标签之间的文本距离即介于前一个标签的标签结束符“>”和后一个标签的标签开始符“<”之间所有文本的长度;
在计算文本距离时,遵从如下规则:
4.1、英文等字符以单词为统计单位,即一个单词长度计为1,如果若干个连续英文字符不构成单词,其长度也将计1;
4.2、中文等字符以单个字为统计单位,即一个汉字长度计为1;
4.3、数字以一个完整数字为统计单位,即一个完整数字长度计为1;
4.4、日期时间字符串以日期时间整体为统计单位,即一个完整日期时间串长度计为1;
4.5、标点符号与汉字统计规则一样,但是若相邻的若干个标点符号相同,则长度只计1。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于温州大学,未经温州大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410186981.3/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种酒蒸雅连的加工方法
- 下一篇:甲硝唑硝酸咪康唑复方阴道泡腾片及制备方法